このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230518となっている論文です。

PDF登録状況(公開日: 20230518)

TitleAuthorsAbstract論文公表日・翻訳日
# 実行時SPIR-Vコード生成のための構成可能で機能的なAPI構築の経験

Experiences in Building a Composable and Functional API for Runtime SPIR-V Code Generation ( http://arxiv.org/abs/2305.09493v2 )

ライセンス: Link先を確認
Juan Fumero, Gy\"orgy Rethy, Athanasios Stratikopoulos, Nikos Foutris, Christos Kotselidis(参考訳) 本稿では,SPIR-Vバイナリモジュールを動的に構築するためのJava構成可能かつ機能的なライブラリを自動生成するフレームワークであるBeehive SPIR-V Toolkitを提案する。 Beehive SPIR-V Toolkitは、コンパイラとランタイムシステムを最適化して、Java仮想マシン(JVM)のようなマネージドランタイムシステムからSPIR-Vバイナリモジュールを生成し、検証することで使用することができる。 さらに,本フレームワークは,SPIR-V 以外の標準用の Java ライブラリの自動生成を容易にするため,メンテナンスが容易な新しい SPIR-V リリースに対応するよう設計されている。 Beehive SPIR-V Toolkitはまた、分解されたSPIR-VテキストファイルからSPIR-Vバイナリモジュールを出力するアセンブラと、SPIR-Vバイナリコードをテキストファイルに変換するアセンブラと、コンソールクライアントアプリケーションを含む。 私たちの知る限り、Beehive SPIR-V ToolkitはSPIR-Vバイナリモジュールを動的に生成できる最初のJavaプログラミングフレームワークです。 私たちのフレームワークの使用を実証するために、異種ハードウェア上でJavaプログラムを自動的にオフロードし実行するためのJavaフレームワークであるTornadoVMのコンテキストにおいて、SPIR-V Beehive Toolkitの統合を紹介します。 我々は、SPIR-V Beehive Toolkitを通じて、TornadoVMが既存のOpenCL C JITコンパイラよりも3倍高速にコードをコンパイルでき、TornadoVMの既存のOpenCL Cバックエンドよりも最大1.22倍高速であることを示した。

This paper presents the Beehive SPIR-V Toolkit; a framework that can automatically generate a Java composable and functional library for dynamically building SPIR-V binary modules. The Beehive SPIR-V Toolkit can be used by optimizing compilers and runtime systems to generate and validate SPIR-V binary modules from managed runtime systems, such as the Java Virtual Machine (JVM). Furthermore, our framework is architected to accommodate new SPIR-V releases in an easy-to-maintain manner, and it facilitates the automatic generation of Java libraries for other standards, besides SPIR-V. The Beehive SPIR-V Toolkit also includes an assembler that emits SPIR-V binary modules from disassembled SPIR-V text files, and a disassembler that converts the SPIR-V binary code into a text file, and a console client application. To the best of our knowledge, the Beehive SPIR-V Toolkit is the first Java programming framework that can dynamically generate SPIR-V binary modules. To demonstrate the use of our framework, we showcase the integration of the SPIR-V Beehive Toolkit in the context of the TornadoVM, a Java framework for automatically offloading and running Java programs on heterogeneous hardware. We show that, via the SPIR-V Beehive Toolkit, the TornadoVM is able to compile code 3x faster than its existing OpenCL C JIT compiler, and it performs up to 1.52x faster than the existing OpenCL C backend in TornadoVM.
翻訳日:2023-10-24 08:35:09 公開日:2023-05-18
# JavaとC/C++で書かれた言語間Androidアプリケーションのバッファオーバーフローの統計的検出

Statically Detecting Buffer Overflow in Cross-language Android Applications Written in Java and C/C++ ( http://arxiv.org/abs/2305.10233v2 )

ライセンス: Link先を確認
Kishanthan Thangarajah, Noble Mathews, Michael Pu, Meiyappan Nagappan, Yousra Aafer and Sridhar Chimalakonda(参考訳) 多くのアプリケーションは、ネイティブコードのサポート、パフォーマンス向上、言語固有のライブラリなど、さまざまな言語が提供する機能を活用するために、複数の言語で書かれています。 しかし、このような多言語アプリケーションのソースコードを分析するために現在利用可能な静的解析ツールはほとんどない。 既存のクロス言語(JavaとC/C++)分析の作業では、クロス言語の性質を持つバッファオーバーフロー脆弱性の検出に失敗している。 この作業では、javaとc/c++間の言語横断分析の方法に取り組んでいます。 具体的には,Java と C/C++ 間のデータフロー解析を行い,バッファオーバーフローを検出する手法を提案する。 これはJavaとC/C++で記述されたプロジェクトでデータフローを自動的に解析するツールです。 このアプローチを使用して、6つのよく知られたAndroidアプリケーションで23のバッファオーバーフロー脆弱性を検出することができ、そのうち、開発者は3つのアプリケーションで11の脆弱性を確認しました。

Many applications are being written in more than one language to take advantage of the features that different languages provide such as native code support, improved performance, and language-specific libraries. However, there are few static analysis tools currently available to analyse the source code of such multilingual applications. Existing work on cross-language (Java and C/C++) analysis fails to detect buffer overflow vulnerabilities that are of cross-language nature. In this work, we are addressing how to do cross-language analysis between Java and C/C++. Specifically, we propose an approach to do data flow analysis between Java and C/C++ to detect buffer overflow. We have developed PilaiPidi, a tool that can automatically analyse the data flow in projects written in Java and C/C++. Using our approach, we were able to detect 23 buffer overflow vulnerabilities, which are of cross-language nature, in six different well-known Android applications, and out of these, developers have confirmed 11 vulnerabilities in three applications.
翻訳日:2023-10-24 08:22:53 公開日:2023-05-18
# Docker Composeマルチコンテナオーケストレーションのパターン

Patterns in Docker Compose Multi-Container Orchestration ( http://arxiv.org/abs/2305.11293v1 )

ライセンス: Link先を確認
Kalvin Eng, Abram Hindle, and Eleni Stroulia(参考訳) ソフトウェア設計パターンは、一般的なソフトウェア設計問題に対する一般的なコードソリューションを提供する。 現代のソフトウェアシステムは、構成するサービスコンポーネントの編成とオーケストレーションにコンテナに大きく依存しています。 しかし、マルチコンテナオーケストレーションに参加する準備が整ったdockerサービスイメージが普及しているにも関わらず、開発者は独自のマルチコンテナdockerオーケストレーションの開発方法に関するガイダンスをあまり持っていない。 この作業では、オーケストレーションツールとしてDocker Composeを使用する成功したプロジェクトのデータセットをキュレートし、Docker Compose構成の質的かつ定量的な分析に従事します。 データと分析の収集により、ソフトウェア設計パターンのように、多くの成功したオープンソースプロジェクトが採用するデプロイメントとオーケストレーションの繰り返しパターンの識別と命名が可能になる。 これらのパターンは、ソフトウェアシステムが野放しでオーケストレーションされる方法を強調しており、コンテナオーケストレーションを開発したいと考えている人に例をあげることができる。 これらのコントリビューションは、Docker Composeの使用方法に関する証拠として、ソフトウェアエンジニアリングパターンに関する実証的研究も進めている。

Software design patterns present general code solutions to common software design problems. Modern software systems rely heavily on containers for organizing and orchestrating their constituent service components. Yet, despite the prevalence of ready-to-use Docker service images ready to participate in multi-container orchestration, developers do not have much guidance on how to develop their own multi-container Docker orchestrations. Thus in this work, we curate a dataset of successful projects that employ Docker Compose as an orchestration tool; then, we engage in qualitative and quantitative analysis of Docker Compose configurations. The collection of data and analysis enables the identification and naming of repeating patterns of deployment and orchestration employed by numerous successful open-source projects, much like software design patterns. These patterns highlight how software systems are orchestrated in the wild and can give examples to anybody wishing to develop their container orchestrations. These contributions also advance empirical research in software engineering patterns as evidence is provided about how Docker Compose is used.
翻訳日:2023-10-24 08:14:08 公開日:2023-05-18
# AIによるコード生成ツールの信頼性調査と設計

Investigating and Designing for Trust in AI-powered Code Generation Tools ( http://arxiv.org/abs/2305.11248v1 )

ライセンス: Link先を確認
Ruotong Wang, Ruijia Cheng, Denae Ford, Thomas Zimmermann(参考訳) GitHub CopilotのようなAI駆動のコード生成ツールが普及するにつれて、ソフトウェア開発者がAIツールを信頼していることを理解することが、ツールの採用と責任ある使用の鍵となる。 しかし、開発者がAIを信頼する方法や、生成するAIシステムのインターフェースを設計して、適切なレベルの信頼を促進する方法についてはほとんど分かっていません。 本稿では,2段階の質的調査の結果について述べる。 私たちはまず17人の開発者にインタビューを行い、AIコード生成ツールの適切な信頼を構築する際の課題を理解しました。 適切な期待の構築、AIツールの設定、AI提案の検証など、主な3つの課題を取り上げました。 これらの課題に対処するため、我々は第2段階の設計調査を行い、開発者の信頼構築プロセスを支援する設計概念を探求した。 1)AIパフォーマンスのコミュニケーションにより、ユーザーは適切な期待を達成できる。 2) ユーザが好みを設定して調整することでAIを設定できるようにし、 3)ai提案の評価を支援するモデルメカニズムの指標の提供。 これらの設計概念が、AIによるコード生成ツールへの適切な信頼を構築するのにどのように役立つか、そして設計における潜在的なリスクについて、開発者のフィードバックを集めた。 これらの結果から,AIを利用したコード生成ツールの信頼性設計に関する設計勧告が提案されている。

As AI-powered code generation tools such as GitHub Copilot become popular, it is crucial to understand software developers' trust in AI tools -- a key factor for tool adoption and responsible usage. However, we know little about how developers build trust with AI, nor do we understand how to design the interface of generative AI systems to facilitate their appropriate levels of trust. In this paper, we describe findings from a two-stage qualitative investigation. We first interviewed 17 developers to contextualize their notions of trust and understand their challenges in building appropriate trust in AI code generation tools. We surfaced three main challenges -- including building appropriate expectations, configuring AI tools, and validating AI suggestions. To address these challenges, we conducted a design probe study in the second stage to explore design concepts that support developers' trust-building process by 1) communicating AI performance to help users set proper expectations, 2) allowing users to configure AI by setting and adjusting preferences, and 3) offering indicators of model mechanism to support evaluation of AI suggestions. We gathered developers' feedback on how these design concepts can help them build appropriate trust in AI-powered code generation tools, as well as potential risks in design. These findings inform our proposed design recommendations on how to design for trust in AI-powered code generation tools.
翻訳日:2023-10-24 08:13:51 公開日:2023-05-18
# iOS開発におけるパッケージマネージャのライブラリ依存ネットワークの解析

Analysis of Library Dependency Networks of Package Managers Used in iOS Development ( http://arxiv.org/abs/2305.10910v1 )

ライセンス: Link先を確認
Kristiina Rahkema, Dietmar Pfahl, Rudolf Ramler(参考訳) 既存のソリューションをサードパーティのライブラリの形で再利用することは、ソフトウェアを書く際によくあるプラクティスである。 パッケージマネージャは、ライブラリのインストールと更新のプロセスを自動化して、サードパーティライブラリへの依存関係を管理するために使用される。 ライブラリの依存関係自体は、いくつかのレベルの間接的な依存性ネットワークを作成する他のライブラリへの依存関係を持つことができる。 swiftエコシステムにおけるライブラリ依存ネットワークは、cocoapods、carthage、swift package manager(pm)のライブラリを含んでいる。 これらのパッケージマネージャは、例えば、iOSやMac OSアプリケーションをSwiftやObjective-Cで開発する際に使用される。 我々は、swiftエコシステムにおけるライブラリ依存ネットワークの進化に関する最初の分析を提供する。 CocoaPodsは、最大のライブラリセットを持つパッケージマネージャであるが、他のパッケージマネージャとの違いは、期待ほど大きくはない。 swiftで最年少のパッケージマネージャと公式パッケージマネージャであるswift pmがますます人気を集めており、他の2つのパッケージマネージャの成長が徐々に遅くなっている。 直接的な依存関係と推移的な依存関係を分析すると、Swiftエコシステムの依存関係の総数は、他の多くのエコシステムと比較して低いことが分かりました。 それでも、依存関係の総数は、過去5年間で明らかな増加傾向を示している。

Reusing existing solutions in the form of third-party libraries is common practice when writing software. Package managers are used to manage dependencies to third-party libraries by automating the process of installing and updating the libraries. Library dependencies themselves can have dependencies to other libraries creating a dependency network with several levels of indirections. The library dependency network in the Swift ecosystem encompasses libraries from CocoaPods, Carthage and Swift Package Manager (PM). These package managers are used when developing, for example, iOS or Mac OS applications in Swift and Objective-C. We provide the first analysis of the library dependency network evolution in the Swift ecosystem. Although CocoaPods is the package manager with the biggest set of libraries, the difference to other package managers is not as big as expected. The youngest package manager and official package manager for Swift, Swift PM, is becoming more and more popular, resulting in a gradual slow-down of the growth of the other two package managers. When analyzing direct and transitive dependencies, we found that the mean total number of dependencies is lower in the Swift ecosystem compared to many other ecosystems. Still, the total number of dependencies shows a clear growing trend over the last five years.
翻訳日:2023-10-24 08:13:32 公開日:2023-05-18
# CCT5: コードチェンジ指向の事前トレーニングモデル

CCT5: A Code-Change-Oriented Pre-Trained Model ( http://arxiv.org/abs/2305.10785v1 )

ライセンス: Link先を確認
Bo Lin, Shangwen Wang, Zhongxin Liu, Yepang Liu, Xin Xia and Xiaoguang Mao(参考訳) ソフトウェアは絶えず変化しており、開発者はコード変更の意図に関する記述を書いたり、欠陥の多いコード変更を特定したりといった、タイムリーな方法でいくつかの派生タスクを実行する必要がある。 これらのタスクを扱うコストが開発費用の占める割合(約70%)が大きいことを考慮すると、プロセスの自動化は開発者の負担を大幅に軽減します。 このような目標を達成するために、既存のアプローチは主に、スクラッチからディープラーニングモデルをトレーニングするか、既存のトレーニング済みモデルをこれらのタスクで微調整するかに依存している。 既存のトレーニング済みモデルは、コードの変更(つまり、2つのコードスニペットの違い)ではなく、1つのコードスニペットをエンコードするように設計されているため、トレーニング済みモデルの学習知識を十分に活用することは難しい。 我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。 そこで我々はまず,1.5m以上のコード変更とコミットメッセージのペアワイズデータを含む大規模データセットを収集する。 これらのデータに基づいて、事前学習のための5つの異なるタスクをキュレートする。 我々は、コードの変更とコードレビュープロセスに特有の2つのタスクによって、広く研究されている3つのタスクに対して、事前訓練されたモデルであるCCT5を微調整する。 その結果,CCT5は従来のディープラーニング手法と既存の事前学習モデルの両方に優れていた。

Software is constantly changing, requiring developers to perform several derived tasks in a timely manner, such as writing a description for the intention of the code change, or identifying the defect-prone code changes. Considering that the cost of dealing with these tasks can account for a large proportion (typically around 70 percent) of the total development expenditure, automating such processes will significantly lighten the burdens of developers. To achieve such a target, existing approaches mainly rely on training deep learning models from scratch or fine-tuning existing pretrained models on such tasks, both of which have weaknesses. Specifically, the former uses comparatively small-scale labelled data for training, making it difficult to learn and exploit the domain knowledge of programming language hidden in the large-amount unlabelled code in the wild; the latter is hard to fully leverage the learned knowledge of the pre-trained model, as existing pre-trained models are designed to encode a single code snippet rather than a code change (i.e., the difference between two code snippets). We propose to pre-train a model specially designed for code changes to better support developers in software maintenance. To this end, we first collect a large-scale dataset containing 1.5M+ pairwise data of code changes and commit messages. Based on these data, we curate five different tasks for pre-training, which equip the model with diverse domain knowledge about code changes. We fine-tune the pre-trained model, CCT5, on three widely-studied tasks incurred by code changes and two tasks specific to the code review process. Results show that CCT5 outperforms both conventional deep learning approaches and existing pre-trained models on these tasks.
翻訳日:2023-10-24 08:13:12 公開日:2023-05-18
# DrugChat: 薬物分子グラフ上でChatGPTのような機能を実現する

DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs ( http://arxiv.org/abs/2309.03907v1 )

ライセンス: Link先を確認
Youwei Liang, Ruiyi Zhang, Li Zhang, Pengtao Xie(参考訳) 薬物化合物のChatGPTライクなシステムは、医薬品研究におけるゲームチェンジャーになり、薬物発見の促進、構造-活性関係の理解の強化、リード最適化の指導、薬物再資源化の支援、失敗率の低減、臨床試験の合理化などが可能である。 本研究では,薬物分子グラフ上でChatGPTライクな機能を実現するためのプロトタイプシステムであるD薬チャットを開発した。 DrugChatはChatGPTと同じように動作する。 ユーザは化合物分子グラフをアップロードし、この化合物について様々な質問をする。 drugchatは、マルチターンでインタラクティブな方法でこれらの質問に答える。 DrugChatシステムは、グラフニューラルネットワーク(GNN)、大規模言語モデル(LLM)、およびアダプタで構成される。 GNNは複合分子グラフを入力とし、このグラフの表現を学ぶ。 アダプタは、GNNによって生成されたグラフ表現をLLMに許容される別の表現に変換する。 LLMは、適応子とユーザの質問によって変換された複合表現を入力とし、回答を生成する。 これらのコンポーネントはすべてエンドツーエンドでトレーニングされる。 そこで我々は10,834の薬物化合物と143,517の質問応答対を含む指導調律データセットを収集した。 コードとデータは \url{https://github.com/ucsd-ai4h/drugchat} で入手できる。

A ChatGPT-like system for drug compounds could be a game-changer in pharmaceutical research, accelerating drug discovery, enhancing our understanding of structure-activity relationships, guiding lead optimization, aiding drug repurposing, reducing the failure rate, and streamlining clinical trials. In this work, we make an initial attempt towards enabling ChatGPT-like capabilities on drug molecule graphs, by developing a prototype system DrugChat. DrugChat works in a similar way as ChatGPT. Users upload a compound molecule graph and ask various questions about this compound. DrugChat will answer these questions in a multi-turn, interactive manner. The DrugChat system consists of a graph neural network (GNN), a large language model (LLM), and an adaptor. The GNN takes a compound molecule graph as input and learns a representation for this graph. The adaptor transforms the graph representation produced by the GNN into another representation that is acceptable to the LLM. The LLM takes the compound representation transformed by the adaptor and users' questions about this compound as inputs and generates answers. All these components are trained end-to-end. To train DrugChat, we collected instruction tuning datasets which contain 10,834 drug compounds and 143,517 question-answer pairs. The code and data is available at \url{https://github.com/UCSD-AI4H/drugchat}
翻訳日:2023-10-23 08:43:18 公開日:2023-05-18
# 組合せ最適化のためのニューラルアルゴリズム推論

Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v1 )

ライセンス: Link先を確認
Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o(参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。 長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。 トラベリングセールスマン問題(TSP)は、しばしばそのようなアプローチを対象とする、顕著な組合せ最適化問題である。 しかしながら、現在のTSPの解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。 対照的に、TSP用に設計されたヒューリスティックスは、最小スパンニングツリーを見つけるような、確立されたアルゴリズムを頻繁に活用する。 本稿では,近年のニューラルアルゴリズム推論の進歩を活かし,tsp問題の学習を改善することを提案する。 具体的には、TSPインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。 その結果,この学習環境を用いて,非学習型学習モデルと比較して優れた学習性能が得られた。

Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. The Travelling Salesman Problem (TSP) is a prominent combinatorial optimisation problem often targeted by such approaches. However, current neural-based methods for solving TSP often overlook the inherent "algorithmic" nature of the problem. In contrast, heuristics designed for TSP frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of TSP problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on TSP instances. Our results demonstrate that, using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models.
翻訳日:2023-06-18 13:11:55 公開日:2023-05-18
# chainlet orbits - bitcoinブロックチェーンのためのトポロジカルアドレス埋め込み

Chainlet Orbits: Topological Address Embedding for the Bitcoin Blockchain ( http://arxiv.org/abs/2306.07974v1 )

ライセンス: Link先を確認
Poupak Azad, Baris Coskunuzer, Murat Kantarcioglu, Cuneyt Gurcan Akcora(参考訳) 匿名性のある取引を可能にするBitcoinのような暗号通貨の台頭は、ランサムウェア支払いやダークネット市場での取引など、さまざまな不正行為の急増につながっている。 これらの違法行為は、しばしばBitcoinを好む支払い方法として利用する。 しかし、現在の不正行為を検出するツールは、いくつかのヒューリスティックと精巧なデータ収集プロセスに依存するか、解釈が難しい計算非効率なグラフニューラルネットワーク(GNN)モデルを採用する。 既存の手法の計算可能性と解釈可能性の限界を克服するために,Chainlet Orbitsと呼ばれる効果的な解を導入する。 このアプローチは、トランザクションのトポロジ的特性を活用することで、Bitcoinアドレスを埋め込む。 革新的なアドレス埋め込みを利用することで、不正な振る舞いから生じる特徴的なサブ構造に着目して、Bitcoinネットワークの電子犯罪を調査します。 ノード分類実験の結果、トポロジカルおよびGNNベースのアプローチを含む最先端手法と比較して優れた性能を示した。 さらに、弊社のアプローチでは、Bitcoinトランザクションネットワーク上で、解釈可能で説明可能な機械学習モデルを、ほとんどの場合15分以内で使用できる。

The rise of cryptocurrencies like Bitcoin, which enable transactions with a degree of pseudonymity, has led to a surge in various illicit activities, including ransomware payments and transactions on darknet markets. These illegal activities often utilize Bitcoin as the preferred payment method. However, current tools for detecting illicit behavior either rely on a few heuristics and laborious data collection processes or employ computationally inefficient graph neural network (GNN) models that are challenging to interpret. To overcome the computational and interpretability limitations of existing techniques, we introduce an effective solution called Chainlet Orbits. This approach embeds Bitcoin addresses by leveraging their topological characteristics in transactions. By employing our innovative address embedding, we investigate e-crime in Bitcoin networks by focusing on distinctive substructures that arise from illicit behavior. The results of our node classification experiments demonstrate superior performance compared to state-of-the-art methods, including both topological and GNN-based approaches. Moreover, our approach enables the use of interpretable and explainable machine learning models in as little as 15 minutes for most days on the Bitcoin transaction network.
翻訳日:2023-06-18 12:19:36 公開日:2023-05-18
# 視覚言語モデルが食品のコンポジションコンパイルを促進する

Vision-language models boost food composition compilation ( http://arxiv.org/abs/2306.01747v1 )

ライセンス: Link先を確認
Peihua Ma, Yixin Wu, Ning Yu, Yang Zhang, Michael Backes, Qin Wang, Cheng-I Wei(参考訳) 栄養情報は臨床食実践、精密栄養、食品産業において柱となる役割を担っている。 現在、食品組成物の合成は食品成分情報に基づいて食品栄養情報を推定するための標準パラダイムとなっている。 しかし、このパラダイムでは、従来のアプローチはデータマネージャの経験に精通しており、ダイナミックな消費者市場に追いつくことができず、栄養データや初期の機械学習手法では食品成分のステートメント情報を十分に理解できなかったり、食品イメージの特徴を無視することができなかった。 そこで本研究では,前部包装ラベルと製品画像を用いて,食品組成プロファイルを正確に推定するビジョン言語aiモデルumdfood-vlを開発した。 このような大規模モデルトレーニングを推進するために,これまでで最も包括的なマルチモーダル食品データベースであるumdfood-90kを確立した。 UMDFood-VLモデルは、様々な栄養価推定において、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を著しく上回った。 例えば,脂肪価推定では最大0.921のマクロAUCROCを達成し,食品組成コンパイルの実践要件を満たした。 このパフォーマンスは、他の食品および栄養関連データコンパイルに一般化する光を照らし出し、他の食品応用の進化を触媒した。

Nutrition information plays a pillar role in clinical dietary practice, precision nutrition, and food industry. Currently, food composition compilation serves as a standard paradigm to estimate food nutrition information according to food ingredient information. However, within this paradigm, conventional approaches are laborious and highly dependent on the experience of data managers, they cannot keep pace with the dynamic consumer market and resulting in lagging and missing nutrition data and earlier machine learning methods unable to fully understand food ingredient statement information or ignored the characteristic of food image. To this end, we developed a novel vision-language AI model, UMDFood-VL, using front-of-package labeling and product images to accurately estimate food composition profiles. In order to drive such large model training, we established UMDFood-90k, the most comprehensive multimodal food database to date. The UMDFood-VL model significantly outperformed convolutional neural networks (CNNs) and recurrent neural networks (RNNs) on a variety of nutrition value estimations. For instance, we achieved macro-AUCROC up to 0.921 for fat value estimation, which satisfied the practice requirement of food composition compilation. This performance shed the light to generalize to other food and nutrition-related data compilation and catalyzed the evolution of other food applications.
翻訳日:2023-06-11 14:06:28 公開日:2023-05-18
# プレトレーニングテンソル-トレインネットワークは変動量子回路を用いた機械学習を促進する

Pre-training Tensor-Train Networks Facilitates Machine Learning with Variational Quantum Circuits ( http://arxiv.org/abs/2306.03741v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hsiu Hsieh(参考訳) 変分量子回路(VQC)は、ノイズの多い中間スケール量子(NISQ)デバイス上で量子ニューラルネットワークを実装するための有望なアプローチである。 近年の研究では、VQCのテンソルトレインネットワーク(TTN)、すなわちTTN-VQCがVQCの表現と一般化能力を改善することが示されている。 しかし、バレン高原の問題は、キュービット数が増加するにつれてコスト関数の勾配が指数関数的に小さくなり、VQCの最適パラメータを見つけるのが難しくなる。 この問題に対処するため,我々は,TTN-VQCアーキテクチャ上に構築したPre+TTN-VQCという新たな学習手法を,事前学習したTTNを組み込んでバレン高原問題を緩和する。 事前訓練されたTTNは、目標データの効率的な微調整を可能にし、良好な経験的性能を達成するために必要なVQCの深さを低減し、バレン高原の景観によって引き起こされるトレーニング障害を軽減する可能性がある。 さらに,誤り性能解析を利用して,Pre+TTN-VQCの表現と一般化能力の利点を強調した。 さらに,Polyak-Lojasiewicz条件を必要とせずに,Pre+TTN-VQCの最適化性能を特徴付けることにより,NISQデバイスに量子ニューラルネットワークを実装する実用性を向上させる。 提案手法と定理を相関付けるために手書き桁分類データセットの実験を行った。

Variational quantum circuit (VQC) is a promising approach for implementing quantum neural networks on noisy intermediate-scale quantum (NISQ) devices. Recent studies have shown that a tensor-train network (TTN) for VQC, namely TTN-VQC, can improve the representation and generalization powers of VQC. However, the Barren Plateau problem leads to the gradients of the cost function vanishing exponentially small as the number of qubits increases, making it difficult to find the optimal parameters for the VQC. To address this issue, we put forth a new learning approach called Pre+TTN-VQC that builds upon the TTN-VQC architecture by incorporating a pre-trained TTN to alleviate the Barren Plateau problem. The pre-trained TTN allows for efficient fine-tuning of target data, which reduces the depth of the VQC required to achieve good empirical performance and potentially alleviates the training obstacles posed by the Barren Plateau landscape. Furthermore, we highlight the advantages of Pre+TTN-VQC in terms of representation and generalization powers by exploiting the error performance analysis. Moreover, we characterize the optimization performance of Pre+TTN-VQC without the need for the Polyak-Lojasiewicz condition, thereby enhancing the practicality of implementing quantum neural networks on NISQ devices. We conduct experiments on a handwritten digit classification dataset to corroborate our proposed methods and theorems.
翻訳日:2023-06-11 13:37:47 公開日:2023-05-18
# 脳波認識のための時間アウェア混在型コンボリューション・トランスフォーマーネットワーク(MACTN)

Temporal Aware Mixed Attention-based Convolution and Transformer Network (MACTN) for EEG Emotion Recognition ( http://arxiv.org/abs/2305.18234v1 )

ライセンス: Link先を確認
Xiaopeng Si, Dong Huang, Yulin Sun and Dong Ming(参考訳) 感情認識は人間とコンピュータの相互作用において重要な役割を担い、脳波(EEG)は人間の感情状態の反映に有利である。 本研究では,局所的・大域的時間的情報の共同モデリングのための階層型ハイブリッドモデルであるMACTNを提案する。 このモデルは、感情の時間的ダイナミクスに関する神経科学の研究にインスパイアされている。 MACTNは、畳み込みニューラルネットワーク(CNN)を通じて局所的な感情的特徴を抽出し、トランスフォーマーを通じて疎グローバルな感情的特徴を統合する。 さらに,最もタスクにかかわるチャネルを特定するために,チャネルアテンション機構を用いる。 THU-EP と DEAP という2つの公開データセットの広範な実験を通じて,提案手法である MACTN は,多くの実験環境において既存の手法と比較して,常に優れた分類精度とF1スコアを達成している。 さらに、アブレーション研究により、自己注意機構とチャネルアテンション機構の統合により、分類性能が向上することが示されている。 最後に、この方法の初期のバージョンは、同じアイデアを共有しており、2022年の世界ロボットコンテストで感情的BCIコンペティションの最終優勝を飾った。

Emotion recognition plays a crucial role in human-computer interaction, and electroencephalography (EEG) is advantageous for reflecting human emotional states. In this study, we propose MACTN, a hierarchical hybrid model for jointly modeling local and global temporal information. The model is inspired by neuroscience research on the temporal dynamics of emotions. MACTN extracts local emotional features through a convolutional neural network (CNN) and integrates sparse global emotional features through a transformer. Moreover, we employ channel attention mechanisms to identify the most task-relevant channels. Through extensive experimentation on two publicly available datasets, namely THU-EP and DEAP, our proposed method, MACTN, consistently achieves superior classification accuracy and F1 scores compared to other existing methods in most experimental settings. Furthermore, ablation studies have shown that the integration of both self-attention mechanisms and channel attention mechanisms leads to improved classification performance. Finally, an earlier version of this method, which shares the same ideas, won the Emotional BCI Competition's final championship in the 2022 World Robot Contest.
翻訳日:2023-06-04 11:51:38 公開日:2023-05-18
# コンピュータ適応テストにおけるテスト精度とセキュリティのバランス

Balancing Test Accuracy and Security in Computerized Adaptive Testing ( http://arxiv.org/abs/2305.18312v1 )

ライセンス: Link先を確認
Wanyong Feng, Aritra Ghosh, Stephen Sireci, Andrew S. Lan(参考訳) computerized adaptive testing (cat) は、学生の知識レベルを正確に測定し、テスト期間を短縮するパーソナライズドテストの一種である。 双方向最適化ベースのCAT(BOBCAT)は、データ駆動型質問選択アルゴリズムを学習し、テスト長を効果的に削減し、テスト精度を向上させる。 しかし、高い質問の露出とテスト重複率に悩まされており、テストのセキュリティに影響を及ぼす可能性がある。 本稿では,BOBCATの制約付きバージョンを導入し,最適化設定を変更し,テストの精度を問題露出とテスト重複率のトレードオフを可能にする。 C-BOBCATは、2つの実世界のアダルトテストデータセットに対する広範な実験を通じて有効であることを示す。

Computerized adaptive testing (CAT) is a form of personalized testing that accurately measures students' knowledge levels while reducing test length. Bilevel optimization-based CAT (BOBCAT) is a recent framework that learns a data-driven question selection algorithm to effectively reduce test length and improve test accuracy. However, it suffers from high question exposure and test overlap rates, which potentially affects test security. This paper introduces a constrained version of BOBCAT to address these problems by changing its optimization setup and enabling us to trade off test accuracy for question exposure and test overlap rates. We show that C-BOBCAT is effective through extensive experiments on two real-world adult testing datasets.
翻訳日:2023-06-04 11:41:07 公開日:2023-05-18
# ニューラルミツバチコロニー最適化:公共交通網設計における事例研究

Neural Bee Colony Optimization: A Case Study in Public Transit Network Design ( http://arxiv.org/abs/2306.00720v1 )

ライセンス: Link先を確認
Andrew Holliday, Gregory Dudek(参考訳) 本研究では,メタヒューリスティックスとニューラルネットワーク解法を組み合わせた組合せ最適化について検討する。 我々は,実世界の重要度を持つ一意に難しい組合せ最適化問題であるトランジットネットワーク設計問題の文脈でこれを行う。 我々は,個々の交通経路の単発計画を行うためにニューラルネットワークポリシを訓練し,修正蜂コロニー最適化(modified bee colony optimization, bco)メタヒューリスティックアルゴリズムのいくつかのサブヒューリスティックの1つとして組み込む。 実験の結果,このハイブリッドアルゴリズムは,学習ポリシーを最大20%,BCOアルゴリズムを最大53%,現実的な問題を最大53%向上させることがわかった。 修正アルゴリズムの各コンポーネントの影響を調べるために,一連のアブリケーションを実行する。

In this work we explore the combination of metaheuristics and learned neural network solvers for combinatorial optimization. We do this in the context of the transit network design problem, a uniquely challenging combinatorial optimization problem with real-world importance. We train a neural network policy to perform single-shot planning of individual transit routes, and then incorporate it as one of several sub-heuristics in a modified Bee Colony Optimization (BCO) metaheuristic algorithm. Our experimental results demonstrate that this hybrid algorithm outperforms the learned policy alone by up to 20% and the original BCO algorithm by up to 53% on realistic problem instances. We perform a set of ablations to study the impact of each component of the modified algorithm.
翻訳日:2023-06-04 11:01:50 公開日:2023-05-18
# 機械学習を用いたPoincar\eマップの軌道の分類

Classification of Orbits in Poincar\'e Maps using Machine Learning ( http://arxiv.org/abs/2305.13329v1 )

ライセンス: Link先を確認
Chandrika Kamath(参考訳) Poincar\'eプロット(Poincar\'e map)はプラズマ物理学者によってトカマクの数値シミュレーションにおいて磁場に閉じ込められたプラズマの挙動を理解するために用いられる。 これらのプロットは、トカマクを表すトーラスの軸に垂直な2次元の水球面とのフィールド線の交差によって生成される。 プロットは複数の軌道で構成され、それぞれがトーラスの周りを回る異なるフィールド線によって生成される。 各軌道は、プラズマを構成する磁場のトポロジーの変化を示す4つの異なる形状の1つまたはクラスを持つことができる。 軌道を形成する点の(x,y)座標が与えられたとき、分析タスクは、クラスを軌道に割り当てることである。 本稿では,この問題を解決する上での2つの大きな課題を克服する方法について述べる。すなわち,誤ったラベルのついた軌道をほとんど持たない高品質なトレーニングセットの作成と,クラスの軌道内の変化や異なるクラスの軌道間の明らかな類似性にもかかわらず,点の座標を識別する特徴に変換する。 我々の自動的アプローチは、視覚的分類よりも客観的で正確であるだけでなく、退屈ではないため、プラズマ物理学者はトカマクの数値シミュレーションから磁場のトポロジーを解析しやすくなる。

Poincar\'e plots, also called Poincar\'e maps, are used by plasma physicists to understand the behavior of magnetically confined plasma in numerical simulations of a tokamak. These plots are created by the intersection of field lines with a two-dimensional poloidal plane that is perpendicular to the axis of the torus representing the tokamak. A plot is composed of multiple orbits, each created by a different field line as it goes around the torus. Each orbit can have one of four distinct shapes, or classes, that indicate changes in the topology of the magnetic fields confining the plasma. Given the (x,y) coordinates of the points that form an orbit, the analysis task is to assign a class to the orbit, a task that appears ideally suited for a machine learning approach. In this paper, we describe how we overcame two major challenges in solving this problem - creating a high-quality training set, with few mislabeled orbits, and converting the coordinates of the points into features that are discriminating, despite the variation within the orbits of a class and the apparent similarities between orbits of different classes. Our automated approach is not only more objective and accurate than visual classification, but is also less tedious, making it easier for plasma physicists to analyze the topology of magnetic fields from numerical simulations of the tokamak.
翻訳日:2023-05-28 05:12:38 公開日:2023-05-18
# 全体脳データからの低次元ダイナミクス学習によるタスクキャプチャの改善

Learning low-dimensional dynamics from whole-brain data improves task capture ( http://arxiv.org/abs/2305.14369v1 )

ライセンス: Link先を確認
Eloy Geenjaar, Donghyun Kim, Riyasat Ohib, Marlena Duda, Amrit Kashyap, Sergey Plis, Vince Calhoun(参考訳) 脳活動の基盤となる神経動力学は、認知過程や精神障害を理解する上で重要である。 しかし、現在のvoxelベースの全脳次元減少技術は、これらのダイナミクスを捉えるのに足りず、動作タスクに不適切な潜在時系列を生成する。 この問題に対処するために,ニューラル常微分方程式(NODE)を介して潜在力学系を表す逐次変分オートエンコーダ(SVAE)を用いて,ニューラルダイナミクスの低次元近似を学習する新しい手法を提案する。 さらに,従来の手法よりも精度の高い認知過程を予測できるスムースなダイナミクスを見出した。 また, 課題関連脳領域への空間的局在の改善や, fmri 運動課題記録から運動ホマルスなどの既知の構造を同定する。 また、潜在空間への非線形投影は特定のタスクのパフォーマンスを高め、将来の研究に有望な方向を提供する。 我々は,運動,作業記憶,リレーショナル処理タスクなど,さまざまなタスクfMRIデータセットに対するアプローチを評価するとともに,左手や右手のタッピングなどの動作サブタスクの関連性について,広く使われている次元削減技術より優れていることを示す。 さらに、NODEをリカレントニューラルネットワーク(RNN)に置き換え、動的システムを明示的に学習することの重要性を理解するための2つのアプローチを比較する。 最後に, 学習した力学系自体のロバスト性を分析し, その不動点が種子全体にわたって頑健であることを見出し, 認知過程を力学系として解析する手法の可能性を強調した。

The neural dynamics underlying brain activity are critical to understanding cognitive processes and mental disorders. However, current voxel-based whole-brain dimensionality reduction techniques fall short of capturing these dynamics, producing latent timeseries that inadequately relate to behavioral tasks. To address this issue, we introduce a novel approach to learning low-dimensional approximations of neural dynamics by using a sequential variational autoencoder (SVAE) that represents the latent dynamical system via a neural ordinary differential equation (NODE). Importantly, our method finds smooth dynamics that can predict cognitive processes with accuracy higher than classical methods. Our method also shows improved spatial localization to task-relevant brain regions and identifies well-known structures such as the motor homunculus from fMRI motor task recordings. We also find that non-linear projections to the latent space enhance performance for specific tasks, offering a promising direction for future research. We evaluate our approach on various task-fMRI datasets, including motor, working memory, and relational processing tasks, and demonstrate that it outperforms widely used dimensionality reduction techniques in how well the latent timeseries relates to behavioral sub-tasks, such as left-hand or right-hand tapping. Additionally, we replace the NODE with a recurrent neural network (RNN) and compare the two approaches to understand the importance of explicitly learning a dynamical system. Lastly, we analyze the robustness of the learned dynamical systems themselves and find that their fixed points are robust across seeds, highlighting our method's potential for the analysis of cognitive processes as dynamical systems.
翻訳日:2023-05-28 04:51:36 公開日:2023-05-18
# 変圧器と感情分析を用いた株価トレンド予測支援

Support for Stock Trend Prediction Using Transformers and Sentiment Analysis ( http://arxiv.org/abs/2305.14368v1 )

ライセンス: Link先を確認
Harsimrat Kaeley, Ye Qiao, Nader Bagherzadeh(参考訳) 株価トレンド分析は、その収益性と本質的にカオス性から、時系列予測に影響を与えた。 株価の傾向を正確に予測しようとする多くのモデルは、recurrent neural network (rnn)に基づいている。 しかし,本論文では,時系列長の増加に伴い,勾配の消失や長期依存が失われるといった,rnnの限界のために,技術ストックデータと感情分析を用いた変圧器ベースのモデルを開発し,長期間にわたって正確なストックトレンド予測を行う。 本稿では,日刊技術株データと,約3年にわたるトップニュース見出しデータを含む新しいデータセットも紹介する。 技術的データのみに基づく株価予測は、株価指標が市場のニュースを効果的に分解できないことによる遅延に苦しむ可能性がある。 トップ見出しでの感情分析の利用は、ニュース報道による市場状況の予期せぬ変化を説明するのに役立つ。 5 営業日から30 営業日にわたって連続した RNN に対するモデルの性能を測定し,異なる期間の取引戦略を模倣する。 これは、シーケンス長が増加するにつれてRNNの方向精度が向上し、最大の改善は30営業日で18.63%に近づいた。

Stock trend analysis has been an influential time-series prediction topic due to its lucrative and inherently chaotic nature. Many models looking to accurately predict the trend of stocks have been based on Recurrent Neural Networks (RNNs). However, due to the limitations of RNNs, such as gradient vanish and long-term dependencies being lost as sequence length increases, in this paper we develop a Transformer based model that uses technical stock data and sentiment analysis to conduct accurate stock trend prediction over long time windows. This paper also introduces a novel dataset containing daily technical stock data and top news headline data spanning almost three years. Stock prediction based solely on technical data can suffer from lag caused by the inability of stock indicators to effectively factor in breaking market news. The use of sentiment analysis on top headlines can help account for unforeseen shifts in market conditions caused by news coverage. We measure the performance of our model against RNNs over sequence lengths spanning 5 business days to 30 business days to mimic different length trading strategies. This reveals an improvement in directional accuracy over RNNs as sequence length is increased, with the largest improvement being close to 18.63% at 30 business days.
翻訳日:2023-05-28 04:51:08 公開日:2023-05-18
# メタバースにおける意味コミュニケーションとAI生成コンテンツの統合フレームワーク

A Unified Framework for Integrating Semantic Communication and AI-Generated Content in Metaverse ( http://arxiv.org/abs/2305.11911v1 )

ライセンス: Link先を確認
Yijing Lin, Zhipeng Gao, Hongyang Du, Dusit Niyato, Jiawen Kang, Abbas Jamalipour, Xuemin Sherman Shen(参考訳) Metaverseが成長を続けるにつれて、効率的なコミュニケーションとインテリジェントなコンテンツ生成の必要性がますます重要になっている。 セマンティックコミュニケーションはユーザ入力から意味と理解を伝えることに焦点を当て、AI生成コンテンツは人工知能を使用してデジタルコンテンツと体験を作成する。 統合セマンティックコミュニケーションとAI生成コンテンツ(ISGC)は最近多くの注目を集めており、ユーザ入力から意味情報を転送し、デジタルコンテンツを生成し、Metaverseのグラフィックを描画する。 本稿では,isgcの資源割当を最適化するための統合ゲインと,目標指向の高品質コンテンツ生成のための協調ゲインと,コミュニケーションとコンテンツの両方の観点からの没入性を改善するための統合フレームワークを提案する。 また,既存のisgcソリューションを分類し,isgcの主要コンポーネントを分析し,いくつかのユースケースを示す。 次に,拡散モデルに基づくケーススタディを構築し,メタバースにおける意味抽出,コンテンツ生成,グラフィックレンダリングを行うための最適なリソース割当戦略を同定する。 最後に,いくつかのオープン研究課題について議論し,isgcとその関連応用の可能性についてさらに検討する。

As the Metaverse continues to grow, the need for efficient communication and intelligent content generation becomes increasingly important. Semantic communication focuses on conveying meaning and understanding from user inputs, while AI-Generated Content utilizes artificial intelligence to create digital content and experiences. Integrated Semantic Communication and AI-Generated Content (ISGC) has attracted a lot of attentions recently, which transfers semantic information from user inputs, generates digital content, and renders graphics for Metaverse. In this paper, we introduce a unified framework that captures ISGC two primary benefits, including integration gain for optimized resource allocation and coordination gain for goal-oriented high-quality content generation to improve immersion from both communication and content perspectives. We also classify existing ISGC solutions, analyze the major components of ISGC, and present several use cases. We then construct a case study based on the diffusion model to identify an optimal resource allocation strategy for performing semantic extraction, content generation, and graphic rendering in the Metaverse. Finally, we discuss several open research issues, encouraging further exploring the potential of ISGC and its related applications in the Metaverse.
翻訳日:2023-05-24 02:16:00 公開日:2023-05-18
# 配列依存酵素反応の理解のための解釈可能なニューラルアーキテクチャ探索と伝達学習

Interpretable neural architecture search and transfer learning for understanding sequence dependent enzymatic reactions ( http://arxiv.org/abs/2305.11917v1 )

ライセンス: Link先を確認
Zijun Zhang, Adam R. Lamson, Michael Shelley, Olga Troyanskaya(参考訳) 微細に調整された酵素経路は細胞過程を制御し、その解離は疾患を引き起こす。 これらの経路の予測および解釈可能なモデルの作成は、経路の複雑さと、細胞およびゲノムのコンテキストのため困難である。 本稿では,これらの課題を解決する深層学習フレームワークであるelektrumについて紹介する。 まず、in vitroの速度論的アッセイを用いて、反応速度を予測する高品質のKinetically Interpretable Neural Networks(KINN)のアンサンブルを迅速に仮説化します。 次に、新たなトランスファー学習ステップを採用し、キンを中間層として深い畳み込みニューラルネットワークに挿入し、反応依存性のin vivo結果の予測を微調整する。 elektrumは、限られた、しかしクリーンなin vitroデータと、細胞内のコンテキストをキャプチャする、ノイズの多い、しかし豊富なin vivoデータを有効に利用します。 我々は、Eektrumを用いてCRISPR-Cas9オフターゲット編集確率を予測し、Eektrumが最先端のパフォーマンスを実現し、ニューラルネットワークアーキテクチャを標準化し、物理的解釈可能性を維持することを示す。

Finely-tuned enzymatic pathways control cellular processes, and their dysregulation can lead to disease. Creating predictive and interpretable models for these pathways is challenging because of the complexity of the pathways and of the cellular and genomic contexts. Here we introduce Elektrum, a deep learning framework which addresses these challenges with data-driven and biophysically interpretable models for determining the kinetics of biochemical systems. First, it uses in vitro kinetic assays to rapidly hypothesize an ensemble of high-quality Kinetically Interpretable Neural Networks (KINNs) that predict reaction rates. It then employs a novel transfer learning step, where the KINNs are inserted as intermediary layers into deeper convolutional neural networks, fine-tuning the predictions for reaction-dependent in vivo outcomes. Elektrum makes effective use of the limited, but clean in vitro data and the noisy, yet plentiful in vivo data that captures cellular context. We apply Elektrum to predict CRISPR-Cas9 off-target editing probabilities and demonstrate that Elektrum achieves state-of-the-art performance, regularizes neural network architectures, and maintains physical interpretability.
翻訳日:2023-05-24 02:02:36 公開日:2023-05-18
# $\mathbb{R}$-smooth Banach空間における非線形方程式のPINN誤差推定

PINNs error estimates for nonlinear equations in $\mathbb{R}$-smooth Banach spaces ( http://arxiv.org/abs/2305.11915v1 )

ライセンス: Link先を確認
Jiexing Gao, Yurii Zakharian(参考訳) 本稿では,PINNの誤差推定を許容するPDEの演算型クラスについて述べる。 また、$L^p$空間に対して、PINNの残差境界のツールであるブランブル・ヒルベルト型補題を得る。

In the paper, we describe in operator form classes of PDEs that admit PINN's error estimation. Also, for $L^p$ spaces, we obtain a Bramble-Hilbert type lemma that is a tool for PINN's residuals bounding.
翻訳日:2023-05-24 02:01:56 公開日:2023-05-18
# スパースリモートセンシングデータを用いた位相分解型非線形海面高度再構成のための機械学習

Machine learning for phase-resolved reconstruction of nonlinear ocean wave surface elevations from sparse remote sensing data ( http://arxiv.org/abs/2305.11913v1 )

ライセンス: Link先を確認
Svenja Ehlers, Marco Klein, Alexander Heinlein, Mathies Wedler, Nicolas Desmars, Norbert Hoffmann, Merten Stender(参考訳) 相分解水波の正確な短期予測は海洋工学における意思決定に不可欠である。 しかし、リモートセンシングに基づく波動予測モデルの初期化は、まずレーダーのような粗い測定から波面を再構築する必要がある。 既存の再構築手法は計算集約的な最適化手順に依存するか、予測プロセス全体のリアルタイム能力や精度を損なう単純なモデリングの仮定に依存する。 そこで我々は,U-Net と Fourier Neural operator (FNO) アーキテクチャに基づくニューラルネットワークを用いた位相分解波面再構成手法を提案する。 本手法は,波動シミュレーションのための高次スペクトル法と幾何学的レーダモデルによる一次元格子の合成的かつ高現実的なトレーニングデータを利用する。 調査の結果,両モデルとも正確な波動再構成結果が得られ,各入力に複数の歴史的レーダスナップショットを含む時空間レーダデータを用いて訓練すると,異なる海状態に対して良好な一般化が得られた。 特に、FNOベースのネットワークは、入力と所望の出力のマッピングをフーリエ空間で学習するためのグローバルアプローチにより、波動物理学によって課されるデータ構造を扱う上で、より優れた性能を発揮する。

Accurate short-term prediction of phase-resolved water wave conditions is crucial for decision-making in ocean engineering. However, the initialization of remote-sensing-based wave prediction models first requires a reconstruction of wave surfaces from sparse measurements like radar. Existing reconstruction methods either rely on computationally intensive optimization procedures or simplistic modeling assumptions that compromise real-time capability or accuracy of the entire prediction process. We therefore address these issues by proposing a novel approach for phase-resolved wave surface reconstruction using neural networks based on the U-Net and Fourier neural operator (FNO) architectures. Our approach utilizes synthetic yet highly realistic training data on uniform one-dimensional grids, that is generated by the high-order spectral method for wave simulation and a geometric radar modeling approach. The investigation reveals that both models deliver accurate wave reconstruction results and show good generalization for different sea states when trained with spatio-temporal radar data containing multiple historic radar snapshots in each input. Notably, the FNO-based network performs better in handling the data structure imposed by wave physics due to its global approach to learn the mapping between input and desired output in Fourier space.
翻訳日:2023-05-24 02:01:52 公開日:2023-05-18
# どんな症状で どれくらいの期間? ソーシャルメディアにおける抑うつ検出のための解釈可能なAIアプローチ

What Symptoms and How Long? An Interpretable AI Approach for Depression Detection in Social Media ( http://arxiv.org/abs/2305.13127v1 )

ライセンス: Link先を確認
Junwei Kuang, Jiaheng Xie and Zhijun Yan(参考訳) うつ病は最も広く重篤な精神疾患であり、経済的にも社会的にも大きな影響をもたらす。 抑うつ検出は、これらの影響を緩和するための早期介入の鍵である。 このような高い判断は本質的には解釈可能性を必要とします。 この意思決定における人間の専門知識を結合し、エンドユーザーからの信頼を守り、アルゴリズムの透明性を確保するため、我々は解釈可能な深層学習モデルであるマルチスケールテンポラルプロトタイプネットワーク(MSTPNet)を開発した。 mstpnetは創発的なプロトタイプ学習手法に基づいている。 抑うつ診断の医学的実践に合わせて、mstpnetは既存のプロトタイプ学習モデルと異なり、抑うつ症状を捉える能力と、頻度や外観の持続性といった時間的分布を捉えている。 実世界のソーシャルメディアデータを用いた大規模な実験分析により、MSTPNetはうつ病検出における最先端のベンチマークを0.851のF1スコアで上回ります。 さらに、MSTPNetは、ユーザが提示するうつ症状と関連する症状がいつまで続くかを特定することで、予測を解釈する。 さらに,このベンチマークの解釈性に対する優位性を示すために,ユーザ調査を行った。 本研究は,ソーシャルメディアにおける抑うつ検出のための新しい解釈可能な深層学習モデルを用いて,既存の文献に寄与する。 提案手法は,うつ病とその症状を検出するソーシャルメディアプラットフォームに実装することができる。 プラットフォームはその後、教育や支援ビデオや記事などのパーソナライズされたオンラインリソースや、うつ病患者に対する治療やソーシャルサポートのソースを提供することができる。

Depression is the most prevalent and serious mental illness, which induces grave financial and societal ramifications. Depression detection is key for early intervention to mitigate those consequences. Such a high-stake decision inherently necessitates interpretability, which most existing methods fall short of. To connect human expertise in this decision-making, safeguard trust from end users, and ensure algorithm transparency, we develop an interpretable deep learning model: Multi-Scale Temporal Prototype Network (MSTPNet). MSTPNet is built upon the emergent prototype learning methods. In line with the medical practice of depression diagnosis, MSTPNet differs from existing prototype learning models in its capability of capturing the depressive symptoms and their temporal distribution such as frequency and persistence of appearance. Extensive empirical analyses using real-world social media data show that MSTPNet outperforms state-of-the-art benchmarks in depression detection, with an F1-score of 0.851. Moreover, MSTPNet interprets its prediction by identifying what depression symptoms the user presents and how long these related symptoms last. We further conduct a user study to demonstrate its superiority over the benchmarks in interpretability. Methodologically, this study contributes to extant literature with a novel interpretable deep learning model for depression detection in social media. Our proposed method can be implemented in social media platforms to detect depression and its symptoms. Platforms can subsequently provide personalized online resources such as educational and supporting videos and articles, or sources for treatments and social support for depressed patients.
翻訳日:2023-05-23 14:56:37 公開日:2023-05-18
# キャビティモード工学による超強磁性光-マター相互作用

Ultrastrong magnetic light-matter interaction with cavity mode engineering ( http://arxiv.org/abs/2108.13266v2 )

ライセンス: Link先を確認
Hyeongrak Choi, Dirk Englund(参考訳) 光子と双極子の磁気相互作用は、電子、センシング、分光、量子コンピューティングにおいて不可欠である。 しかし、その弱い強度は、しばしば共振器が光子を閉じ込め保存する必要がある。 本稿では、超小型モード容積と超高品質係数を有する共振器を作製するモード工学的手法を提案する。 特に,品質因子の低下を最小限に抑えながら,材料や製造に限定された任意に小さいモードボリュームを実現することが可能であることを示す。 トレードオフ空間におけるモードエンジニアリングキャビティを比較し、磁気相互作用が自由空間と比較して10〜16ドル以上強化可能であることを示す。 ダイヤモンド窒素空孔スピンのアンサンブルを用いた原理実証実験は, 理論的予測とよく一致している。 これらの手法は、量子コンピューティングやコンパクト電子常磁性共鳴センサにおける高共役マイクロ波-スピンカップリングからダークマター探索のような基礎科学への新しい応用を可能にする。

Magnetic interaction between photons and dipoles is essential in electronics, sensing, spectroscopy, and quantum computing. However, its weak strength often requires resonators to confine and store the photons. Here, we present mode engineering techniques to create resonators with ultrasmall mode volume and ultrahigh quality factor. In particular, we show that it is possible to achieve an arbitrarily small mode volume only limited by materials or fabrication with minimal quality-factor degradation. We compare mode-engineered cavities in a trade-off space and show that the magnetic interaction can be strengthened more than $10^{16}$ times compared to free space. Proof-of-principles experiments using an ensemble of diamond nitrogen-vacancy spins show good agreement with our theoretical predictions. These methods enable new applications from high-cooperativity microwave-spin coupling in quantum computing or compact electron paramagnetic resonance sensors to fundamental science such as dark matter searches.
翻訳日:2023-05-22 20:22:26 公開日:2023-05-18
# 群衆からの半検証PAC学習

Semi-verified PAC Learning from the Crowd ( http://arxiv.org/abs/2106.07080v3 )

ライセンス: Link先を確認
Shiwei Zeng and Jie Shen(参考訳) 閾値関数のクラウドソーシングpac学習の問題点について検討する。 これは難しい問題であり、労働者の顕著な割合が完璧であると仮定して、クエリ効率のアルゴリズムが最近確立された。 本研究では, 多数派が逆向きに行動し, 残りがマスアートノイズとして振る舞う, 完全性仮定の顕著な一般化について検討する。 また,Charikar et al. (2017) の<semi-verified model} の下では,常に正しいアノテーションを返却する信頼できる託宣者へのアクセスが制限されているため,PAC が基礎となる仮説クラスを大量のラベルクエリで学習することが可能であることを示す。 さらに,ラベリングコストは,より簡単に得られる比較クエリによって大幅に低減できることを示す。 我々のPACは、データ分散の前提に大きく依存する半検証またはリスト記述可能な学習における最近の発展に対して、群衆の知恵を探求することで保証します。

We study the problem of crowdsourced PAC learning of threshold functions. This is a challenging problem and only recently have query-efficient algorithms been established under the assumption that a noticeable fraction of the workers are perfect. In this work, we investigate a more challenging case where the majority may behave adversarially and the rest behave as the Massart noise - a significant generalization of the perfectness assumption. We show that under the {semi-verified model} of Charikar et al. (2017), where we have (limited) access to a trusted oracle who always returns correct annotations, it is possible to PAC learn the underlying hypothesis class with a manageable amount of label queries. Moreover, we show that the labeling cost can be drastically mitigated via the more easily obtained comparison queries. Orthogonal to recent developments in semi-verified or list-decodable learning that crucially rely on data distributional assumptions, our PAC guarantee holds by exploring the wisdom of the crowd.
翻訳日:2023-05-22 20:22:12 公開日:2023-05-18
# NVMクロスバー上の逆学習ネットワークの雑音安定性とロバスト性について

On the Noise Stability and Robustness of Adversarially Trained Networks on NVM Crossbars ( http://arxiv.org/abs/2109.09060v2 )

ライセンス: Link先を確認
Chun Tao, Deboleena Roy, Indranil Chakraborty, Kaushik Roy(参考訳) ディープニューラルネットワーク(DNN)に基づくアプリケーションは、過去10年間で指数関数的に増加している。 計算要求の増大に合わせて、いくつかの非揮発性メモリ(NVM)クロスバーベースのアクセラレータが提案されている。 近年、研究者らはエネルギー効率と性能の向上に加えて、このような近似ハードウェアは敵対的攻撃に対する防御に本質的な堅牢性を持っていることを示した。 以前の研究では、未摂動入力で訓練されたバニラDNNの本質的なロバスト性を定量化していた。 しかし、DNNの逆行訓練はロバスト性のベンチマーク手法であり、ハードウェア固有のロバスト性のみに依存するだけでは不十分である。 本研究では,nvmクロスバー型アナログハードウェアの逆訓練と本質的ロバストネスの融合により,ロバストなdnnの設計を検討する。 まず,そのようなネットワークの非摂動入力におけるノイズ安定性について検討し,逆訓練ネットワークの内部アクティベーションがsnr(signal-to-noise ratio)が低く,バニラネットワークに比べてノイズに敏感であることを観察する。 その結果,アナログハードウェア上での近似計算により,平均2倍の性能劣化が生じた。 騒音安定性解析は, 対向訓練DNNの不安定性を示す。 一方、正方形のブラックボックス攻撃で生成した敵画像に対しては、CIFAR-10/100で訓練されたResNet-10/20は、20-30%の堅牢性向上を示す。 Projected-Gradient-Descent (PGD) White-Box攻撃によって生成された敵画像に対して、逆向きに訓練されたDNNは、$\epsilon_{ attack}$が$\epsilon_{train}$より大きい場合、基盤となるNVMクロスバーによる堅牢な精度が5-10%向上する。 その結果,アナログハードウェア上での対向学習ネットワークの実装には,ハードウェアの非理想性と$\epsilon_{train}$の厳密なキャリブレーションが必要であることがわかった。

Applications based on Deep Neural Networks (DNNs) have grown exponentially in the past decade. To match their increasing computational needs, several Non-Volatile Memory (NVM) crossbar based accelerators have been proposed. Recently, researchers have shown that apart from improved energy efficiency and performance, such approximate hardware also possess intrinsic robustness for defense against adversarial attacks. Prior works quantified this intrinsic robustness for vanilla DNNs trained on unperturbed inputs. However, adversarial training of DNNs is the benchmark technique for robustness, and sole reliance on intrinsic robustness of the hardware may not be sufficient. In this work, we explore the design of robust DNNs through the amalgamation of adversarial training and intrinsic robustness of NVM crossbar-based analog hardware. First, we study the noise stability of such networks on unperturbed inputs and observe that internal activations of adversarially trained networks have lower Signal-to-Noise Ratio (SNR), and are sensitive to noise compared to vanilla networks. As a result, they suffer on average 2x performance degradation due to the approximate computations on analog hardware. Noise stability analyses show the instability of adversarially trained DNNs. On the other hand, for adversarial images generated using Square Black Box attacks, ResNet-10/20 adversarially trained on CIFAR-10/100 display a robustness gain of 20-30%. For adversarial images generated using Projected-Gradient-Descent (PGD) White-Box attacks, adversarially trained DNNs present a 5-10% gain in robust accuracy due to underlying NVM crossbar when $\epsilon_{attack}$ is greater than $\epsilon_{train}$. Our results indicate that implementing adversarially trained networks on analog hardware requires careful calibration between hardware non-idealities and $\epsilon_{train}$ for optimum robustness and performance.
翻訳日:2023-05-22 20:10:04 公開日:2023-05-18
# 新型コロナウイルスの感染拡大で高所得国向け郵便番号のビジネスが急減

Businesses in high-income zip codes often saw sharper visit reductions during the COVID-19 pandemic ( http://arxiv.org/abs/2206.11987v2 )

ライセンス: Link先を確認
Aditya Kulkarni, Min Kim, Joydeep Bhattacharya, Jayanta Bhattacharya(参考訳) 新型コロナウイルスのパンデミックが広がるにつれ、世界中の人々の移動パターンは大きく変化した。 移動時間や費用、旅行の便利さは常にモビリティに影響を与えてきたが、感染リスクや外出禁止や外出禁止などの政策行動が、位置観察計算において考慮すべき新たな要因として現れた。 米国ミネソタ州のSafeGraphモビリティデータを使って、裕福なジップコードにある企業(特に屋内訪問が必要)が、ロックダウン期間外(パンデミック前)の訪問を、貧しい企業よりも大幅に削減したことを実証しています。 訪問が販売に翻訳される程度では、パンデミック後のリカバリ努力は救援資金の優先であり、減少する訪問に関する損失を念頭に置いておくべきだと主張する。

As the COVID-19 pandemic unfolded, the mobility patterns of people worldwide changed drastically. While travel time, costs, and trip convenience have always influenced mobility, the risk of infection and policy actions such as lockdowns and stay-at-home orders emerged as new factors to consider in the location-visitation calculus. We use SafeGraph mobility data from Minnesota, USA, to demonstrate that businesses (especially those requiring extended indoor visits) located in affluent zip codes witnessed sharper reductions in visits (relative to pre-pandemic times) outside of the lockdown periods than their poorer counterparts. To the extent visits translate into sales, we contend that post-pandemic recovery efforts should prioritize relief funding, keeping the losses relating to diminished visits in mind.
翻訳日:2023-05-22 20:02:29 公開日:2023-05-18
# マルチエージェントダイナミクスの確率論的対称性

Probabilistic Symmetry for Multi-Agent Dynamics ( http://arxiv.org/abs/2205.01927v3 )

ライセンス: Link先を確認
Sophia Sun, Robin Walters, Jinxi Li, Rose Yu(参考訳) マルチエージェントダイナミクスの学習は、ロボット工学や自律運転における幅広い応用において、コアAI問題である。 既存の作品の多くは決定論的予測に重点を置いているが、不確実性を定量化しリスクを評価する確率的予測を作成することは、モーションプランニングや衝突回避といった下流の意思決定タスクにとって重要である。 マルチエージェント力学はしばしば内部対称性を含む。 対称性、特に回転平衡を利用することで、予測精度だけでなく不確かさの校正も改善できる。 適切なスコアルールであるエネルギースコアを導入し,確率的予測を評価する。 本稿では,多エージェント軌道の確率論的予測のための新しい動的モデルである確率的同変連続共進化(PECCO)を提案する。 peccoは同変連続畳み込みを拡張し、複数のエージェントの結合速度分布をモデル化する。 速度から位置への不確実性を伝達するためにダイナミクス統合を使用する。 合成データセットと実世界のデータセットの両方において、PECCOは非同変ベースラインに比べて精度とキャリブレーションが大幅に向上した。

Learning multi-agent dynamics is a core AI problem with broad applications in robotics and autonomous driving. While most existing works focus on deterministic prediction, producing probabilistic forecasts to quantify uncertainty and assess risks is critical for downstream decision-making tasks such as motion planning and collision avoidance. Multi-agent dynamics often contains internal symmetry. By leveraging symmetry, specifically rotation equivariance, we can improve not only the prediction accuracy but also uncertainty calibration. We introduce Energy Score, a proper scoring rule, to evaluate probabilistic predictions. We propose a novel deep dynamics model, Probabilistic Equivariant Continuous COnvolution (PECCO) for probabilistic prediction of multi-agent trajectories. PECCO extends equivariant continuous convolution to model the joint velocity distribution of multiple agents. It uses dynamics integration to propagate the uncertainty from velocity to position. On both synthetic and real-world datasets, PECCO shows significant improvements in accuracy and calibration compared to non-equivariant baselines.
翻訳日:2023-05-22 20:01:17 公開日:2023-05-18
# 量子ディスクの古典光学アナローグ

Classical Optical Analogue of Quantum Discord ( http://arxiv.org/abs/2205.00088v2 )

ライセンス: Link先を確認
Jacob M. Leamer, Wenlei Zhang, Nicholas J. Savino, Ravi K. Saripalli, Sanjaya Lohani, Ryan T. Glasser, Denys I. Bondar(参考訳) 量子不協和は量子エンタングルメントに加え、量子優位のための資源であることが示されている。 多くの実験はエンタングルメントの古典的な類似性を示しているが、ディスコードではそうしていない。 本稿では、2つの量子ビットの状態とラゲール・ガウスビームの空間モードの類似性を利用した古典光を用いて量子ディスコの古典的アナログを作成するための概念実証を行う。 本手法は, 理論シミュレーションの強度プロファイルと, ディスコード値の異なる実験結果との比較により, 妥当性を示す。 このような古典的な量子不協和のアナログは、不協和を利用する量子情報技術の理解と発展に関するさらなる洞察を与えるかもしれない。

Quantum discord has been shown to be a resource for quantum advantage in addition to quantum entanglement. While many experiments have demonstrated classical analogies of entanglement, none have done so for discord. We present a proof-of-concept demonstration for creating a classical analogue of quantum discord using classical light that takes advantage of the analogy between the state of two qubits and the spatial modes of a Laguerre-Gauss beam. We demonstrate the validity of this approach by comparing the intensity profiles of theoretical simulations to experimental results for different values of discord. Such a classical analogue of quantum discord may provide further insight in understanding and development of quantum information technologies that make use of discord.
翻訳日:2023-05-22 20:01:05 公開日:2023-05-18
# 窒素空洞中心と光メカニクスを用いた室温量子リピータの提案

Proposal for room-temperature quantum repeaters with nitrogen-vacancy centers and optomechanics ( http://arxiv.org/abs/2203.06611v2 )

ライセンス: Link先を確認
Jia-Wei Ji, Yu-Feng Wu, Stephen C. Wein, Faezeh Kimiaee Asadi, Roohollah Ghobadi, and Christoph Simon(参考訳) 環境条件下で動作可能な量子リピータアーキテクチャを提案する。 提案手法は, 室温でも良好なスピンコヒーレンス時間を有する窒素空孔中心と, フォノン関連デコヒーレンスを回避し, 発光光子をテレコムバンド内に配置できる光力学に基づく非低温スピン光子界面への最近の進展を基盤としている。 本研究では、光子数分解法を用いて、2つの遠隔電子スピン間の絡み合いの忠実度と効率を定量化する。 電子スピンと核スピンを含む操作を準決定論的に置き換えることで核スピンに格納し、長距離に拡張する方法について述べる。 さらに,スピン-オプトメカニクスインタフェースを用いて室温でのスピン状態の高忠実な読み出しを実現する手法を提案する。 我々の研究は、室温で作動する固体成分からなる長距離量子ネットワークが、現在の技術能力の範囲内にあることを示している。

We propose a quantum repeater architecture that can operate under ambient conditions. Our proposal builds on recent progress towards non-cryogenic spin-photon interfaces based on nitrogen-vacancy centers, which have excellent spin coherence times even at room temperature, and optomechanics, which allows to avoid phonon-related decoherence and also allows the emitted photons to be in the telecom band. We apply the photon number decomposition method to quantify the fidelity and the efficiency of entanglement established between two remote electron spins. We describe how the entanglement can be stored in nuclear spins and extended to long distances via quasi-deterministic entanglement swapping operations involving the electron and nuclear spins. We furthermore propose schemes to achieve high-fidelity readout of the spin states at room temperature using the spin-optomechanics interface. Our work shows that long-distance quantum networks made of solid-state components that operate at room temperature are within reach of current technological capabilities.
翻訳日:2023-05-22 20:00:52 公開日:2023-05-18
# 神経積分方程式

Neural Integral Equations ( http://arxiv.org/abs/2209.15190v4 )

ライセンス: Link先を確認
Emanuele Zappala, Antonio Henrique de Oliveira Fonseca, Josue Ortega Caro and David van Dijk(参考訳) 積分方程式 (IE) は非局所相互作用を持つ時空間系をモデル化する方程式である。 彼らは物理学、化学、生物学、工学など理論および応用科学において重要な応用を見出した。 与えられたIEを解くための効率的なアルゴリズムはあるが、IEとその関連するダイナミクスをデータだけで学ぶ方法はない。 本稿では,未知の積分演算子をIEソルバを通じてデータから学習する手法であるNeural Integral Equations (NIE)を紹介する。 また,意図的ニューラル積分方程式(ANIE)を導入し,その積分を自己認識に置き換えることで,拡張性,キャパシティ,解釈可能なモデルを実現する。 A)NIEは、ODE、PDE、IEシステムにおける複数のベンチマークタスクにおいて、合成および実世界のデータの速度と精度において、他の手法よりも優れていることを示す。

Integral equations (IEs) are equations that model spatiotemporal systems with non-local interactions. They have found important applications throughout theoretical and applied sciences, including in physics, chemistry, biology, and engineering. While efficient algorithms exist for solving given IEs, no method exists that can learn an IE and its associated dynamics from data alone. In this paper, we introduce Neural Integral Equations (NIE), a method that learns an unknown integral operator from data through an IE solver. We also introduce Attentional Neural Integral Equations (ANIE), where the integral is replaced by self-attention, which improves scalability, capacity, and results in an interpretable model. We demonstrate that (A)NIE outperforms other methods in both speed and accuracy on several benchmark tasks in ODE, PDE, and IE systems of synthetic and real-world data.
翻訳日:2023-05-22 19:42:56 公開日:2023-05-18
# 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として

On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator ( http://arxiv.org/abs/2209.05042v2 )

ライセンス: Link先を確認
Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao(参考訳) ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。 これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。 しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。 本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。 まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。 我々の中核的な成果の1つは、観測可能な場合のdLQRの定常点の特異性であり、ポリシー勾配法を用いて動的コントローラを解くための最適性証明を提供する。 さらに、dLQRと線形二次ガウス制御が等価である条件を確立し、決定論的および確率的線形系の最適制御の統一的な視点を提供する。 これらの結果は、部分的に観測された情報を含むより一般的な意思決定問題に対するポリシー勾配アルゴリズムの設計に光を当てた。

The convergence of policy gradient algorithms hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. One of our core results is the uniqueness of the stationary point of dLQR when it is observable, which provides an optimality certificate for solving dynamic controllers using policy gradient methods. Moreover, we establish conditions under which dLQR and linear quadratic Gaussian control are equivalent, thus providing a unified viewpoint of optimal control of both deterministic and stochastic linear systems. These results further shed light on designing policy gradient algorithms for more general decision-making problems with partially observed information.
翻訳日:2023-05-22 19:42:16 公開日:2023-05-18
# soda: がん研究のための健康の社会的決定要因を抽出するための自然言語処理パッケージ

SODA: A Natural Language Processing Package to Extract Social Determinants of Health for Cancer Studies ( http://arxiv.org/abs/2212.03000v2 )

ライセンス: Link先を確認
Zehao Yu, Xi Yang, Chong Dang, Prakash Adekkanattu, Braja Gopal Patra, Yifan Peng, Jyotishman Pathak, Debbie L. Wilson, Ching-Yuan Chang, Wei-Hsuan Lo-Ciganic, Thomas J. George, William R. Hogan, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 目的: がん患者に対する社会的決定因子(SDoH)を抽出するための事前学習型トランスフォーマーモデルを用いて, オープンソース自然言語処理(NLP)パッケージであるSODA(Social DeterminAnts)を開発し, 新しい疾患領域(オピオイド使用)へのSODAの一般化可能性を検討すること, がん集団を用いたSDoHの抽出率を評価することを目的とする。 方法:sdoh分類と属性を同定し,一般がんコホートからの臨床ノートを用いたsdohコーパスを開発した。 SDoHを抽出するために4つのトランスフォーマーベースNLPモデルを比較し,オピオイドを処方した患者のコホートとNLPモデルの一般化性を検討した。 乳癌(n=7,971),肺(n=11,804),大腸癌(n=6,240)コホートから19種類のSDoHを抽出した。 結果と結論: SDoHの19カテゴリから13,193のSDoH概念/属性の注釈を付した629名のがん患者のコーパスを作成した。 変換器(BERT)モデルによる双方向エンコーダ表現は,SDoH概念抽出において0.9216,0.9441,属性をSDoH概念にリンクする0.9617,0.9626の厳密/高信頼F1スコアを達成した。 オピオイド患者からの新しいアノテーションを用いてNLPモデルを微調整し、厳密/高信頼F1スコアを0.8172/0.8502から0.8312/0.8679に改善した。 19種類のSDoHの抽出率は, がん患者の70%から10個のSDoHを抽出できるが, 9個のSDoHは低抽出率(がん患者の70%)であった。 事前トレーニングされたトランスフォーマーモデルを備えたSODAパッケージはhttps://github.com/uf-hobiinformatics-lab/SDoH_SODAで公開されている。

Objective: We aim to develop an open-source natural language processing (NLP) package, SODA (i.e., SOcial DeterminAnts), with pre-trained transformer models to extract social determinants of health (SDoH) for cancer patients, examine the generalizability of SODA to a new disease domain (i.e., opioid use), and evaluate the extraction rate of SDoH using cancer populations. Methods: We identified SDoH categories and attributes and developed an SDoH corpus using clinical notes from a general cancer cohort. We compared four transformer-based NLP models to extract SDoH, examined the generalizability of NLP models to a cohort of patients prescribed with opioids, and explored customization strategies to improve performance. We applied the best NLP model to extract 19 categories of SDoH from the breast (n=7,971), lung (n=11,804), and colorectal cancer (n=6,240) cohorts. Results and Conclusion: We developed a corpus of 629 cancer patients notes with annotations of 13,193 SDoH concepts/attributes from 19 categories of SDoH. The Bidirectional Encoder Representations from Transformers (BERT) model achieved the best strict/lenient F1 scores of 0.9216 and 0.9441 for SDoH concept extraction, 0.9617 and 0.9626 for linking attributes to SDoH concepts. Fine-tuning the NLP models using new annotations from opioid use patients improved the strict/lenient F1 scores from 0.8172/0.8502 to 0.8312/0.8679. The extraction rates among 19 categories of SDoH varied greatly, where 10 SDoH could be extracted from >70% of cancer patients, but 9 SDoH had a low extraction rate (<70% of cancer patients). The SODA package with pre-trained transformer models is publicly available at https://github.com/uf-hobiinformatics-lab/SDoH_SODA.
翻訳日:2023-05-22 19:35:06 公開日:2023-05-18
# 投機復号による変圧器からの高速推論

Fast Inference from Transformers via Speculative Decoding ( http://arxiv.org/abs/2211.17192v2 )

ライセンス: Link先を確認
Yaniv Leviathan, Matan Kalman, Yossi Matias(参考訳) トランスフォーマーのような大規模な自己回帰モデルからの推論は、kトークンのスローデコードである。 本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。 提案手法の核心にあるのは,(1)ハード言語モデリングタスクには,より効率的なモデルによって適切に近似できる簡単なサブタスクが含まれていること,(2)投機的実行と新しいサンプリング手法を用いることで,近似モデルの出力に対して並列に実行し,複数のトークンを同時に生成し,分散を変更することなく,大規模モデルからの正確な復号を高速に行えることにある。 本手法は,既存のオフ・ザ・棚モデルを再トレーニングやアーキテクチャ変更なしに高速化することができる。 我々は、T5-XXL上でこれを実証し、2X-3Xの加速度を標準のT5X実装と比較した。

Inference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial runs of the model. In this work we introduce speculative decoding - an algorithm to sample from autoregressive models faster without any changes to the outputs, by computing several tokens in parallel. At the heart of our approach lie the observations that (1) hard language-modeling tasks often include easier subtasks that can be approximated well by more efficient models, and (2) using speculative execution and a novel sampling method, we can make exact decoding from the large models faster, by running them in parallel on the outputs of the approximation models, potentially generating several tokens concurrently, and without changing the distribution. Our method can accelerate existing off-the-shelf models without retraining or architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration compared to the standard T5X implementation, with identical outputs.
翻訳日:2023-05-22 19:34:08 公開日:2023-05-18
# テキスト生成のためのモデルベース評価指標の盲点について

On the Blind Spots of Model-Based Evaluation Metrics for Text Generation ( http://arxiv.org/abs/2212.10020v3 )

ライセンス: Link先を確認
Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho, James Glass, Yulia Tsvetkov(参考訳) 本研究では,テキスト生成評価指標のロバスト性分析のための有用だがしばしば無視される手法,すなわち合成データを用いたストレステストについて検討する。 基本的に、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。 本稿では,最近提案されている言語モデルに基づく評価指標について,オープンエンド生成,翻訳,要約の課題について検討する。 私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。 例えば、BERTScoreは、要約におけるトランケーションエラーと混同されており、MAUVE(GPT-2上に構築されている)は、世代の初期または中期のエラーに敏感である。 さらに,これらの盲点の背後にある理由を調査し,テキスト生成の信頼性を高めるための実践的回避策を提案する。 私たちはコードとデータをhttps://github.com/cloudygoose/blindspot_nlgでリリースした。

In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore is confused by truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning or middle of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation. We have released our code and data at https://github.com/cloudygoose/blindspot_nlg.
翻訳日:2023-05-22 19:25:38 公開日:2023-05-18
# テキスト型パーソナリティコンピューティングの課題と今後の方向性

On Text-based Personality Computing: Challenges and Future Directions ( http://arxiv.org/abs/2212.06711v3 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, Laura Boeschoten, Erik-Jan van Kesteren, Mahdi Shafiee Kamalabad, Daniel L Oberski(参考訳) テキストベースパーソナリティコンピューティング(tpc)はnlpで多くの研究関心を集めている。 本稿では,研究コミュニティの注意を喚起する15の課題について述べる。 これらの課題は、パーソナリティ分類、測定品質、データセット、パフォーマンス評価、モデリング選択、倫理と公平性といったトピックによって整理される。 それぞれの課題に取り組む際には、NLPと社会科学の両方の視点を組み合わせるだけでなく、具体的な提案も提供します。 より有効で信頼性の高いTPC研究を刺激したいと思っています。

Text-based personality computing (TPC) has gained many research interests in NLP. In this paper, we describe 15 challenges that we consider deserving the attention of the research community. These challenges are organized by the following topics: personality taxonomies, measurement quality, datasets, performance evaluation, modelling choices, as well as ethics and fairness. When addressing each challenge, not only do we combine perspectives from both NLP and social sciences, but also offer concrete suggestions. We hope to inspire more valid and reliable TPC research.
翻訳日:2023-05-22 19:23:48 公開日:2023-05-18
# 多段階時系列予測のためのコプラ共形予測

Copula Conformal Prediction for Multi-step Time Series Forecasting ( http://arxiv.org/abs/2212.03281v2 )

ライセンス: Link先を確認
Sophia Sun, Rose Yu(参考訳) 正確な不確実性測定は、堅牢で信頼性の高い機械学習システムを構築するための重要なステップである。 共形予測(conformal prediction)は、実装の容易さ、統計カバレッジの保証、基盤となる予測器の汎用性で有名な分布のない不確実性定量化アルゴリズムである。 しかし、時系列に対する既存の共形予測アルゴリズムは、時間依存を考慮せずに単段予測に制限される。 本稿では,多変量・多段階時系列予測のためのCopula Conformal Predictionアルゴリズム,CopulaCPTSを提案する。 copulacpts が有限サンプル妥当性保証を持つことを証明した。 いくつかの合成および実世界の多変量時系列データセットにおいて、CopulaCPTSは既存の手法よりも多段階予測タスクに対してより校正され、鋭い信頼区間を生成することを示す。

Accurate uncertainty measurement is a key step to building robust and reliable machine learning systems. Conformal prediction is a distribution-free uncertainty quantification algorithm popular for its ease of implementation, statistical coverage guarantees, and versatility for underlying forecasters. However, existing conformal prediction algorithms for time series are limited to single-step prediction without considering the temporal dependency. In this paper we propose a Copula Conformal Prediction algorithm for multivariate, multi-step Time Series forecasting, CopulaCPTS. We prove that CopulaCPTS has finite sample validity guarantee. On several synthetic and real-world multivariate time series datasets, we show that CopulaCPTS produces more calibrated and sharp confidence intervals for multi-step prediction tasks than existing techniques.
翻訳日:2023-05-22 19:23:09 公開日:2023-05-18
# 典型的な量子エンタングルメントの対称性分類

Symmetry Classification of Typical Quantum Entanglement ( http://arxiv.org/abs/2301.07778v2 )

ライセンス: Link先を確認
Yuhan Liu, Jonah Kudler-Flam, Kohei Kawabata(参考訳) 典型的な量子状態の絡み合いエントロピー、またはページ曲線は、量子多体系や量子重力において重要な役割を果たす。 しかし、量子エンタングルメントにおける対称性の役割についてはほとんど理解されていない。 ここでは、時間反転、電荷共役、カイラル変換の10倍の基本対称性クラスに基づいて、自由フェルミオンの典型的な量子エンタングルメントの包括的分類、あるいは同値な対称性を持つ二次sachdev-ye-kitaevモデルを確立する。 ランダム行列理論の解析的および数値計算により、平均エンタングルメントエントロピーに対する体積法則の寄与はロバストであり、対称性の影響を受けていないことを示す。 逆に、絡み合いのエントロピーの平均と分散の定数項が、各対称性クラスに固有の10倍の普遍値をもたらすことを明らかにする。 これらの定数項は、時間反転対称性による絡み合いスペクトルの大域的スケーリングと、キラルあるいは粒子ホール対称性による絡み合いスペクトルの中心における特異ピークの組み合わせに由来する。 我々の研究は、量子物理学における対称性と絡み合いの相互作用を解明し、対称性に富む量子カオスの特徴付けを提供する。

Entanglement entropy of typical quantum states, also known as the Page curve, plays an important role in quantum many-body systems and quantum gravity. However, little has hitherto been understood about the role of symmetry in quantum entanglement. Here, we establish the comprehensive classification of typical quantum entanglement for free fermions, or equivalently the quadratic Sachdev-Ye-Kitaev model with symmetry, on the basis of the tenfold fundamental symmetry classes of time reversal, charge conjugation, and chiral transformation. Through both analytical and numerical calculations of random matrix theory, we show that the volume-law contribution to average entanglement entropy is robust and remains unaffected by symmetry. Conversely, we uncover that the constant terms of the average and variance of entanglement entropy yield tenfold universal values unique to each symmetry class. These constant terms originate from the combination of a global scaling of the entanglement spectrum due to time-reversal symmetry and a singular peak at the center of the entanglement spectrum due to chiral or particle-hole symmetry. Our work elucidates the interplay of symmetry and entanglement in quantum physics and provides characterization of symmetry-enriched quantum chaos.
翻訳日:2023-05-22 19:15:12 公開日:2023-05-18
# CaRE:高構成ロボットの構成問題の原因を見つける

CaRE: Finding Root Causes of Configuration Issues in Highly-Configurable Robots ( http://arxiv.org/abs/2301.07690v2 )

ライセンス: Link先を確認
Md Abir Hossen, Sonam Kharade, Bradley Schmerl, Javier C\'amara, Jason M. O'Kane, Ellen C. Czaplinski, Katherine A. Dzurilla, David Garlan, Pooyan Jamshidi(参考訳) ロボットシステムは、組合せ的に大きな構成空間を持つサブシステムを持ち、数百から数千の可能なソフトウェアとハードウェアの構成オプションが非自明に相互作用する。 コンフィグレーション可能なパラメータは、特定の目的を目標に設定されるが、誤って設定された場合に機能障害を引き起こす可能性がある。 このような障害の根本原因を見つけることは、指数関数的に大きな構成空間と、ロボットの構成設定とパフォーマンスの間の依存関係のために難しい。 本稿では,因果性レンズによる機能障害の根本原因の診断法であるcareを提案する。 careは、因果構造を学習し、ロボットのパフォーマンス指標に対するオプションの因果効果を推定することにより、様々な構成オプションとロボットのパフォーマンス目標との間の因果関係を抽象化する。 本研究では,観測された機能障害の根本原因を見つけ,物理的ロボット(HuskyとTurtlebot3)とシミュレーション(Gazebo)の両方で実験を行うことにより診断された根本原因を検証し,CaREの有効性を示す。 さらに,シミュレーションでロボットから学習した因果モデル(例:ガゼボのハスキー)が,異なるプラットフォーム(例:ハスキーとタートルボット)の物理的ロボットに移動可能であることを実証する。

Robotic systems have subsystems with a combinatorially large configuration space and hundreds or thousands of possible software and hardware configuration options interacting non-trivially. The configurable parameters are set to target specific objectives, but they can cause functional faults when incorrectly configured. Finding the root cause of such faults is challenging due to the exponentially large configuration space and the dependencies between the robot's configuration settings and performance. This paper proposes CaRE -- a method for diagnosing the root cause of functional faults through the lens of causality. CaRE abstracts the causal relationships between various configuration options and the robot's performance objectives by learning a causal structure and estimating the causal effects of options on robot performance indicators. We demonstrate CaRE's efficacy by finding the root cause of the observed functional faults and validating the diagnosed root cause by conducting experiments in both physical robots (Husky and Turtlebot 3) and in simulation (Gazebo). Furthermore, we demonstrate that the causal models learned from robots in simulation (e.g., Husky in Gazebo) are transferable to physical robots across different platforms (e.g., Husky and Turtlebot 3).
翻訳日:2023-05-22 19:14:52 公開日:2023-05-18
# kagome rydberg原子配列における創発的ガラス状挙動

Emergent glassy behavior in a kagome Rydberg atom array ( http://arxiv.org/abs/2301.07127v2 )

ライセンス: Link先を確認
Zheng Yan, Yan-Cheng Wang, Rhine Samajdar, Subir Sachdev, and Zi Yang Meng(参考訳) 我々は,カゴメ格子Rydberg原子アレイの現実的ハミルトニアン上での大規模量子モンテカルロシミュレーション結果を示す。 本システムには本態性障害はないが, 興味深いことに, 2つの原子価結合固体相の間に位置するパラメータ空間の領域において, 大規模システムサイズにおける静的および動的特性の解析を行った。 このガラス状領域の範囲はエドワーズ=アンダーソン秩序パラメータを用いて境界づけられ、その相転移は2つの近位価結合固体(英語版)、および自明な常磁性相への交差が同定される。 我々は、ガラス相の奥深くで本質的に遅い(想像上の)時間ダイナミクスを実証し、ほとんど縮退した局所最小値の量子乱れ位相を検出するための実験的考察を議論する。 提案手法は, 実時間ガラス現象の研究への新たな経路を開拓し, 現行のリドバーグプラットフォームにおける固体や液体以外の量子物質の相の量子シミュレーションの可能性を強調した。

We present large-scale quantum Monte Carlo simulation results on a realistic Hamiltonian of kagome-lattice Rydberg atom arrays. Although the system has no intrinsic disorder, intriguingly, our analyses of static and dynamic properties on large system sizes reveal \textit{emergent} glassy behavior in a region of parameter space located between two valence bond solid phases. The extent of this glassy region is demarcated using the Edwards-Anderson order parameter, and its phase transitions to the two proximate valence bond solids -- as well as the crossover towards a trivial paramagnetic phase -- are identified. We demonstrate the intrinsically slow (imaginary) time dynamics deep inside the glassy phase and discuss experimental considerations for detecting such a quantum disordered phase with numerous nearly degenerate local minima. Our proposal paves a new route to the study of real-time glassy phenomena and highlights the potential for quantum simulation of a distinct phase of quantum matter beyond solids and liquids in current-generation Rydberg platforms.
翻訳日:2023-05-22 19:14:29 公開日:2023-05-18
# 拡散モデルはデータ多様体の次元をひそかに知っている

Your diffusion model secretly knows the dimension of the data manifold ( http://arxiv.org/abs/2212.12611v4 )

ライセンス: Link先を確認
Jan Stanczuk, Georgios Batzolis, Carola-Bibiane Sch\"onlieb(参考訳) 本研究では,訓練された拡散モデルを用いてデータ多様体の次元を推定する新しいフレームワークを提案する。 拡散モデルは、スコア関数、すなわち、ノイズ崩壊したターゲット分布のログ密度の勾配を、様々なレベルの破損に対して近似する。 高次元の周囲空間に埋め込まれた多様体の周りにデータが集中すると、崩壊のレベルが低下するにつれて、スコア関数は多様体の方向に向けられ、この方向が最大可能性増加の方向となる。 したがって、小さなレベルの腐敗に対して、拡散モデルはデータ多様体の正規バンドルの近似へのアクセスを提供する。 これにより、接空間の次元を推定できるので、データ多様体の内在次元を推定することができる。 本手法は, 拡散モデルに基づくデータ多様体次元の最初の推定器であり, ユークリッドデータと画像データの両方の制御実験において, 確立された統計推定器よりも優れている。

In this work, we propose a novel framework for estimating the dimension of the data manifold using a trained diffusion model. A diffusion model approximates the score function i.e. the gradient of the log density of a noise-corrupted version of the target distribution for varying levels of corruption. We prove that, if the data concentrates around a manifold embedded in the high-dimensional ambient space, then as the level of corruption decreases, the score function points towards the manifold, as this direction becomes the direction of maximal likelihood increase. Therefore, for small levels of corruption, the diffusion model provides us with access to an approximation of the normal bundle of the data manifold. This allows us to estimate the dimension of the tangent space, thus, the intrinsic dimension of the data manifold. To the best of our knowledge, our method is the first estimator of the data manifold dimension based on diffusion models and it outperforms well established statistical estimators in controlled experiments on both Euclidean and image data.
翻訳日:2023-05-22 19:13:21 公開日:2023-05-18
# DiSProD: 計画のための分布の微分可能なシンボル伝搬

DiSProD: Differentiable Symbolic Propagation of Distributions for Planning ( http://arxiv.org/abs/2302.01491v3 )

ライセンス: Link先を確認
Palash Chatterjee, Ashutosh Chapagain, Weizhe Chen and Roni Khardon(参考訳) 本稿では、連続状態と行動空間における確率的遷移を持つ環境向けに開発されたオンラインプランナーであるDiSProDを紹介する。 DiSProDは、独立性の仮定と分布の近似伝播を用いて、与えられたポリシーで条件付けられた将来の軌跡の分布をキャプチャするシンボリックグラフを構築する。 シンボリックグラフはポリシーの値の微分可能表現を提供し、ロングホリゾン探索の効率的な勾配に基づく最適化を可能にする。 近似分布の伝播は多くの軌道の集合と見なすことができ、スパース報酬や確率的環境を扱うのに適している。 ロボットシステムの離散時間計画とリアルタイム制御において,disprodと最先端プランナーの比較実験を行った。 提案手法は, 確率的環境, 探索深度に対する感度, 報酬の分散, 大規模行動空間の処理において, 既存のプランナーを改良する。 さらに実際の実験では、DiSProDが地上の車両や表面の船をコントロールして障害物を回避できることが示されている。

The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy's value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.
翻訳日:2023-05-22 19:05:40 公開日:2023-05-18
# 位置スケール騒音モデルにおける因果効果推定--最大確率と独立性テスト

Cause-Effect Inference in Location-Scale Noise Models: Maximum Likelihood vs. Independence Testing ( http://arxiv.org/abs/2301.12930v2 )

ライセンス: Link先を確認
Xiangyu Sun, Oliver Schulte(参考訳) 因果発見の根本的な問題は因果推論であり、2つの確率変数間の正しい因果方向を学習する。 原因関数と雑音項の関数としての効果をモデル化することで、生成関数のクラスに関する仮定を活用できる重要な進歩がなされた。 最近導入されたヘテロセダスティックな位置スケールノイズ汎関数モデル(LSNM)は、表現力と識別可能性を保証する。 最大化可能性に基づくLSNMモデル選択は、ノイズ分布が正しく特定されたときに最先端の精度を達成する。 しかし, 広範囲な実験的評価により, 雑音分布形態がユーザによって不特定化されると, 精度が著しく低下することを示す。 本分析は, 原因方向よりも反因果方向の条件分散が小さい場合に主に発生することを示す。 代替として、残差独立試験による因果モデル選択は、ノイズの特定や条件分散の誤解を招きやすいことを発見した。

A fundamental problem of causal discovery is cause-effect inference, learning the correct causal direction between two random variables. Significant progress has been made through modelling the effect as a function of its cause and a noise term, which allows us to leverage assumptions about the generating function class. The recently introduced heteroscedastic location-scale noise functional models (LSNMs) combine expressive power with identifiability guarantees. LSNM model selection based on maximizing likelihood achieves state-of-the-art accuracy, when the noise distributions are correctly specified. However, through an extensive empirical evaluation, we demonstrate that the accuracy deteriorates sharply when the form of the noise distribution is misspecified by the user. Our analysis shows that the failure occurs mainly when the conditional variance in the anti-causal direction is smaller than that in the causal direction. As an alternative, we find that causal model selection through residual independence testing is much more robust to noise misspecification and misleading conditional variance.
翻訳日:2023-05-22 19:05:07 公開日:2023-05-18
# 集合類似性行列を用いた多層ハイパーグラフクラスタリング

Multilayer hypergraph clustering using the aggregate similarity matrix ( http://arxiv.org/abs/2301.11657v2 )

ライセンス: Link先を確認
Kalle Alaluusua, Konstantin Avrachenkov, B. R. Vinay Kumar, Lasse Leskel\"a(参考訳) 我々は,ハイパーグラフ確率ブロックモデル (HSBM) の多層版におけるコミュニティ回復問題を考察する。 各層は、N頂点上のd-ユニフォームHSBMの独立実現と関連している。 一対の頂点に付随する超辺の集合数を含む類似性行列が与えられた場合、N頂点の非随伴群への分割を得ることが目的である。 本研究では,半定値プログラミング (sdp) の手法を調査し,モデルパラメータに関する情報理論的条件を得ることにより,アソートケースとディスソートケースの両方において,厳密なリカバリを保証する。

We consider the community recovery problem on a multilayer variant of the hypergraph stochastic block model (HSBM). Each layer is associated with an independent realization of a d-uniform HSBM on N vertices. Given the similarity matrix containing the aggregated number of hyperedges incident to each pair of vertices, the goal is to obtain a partition of the N vertices into disjoint communities. In this work, we investigate a semidefinite programming (SDP) approach and obtain information-theoretic conditions on the model parameters that guarantee exact recovery both in the assortative and the disassortative cases.
翻訳日:2023-05-22 19:04:07 公開日:2023-05-18
# SemEval-2023タスク4におけるエピキュラス:定義の活用による議論の背景にある人的価値の予測の改善

Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions ( http://arxiv.org/abs/2302.13925v2 )

ライセンス: Link先を確認
Christian Fang, Qixiang Fang, Dong Nguyen(参考訳) 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。 人的価値は正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人的価値の定義(アノテーション命令や検証済み調査項目の形で)を組み込むことで、より良い予測性能が得られるという仮説を立てる。 我々は,提案するモデルが主催者のベースラインよりも優れた性能を示し,マクロf1スコアを最大18%改善した。

We describe our experiments for SemEval-2023 Task 4 on the identification of human values behind arguments (ValueEval). Because human values are subjective concepts which require precise definitions, we hypothesize that incorporating the definitions of human values (in the form of annotation instructions and validated survey items) during model training can yield better prediction performance. We explore this idea and show that our proposed models perform better than the challenge organizers' baselines, with improvements in macro F1 scores of up to 18%.
翻訳日:2023-05-22 18:56:26 公開日:2023-05-18
# マルチモーダル画像合成のための事前学習拡散モデル

Modulating Pretrained Diffusion Models for Multimodal Image Synthesis ( http://arxiv.org/abs/2302.12764v2 )

ライセンス: Link先を確認
Cusuh Ham, James Hays, Jingwan Lu, Krishna Kumar Singh, Zhifei Zhang, Tobias Hinz(参考訳) 事前学習した拡散モデルを用いて条件付き画像合成を可能にするマルチモーダルコンディショニングモジュール(MCM)を提案する。 これまでのマルチモーダル合成作業は、スクラッチや微調整済みネットワークからのトレーニングネットワークに依存しており、どちらも大規模で最先端の拡散モデルでは計算コストがかかる。 提案手法は事前訓練ネットワークを用いるが, <textit{does> では拡散ネットワークのパラメータの更新は不要である。 MCMは、拡散モデルのオリジナルの訓練中に見つからなかった2Dモーダル(セマンティックセグメンテーションマップ、スケッチなど)を用いて、サンプリング中に拡散ネットワークの予測を変調する訓練を受けた小さなモジュールである。 その結果,mcmは画像の空間配置をユーザが制御でき,画像生成プロセスの制御性が向上することがわかった。 mcmのトレーニングは、元の拡散ネットからの勾配を必要としないため安価であり、ベース拡散モデルのパラメータの数のわずか$\sim$$$%$であり、限られた数のトレーニング例のみを使用してトレーニングされる。 本手法は,無条件およびテキスト条件モデルに関する評価を行い,生成画像の制御と条件付け入力に対するアライメントの改善を実証する。

We present multimodal conditioning modules (MCM) for enabling conditional image synthesis using pretrained diffusion models. Previous multimodal synthesis works rely on training networks from scratch or fine-tuning pretrained networks, both of which are computationally expensive for large, state-of-the-art diffusion models. Our method uses pretrained networks but \textit{does not require any updates to the diffusion network's parameters}. MCM is a small module trained to modulate the diffusion network's predictions during sampling using 2D modalities (e.g., semantic segmentation maps, sketches) that were unseen during the original training of the diffusion model. We show that MCM enables user control over the spatial layout of the image and leads to increased control over the image generation process. Training MCM is cheap as it does not require gradients from the original diffusion net, consists of only $\sim$1$\%$ of the number of parameters of the base diffusion model, and is trained using only a limited number of training examples. We evaluate our method on unconditional and text-conditional models to demonstrate the improved control over the generated images and their alignment with respect to the conditioning inputs.
翻訳日:2023-05-22 18:56:15 公開日:2023-05-18
# リパラメトリゼーションによるニューラルネットのパラメータ空間の幾何学

The Geometry of Neural Nets' Parameter Spaces Under Reparametrization ( http://arxiv.org/abs/2302.07384v2 )

ライセンス: Link先を確認
Agustinus Kristiadi and Felix Dangel and Philipp Hennig(参考訳) モデル再パラメータ化(model reparametrization)は、微積分の可変性規則に従い、ニューラルネットワークのトレーニングを改善する一般的な方法である。 しかし、ヘッセン系平坦度測度、最適化軌道、確率密度のモードなどの矛盾を誘発できるため、問題となることもある。 これは下流解析を複雑にする:例えば、任意の再パラメータ化がそれらの関係を変化させるので、平坦性と一般化を決定的に関連付けることはできない。 本研究では,再パラメータ化下でのニューラルネットの不変性について,リーマン幾何学の観点から検討する。 この観点から、不変性は、計量を明示的に表現し、正しい関連する変換規則を使用する場合、任意のニューラルネット固有の性質である。 これは、計量は常に存在するが、しばしば暗黙的に同一視と見なされ、記法から外され、再パラメータ化によって失われる。 ミニマムの平坦性の測定,最適化,確率密度の最大化について考察する。 最後に,不変性が役に立つ興味深い方向について考察する。

Model reparametrization, which follows the change-of-variable rule of calculus, is a popular way to improve the training of neural nets. But it can also be problematic since it can induce inconsistencies in, e.g., Hessian-based flatness measures, optimization trajectories, and modes of probability densities. This complicates downstream analyses: e.g. one cannot definitively relate flatness with generalization since arbitrary reparametrization changes their relationship. In this work, we study the invariance of neural nets under reparametrization from the perspective of Riemannian geometry. From this point of view, invariance is an inherent property of any neural net if one explicitly represents the metric and uses the correct associated transformation rules. This is important since although the metric is always present, it is often implicitly assumed as identity, and thus dropped from the notation, then lost under reparametrization. We discuss implications for measuring the flatness of minima, optimization, and for probability-density maximization. Finally, we explore some interesting directions where invariance is useful.
翻訳日:2023-05-22 18:54:04 公開日:2023-05-18
# XAIアライメント問題:人間中心のAI説明可能性技術をどのように評価すべきかを再考する

The XAI Alignment Problem: Rethinking How Should We Evaluate Human-Centered AI Explainability Techniques ( http://arxiv.org/abs/2303.17707v2 )

ライセンス: Link先を確認
Weina Jin and Xiaoxiao Li and Ghassan Hamarneh(参考訳) 説明可能な人工知能(XAI)のための適切な評価目標を設定することは、XAIアルゴリズムを人間のコミュニケーション規範に従い、人間の推論プロセスをサポートし、AI説明に対する人間の要求を満たすために不可欠である。 本稿では,XAI 評価において最も広範に普及した人為的な概念,説明可能性について検討する。 可視性は、機械の説明が人間の説明といかに妥当かを測定する。 可塑性は従来,AI説明可能性タスクの重要な評価対象として定式化されてきた。 我々は、この考え方に反対し、XAIの可視性に対する最適化と評価が有害である場合があり、モデル理解性、透明性、信頼性を達成する上では常に効果がないことを示す。 具体的には、XAIアルゴリズムの評価により、機械の説明が人間の説明と全く同じ内容を表現するように正規化され、人間の説明の基本的動機から逸脱する: 類似または代替的な推論軌跡を、理解可能な形式や言語に順応しながら表現する。 モデル決定の正確性に関わらず、XAIの妥当性を最適化することは、モデル信頼性を損なう。それは、人間と人間の説明において、もっともらしい説明が典型的に正しい決定を暗示する、という重要な仮定を破るからである。 XAI評価の最終目標である代わりに、XAIの有用性を最適化するために説明を解釈する人間のプロセスの中間的な計算プロキシとして機能することができる。 さらに、AI説明タスクとオブジェクトのローカライゼーションタスクを区別することで、説明可能性固有の評価対象の重要性を強調した。

Setting proper evaluation objectives for explainable artificial intelligence (XAI) is vital for making XAI algorithms follow human communication norms, support human reasoning processes, and fulfill human needs for AI explanations. In this position paper, we examine the most pervasive human-grounded concept in XAI evaluation, explanation plausibility. Plausibility measures how reasonable the machine explanation is compared to the human explanation. Plausibility has been conventionally formulated as an important evaluation objective for AI explainability tasks. We argue against this idea, and show how optimizing and evaluating XAI for plausibility is sometimes harmful, and always ineffective in achieving model understandability, transparency, and trustworthiness. Specifically, evaluating XAI algorithms for plausibility regularizes the machine explanation to express exactly the same content as human explanation, which deviates from the fundamental motivation for humans to explain: expressing similar or alternative reasoning trajectories while conforming to understandable forms or language. Optimizing XAI for plausibility regardless of the model decision correctness also jeopardizes model trustworthiness, because doing so breaks an important assumption in human-human explanation that plausible explanations typically imply correct decisions, and vice versa; and violating this assumption eventually leads to either undertrust or overtrust of AI models. Instead of being the end goal in XAI evaluation, plausibility can serve as an intermediate computational proxy for the human process of interpreting explanations to optimize the utility of XAI. We further highlight the importance of explainability-specific evaluation objectives by differentiating the AI explanation task from the object localization task.
翻訳日:2023-05-22 18:47:02 公開日:2023-05-18
# SPD多様体上のアダプティブリーマン計量

Adaptive Riemannian Metrics on SPD Manifolds ( http://arxiv.org/abs/2303.15477v3 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Tianyang Xu, Zhiwu Huang, Xiao-Jun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する本質的な能力のため、機械学習において広く注目を集めている。 SPD多様体の非ユークリッド幾何学を反映するために、多くのリーマン計量が提案されている。 しかし、既存の固定計量テンソルはSPD行列学習、特にSPDニューラルネットワークの準最適性能をもたらす可能性がある。 この制限を緩和するために、引き戻しの概念を活用し、SPD多様体に対する適応リーマン計量を提案する。 さらに,指標の包括的理論も提示する。 3つのデータセットによる実験により,提案手法により,SPDネットワークの性能が向上することが示された。

Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity of encoding underlying structural correlation in data. To reflect the non-Euclidean geometry of SPD manifolds, many successful Riemannian metrics have been proposed. However, existing fixed metric tensors might lead to sub-optimal performance for SPD matrices learning, especially for SPD neural networks. To remedy this limitation, we leverage the idea of pullback and propose adaptive Riemannian metrics for SPD manifolds. Moreover, we present comprehensive theories for our metrics. Experiments on three datasets demonstrate that equipped with the proposed metrics, SPD networks can exhibit superior performance.
翻訳日:2023-05-22 18:45:53 公開日:2023-05-18
# 人間中心人工知能ソフトウェアシステムのための要求工学フレームワーク

Requirements Engineering Framework for Human-centered Artificial Intelligence Software Systems ( http://arxiv.org/abs/2303.02920v2 )

ライセンス: Link先を確認
Khlood Ahmad, Mohamed Abdelrazek, Chetan Arora, Arbind Agrahari Baniya, Muneera Bano, John Grundy(参考訳) [文脈]ソフトウェアソリューション構築に使用される人工知能(AI)コンポーネントは近年著しく増加している。 しかしながら、これらのソリューションの多くは技術的な側面に注目し、人間中心の側面を無視する。 [目的]AIベースのソフトウェアを構築する際の要件エンジニアリング(RE)において、人間中心の側面を含めることによって、より責任を持ち、偏見がなく、包括的なAIベースのソフトウェアソリューションを達成することができます。 [方法]本論文では,人間中心型AIガイドラインに基づく新たなフレームワークと,人中心型AIソフトウェアに対する要件収集を支援するユーザサーベイを提案する。 これらの要件を明確化するためのカタログと、それらを視覚的に示すための概念モデルを提供します。 結果]バーチャルリアリティ(VR)ユーザを対象とした360度映像の品質向上のための要件を提示し,モデル化するためのケーススタディに適用した。 結論] 提案されたアプローチが,プロジェクトの人間中心のニーズを完全に理解する上で有効であることに気付きました。 さらに、このフレームワークは、AIベースのソフトウェアのエンジニアリングプロセスの後期段階に対して、初期段階で取得すべき要件を理解するのに役立った。

[Context] Artificial intelligence (AI) components used in building software solutions have substantially increased in recent years. However, many of these solutions focus on technical aspects and ignore critical human-centered aspects. [Objective] Including human-centered aspects during requirements engineering (RE) when building AI-based software can help achieve more responsible, unbiased, and inclusive AI-based software solutions. [Method] In this paper, we present a new framework developed based on human-centered AI guidelines and a user survey to aid in collecting requirements for human-centered AI-based software. We provide a catalog to elicit these requirements and a conceptual model to present them visually. [Results] The framework is applied to a case study to elicit and model requirements for enhancing the quality of 360 degree~videos intended for virtual reality (VR) users. [Conclusion] We found that our proposed approach helped the project team fully understand the human-centered needs of the project to deliver. Furthermore, the framework helped to understand what requirements need to be captured at the initial stages against later stages in the engineering process of AI-based software.
翻訳日:2023-05-22 18:45:19 公開日:2023-05-18
# 変分拡散オートエンコーダ:事前学習拡散モデルからの潜時空間抽出

Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models ( http://arxiv.org/abs/2304.12141v2 )

ライセンス: Link先を確認
Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb(参考訳) 深層生成モデリングへの広く認識されているアプローチとして、変分オートエンコーダ(vaes)は依然として生成画像の品質に問題があり、しばしば目に見えるぼやけを呈する。 この問題は、等方性ガウス型として条件付きデータ分布を近似する非現実的な仮定である$p(\textbf{x} | \textbf{z})$に由来する。 本稿では,この問題に対処するための新しい解決法を提案する。 本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。 さらに,点数にベイズ則を適用した後エンコーダ学習を解析的に導出できることを実証する。 これは vae-esque の深い潜在変数モデルにつながり、$p(\textbf{x} | \textbf{z})$ 上のガウス仮定の必要性や、分離されたデコーダネットワークのトレーニングを廃止する。 本手法は, 事前学習した拡散モデルの強度を活かし, 潜伏空間に装備することにより, VAEの性能を著しく向上させる。

As a widely recognized approach to deep generative modeling, Variational Auto-Encoders (VAEs) still face challenges with the quality of generated images, often presenting noticeable blurriness. This issue stems from the unrealistic assumption that approximates the conditional data distribution, $p(\textbf{x} | \textbf{z})$, as an isotropic Gaussian. In this paper, we propose a novel solution to address these issues. We illustrate how one can extract a latent space from a pre-existing diffusion model by optimizing an encoder to maximize the marginal data log-likelihood. Furthermore, we demonstrate that a decoder can be analytically derived post encoder-training, employing the Bayes rule for scores. This leads to a VAE-esque deep latent variable model, which discards the need for Gaussian assumptions on $p(\textbf{x} | \textbf{z})$ or the training of a separate decoder network. Our method, which capitalizes on the strengths of pre-trained diffusion models and equips them with latent spaces, results in a significant enhancement to the performance of VAEs.
翻訳日:2023-05-22 18:38:32 公開日:2023-05-18
# カモフラージュの共進化

Coevolution of Camouflage ( http://arxiv.org/abs/2304.11793v2 )

ライセンス: Link先を確認
Craig Reynolds(参考訳) 自然界のカモフラージュは捕食者と獲物との競争から生じているようである。 生き残るためには捕食者は獲物を見つけなければならず、獲物は発見されないようにしなければならない。 この研究は、その敵対関係の抽象モデルをシミュレートする。 進化する捕食者視覚と競合して、獲物の迷彩パターン(色のテクスチャ)を進化させ、クライプシを見る。 その「終生」捕食者は、カモフラージュした獲物をよりよく見つけることを学ぶ。 この2Dシミュレーションの環境は、通常、自然のシーンの一連の写真によって提供される。 このモデルは、獲物と捕食者の2つの進化した個体群に基づいている。 これらの集団間の相互の対立は、効果的な捕食カモフラージュと「破壊」カモフラージュに熟練した捕食者の両方を生み出すことができる。 その結果、自然のカモフラージュや、カモフラージュの知覚現象をより一般的に研究するための、オープンソースの人工生命モデルが生まれました。

Camouflage in nature seems to arise from competition between predator and prey. To survive, predators must find prey, and prey must avoid being found. This work simulates an abstract model of that adversarial relationship. It looks at crypsis through evolving prey camouflage patterns (as color textures) in competition with evolving predator vision. During their "lifetime" predators learn to better locate camouflaged prey. The environment for this 2D simulation is provided by a set of photographs, typically of natural scenes. This model is based on two evolving populations, one of prey and another of predators. Mutual conflict between these populations can produce both effective prey camouflage and predators skilled at "breaking" camouflage. The result is an open source artificial life model to help study camouflage in nature, and the perceptual phenomenon of camouflage more generally.
翻訳日:2023-05-22 18:37:32 公開日:2023-05-18
# PersonaLLM:GPT-3.5の性格特性と性差の表現能力の検討

PersonaLLM: Investigating the Ability of GPT-3.5 to Express Personality Traits and Gender Differences ( http://arxiv.org/abs/2305.02547v2 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Xubo Cao, Jad Kabbara(参考訳) 様々な産業におけるチャットボットの設計における大規模言語モデル(LLM)の多くのユースケースや、異なる性格特性に対応するためにチャットボットをパーソナライズすることの重要性を示す研究にもかかわらず、パーソナライズされたLLMの挙動が特定の性格特性を正確に、一貫して反映できるかどうかを評価することはほとんど行われていない。 GPT-3.5(text-davinci-003)を用いたケーススタディを行い、大きな5人格と性別の役割を割り当てた場合、LLMが一貫した個性特性を持つコンテンツを生成できるかどうかを検討する。 われわれは320のLDMペルソナ(32のビッグファイブパーソナタイプで5人の女性と5人の男性)を作成し、44の古典的なビッグファイブインベントリ(BFI)を完成させ、その子供時代について800ワードの物語を書いた。 その結果、LLMペルソナの自己申告したBFIスコアは、割り当てられた性格タイプと一致しており、5つの特徴全てに大きな効果が認められた。 さらに、与えられたパーソナリティタイプと一部の言語調査と単語数(liwc)との間に有意な相関が認められた。 例えば、外向性は社会的・活動的な単語と関連しており、神経症は否定的な感情や精神健康に関連する単語と関連している。 また, LLM 生成した男女の人格記述において, 技術的, 文化的用語の使用に有意な差が認められた。 この研究は、パーソナライズされたLLMとそのヒューマンAI会話への応用について、さらなる研究のための第一歩となる。

Despite the many use cases for large language models (LLMs) in the design of chatbots in various industries and the research showing the importance of personalizing chatbots to cater to different personality traits, little work has been done to evaluate whether the behaviors of personalized LLMs can reflect certain personality traits accurately and consistently. We consider studying the behavior of LLM-based simulated agents which refer to as LLM personas and present a case study with GPT-3.5 (text-davinci-003) to investigate whether LLMs can generate content with consistent, personalized traits when assigned Big Five personality types and gender roles. We created 320 LLM personas (5 females and 5 males for each of the 32 Big Five personality types) and prompted them to complete the classic 44-item Big Five Inventory (BFI) and then write an 800-word story about their childhood. Results showed that LLM personas' self-reported BFI scores are consistent with their assigned personality types, with large effect sizes found on all five traits. Moreover, significant correlations were found between assigned personality types and some Linguistic Inquiry and Word Count (LIWC) psycholinguistic features of their writings. For instance, extroversion is associated with pro-social and active words, and neuroticism is associated with words related to negative emotions and mental health. Besides, we only found significant differences in using technological and cultural words in writing between LLM-generated female and male personas. This work provides a first step for further research on personalized LLMs and their applications in Human-AI conversation.
翻訳日:2023-05-22 18:27:51 公開日:2023-05-18
# 確率的プーリングを用いた証明可能なマルチインスタンス深層auc最大化

Provable Multi-instance Deep AUC Maximization with Stochastic Pooling ( http://arxiv.org/abs/2305.08040v2 )

ライセンス: Link先を確認
Dixain Zhu, Bokun Wang, Zhi Chen, Yaxing Wang, Milan Sonka, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,1つのクラスラベルをインスタンスの袋に割り当てるマルチインスタンス学習 (mil) に対する深層auc最大化 (dam) の新たな応用について検討する。 milの標準的なプーリングメソッドが要求する、バックプロパゲーションのための {gpu} メモリにバッグサイズがロードするには大きすぎる、という文脈で、無視されているが無視できない計算上の課題に対処します。 この課題に対処するために,多レベル構成関数としてプールド予測上の損失関数を定式化することにより,確率最適化の精神における分散還元確率プール法を提案する。 確率的合成最適化と非凸 min-max 最適化の手法を合成することにより,確率的スムーズドマックスプーリングや確率的アテンションベースプールを用いた統一的かつ証明可能なMIDAM (MIDAM) アルゴリズムを提案し,各バッグのいくつかのインスタンスをサンプリングし,確率的勾配推定器を計算し,モデルパラメータを更新する。 我々は,提案したMIDAMアルゴリズムと最先端DAMアルゴリズムとの類似の収束率を確立する。 従来のMILデータセットと医療データセットに関する広範な実験は、MIDAMアルゴリズムの優位性を実証している。

This paper considers a novel application of deep AUC maximization (DAM) for multi-instance learning (MIL), in which a single class label is assigned to a bag of instances (e.g., multiple 2D slices of a CT scan for a patient). We address a neglected yet non-negligible computational challenge of MIL in the context of DAM, i.e., bag size is too large to be loaded into {GPU} memory for backpropagation, which is required by the standard pooling methods of MIL. To tackle this challenge, we propose variance-reduced stochastic pooling methods in the spirit of stochastic optimization by formulating the loss function over the pooled prediction as a multi-level compositional function. By synthesizing techniques from stochastic compositional optimization and non-convex min-max optimization, we propose a unified and provable muli-instance DAM (MIDAM) algorithm with stochastic smoothed-max pooling or stochastic attention-based pooling, which only samples a few instances for each bag to compute a stochastic gradient estimator and to update the model parameter. We establish a similar convergence rate of the proposed MIDAM algorithm as the state-of-the-art DAM algorithms. Our extensive experiments on conventional MIL datasets and medical datasets demonstrate the superiority of our MIDAM algorithm.
翻訳日:2023-05-22 18:17:42 公開日:2023-05-18
# CPL-NoViD:オンラインコミュニティにおけるノーム違反検出のための文脈認識型プロンプト学習

CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities ( http://arxiv.org/abs/2305.09846v2 )

ライセンス: Link先を確認
Zihao He, Jonathan May, Kristina Lerman(参考訳) オンラインコミュニティにおける規範違反の検出は、オンライン議論のための健全で安全な空間を維持する上で重要である。 既存の機械学習のアプローチは、これらのコンテキスト固有のタスクの微調整モデルに固有の課題があるため、さまざまなコミュニティにわたる多様なルールや解釈に適応するのに苦労することが多い。 本稿では,様々なルールにまたがる規範違反を検出するために,プロンプトベース学習を用いる新しい手法である,規範違反検出のための文脈認識型プロンプトベース学習(cpl-novid)を提案する。 CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回り、異なるルールタイプにわたるパフォーマンスの向上を示す。 重要なことは、クロスルール型およびクロスコミュニティノルム違反検出に優れるだけでなく、数ショットの学習シナリオにも適応性を示す。 最も注目すべきは、既存のベンチマークを上回って、標準違反検出における新しい最先端の確立である。 我々の研究は、文脈に敏感な規範違反検出のための素早い学習の可能性を強調し、オンラインコミュニティモデレーターをより良いサポートするために、より適応性のある文脈認識モデルの研究の道を開く。

Detecting norm violations in online communities is critical to maintaining healthy and safe spaces for online discussions. Existing machine learning approaches often struggle to adapt to the diverse rules and interpretations across different communities due to the inherent challenges of fine-tuning models for such context-specific tasks. In this paper, we introduce Context-aware Prompt-based Learning for Norm Violation Detection (CPL-NoViD), a novel method that employs prompt-based learning to detect norm violations across various types of rules. CPL-NoViD outperforms the baseline by incorporating context through natural language prompts and demonstrates improved performance across different rule types. Significantly, it not only excels in cross-rule-type and cross-community norm violation detection but also exhibits adaptability in few-shot learning scenarios. Most notably, it establishes a new state-of-the-art in norm violation detection, surpassing existing benchmarks. Our work highlights the potential of prompt-based learning for context-sensitive norm violation detection and paves the way for future research on more adaptable, context-aware models to better support online community moderators.
翻訳日:2023-05-22 18:09:14 公開日:2023-05-18
# 微分可能な非線形最小二乗による対応不確かさの学習

Learning Correspondence Uncertainty via Differentiable Nonlinear Least Squares ( http://arxiv.org/abs/2305.09527v2 )

ライセンス: Link先を確認
Dominik Muhle, Lukas Koestler, Krishna Murthy Jatavallabhula, Daniel Cremers(参考訳) 特徴対応から相対ポーズ推定を行う際の不確実性を考慮した,微分可能な非線形最小二乗フレームワークを提案する。 具体的には,確率論的正規極性制約の対称バージョンを導入し,カメラポーズ推定手法を用いて特徴位置の共分散を推定する手法を提案する。 我々は、KITTIおよびEuRoC実世界のデータセットと同様に、我々の合成に対するアプローチを評価する。 合成データセットでは,学習した共分散が真の雑音分布を正確に近似していることを確認する。 実世界実験では, 特徴抽出アルゴリズムによらず, 最先端の非確率的, 確率的アプローチを一貫して上回っていることがわかった。

We propose a differentiable nonlinear least squares framework to account for uncertainty in relative pose estimation from feature correspondences. Specifically, we introduce a symmetric version of the probabilistic normal epipolar constraint, and an approach to estimate the covariance of feature positions by differentiating through the camera pose estimation procedure. We evaluate our approach on synthetic, as well as the KITTI and EuRoC real-world datasets. On the synthetic dataset, we confirm that our learned covariances accurately approximate the true noise distribution. In real world experiments, we find that our approach consistently outperforms state-of-the-art non-probabilistic and probabilistic approaches, regardless of the feature extraction algorithm of choice.
翻訳日:2023-05-22 18:08:52 公開日:2023-05-18
# ULIP-2:3次元理解のためのスケーラブルなマルチモーダル事前学習を目指して

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding ( http://arxiv.org/abs/2305.08275v2 )

ライセンス: Link先を確認
Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 近年のマルチモーダル事前学習法は, 3次元形状, 2次元形状, 言語記述の多モーダル特徴の整合による3次元表現学習において有望な効果を示した。 しかし、3Dアプリケーションのためのマルチモーダルデータを収集するために既存のマルチモーダル事前学習フレームワークが使用している手法はスケーラビリティと包括性に欠けており、多モーダル学習の可能性を最大限に制限する可能性がある。 主なボトルネックは、言語モダリティのスケーラビリティと包括性にある。 そこで本研究では,最先端の大規模マルチモーダルモデルを利用して3次元オブジェクトの汎用言語を自動生成する,三モード事前学習フレームワークULIP-2を紹介する。 3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 我々は,2つの大規模3DデータセットであるObjaverseとShapeNetで実験を行い,ULIP-2をトレーニングするための3Dポイントクラウド,画像,言語をトリモーダルデータセットで拡張した。 ULIP-2は、ModelNet40の下流ゼロショット分類(トップ1の精度で74.0%)を大幅に改善し、現実世界のScanObjectNNベンチマークでは91.5%の精度で14万のパラメータしか取得できず、人間の3Dアノテーションなしでスケーラブルなマルチモーダル3D表現学習のブレークスルーを示す。 生成されたトリモーダルデータセットとともに、コードはhttps://github.com/salesforce/ULIPで見ることができる。

Recent advancements in multimodal pre-training methods have shown promising efficacy in 3D representation learning by aligning multimodal features across 3D shapes, their 2D counterparts, and language descriptions. However, the methods used by existing multimodal pre-training frameworks to gather multimodal data for 3D applications lack scalability and comprehensiveness, potentially constraining the full potential of multimodal learning. The main bottleneck lies in the language modality's scalability and comprehensiveness. To address this, we introduce ULIP-2, a tri-modal pre-training framework that leverages state-of-the-art large multimodal models to automatically generate holistic language counterparts for 3D objects. It does not require any 3D annotations, and is therefore scalable to large datasets. We conduct experiments on two large-scale 3D datasets, Objaverse and ShapeNet, and augment them with tri-modal datasets of 3D point clouds, images, and language for training ULIP-2. ULIP-2 achieves significant improvements on downstream zero-shot classification on ModelNet40 (74.0% in top-1 accuracy); on the real-world ScanObjectNN benchmark, it obtains 91.5% in overall accuracy with only 1.4 million parameters, signifying a breakthrough in scalable multimodal 3D representation learning without human 3D annotations. The code, along with the generated tri-modal datasets, can be found at https://github.com/salesforce/ULIP.
翻訳日:2023-05-22 18:06:49 公開日:2023-05-18
# 統計的および機械学習によるcovid-19患者の死亡率と肺塞栓症のat-admission予測--国際コホート研究

At-Admission Prediction of Mortality and Pulmonary Embolism in COVID-19 Patients Using Statistical and Machine Learning Methods: An International Cohort Study ( http://arxiv.org/abs/2305.11199v1 )

ライセンス: Link先を確認
Munib Mesinovic, Xin Ci Wong, Giri Shan Rajahram, Barbara Wanjiru Citarella, Kalaiarasu M. Peariasamy, Frank van Someren Greve, Piero Olliaro, Laura Merson, Lei Clifton, Christiana Kartsonaki, ISARIC Characterisation Group(参考訳) 2022年9月までに、SARS-CoV-2感染の6億人以上が世界中で報告され、650万人以上の死者を出した。 しかし、covid-19死亡リスク推定器は、小さな非表現サンプルと方法論上の制限によってしばしば開発される。 感染症の最も重篤な予防的合併症の1つとして、covid-19患者の肺塞栓症(pe)予測ツールを開発することが極めて重要である。 国際的なコホートから80万人以上のcovid-19患者のデータセットを用いて,peの発生と入会時の死亡を予測する,コストに敏感な勾配強調型機械学習モデルを提案する。 PEと死の予測には,ロジスティック回帰,コックス比例ハザードモデル,シェープリー値を用いた。 予測モデルではAUROCは75.9%,74.2%,感度は67.5%,全死亡率は72.7%であった。 PE予測モデルは、イギリスとスペインで74.5%のAUROC、63.5%のAUROC、78.9%のAUROC、95.7%の感度で別々に評価された。 入院時, 年齢, 性別, 入院域, 肺疾患, 認知症, 糖尿病, 高血圧, 癌, 肥満, 喫煙) および症状 (混乱, 胸痛, 疲労, 発熱, 筋肉や関節痛, 呼吸の短さ) は, 入院時の最も重要な臨床予測因子であった。 国際的なコホートから開発した機械学習モデルは、リスクの高い患者の病院におけるリスク優先順位付けの制御に役立ちます。

By September, 2022, more than 600 million cases of SARS-CoV-2 infection have been reported globally, resulting in over 6.5 million deaths. COVID-19 mortality risk estimators are often, however, developed with small unrepresentative samples and with methodological limitations. It is highly important to develop predictive tools for pulmonary embolism (PE) in COVID-19 patients as one of the most severe preventable complications of COVID-19. Using a dataset of more than 800,000 COVID-19 patients from an international cohort, we propose a cost-sensitive gradient-boosted machine learning model that predicts occurrence of PE and death at admission. Logistic regression, Cox proportional hazards models, and Shapley values were used to identify key predictors for PE and death. Our prediction model had a test AUROC of 75.9% and 74.2%, and sensitivities of 67.5% and 72.7% for PE and all-cause mortality respectively on a highly diverse and held-out test set. The PE prediction model was also evaluated on patients in UK and Spain separately with test results of 74.5% AUROC, 63.5% sensitivity and 78.9% AUROC, 95.7% sensitivity. Age, sex, region of admission, comorbidities (chronic cardiac and pulmonary disease, dementia, diabetes, hypertension, cancer, obesity, smoking), and symptoms (any, confusion, chest pain, fatigue, headache, fever, muscle or joint pain, shortness of breath) were the most important clinical predictors at admission. Our machine learning model developed from an international cohort can serve to better regulate hospital risk prioritisation of at-risk patients.
翻訳日:2023-05-22 17:59:10 公開日:2023-05-18
# マスク分布シフトによる不完全データの予測

Prediction with Incomplete Data under Agnostic Mask Distribution Shift ( http://arxiv.org/abs/2305.11197v1 )

ライセンス: Link先を確認
Yichen Zhu, Jian Yuan, Bo Jiang, Tao Lin, Haiming Jin, Xinbing Wang, Chenghu Zhou(参考訳) 値が欠けているデータは、多くのアプリケーションでユビキタスです。 近年、観察された特徴と欠落パターンを示すマスクからなる不完全なデータのみによる予測に注目が集まっている。 既存の手法では、トレーニングとテストの分布は同じであり、実際のシナリオでは違反する可能性があると仮定している。 本稿では,分布シフトを考慮した不完全データを用いた予測について検討する。 完全特徴とラベルの結合分布が不変な場合に焦点を当てるが,マスク分布の欠如は,トレーニングとテストの間に不可知的に変化する可能性がある。 一般化を達成するために,各マスクに対して不変最適予測器が存在するという観測結果を活用する。 個別に学習する際の指数的爆発を避けるため, 2重パラメータ化手法を用いて最適予測器を共同で近似した。 これは、学習した予測者がマスク内相関と特徴とマスクの間の関係を頼れるようにすることで望ましくない副作用である。 我々はこの効果を最小限に抑えるために相関を解除する。 以上の手法を組み合わせることで,StableMissと呼ばれる新しい予測手法を提案する。 合成データと実世界のデータセットの両方に関する広範囲な実験により、stablemissは堅牢であり、マスクの分布シフトによらず最先端の手法よりも優れていることが示された。

Data with missing values is ubiquitous in many applications. Recent years have witnessed increasing attention on prediction with only incomplete data consisting of observed features and a mask that indicates the missing pattern. Existing methods assume that the training and testing distributions are the same, which may be violated in real-world scenarios. In this paper, we consider prediction with incomplete data in the presence of distribution shift. We focus on the case where the underlying joint distribution of complete features and label is invariant, but the missing pattern, i.e., mask distribution may shift agnostically between training and testing. To achieve generalization, we leverage the observation that for each mask, there is an invariant optimal predictor. To avoid the exponential explosion when learning them separately, we approximate the optimal predictors jointly using a double parameterization technique. This has the undesirable side effect of allowing the learned predictors to rely on the intra-mask correlation and that between features and mask. We perform decorrelation to minimize this effect. Combining the techniques above, we propose a novel prediction method called StableMiss. Extensive experiments on both synthetic and real-world datasets show that StableMiss is robust and outperforms state-of-the-art methods under agnostic mask distribution shift.
翻訳日:2023-05-22 17:58:39 公開日:2023-05-18
# DClEVerNet:大規模ネットワーク施設における効率的なEV充電スケジューリングのためのDeep Combinatorial Learning

DClEVerNet: Deep Combinatorial Learning for Efficient EV Charging Scheduling in Large-scale Networked Facilities ( http://arxiv.org/abs/2305.11195v1 )

ライセンス: Link先を確認
Bushra Alshehhi, Areg Karapetyan, Khaled Elbassioni, Sid Chi-Kin Chau, and Majid Khonji(参考訳) 輸送の電化により、電気自動車(EV)の上昇は配電網を著しく圧迫し、性能が低下し安定性が損なわれる可能性がある。 これらの新しい負荷を低コストで処理するために、現代の電力グリッドは、スケーラブルで効率的な方法でEV充電スケジューリングを最適化できるコーディネートまたは'smart''の充電戦略を必要とする。 この観点から,本研究は大規模ネットワーク型ev充電ステーションの予約管理プログラムに焦点を当てている。 ネットワークの利用可能な電力容量とステーションの占有限度を考慮しつつ、EV利用者の総福祉利益を最大化する時間結合二元最適化問題を定式化する。 解の質を高く保ちながら大規模に課題に取り組むために,ディープラーニングと近似アルゴリズムの分野からのテクニックを組み合わせたデータ駆動最適化フレームワークを導入する。 このフレームワークの重要な要素は、トレーニングセットに含まれるものよりもはるかに大きい問題サイズへの直接外挿を可能にするニューラルネットワークの新しい入出力処理スキームである。 合成および実世界のデータトレースに基づく大規模数値シミュレーションにより、2つの代表的なスケジューリングアルゴリズムに対する提案手法の有効性と優位性を検証する。 最後に、提案フレームワークの即時拡張をいくつかリストアップし、さらなる調査の展望を概説することで、コントリビューションをまとめます。

With the electrification of transportation, the rising uptake of electric vehicles (EVs) might stress distribution networks significantly, leaving their performance degraded and stability jeopardized. To accommodate these new loads cost-effectively, modern power grids require coordinated or ``smart'' charging strategies capable of optimizing EV charging scheduling in a scalable and efficient fashion. With this in view, the present work focuses on reservation management programs for large-scale, networked EV charging stations. We formulate a time-coupled binary optimization problem that maximizes EV users' total welfare gain while accounting for the network's available power capacity and stations' occupancy limits. To tackle the problem at scale while retaining high solution quality, a data-driven optimization framework combining techniques from the fields of Deep Learning and Approximation Algorithms is introduced. The framework's key ingredient is a novel input-output processing scheme for neural networks that allows direct extrapolation to problem sizes substantially larger than those included in the training set. Extensive numerical simulations based on synthetic and real-world data traces verify the effectiveness and superiority of the presented approach over two representative scheduling algorithms. Lastly, we round up the contributions by listing several immediate extensions to the proposed framework and outlining the prospects for further exploration.
翻訳日:2023-05-22 17:58:19 公開日:2023-05-18
# vaxformer:sars-cov-2ワクチン設計のための抗原性制御トランスフォーマー

Vaxformer: Antigenicity-controlled Transformer for Vaccine Design Against SARS-CoV-2 ( http://arxiv.org/abs/2305.11194v1 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Micha{\l} Kobiela, Achille Fraisse, Ajitha Rajan, Diego A. Oyarz\'un, Javier Antonio Alfaro(参考訳) SARS-CoV-2パンデミックは、ウイルスの現在および将来の変種から保護できる普遍的なワクチンを開発することの重要性を強調している。 本研究では, 天然の抗原性制御型SARS-CoV-2スパイクタンパク質の生産を目的とした, Vaxformer と呼ばれる新しい条件付きタンパク質言語モデルアーキテクチャを提案する。 ddgun protein stability measure, netmhcpan antigenicity score, and a structure fidelity score with alphafoldを用いてvaxformerモデルの生成したタンパク質配列を評価し,ワクチン開発における生存率を測定した。 以上の結果から,Vaxformerは既存の条件変化オートエンコーダモデルより優れており,抗原性制御型SARS-CoV-2スパイクタンパク質を生成することが示唆された。 これらの結果から,トランスフォーマーモデルがワクチン設計の理解を深め,世界保健の課題を緩和する役割を担っている可能性が示唆された。 この研究で使用されたコードはhttps://github.com/aryopg/vaxformer.orgで公開されている。

The SARS-CoV-2 pandemic has emphasised the importance of developing a universal vaccine that can protect against current and future variants of the virus. The present study proposes a novel conditional protein Language Model architecture, called Vaxformer, which is designed to produce natural-looking antigenicity-controlled SARS-CoV-2 spike proteins. We evaluate the generated protein sequences of the Vaxformer model using DDGun protein stability measure, netMHCpan antigenicity score, and a structure fidelity score with AlphaFold to gauge its viability for vaccine development. Our results show that Vaxformer outperforms the existing state-of-the-art Conditional Variational Autoencoder model to generate antigenicity-controlled SARS-CoV-2 spike proteins. These findings suggest promising opportunities for conditional Transformer models to expand our understanding of vaccine design and their role in mitigating global health challenges. The code used in this study is available at https://github.com/aryopg/vaxformer .
翻訳日:2023-05-22 17:57:58 公開日:2023-05-18
# 転送不能例を用いたデータ保護の一般化に向けて

Towards Generalizable Data Protection With Transferable Unlearnable Examples ( http://arxiv.org/abs/2305.11191v1 )

ライセンス: Link先を確認
Bin Fang and Bo Li and Shuang Wu and Tianyi Zheng and Shouhong Ding and Ran Yi and Lizhuang Ma(参考訳) 人工知能(AI)は、ほぼすべての領域で大きな影響を与えています。 この成功に寄与する重要な要因の1つは、機械学習モデルを構築するための高品質なデータへのアクセスである。 近年、人工知能におけるデータの役割は大幅に拡大されているため、データの安全な利用、特に不正なデータ利用に関して懸念が高まっている。 データエクスプロイトを軽減するために、データの非学習が導入された。 しかし、現在の理解不能な例は、幅広い適用性に必要な一般化を欠いている。 本稿では,転送不能な例を生成することにより,新たな汎用データ保護手法を提案する。 私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。 広範囲な実験を通じて,提案手法の一般化可能な保護能力の強化を実証する。

Artificial Intelligence (AI) is making a profound impact in almost every domain. One of the crucial factors contributing to this success has been the access to an abundance of high-quality data for constructing machine learning models. Lately, as the role of data in artificial intelligence has been significantly magnified, concerns have arisen regarding the secure utilization of data, particularly in the context of unauthorized data usage. To mitigate data exploitation, data unlearning have been introduced to render data unexploitable. However, current unlearnable examples lack the generalization required for wide applicability. In this paper, we present a novel, generalizable data protection method by generating transferable unlearnable examples. To the best of our knowledge, this is the first solution that examines data privacy from the perspective of data distribution. Through extensive experimentation, we substantiate the enhanced generalizable protection capabilities of our proposed method.
翻訳日:2023-05-22 17:57:38 公開日:2023-05-18
# クラウドベースの医療チャットボットにおけるAISecOps脅威モデリングの分類

Taxonomy of AISecOps Threat Modeling for Cloud Based Medical Chatbots ( http://arxiv.org/abs/2305.11189v1 )

ライセンス: Link先を確認
Ruby Annette J, Aisha Banu, Sharon Priya S, Subash Chandran(参考訳) 人工知能(AI)は、サイバーセキュリティを含む技術のあらゆる面で重要な役割を担っている。 チャットボットのような会話型aiの応用は、必要な患者にタイムリーかつ即時の医療支援を提供するため、医療分野でも非常に人気がある。 医療チャットボットは多くの機密情報を扱うので、これらのチャットボットのセキュリティは不可欠だ。 このようなクラウドにホストされた資産の機密性、完全性、可用性を確保するために、医療チャットボットはAISecOps(Artificial Intelligence for Secure IT Operations)を使用して監視することができる。 AISecOPsは、ITオペレーション、AI、セキュリティの3つの異なる相互関連ドメインをひとつのドメインとして統合する新興分野である。 クラウドの運用とセキュリティを総合的なフレームワークで考慮し、セキュリティの脅威を評価し、AIモデルに即時行動を取るためのトレーニングに必要なメトリクスを収集する。 この作業は、AISecOps技術を使用した自動脅威検出を可能にするために、チャットボットの各コンポーネントに関連する脅威をモデル化するためにSTRIDE脅威モデリングフレームワークを適用することに焦点を当てている。 この脅威モデリングフレームワークは、機密性の高いデータ共有を伴う医療チャットボットに合わせたものだが、セキュリティとコンプライアンスに関する金融サービス、公共セクター、政府セクターなど他のセクターで使用されているチャットボットにも適用することができる。

Artificial Intelligence (AI) is playing a vital role in all aspects of technology including cyber security. Application of Conversational AI like the chatbots are also becoming very popular in the medical field to provide timely and immediate medical assistance to patients in need. As medical chatbots deal with a lot of sensitive information, the security of these chatbots is crucial. To secure the confidentiality, integrity, and availability of cloud-hosted assets like these, medical chatbots can be monitored using AISecOps (Artificial Intelligence for Secure IT Operations). AISecOPs is an emerging field that integrates three different but interrelated domains like the IT operation, AI, and security as one domain, where the expertise from all these three domains are used cohesively to secure the cyber assets. It considers cloud operations and security in a holistic framework to collect the metrics required to assess the security threats and train the AI models to take immediate actions. This work is focused on applying the STRIDE threat modeling framework to model the possible threats involved in each component of the chatbot to enable the automatic threat detection using the AISecOps techniques. This threat modeling framework is tailored to the medical chatbots that involves sensitive data sharing but could also be applied for chatbots used in other sectors like the financial services, public sector, and government sectors that are concerned with security and compliance.
翻訳日:2023-05-22 17:57:29 公開日:2023-05-18
# 1次元対称性を保護した位相相の配列からキタエフハニカムスピン液体を組み立てる

Assembling Kitaev honeycomb spin liquids from arrays of 1D symmetry protected topological phases ( http://arxiv.org/abs/2305.11221v1 )

ライセンス: Link先を確認
Yue Liu, Nathanan Tantivasadakarn, Kevin Slagle, David F. Mross, Jason Alicea(参考訳) キタエフハニカムモデルは、大量の保存量によって正確に解くことができ、ギャップのない量子スピン液体相と、フォールトトレラント量子計算に関連するガッピングの子孫をサポートしている。 1次元クラスター状態様対称性保護トポロジー(SPT)相の異常エッジモードは, 保存量が少ない北エブモデルの変種に対して, 自然な構築ブロックを提供することを示す。 我々の変形の対称性は、キタエフ物質の文脈で研究された$\gamma$項の異方性バージョンに対応する単一の近近距離摂動を許容する。 正確な対角化を用いてモデルの位相図を決定する。 さらに、DMRGを用いて、基礎となる1次元SPTビルディングブロックが、ゼーマン場が補う2スピン相互作用のみを示すはしごハミルトンから現れることを示す。 このアプローチは、スピン軌道結合mott絶縁体においてキタエフハニカムスピン液体を実現するための新しい経路を示唆するかもしれない。

The Kitaev honeycomb model, which is exactly solvable by virtue of an extensive number of conserved quantities, supports a gapless quantum spin liquid phase as well as gapped descendants relevant for fault-tolerant quantum computation. We show that the anomalous edge modes of 1D cluster-state-like symmetry protected topological (SPT) phases provide natural building blocks for a variant of the Kitaev model that enjoys only a subextensive number of conserved quantities. The symmetry of our variant allows a single additional nearest-neighbor perturbation, corresponding to an anisotropic version of the $\Gamma$ term studied in the context of Kitaev materials. We determine the phase diagram of the model using exact diagonalization. Additionally, we use DMRG to show that the underlying 1D SPT building blocks can emerge from a ladder Hamiltonian exhibiting only two-spin interactions supplemented by a Zeeman field. Our approach may inform a new pathway toward realizing Kitaev honeycomb spin liquids in spin-orbit-coupled Mott insulators.
翻訳日:2023-05-22 17:50:36 公開日:2023-05-18
# 光ファイバーにおける量子モードの保護

Protecting quantum modes in optical fibres ( http://arxiv.org/abs/2305.11220v1 )

ライセンス: Link先を確認
M. A. T. Butt, P. Roth, G. K. L. Wong, M. H. Frosz, L. L. Sanchez-Soto, E. A. Anashkina, A. V. Andrianov, P. Banzer, P. S. J. Russell, G. Leuchs(参考訳) 偏光保存繊維は直交基底の2つの偏光状態を保持する。 しかし、量子通信は少なくとも2つの非直交状態を送る必要があり、どちらも保存できない。 本稿では,ファイバ内の偏光符号化を離散的だけでなく,連続変数のレジームにおいても使用可能な新しい方式を提案する。 ヘリカルにねじれたフォトニック結晶ファイバーの例として、偏光保存ファイバは適切な非直交モードを用いることで、全ポアンカー球上でこれらのモードを完全にスクランブルすることはなく、出力偏光は大円上に留まる、すなわち1次元の保護部分空間の中で、単一の変数でパラメータ化できることを示した。 これにより、nonorthogonalモードにおける量子励起のより効率的な測定が可能になる。

Polarization-preserving fibers maintain the two polarization states of an orthogonal basis. Quantum communication, however, requires sending at least two nonorthogonal states and these cannot both be preserved. We present a new scheme that allows for using polarization encoding in a fiber not only in the discrete, but also in the continuous-variable regime. For the example of a helically twisted photonic-crystal fibre, we experimentally demonstrate that using appropriate nonorthogonal modes, the polarization-preserving fiber does not fully scramble these modes over the full Poincar\'e sphere, but that the output polarization will stay on a great circle; that is, within a one-dimensional protected subspace, which can be parametrized by a single variable. This will allow for more efficient measurements of quantum excitations in nonorthogonal modes.
翻訳日:2023-05-22 17:50:19 公開日:2023-05-18
# ハイゼンベルク画像におけるテンソルネットワークによるガウスボソンサンプリングのシミュレーション

Simulating Gaussian Boson Sampling with Tensor Networks in the Heisenberg picture ( http://arxiv.org/abs/2305.11215v1 )

ライセンス: Link先を確認
Dario Cilluffo, Nicola Lorenzoni, Martin B. Plenio(参考訳) Schr\\odinger と Heisenberg の画像は量子力学の2つの等価な定式化であるが、一方を選択したシミュレーションは問題を解くのに必要な計算資源に大きな影響を与える。 ここでは,量子コンピューティングにおける中心的な問題であるガウス・ボーソンサンプリングにおいて,表現のよい選択が,実現可能かつ実現不可能な数値シミュレーション可能性の境界をシフトできることを実証する。 そこで本研究では,ハイゼンベルク画像におけるテンソルネットワークの時間発展に基づくボゾンサンプリングの確率分布を計算する新しい手法を提案する。 このアプローチは既存の方法の限界を克服し、例えば不均一光子損失の影響を受ける現実的なセットアップのシミュレーションを可能にする。 本研究では,本手法の有効性と量子コンピューティング研究の進展の可能性を示す。

Although the Schr\"odinger and Heisenberg pictures are two equivalent formulations of quantum mechanics, simulations performed choosing one over the other can greatly impact the computational resources required to solve a problem. Here we demonstrate that in Gaussian boson sampling, a central problem in quantum computing, a good choice of representation can shift the boundary between feasible and infeasible numerical simulability. To achieve this, we introduce a novel method for computing the probability distribution of boson sampling based on the time evolution of tensor networks in the Heisenberg picture. This approach overcomes limitations of existing methods and enables, for example, simulations of realistic setups affected by non-uniform photon losses. Our results demonstrate the effectiveness of the method and its potential to advance quantum computing research.
翻訳日:2023-05-22 17:50:04 公開日:2023-05-18
# 適応意味圧縮のための情報順序付きボトルネック

Information-Ordered Bottlenecks for Adaptive Semantic Compression ( http://arxiv.org/abs/2305.11213v1 )

ライセンス: Link先を確認
Matthew Ho, Xiaosheng Zhao, Benjamin Wandelt(参考訳) 情報順序付きボトルネック(iob, information-ordered bottleneck)は,データを最大化によって順序付けられた潜在変数に適応的に圧縮するように設計された神経層である。 再トレーニングなしでは、IOBノードは任意のボトルネック幅で切り離され、最初の潜伏変数で最も重要な情報をキャプチャすることができる。 複数のアプローチを統合することで、iobは与えられたエンコーディングアーキテクチャでほぼ最適の圧縮を実現し、意味的に意味のある方法で潜在信号に順序付けを割り当てることができることを示した。 iobsは、cnn、トランスフォーマー、拡散モデルといったsomaアーキテクチャの性能を活用することで、画像やテキストデータの埋め込みを圧縮する驚くべき能力を示している。 さらに, IOBを用いて大域的固有次元を推定する新たな理論を導入し, 複雑な合成データのSOTA次元推定を復元することを示す。 さらに,ヘテロジニアスデータセット上のアプリケーションを通して探索分析を行うためのモデルの有用性を提示し,データ複雑性のコンピュータ支援による発見を可能にした。

We present the information-ordered bottleneck (IOB), a neural layer designed to adaptively compress data into latent variables ordered by likelihood maximization. Without retraining, IOB nodes can be truncated at any bottleneck width, capturing the most crucial information in the first latent variables. Unifying several previous approaches, we show that IOBs achieve near-optimal compression for a given encoding architecture and can assign ordering to latent signals in a manner that is semantically meaningful. IOBs demonstrate a remarkable ability to compress embeddings of image and text data, leveraging the performance of SOTA architectures such as CNNs, transformers, and diffusion models. Moreover, we introduce a novel theory for estimating global intrinsic dimensionality with IOBs and show that they recover SOTA dimensionality estimates for complex synthetic data. Furthermore, we showcase the utility of these models for exploratory analysis through applications on heterogeneous datasets, enabling computer-aided discovery of dataset complexity.
翻訳日:2023-05-22 17:49:50 公開日:2023-05-18
# 量子計算のエネルギー消費性

Energy-Consumption Advantage of Quantum Computation ( http://arxiv.org/abs/2305.11212v1 )

ライセンス: Link先を確認
Florian Meier, Hayata Yamasaki(参考訳) コンピュータの性能測定の一環として,計算問題の解決におけるエネルギー消費が注目されている。 量子計算は、様々な計算資源の観点から古典計算よりも優れていることが知られているが、エネルギー消費におけるその利点は、エネルギーの物理的概念と有限の計算資源を持つ量子計算の複雑性のコンピュータ科学的概念を関連付ける理論的基礎が欠如しているため、分析が困難である。 このギャップを埋めるために,計算複雑性理論におけるクエリ複雑性の研究に従来用いられてきた,ブラックボックス・オラクルを用いた計算モデルに基づく量子計算と古典計算のエネルギー消費を研究する汎用フレームワークを提案する。 この枠組みにより、初期化、制御、量子誤り補正を含む全てのコストをカバーし、量子計算のエネルギー消費の上限を導出する。 また,エネルギー保存則とランダウアー・エミッション・バウンドに基づく古典計算のエネルギー消費の低限界を証明する技術も開発している。 これらの一般的な境界に基づいて、量子計算がサイモン問題に対する古典計算よりも指数関数エネルギー消費の利点を達成することを厳密に証明する。 これらの結果は、エネルギー消費に基づくクエリ・複雑度設定における量子優位性の物理的意義を探求する基本的な枠組みと技術を提供し、量子計算の利点を研究する代替の方法を開く。

Energy consumption in solving computational problems has been gaining growing attention as a part of the performance measures of computers. Quantum computation is known to offer advantages over classical computation in terms of various computational resources; however, its advantage in energy consumption has been challenging to analyze due to the lack of a theoretical foundation to relate the physical notion of energy and the computer-scientific notion of complexity for quantum computation with finite computational resources. To bridge this gap, we introduce a general framework for studying energy consumption of quantum and classical computation based on a computational model with a black-box oracle, as conventionally used for studying query complexity in computational complexity theory. With this framework, we derive an upper bound of energy consumption of quantum computation with covering all costs, including those of initialization, control, and quantum error correction; in particular, our analysis shows an energy-consumption bound for a finite-step Landauer-erasure protocol, progressing beyond the existing asymptotic bound. We also develop techniques for proving a lower bound of energy consumption of classical computation based on the energy-conservation law and the Landauer-erasure bound; significantly, our lower bound can be gapped away from zero no matter how energy-efficiently we implement the computation and is free from the computational hardness assumptions. Based on these general bounds, we rigorously prove that quantum computation achieves an exponential energy-consumption advantage over classical computation for Simon's problem. These results provide a fundamental framework and techniques to explore the physical meaning of quantum advantage in the query-complexity setting based on energy consumption, opening an alternative way to study the advantages of quantum computation.
翻訳日:2023-05-22 17:49:33 公開日:2023-05-18
# SU(2)対称性を持つスピン1/2系における平均純状態エンタングルメントエントロピー

Average Pure-State Entanglement Entropy in Spin 1/2 Systems with SU(2) Symmetry ( http://arxiv.org/abs/2305.11211v1 )

ライセンス: Link先を確認
Rohit Patil, Lucas Hackl, Marcos Rigol(参考訳) 非可換対称性は物理学の多くの分野において中心的な役割を担っており、近年は量子力学と熱化の区別が議論されている。 ここでは、非アーベルSU(2)対称性とそれがスピン1/2系に対して生成するリッチヒルベルト空間構造が、ランダム純状態と高励起ハミルトニアン固有状態の平均絡み合いエントロピーに作用することを示した。 異なる固定スピン J に対するゼロ磁化セクター (J_z=0) に着目して、エントロピーは、係数 s_A がスピン密度 j=2J/L と s_A(j --> 0)=ln(2) と s_A(j --> 1)=0 に依存する主体積法則項を持つことを示す。 また、第1次減算補正の挙動についても論じる。

Non-abelian symmetries play a central role in many areas in physics, and have been recently argued to result in distinct quantum dynamics and thermalization. Here we unveil the effect that the non-abelian SU(2) symmetry, and the rich Hilbert space structure that it generates for spin 1/2 systems, has on the average entanglement entropy of random pure states and of highly-excited Hamiltonian eigenstates. Focusing on the zero magnetization sector (J_z=0) for different fixed spin J, we show that the entanglement entropy has a leading volume law term whose coefficient s_A depends on the spin density j=2J/L, with s_A(j --> 0)=ln(2) and s_A(j --> 1)=0. We also discuss the behavior of the first subleading corrections.
翻訳日:2023-05-22 17:48:59 公開日:2023-05-18
# LIMA:アライメントにはあまり役に立たない

LIMA: Less Is More for Alignment ( http://arxiv.org/abs/2305.11206v1 )

ライセンス: Link先を確認
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy(参考訳) 大規模言語モデルは,(1)原文からの教師なし事前学習,(2)汎用表現の学習,(2)大規模命令チューニングと強化学習,(2)エンドタスクとユーザの嗜好の整合性向上,の2段階で訓練される。 この2つのステージの相対的重要性を、強化学習や人間の嗜好モデリングを必要とせず、1000個の注意深くキュレートされたプロンプトとレスポンスで、標準的な教師付き損失に微調整された65bのパラメータラマ言語モデルであるlimaの訓練によって測定する。 limaは極めて強力なパフォーマンスを示しており、トレーニングデータのほんの一握りの例から、トリップイテナリの計画から代替履歴の推測まで、複雑なクエリまで、特定のレスポンス形式を学習している。 さらに、モデルはトレーニングデータに現れない未確認のタスクに対してうまく一般化する傾向がある。 制御されたヒトの研究では、limaからの反応は43%でgpt-4と同等か厳密に好ましいが、bardと比較して58%、人間のフィードバックで訓練されたdavinci003に対して65%である。 これらの結果から,大言語モデルにおける知識のほとんどすべてが事前学習中に学習されることが示唆され,高品質なアウトプットを生成するためにモデルを教えるためには限られた命令チューニングデータのみが必要である。

Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better align to end tasks and user preferences. We measure the relative importance of these two stages by training LIMA, a 65B parameter LLaMa language model fine-tuned with the standard supervised loss on only 1,000 carefully curated prompts and responses, without any reinforcement learning or human preference modeling. LIMA demonstrates remarkably strong performance, learning to follow specific response formats from only a handful of examples in the training data, including complex queries that range from planning trip itineraries to speculating about alternate history. Moreover, the model tends to generalize well to unseen tasks that did not appear in the training data. In a controlled human study, responses from LIMA are either equivalent or strictly preferred to GPT-4 in 43% of cases; this statistic is as high as 58% when compared to Bard and 65% versus DaVinci003, which was trained with human feedback. Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.
翻訳日:2023-05-22 17:48:42 公開日:2023-05-18
# 光ファイバーを用いた超軽量暗黒物質の探索

Searching for Scalar Ultralight Dark Matter with Optical Fibers ( http://arxiv.org/abs/2305.11205v1 )

ライセンス: Link先を確認
J. Manley and R. Stump and R. Petery and and S. Singh(参考訳) 我々は、光ファイバをスカラー超光暗黒物質(UDM)検出器とみなし、繊維ベースの干渉計を用いて10^{-17} - 10^{-13}$ eV/$c^2$ $\left(10^{-3}10 \text{ Hz}\right)$の粒子質量を持つスカラーUDMを探索する。 ソリッドコアと中空コアファイバから構成されるこの検出器は、微細構造定数$\alpha$のスカラーUDMによる変調により、繊維の屈折率の相対的な振動に敏感である。 我々は, 検出器アレイの実装や低温冷却により, 光ファイバベースのスカラーudm探索がパラメータ空間の新しい領域に到達する可能性を示唆する。 このような探索は、それまでのdmによる粒子質量範囲(7\times 10^{-17} - 2\times 10^{-14}$ ev/$c^2$)よりも高い感度でダークマターの太陽ハロを探すのに特に適している。

We consider optical fibers as detectors for scalar ultralight dark matter (UDM) and propose using a fiber-based interferometer to search for scalar UDM with particle mass in the range $10^{-17} - 10^{-13}$ eV/$c^2$ $\left(10^{-3}- 10 \text{ Hz}\right)$. Composed of a solid core and a hollow core fiber, the proposed detector would be sensitive to relative oscillations in the fibers' refractive indices due to scalar UDM-induced modulations in the fine-structure constant $\alpha$. We predict that, implementing detector arrays or cryogenic cooling, the proposed optical fiber-based scalar UDM search has the potential to reach new regions of the parameter space. Such a search would be particularly well-suited to probe for a Solar halo of dark matter with a sensitivity exceeding that of previous DM searches over the particle mass range $7\times 10^{-17} - 2\times 10^{-14}$ eV/$c^2$.
翻訳日:2023-05-22 17:48:15 公開日:2023-05-18
# データ駆動アプローチによる太陽系外惑星の居住性評価--包括的な文献レビュー

Assessing Exoplanet Habitability through Data-driven Approaches: A Comprehensive Literature Review ( http://arxiv.org/abs/2305.11204v1 )

ライセンス: Link先を確認
Mithil Sai Jakka(参考訳) 太陽系外惑星の探査と研究は、天文学研究の最前線に留まっており、これらの天体が生み出す膨大な複雑なデータを探索するために、科学者が継続的に手法を革新し洗練するよう挑戦している。 このレビューは、外惑星の検出、分類、可視化、そして機械学習と計算モデルのますます重要な役割の間の相互作用に焦点を当て、この領域における新たなトレンドと進歩を照らすことを目的としている。 この分野における15の精巧に選択された学術論文を包括的に分析し、この探究の領域を旅する。 これらの論文は、それぞれ外惑星研究の異なる側面を表しており、総じて場の現在の状態に関する多次元的な視点を提供している。 彼らは天文学データの分析と解釈によって生じる課題を克服するために、機械学習技術の革新的応用に対する貴重な洞察を提供する。 Support Vector Machines (SVM) の応用からディープラーニングモデルまで、このレビューは外惑星研究で使用される機械学習アプローチの幅広いスペクトルをカプセル化している。 レビューはまた、これらの論文のデータによって織り込まれた物語を解明し、フィールドの勝利とトリビュールを詳述することを目指している。 KeplerやTESSといった多様なデータセットへの依存度の増加と、太陽系外惑星の検出と分類モデルにおける精度向上の推進を強調している。 物語は重要な内容と洞察で締めくくり、研究の糸をまとめて、フィールドが動いている方向の密集した絵を描いている。 したがって、この文献レビューは、学術的な探究だけでなく、我々の宇宙近辺を理解するための探究における科学的発見と革新の物語としても役立つ。

The exploration and study of exoplanets remain at the frontier of astronomical research, challenging scientists to continuously innovate and refine methodologies to navigate the vast, complex data these celestial bodies produce. This literature the review aims to illuminate the emerging trends and advancements within this sphere, specifically focusing on the interplay between exoplanet detection, classification, and visualization, and the the increasingly pivotal role of machine learning and computational models. Our journey through this realm of exploration commences with a comprehensive analysis of fifteen meticulously selected, seminal papers in the field. These papers, each representing a distinct facet of exoplanet research, collectively offer a multi-dimensional perspective on the current state of the field. They provide valuable insights into the innovative application of machine learning techniques to overcome the challenges posed by the analysis and interpretation of astronomical data. From the application of Support Vector Machines (SVM) to Deep Learning models, the review encapsulates the broad spectrum of machine learning approaches employed in exoplanet research. The review also seeks to unravel the story woven by the data within these papers, detailing the triumphs and tribulations of the field. It highlights the increasing reliance on diverse datasets, such as Kepler and TESS, and the push for improved accuracy in exoplanet detection and classification models. The narrative concludes with key takeaways and insights, drawing together the threads of research to present a cohesive picture of the direction in which the field is moving. This literature review, therefore, serves not just as an academic exploration, but also as a narrative of scientific discovery and innovation in the quest to understand our cosmic neighborhood.
翻訳日:2023-05-22 17:47:54 公開日:2023-05-18
# PDP:パラメータフリーで微分可能なプルーニング

PDP: Parameter-free Differentiable Pruning is All You Need ( http://arxiv.org/abs/2305.11203v1 )

ライセンス: Link先を確認
Minsik Cho, Saurabh Adya, Devang Naik(参考訳) DNNプルーニングは、モデルのサイズを小さくし、推論遅延を改善し、DNNアクセラレータの消費電力を最小化する一般的な方法である。 しかし、既存のアプローチは複雑すぎる、高価すぎる、あるいは不効率すぎるため、様々な視覚/言語タスク、DNNアーキテクチャ、構造化プルーニング制約に対処できない。 本稿では, モデルサイズ, 精度, トレーニングコストの最先端性を提供する, 効率的かつ効果的な列車時プルーニング手法であるパラメータフリー微分可能プルーニング(PDP)を提案する。 PDPはトレーニング中に重量の動的関数を使用して、所定のプルーニング対象に対してパラメータフリーな方法で重量の軟式プルーニングマスクを生成する。 微分可能ではあるが、PDPの単純さと効率性により、様々な視覚や自然言語のタスクに対して最先端のランダム/構造化/チャネルプルーニング結果を提供することができる。 例えば、MobileNet-v1では、PDPは86.6%の間隔で68.2%のトップ-1 ImageNet1kの精度を達成できる。 また、PDPはマルチジェネラル言語推論において83.1%以上の精度が得られ、BERTでは90%の精度が得られたが、既存の手法では81.5%の精度が得られた。 さらに、PDPはN:Mプルーニングやチャネルプルーニングなどの構造化プルーニングにも適用できる。 ResNet18の1:4構造化プルーニングでは、PDPは最先端のImageNet1kの精度を3.6%以上改善した。 ResNet50のチャネルプルーニングでは、PDPは最先端のImageNet1kの精度を0.6%削減した。

DNN pruning is a popular way to reduce the size of a model, improve the inference latency, and minimize the power consumption on DNN accelerators. However, existing approaches might be too complex, expensive or ineffective to apply to a variety of vision/language tasks, DNN architectures and to honor structured pruning constraints. In this paper, we propose an efficient yet effective train-time pruning scheme, Parameter-free Differentiable Pruning (PDP), which offers state-of-the-art qualities in model size, accuracy, and training cost. PDP uses a dynamic function of weights during training to generate soft pruning masks for the weights in a parameter-free manner for a given pruning target. While differentiable, the simplicity and efficiency of PDP make it universal enough to deliver state-of-the-art random/structured/channel pruning results on various vision and natural language tasks. For example, for MobileNet-v1, PDP can achieve 68.2% top-1 ImageNet1k accuracy at 86.6% sparsity, which is 1.7% higher accuracy than those from the state-of-the-art algorithms. Also, PDP yields over 83.1% accuracy on Multi-Genre Natural Language Inference with 90% sparsity for BERT, while the next best from the existing techniques shows 81.5% accuracy. In addition, PDP can be applied to structured pruning, such as N:M pruning and channel pruning. For 1:4 structured pruning of ResNet18, PDP improved the top-1 ImageNet1k accuracy by over 3.6% over the state-of-the-art. For channel pruning of ResNet50, PDP reduced the top-1 ImageNet1k accuracy by 0.6% from the state-of-the-art.
翻訳日:2023-05-22 17:47:28 公開日:2023-05-18
# ニューラルネットワークにおける脳にインスパイアされた学習

Brain-inspired learning in artificial neural networks: a review ( http://arxiv.org/abs/2305.11252v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Jascha Achterberg, Thomas Miconi, Louis Kirsch, Rojin Ziaei, S. Pardis Hajiseyedrazi, Jason Eshraghian(参考訳) ANN(Artificial Neural Network)は、機械学習において不可欠なツールとして登場し、画像や音声の生成、ゲームプレイ、ロボット工学など、さまざまな領域で顕著な成功を収めている。 しかし、アンの動作メカニズムと生物学的脳の動作、特に学習過程には根本的な違いがある。 本稿では,ニューラルネットワークにおける脳にインスパイアされた現在の学習表現について概説する。 シナプス可塑性など,より生物学的に有理な機構の統合を検討し,ネットワークの能力を高める。 さらに,このアプローチに伴う潜在的なメリットと課題についても検討した。 最終的には、この急速に進歩する分野における将来的な研究の道のりを見極め、知性の本質を理解することにつながるかもしれない。

Artificial neural networks (ANNs) have emerged as an essential tool in machine learning, achieving remarkable success across diverse domains, including image and speech generation, game playing, and robotics. However, there exist fundamental differences between ANNs' operating mechanisms and those of the biological brain, particularly concerning learning processes. This paper presents a comprehensive review of current brain-inspired learning representations in artificial neural networks. We investigate the integration of more biologically plausible mechanisms, such as synaptic plasticity, to enhance these networks' capabilities. Moreover, we delve into the potential advantages and challenges accompanying this approach. Ultimately, we pinpoint promising avenues for future research in this rapidly advancing field, which could bring us closer to understanding the essence of intelligence.
翻訳日:2023-05-22 17:39:50 公開日:2023-05-18
# 計算システマティクス:文学小説のジャンルをクラスタ化するアルゴリズムの比較

Computational thematics: Comparing algorithms for clustering the genres of literary fiction ( http://arxiv.org/abs/2305.11251v1 )

ライセンス: Link先を確認
Oleg Sobchuk, Artjoms \v{S}e\c{l}a(参考訳) 文学テキスト間の主題的類似性を捉える最良の方法は何か? この質問に対する答えを知ることは、本ジャンルの自動クラスタリングや、他のテーマグループ化に役立ちます。 本稿では,テキスト間の主題的類似性の教師なし学習のための様々なアルゴリズムを比較し,これを「計算的主題」と呼ぶ。 これらのアルゴリズムは、テキスト前処理、テキスト特徴の抽出、特徴リスト間の距離測定という3つの分析段階に属する。 それぞれのステップにはさまざまなオプションが含まれている。 アルゴリズムのあらゆる組み合わせは、事前にタグづけされた4つのジャンルのフィクションに属する本のコーパスをクラスタ化するタスクを与えられます。 このクラスタリングは"ground truth"というジャンルのラベルに対して検証される。 このようなアルゴリズムの比較により、計算テーマ解析の最良の組み合わせと最悪の組み合わせを学習することができる。 最高の方法と最悪の方法の鋭い違いを説明するために、hathitrust corpus of fictionから5000のランダム小説を集結させました。

What are the best methods of capturing thematic similarity between literary texts? Knowing the answer to this question would be useful for automatic clustering of book genres, or any other thematic grouping. This paper compares a variety of algorithms for unsupervised learning of thematic similarities between texts, which we call "computational thematics". These algorithms belong to three steps of analysis: text preprocessing, extraction of text features, and measuring distances between the lists of features. Each of these steps includes a variety of options. We test all the possible combinations of these options: every combination of algorithms is given a task to cluster a corpus of books belonging to four pre-tagged genres of fiction. This clustering is then validated against the "ground truth" genre labels. Such comparison of algorithms allows us to learn the best and the worst combinations for computational thematic analysis. To illustrate the sharp difference between the best and the worst methods, we then cluster 5000 random novels from the HathiTrust corpus of fiction.
翻訳日:2023-05-22 17:39:38 公開日:2023-05-18
# インターセクション・モデレーションに向けて:ケアとパワーを基盤としたモデレーションの代替モデル

Towards Intersectional Moderation: An Alternative Model of Moderation Built on Care and Power ( http://arxiv.org/abs/2305.11250v1 )

ライセンス: Link先を確認
Sarah A. Gilbert(参考訳) 現在のモデレーションモデルの欠点は、政策立案者、学者、技術者がコンテンツモデレーションの代替モデルについて推測することを促した。 代替モデルはオンラインスペースの将来への希望を提供するが、適切な足場なしでは失敗する可能性がある。 コミュニティモデレーターは、同様の問題に直面し、これらの課題をナビゲートするための創造的な方法を見つけました。 これらのモデレーターが行う決定、直面している課題、そして成功している場所についてさらに学ぶことで、代替モデレーションモデルの成功を確実にする方法に関する貴重な洞察を得ることができる。 本研究では、代替モデレーションモデルを用いたコミュニティであるr/AskHistoriansのモデレーターと共同でエスノグラフィを行い、モデレーションにおけるパワーの説明の重要性を強調した。 ブラックフェミニストの理論から、私はこれを「断続的モデレーション」と呼んでいる。 r/AskHistorianの別のモデレーションモデルに対する議論は、モデレーション決定に対する意見の相違、Redditで人種差別と戦うためのコラボレーション、激しい混乱と政策への影響の3つに焦点を合わせています。 この証拠を通じて、ボランティアのモデレーターが、ケアワークを通じて複数のパワー層をナビゲートしたことを示す。 交差点のモデレーションの実施が成功するためには、設計者は意思決定プロセスをサポートし、政策立案者はモデレーターが機能する社会技術システムの影響を考慮すべきである。

Shortcomings of current models of moderation have driven policy makers, scholars, and technologists to speculate about alternative models of content moderation. While alternative models provide hope for the future of online spaces, they can fail without proper scaffolding. Community moderators are routinely confronted with similar issues and have therefore found creative ways to navigate these challenges. Learning more about the decisions these moderators make, the challenges they face, and where they are successful can provide valuable insight into how to ensure alternative moderation models are successful. In this study, I perform a collaborative ethnography with moderators of r/AskHistorians, a community that uses an alternative moderation model, highlighting the importance of accounting for power in moderation. Drawing from Black feminist theory, I call this "intersectional moderation." I focus on three controversies emblematic of r/AskHistorians' alternative model of moderation: a disagreement over a moderation decision; a collaboration to fight racism on Reddit; and a period of intense turmoil and its impact on policy. Through this evidence I show how volunteer moderators navigated multiple layers of power through care work. To ensure the successful implementation of intersectional moderation, I argue that designers should support decision-making processes and policy makers should account for the impact of the sociotechnical systems in which moderators work.
翻訳日:2023-05-22 17:39:21 公開日:2023-05-18
# 事前学習汎用音声モデルを用いたアラビア方言識別のためのパラメータ効率よい学習手法

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model ( http://arxiv.org/abs/2305.11244v1 )

ライセンス: Link先を確認
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner(参考訳) 本研究では、アラビア方言識別(ADI)のための一般目的音声(GSM)モデルを応用するためのパラメータ効率学習(PEL)手法について検討する。 具体的には,多層エンコーダ・デコーダgsm定式化にトレーニング可能な機能を組み込むための,既定の凍結条件下での異なる設定について検討する。 私たちのアーキテクチャには、残余のアダプタとモデル再プログラミング(インプットプロンプティング)が含まれています。 アラビア語方言識別のためのgsmを条件としてトークンレベルラベルマッピングを設計する。 これは、多くの方言の中で語彙や発音のばらつきが高いためである。 我々は,バニラ微調整により,ADI-17データセットの最先端性を実現する。 さらに,ネットワークトレーニング可能なパラメータの2.5%しか使用せず,1.86%の精度で微調整を行うPEL法のトレーニング予算を削減した。 本研究は,オープンソースコードと事前学習モデルを用いて,小さなデータセットと限られた計算量を用いてアラビア方言を識別する方法を示す。

In this work, we explore Parameter-Efficient-Learning (PEL) techniques to repurpose a General-Purpose-Speech (GSM) model for Arabic dialect identification (ADI). Specifically, we investigate different setups to incorporate trainable features into a multi-layer encoder-decoder GSM formulation under frozen pre-trained settings. Our architecture includes residual adapter and model reprogramming (input-prompting). We design a token-level label mapping to condition the GSM for Arabic Dialect Identification (ADI). This is challenging due to the high variation in vocabulary and pronunciation among the numerous regional dialects. We achieve new state-of-the-art accuracy on the ADI-17 dataset by vanilla fine-tuning. We further reduce the training budgets with the PEL method, which performs within 1.86% accuracy to fine-tuning using only 2.5% of (extra) network trainable parameters. Our study demonstrates how to identify Arabic dialects using a small dataset and limited computation with open source code and pre-trained models.
翻訳日:2023-05-22 17:38:50 公開日:2023-05-18
# 機械と子どもの比較:発達心理学実験を用いてLaMDA反応の強さと弱さを評価する

Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses ( http://arxiv.org/abs/2305.11243v1 )

ライセンス: Link先を確認
Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik and Danielle Krettek Cobb(参考訳) 発達心理学者は、幼児や子供の知性と知識をテストする実験を数十年かけて開発し、重要な概念と能力の起源を辿ってきた。 さらに、発達心理学における実験技術は、特定の行動の根底にある認知能力を識別するために慎重に設計されている。 本稿では,子どもの発達における古典的実験の利用が,AIモデル,特にLLMの計算能力の探究に特に有効な方法であることを示す。 第一に, 発達心理学の方法論的手法として, 子どもが単純な関連性を用いているかどうかを判断するために, 過去の経験や制御条件の制御に新規刺激を用いることは, LLMの能力を評価する上でも同様に有用である。 この方法でLCMをテストすることで、テキストにエンコードされた情報が、特定の応答を可能にするのに十分かどうか、あるいは物理世界探索の情報など他の種類の情報に依存するかどうかを知ることができる。 本研究では,Googleの大規模言語モデルであるLaMDAの能力を評価するために,古典的な開発実験を適用する。 本稿では, GPT などの他の言語モデルの評価に使用できる新しい LLM Response Score (LRS) メトリクスを提案する。 社会的理解に関する実験において,LaMDAは子どもに類似した適切な反応を生じさせ,これらの領域の知識が言語を通して発見されることを示す。 一方、初期の対象と行動理解におけるLaMDAの反応、心の理論、特に因果推論タスクは、幼児のそれとは大きく異なり、おそらくこれらのドメインはより現実的で自己開始型の探索を必要としており、言語入力のパターンから単に学ぶことができないことを示している。

Developmental psychologists have spent decades devising experiments to test the intelligence and knowledge of infants and children, tracing the origin of crucial concepts and capacities. Moreover, experimental techniques in developmental psychology have been carefully designed to discriminate the cognitive capacities that underlie particular behaviors. We propose that using classical experiments from child development is a particularly effective way to probe the computational abilities of AI models, in general, and LLMs in particular. First, the methodological techniques of developmental psychology, such as the use of novel stimuli to control for past experience or control conditions to determine whether children are using simple associations, can be equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs in this way can tell us whether the information that is encoded in text is sufficient to enable particular responses, or whether those responses depend on other kinds of information, such as information from exploration of the physical world. In this work we adapt classical developmental experiments to evaluate the capabilities of LaMDA, a large language model from Google. We propose a novel LLM Response Score (LRS) metric which can be used to evaluate other language models, such as GPT. We find that LaMDA generates appropriate responses that are similar to those of children in experiments involving social understanding, perhaps providing evidence that knowledge of these domains is discovered through language. On the other hand, LaMDA's responses in early object and action understanding, theory of mind, and especially causal reasoning tasks are very different from those of young children, perhaps showing that these domains require more real-world, self-initiated exploration and cannot simply be learned from patterns in language input.
翻訳日:2023-05-22 17:38:37 公開日:2023-05-18
# 複数の言語にまたがる多言語学習のバイアスと影響の比較

Comparing Biases and the Impact of Multilingual Training across Multiple Languages ( http://arxiv.org/abs/2305.11242v1 )

ライセンス: Link先を確認
Sharon Levy, Neha Anna John, Ling Liu, Yogarshi Vyas, Jie Ma, Yoshinari Fujinuma, Miguel Ballesteros, Vittorio Castelli, Dan Roth(参考訳) 自然言語処理におけるバイアスと公平性の研究は、主に単一の言語といくつかの属性(例えば性別、人種)における社会的バイアスを調査してきた。 しかし、バイアスは個々の属性に対して様々な言語で異なる形で現れる。 結果として、各言語と属性内のバイアスを調べることが重要となる。 等しく重要であるのは、これらのバイアスが言語間でどのように比較され、多言語データと単言語データでモデルをトレーニングする際にバイアスがどのように影響を受けるかを研究することである。 我々は、特定の人口層がより肯定的に見られているかどうかを確認するために、下流の感情分析タスクにおいて、イタリア語、中国語、英語、ヘブライ語、スペイン語の偏見分析を行う。 これらの言語におけるバイアスの類似性と相違について検討し,多言語対単言語訓練データの影響について検討した。 我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。 その結果,各言語の文化(多数派宗教や国籍など)に支配的な集団の優越性など,バイアス表現の類似性を明らかにした。 さらに,保護群間での予測のばらつきが増大し,多言語前訓練と比較して,多言語微調整後のバイアス増幅がみられた。

Studies in bias and fairness in natural language processing have primarily examined social biases within a single language and/or across few attributes (e.g. gender, race). However, biases can manifest differently across various languages for individual attributes. As a result, it is critical to examine biases within each language and attribute. Of equal importance is to study how these biases compare across languages and how the biases are affected when training a model on multilingual data versus monolingual data. We present a bias analysis across Italian, Chinese, English, Hebrew, and Spanish on the downstream sentiment analysis task to observe whether specific demographics are viewed more positively. We study bias similarities and differences across these languages and investigate the impact of multilingual vs. monolingual training data. We adapt existing sentiment bias templates in English to Italian, Chinese, Hebrew, and Spanish for four attributes: race, religion, nationality, and gender. Our results reveal similarities in bias expression such as favoritism of groups that are dominant in each language's culture (e.g. majority religions and nationalities). Additionally, we find an increased variation in predictions across protected groups, indicating bias amplification, after multilingual finetuning in comparison to multilingual pretraining.
翻訳日:2023-05-22 17:38:07 公開日:2023-05-18
# Evidence Networks: 高速、アモート化、ニューラルベイズモデルの比較のための単純な損失

Evidence Networks: simple losses for fast, amortized, neural Bayesian model comparison ( http://arxiv.org/abs/2305.11241v1 )

ライセンス: Link先を確認
Niall Jeffrey, Benjamin D. Wandelt(参考訳) エビデンスネットワークは、最先端の方法(例えばネストサンプリング)が失敗したときや、可能性や事前が難解であったり、未知であるときでも、ベイズモデルの比較を可能にする。 ベイズモデルの比較、すなわちベイズ因子やエビデンス比の計算は最適化問題として考えられる。 最適分類のベイズ解釈はよく知られているが、ここではベイズ因子の便利関数を直接推定する、素早い非モルト化ニューラルネットワーク推定器のパースペクティブと損失関数のクラスを変更する。 これにより、個々のモデル確率の推定に伴う数値的不正確さが軽減される。 リークパリティオードパワー (l-POP) 変換を導入し, 新規な「l-POP-Exponential」損失関数を導出する。 異なるモデルにおけるデータ確率のニューラル密度推定について検討し、Evidence Networksよりも正確でスケーラブルであることを示す。 複数の実世界および合成例は、エビデンスネットワークがパラメータ空間の次元性から明確に独立しており、後続確率密度関数の複雑さと軽度にスケールしていることを示している。 このシンプルで強力なアプローチは、モデル推論タスクに広く影響します。 実世界のデータに対するエビデンスネットワークの応用として、ダークエネルギーサーベイの重力レンズデータを持つ2つのモデルのベイズ係数を計算する。 我々は,暗黙的推論設定におけるモデル比較と評価の他の関連する問題に対する手法の適用について簡単に論じる。

Evidence Networks can enable Bayesian model comparison when state-of-the-art methods (e.g. nested sampling) fail and even when likelihoods or priors are intractable or unknown. Bayesian model comparison, i.e. the computation of Bayes factors or evidence ratios, can be cast as an optimization problem. Though the Bayesian interpretation of optimal classification is well-known, here we change perspective and present classes of loss functions that result in fast, amortized neural estimators that directly estimate convenient functions of the Bayes factor. This mitigates numerical inaccuracies associated with estimating individual model probabilities. We introduce the leaky parity-odd power (l-POP) transform, leading to the novel ``l-POP-Exponential'' loss function. We explore neural density estimation for data probability in different models, showing it to be less accurate and scalable than Evidence Networks. Multiple real-world and synthetic examples illustrate that Evidence Networks are explicitly independent of dimensionality of the parameter space and scale mildly with the complexity of the posterior probability density function. This simple yet powerful approach has broad implications for model inference tasks. As an application of Evidence Networks to real-world data we compute the Bayes factor for two models with gravitational lensing data of the Dark Energy Survey. We briefly discuss applications of our methods to other, related problems of model comparison and evaluation in implicit inference settings.
翻訳日:2023-05-22 17:37:49 公開日:2023-05-18
# セキュアアグリゲーションを用いた高効率垂直フェデレーション学習

Efficient Vertical Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2305.11236v1 )

ライセンス: Link先を確認
Xinchi Qiu, Heng Pan, Wanru Zhao, Chenyang Ma, Pedro Porto Buarque de Gusm\~ao, Nicholas D. Lane(参考訳) プライバシ保護連合学習(fl)における作業の大部分は、クライアントが同じ機能セットを共有し、完全なモデルを独立してトレーニング可能な、水平分割データセットに注目している。 しかし,金融詐欺検出や疾患検出など,多くの興味深い問題において,垂直連合学習において,個々のデータポイントが異なるクライアント/組織に分散している。 この種のflのソリューションには、参加者間の勾配の交換が必要であり、プライバシーやセキュリティに関する懸念をほとんど考慮しない。 本稿では,セキュアアグリゲーションのための最先端セキュリティモジュールを用いて,垂直flを安全かつ効率的にトレーニングするための新しい設計を提案する。 本手法は,準同型暗号 (he) と比較して 9.1e2 ~3.8e4 高速化が得られながら,トレーニング性能に影響を与えないことを示す。

The majority of work in privacy-preserving federated learning (FL) has been focusing on horizontally partitioned datasets where clients share the same sets of features and can train complete models independently. However, in many interesting problems, such as financial fraud detection and disease detection, individual data points are scattered across different clients/organizations in vertical federated learning. Solutions for this type of FL require the exchange of gradients between participants and rarely consider privacy and security concerns, posing a potential risk of privacy leakage. In this work, we present a novel design for training vertical FL securely and efficiently using state-of-the-art security modules for secure aggregation. We demonstrate empirically that our method does not impact training performance whilst obtaining 9.1e2 ~3.8e4 speedup compared to homomorphic encryption (HE).
翻訳日:2023-05-22 17:37:25 公開日:2023-05-18
# 教師なし要約の最近の動向

Recent Trends in Unsupervised Summarization ( http://arxiv.org/abs/2305.11231v1 )

ライセンス: Link先を確認
Mohammad Khosravani, Amine Trabelsi(参考訳) 教師なし要約(unsupervised summarization)は、ラベル付きデータセットを必要とせずにモデルの要約をトレーニングできる強力なテクニックである。 この調査は、教師なしの要約に使われる様々な最近の技術とモデルを扱っている。 我々は,教師なし要約を実現するために使用される抽出的,抽象的,ハイブリッドなモデルと戦略について述べる。 この調査の主な焦点は最近の研究であるが、過去の重要な研究についても紹介する。 さらに,教師なしトレーニングへのアプローチに基づいて異なる研究を分類する分類法を提案する。 最後に,現在のアプローチについて論じ,いくつかのデータセットと評価手法について述べる。

Unsupervised summarization is a powerful technique that enables training summarizing models without requiring labeled datasets. This survey covers different recent techniques and models used for unsupervised summarization. We cover extractive, abstractive, and hybrid models and strategies used to achieve unsupervised summarization. While the main focus of this survey is on recent research, we also cover some of the important previous research. We additionally introduce a taxonomy, classifying different research based on their approach to unsupervised training. Finally, we discuss the current approaches and mention some datasets and evaluation methods.
翻訳日:2023-05-22 17:37:01 公開日:2023-05-18
# 非エルミート系における点ギャップ境界状態

Point-Gap Bound States in Non-Hermitian Systems ( http://arxiv.org/abs/2305.11227v1 )

ライセンス: Link先を確認
Zixi Fang, Chen Fang, and Kai Zhang(参考訳) 本稿では,1次元非エルミート系における不純物誘起境界状態について系統的に検討する。 不純物ポテンシャルと有界エネルギーの正確な関係を確立することにより、各点エネルギーギャップ内の有界状態を生成するために必要な最小不純物ポテンシャルを決定する。 ブロッホ・サドル点の存在は不純物ポテンシャルの有限しきい値を必要とすることを示し、そうでなければ無限小不純物ポテンシャルは境界状態を生成する。 さらに、非零スペクトル巻線を持つ点ギャップに存在する境界状態は境界条件に感度を示し、境界が開いているときにエッジに向かって絞り込まれることを示し、点-ギャップトポロジーの観点からはバルク-バウンダリー対応を示す。

In this paper, we systematically investigate the impurity-induced bound states in 1D non-Hermitian systems. By establishing an exact relationship between impurity potential and bound-state energy, we determine the minimum impurity potential required to generate bound states within each point energy gap. We demonstrate that the presence of Bloch saddle points necessitates a finite threshold of impurity potential; otherwise, infinitesimal impurity potential can create bound states. Furthermore, we show that the bound states residing in the point gaps with nonzero spectral winding exhibit sensitivity to boundary conditions and will be squeezed towards the edges when the boundaries are opened, indicating the bulk-boundary correspondence in terms of point-gap topology.
翻訳日:2023-05-22 17:36:49 公開日:2023-05-18
# 一般関数近似を用いた平均場強化学習の統計的効率について

On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2305.11283v1 )

ライセンス: Link先を確認
Jiawei Huang, Batuhan Yardim, Niao He(参考訳) 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。 平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。 さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。 特に,我々は遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定と,前回の作業における強固な構造的仮定のみを必要とする。 最後に、生成モデルへのアクセスを前提として、MFC設定の指数的下限を確立するとともに、MFG設定における平衡を近似する新しいサンプル効率モデル除去アルゴリズムを提供する。 以上の結果から, 単エージェント, MFC, MFGに対するRLの分離は, 試料効率の観点から明らかにされた。

In this paper, we study the statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MBED), which subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on Optimistic Maximal Likelihood Estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and the number of agents. Notably, our results only require a mild assumption of Lipschitz continuity on transition dynamics and avoid strong structural assumptions in previous work. Finally, in the tabular setting, given the access to a generative model, we establish an exponential lower bound for MFC setting, while providing a novel sample-efficient model elimination algorithm to approximate equilibrium in MFG setting. Our results reveal a fundamental separation between RL for single-agent, MFC, and MFG from the sample efficiency perspective.
翻訳日:2023-05-22 17:31:01 公開日:2023-05-18
# slotdiffusion:拡散モデルを用いたオブジェクト中心生成モデル

SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models ( http://arxiv.org/abs/2305.11281v1 )

ライセンス: Link先を確認
Ziyi Wu, Jingyu Hu, Wuyue Lu, Igor Gilitschenski, Animesh Garg(参考訳) オブジェクト中心学習は、視覚データを一連のオブジェクトエンティティ(つまりスロット)で表現することを目的としており、体系的な一般化を可能にする構造化表現を提供する。 トランスフォーマーのような高度なアーキテクチャを活用することで、最近のアプローチは教師なしオブジェクト発見において大きな進歩を遂げている。 さらに、スロットベースの表現は、制御可能な画像生成や画像編集におけるオブジェクト操作など、生成モデルに大きな可能性を秘めている。 しかし、現在のスロットベースの方法は、しばしばぼやけた画像や歪んだオブジェクトを生成し、生成的モデリング能力に乏しい。 本稿では,高品質な視覚生成のための重要な側面であるスロット・ツー・イメージデコードの改善に焦点をあてる。 SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。 LDMの強力なモデリング能力のおかげで、SlotDiffusionは6つのデータセットにわたる教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。 さらに,学習対象の特徴を既存のオブジェクト中心ダイナミクスモデルで活用し,映像予測品質と下流時間推論タスクを改善する。 最後に,自己教師付き事前学習画像エンコーダと統合した場合,pascal vocやcocoなどの無拘束実世界データセットへのslotdiffusionのスケーラビリティを示す。

Object-centric learning aims to represent visual data with a set of object entities (a.k.a. slots), providing structured representations that enable systematic generalization. Leveraging advanced architectures like Transformers, recent approaches have made significant progress in unsupervised object discovery. In addition, slot-based representations hold great potential for generative modeling, such as controllable image generation and object manipulation in image editing. However, current slot-based methods often produce blurry images and distorted objects, exhibiting poor generative modeling capabilities. In this paper, we focus on improving slot-to-image decoding, a crucial aspect for high-quality visual generation. We introduce SlotDiffusion -- an object-centric Latent Diffusion Model (LDM) designed for both image and video data. Thanks to the powerful modeling capacity of LDMs, SlotDiffusion surpasses previous slot models in unsupervised object segmentation and visual generation across six datasets. Furthermore, our learned object features can be utilized by existing object-centric dynamics models, improving video prediction quality and downstream temporal reasoning tasks. Finally, we demonstrate the scalability of SlotDiffusion to unconstrained real-world datasets such as PASCAL VOC and COCO, when integrated with self-supervised pre-trained image encoders.
翻訳日:2023-05-22 17:30:35 公開日:2023-05-18
# 神経軌道学習のためのリアルタイム変分法とそのダイナミクス

Real-Time Variational Method for Learning Neural Trajectory and its Dynamics ( http://arxiv.org/abs/2305.11278v1 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park(参考訳) 潜在変数モデルは、神経計算に関する推論のために計算神経科学に役立っている。 これにより、神経記録から潜在性神経路を抽出する強力なオフラインアルゴリズムの開発が進められた。 しかし、実験者に即時フィードバックを与え、実験設計を強化するリアルタイム代替案の可能性にもかかわらず、彼らは著しく注意を引いている。 本研究では,指数関数型家族変動カルマンフィルタ (eVKF) を導入する。これは潜在軌道の推論を目的としたオンライン再帰的ベイズ法であり,同時にそれらを生成する力学系を学習する。 eVKF は任意の確率で作用し、定数基底測度指数族を用いて潜在状態確率をモデル化する。 我々は、カルマンフィルタの予測ステップに対する閉形式の変分類似を導出し、他のオンライン変分法と比較してELBOの強固な境界を導出する。 本手法を総合的および実世界データで検証し,特に競争的性能を発揮できることを示す。

Latent variable models have become instrumental in computational neuroscience for reasoning about neural computation. This has fostered the development of powerful offline algorithms for extracting latent neural trajectories from neural recordings. However, despite the potential of real time alternatives to give immediate feedback to experimentalists, and enhance experimental design, they have received markedly less attention. In this work, we introduce the exponential family variational Kalman filter (eVKF), an online recursive Bayesian method aimed at inferring latent trajectories while simultaneously learning the dynamical system generating them. eVKF works for arbitrary likelihoods and utilizes the constant base measure exponential family to model the latent state stochasticity. We derive a closed-form variational analogue to the predict step of the Kalman filter which leads to a provably tighter bound on the ELBO compared to another online variational method. We validate our method on synthetic and real-world data, and, notably, show that it achieves competitive performance
翻訳日:2023-05-22 17:30:13 公開日:2023-05-18
# 生物学的制約のあるディープラーニングアーキテクチャによるV1特性の説明

Explaining V1 Properties with a Biologically Constrained Deep Learning Architecture ( http://arxiv.org/abs/2305.11275v1 )

ライセンス: Link先を確認
Galen Pogoncheff, Jacob Granley, Michael Beyeler(参考訳) 畳み込みニューラルネットワーク(CNN)は、生物学的特異性の欠如にもかかわらず、最近、腹側視覚の流れの有望なモデルとして登場した。 一次視覚野(v1)の現在の最先端モデルは、敵対的な例と広範囲な拡張データによる訓練から表面化しているが、これらのモデルは、生物学的回路から生じるv1で観察される重要な神経特性を説明することができない。 このギャップに対処するため、我々は神経科学由来のアーキテクチャコンポーネントをCNNに体系的に組み込んで、V1における神経活動を包括的に説明するメカニズムとアーキテクチャのセットを特定した。 モデルv1アライメントの大幅な改善は,中心回りのアンタゴニズム,局所受容場,調律正規化,皮質拡大をシミュレートするアーキテクチャコンポーネントの統合によるものである。 タスク駆動型CNNをこれらの特殊なコンポーネントの集合で強化すると、V1神経活動とチューニング特性の最先端の説明をもたらす潜在表現を持つモデルを明らかにする。 我々は,これまでにないV1の説明に寄与するアーキテクチャ要素の集合を体系的に確立し,NeuroAIの分野における重要な進歩を浮き彫りにした。 脳のシリコン内モデルから得られる神経科学の洞察は、神経科学と人工知能の両方の分野を大きく前進させる可能性がある。

Convolutional neural networks (CNNs) have recently emerged as promising models of the ventral visual stream, despite their lack of biological specificity. While current state-of-the-art models of the primary visual cortex (V1) have surfaced from training with adversarial examples and extensively augmented data, these models are still unable to explain key neural properties observed in V1 that arise from biological circuitry. To address this gap, we systematically incorporated neuroscience-derived architectural components into CNNs to identify a set of mechanisms and architectures that comprehensively explain neural activity in V1. We show drastic improvements in model-V1 alignment driven by the integration of architectural components that simulate center-surround antagonism, local receptive fields, tuned normalization, and cortical magnification. Upon enhancing task-driven CNNs with a collection of these specialized components, we uncover models with latent representations that yield state-of-the-art explanation of V1 neural activity and tuning properties. Our results highlight an important advancement in the field of NeuroAI, as we systematically establish a set of architectural components that contribute to unprecedented explanation of V1. The neuroscience insights that could be gleaned from increasingly accurate in-silico models of the brain have the potential to greatly advance the fields of both neuroscience and artificial intelligence.
翻訳日:2023-05-22 17:29:57 公開日:2023-05-18
# 仮定対話におけるマインドモデリング理論による協調的プラン獲得に向けて

Towards Collaborative Plan Acquisition through Theory of Mind Modeling in Situated Dialogue ( http://arxiv.org/abs/2305.11271v1 )

ライセンス: Link先を確認
Cristian-Paul Bara, Ziqiao Ma, Yingzhuo Yu, Julie Shah, Joyce Chai(参考訳) 共同作業は、各パートナによる部分的なタスク知識と不完全な初期計画から始まることが多い。 これらのタスクを完了させるためには、エージェントはパートナーとの位置通信を行い、共通のタスク目標を達成するための完全な計画に向けて部分的な計画を調整する必要がある。 このようなコラボレーションは、人間とAIのコラボレーションにとって非常に難しいものです。 この制限に対処するため,人間とエージェントが相互に学習し,コミュニケーションし,共同作業のための完全な計画を取得するための共同計画獲得に向けて一歩踏み出した。 具体的には、エージェントが自分自身のタスク知識の不足を予測し、豊富な知覚と対話履歴に基づいてパートナーに対して新たな問題を定式化する。 3dブロック世界における対称協調作業のための位置対話ベンチマークを拡張し,計画獲得のための計算戦略を検討する。 実験の結果から,相手の知識の欠如を予測することは,相手自身の知識の予測よりも有効なアプローチであることが示唆された。 パートナーの対話行動と精神状態の明示的なモデリングは、無関係よりも改善され、より安定した結果をもたらすことを示す。 これらの結果は、パートナーが欠けている知識を予測できる将来のaiエージェントに洞察を与え、したがって、パートナーがこのような知識を身につけるのに役立つような情報を積極的に伝達し、共同タスクの共通理解に役立てることができる。

Collaborative tasks often begin with partial task knowledge and incomplete initial plans from each partner. To complete these tasks, agents need to engage in situated communication with their partners and coordinate their partial plans towards a complete plan to achieve a joint task goal. While such collaboration seems effortless in a human-human team, it is highly challenging for human-AI collaboration. To address this limitation, this paper takes a step towards collaborative plan acquisition, where humans and agents strive to learn and communicate with each other to acquire a complete plan for joint tasks. Specifically, we formulate a novel problem for agents to predict the missing task knowledge for themselves and for their partners based on rich perceptual and dialogue history. We extend a situated dialogue benchmark for symmetric collaborative tasks in a 3D blocks world and investigate computational strategies for plan acquisition. Our empirical results suggest that predicting the partner's missing knowledge is a more viable approach than predicting one's own. We show that explicit modeling of the partner's dialogue moves and mental states produces improved and more stable results than without. These results provide insight for future AI agents that can predict what knowledge their partner is missing and, therefore, can proactively communicate such information to help their partner acquire such missing knowledge toward a common understanding of joint tasks.
翻訳日:2023-05-22 17:29:29 公開日:2023-05-18
# DCT領域における空間周波数(SF)と一貫性検証(CV)に基づく多焦点画像融合

Multi-Focus Image Fusion Based on Spatial Frequency(SF) and Consistency Verification(CV) in DCT Domain ( http://arxiv.org/abs/2305.11265v1 )

ライセンス: Link先を確認
Krishnendu K. S.(参考訳) マルチフォーカス(multi-focus)は、特定のオブジェクトやシーンの異なる側面に焦点を当てるテクニックである。 Wireless Visual Sensor Networks (WVSN) は、2つ以上の画像を組み合わせて、個々の入力画像よりもより正確な出力画像を生成するマルチフォーカス画像融合を使用する。 wvsnにはビデオ監視、監視、トラッキングを含む様々なアプリケーションがある。 したがって、これらのネットワークの高レベルな分析はバイオメトリックスの恩恵を受けることができる。 本稿では、離散コサイン変換(DCT)標準を用いて、WVSNのマルチフォーカス画像を融合するアルゴリズムを提案する。 ソース画像から対応するブロックの空間周波数(SF)が融合基準を決定する。 空間周波数の高いブロックは、融合画像のdct表示を構成し、一貫性検証(cv)手順は、出力画像品質を向上させるために使用される。 提案手法はJPEG標準で符号化された複数対のマルチフォーカス画像に対して,融合性能を評価するために試験を行い,その結果から,出力画像の視覚的品質を改善し,他のDCT技術より優れていることを示す。

Multi-focus is a technique of focusing on different aspects of a particular object or scene. Wireless Visual Sensor Networks (WVSN) use multi-focus image fusion, which combines two or more images to create a more accurate output image that describes the scene better than any individual input image. WVSN has various applications, including video surveillance, monitoring, and tracking. Therefore, a high-level analysis of these networks can benefit Biometrics. This paper introduces an algorithm that utilizes discrete cosine transform (DCT) standards to fuse multi-focus images in WVSNs. The spatial frequency (SF) of the corresponding blocks from the source images determines the fusion criterion. The blocks with higher spatial frequencies make up the DCT presentation of the fused image, and the Consistency Verification (CV) procedure is used to enhance the output image quality. The proposed fusion method was tested on multiple pairs of multi-focus images coded on JPEG standard to evaluate the fusion performance, and the results indicate that it improves the visual quality of the output image and outperforms other DCT-based techniques.
翻訳日:2023-05-22 17:29:07 公開日:2023-05-18
# CHBias:中国語会話言語モデルのバイアス評価と緩和

CHBias: Bias Evaluation and Mitigation of Chinese Conversational Language Models ( http://arxiv.org/abs/2305.11262v1 )

ライセンス: Link先を確認
Jiaxu Zhao, Meng Fang, Zijing Shi, Yitong Li, Ling Chen, Mykola Pechenizkiy(参考訳) \textit{\textbf{\textcolor{red}{warning}:} この論文は攻撃的あるいは不安定なコンテンツを含んでいる。 事前訓練された会話エージェントは安全性の問題に晒され、性別バイアスなどのステレオタイプな人間のバイアスが現れる。 しかし、現在の研究にはまだバイアスのカテゴリーが限られており、そのほとんどは英語のみに焦点を当てている。 本稿では,中国語会話言語モデルのバイアス評価と緩和を目的とした新しい中国語データセットchbiasを提案する。 これまでのよく調査されたバイアスカテゴリとは別に、CHBiasには年齢や外観バイアスといった未調査のバイアスカテゴリが含まれており、あまり注目を集めていない。 chbias を用いた中国語会話モデル cdial-gpt と eva2.0 の評価を行った。 さらに,異なるバイアスを緩和するために,いくつかのデバイアス手法を中国の事前学習モデルに適用した。 実験の結果、これらの中国語事前学習されたモデルは、社会的バイアスを含むテキストを生成するのに潜在的に危険であることを示し、提案するデータセットを用いたデバイアス手法は、モデルの会話能力を維持しながら、応答生成のバイアスを軽減することができる。

\textit{\textbf{\textcolor{red}{Warning}:} This paper contains content that may be offensive or upsetting.} Pretrained conversational agents have been exposed to safety issues, exhibiting a range of stereotypical human biases such as gender bias. However, there are still limited bias categories in current research, and most of them only focus on English. In this paper, we introduce a new Chinese dataset, CHBias, for bias evaluation and mitigation of Chinese conversational language models. Apart from those previous well-explored bias categories, CHBias includes under-explored bias categories, such as ageism and appearance biases, which received less attention. We evaluate two popular pretrained Chinese conversational models, CDial-GPT and EVA2.0, using CHBias. Furthermore, to mitigate different biases, we apply several debiasing methods to the Chinese pretrained models. Experimental results show that these Chinese pretrained models are potentially risky for generating texts that contain social biases, and debiasing methods using the proposed dataset can make response generation less biased while preserving the models' conversational capabilities.
翻訳日:2023-05-22 17:28:48 公開日:2023-05-18
# 優先型マルチエージェントナビゲーションのための制約付き環境最適化

Constrained Environment Optimization for Prioritized Multi-Agent Navigation ( http://arxiv.org/abs/2305.11260v1 )

ライセンス: Link先を確認
Zhan Gao and Amanda Prorok(参考訳) マルチエージェントナビゲーションアルゴリズムの設計への伝統的なアプローチは、空間的制約がエージェントの性能に与える影響にもかかわらず、環境を固定的な制約と考える。 しかし、手動設計による環境レイアウトは非効率であり、潜在的に高価である。 本研究の目的は,エージェント性能と環境コストの両方を組み込んだシステムレベルの最適化問題において,環境を決定変数として考えることである。 この目的に向けて,前者はエージェントを偏りなく考慮し,後者はエージェントの優先順位を考慮し,非優先的かつ優先順位付けされた環境最適化の新たな問題を提案する。 我々は,完全性(すなわち,すべてのエージェントが目標に達する)を保証しながら,環境が変化する条件下での形式的証明を行い,環境最適化におけるエージェント優先度の役割を分析する。 実世界の制約を環境最適化に課し,制約付き確率最適化問題として数学的に定式化する。 エージェント, 環境, 性能の関係はモデル化が難しいため, 強化学習を活用して, 制約に対処するモデルフリーソリューションと原始双対機構を開発する。 個別情報処理アーキテクチャは、オンライン/オフライン最適化や離散/連続環境など、様々な実装シナリオで統合されている。 数値的な結果は理論を裏付け、我々のアプローチの有効性と適応性を示す。

Traditional approaches to the design of multi-agent navigation algorithms consider the environment as a fixed constraint, despite the influence of spatial constraints on agents' performance. Yet hand-designing conducive environment layouts is inefficient and potentially expensive. The goal of this paper is to consider the environment as a decision variable in a system-level optimization problem, where both agent performance and environment cost are incorporated. Towards this end, we propose novel problems of unprioritized and prioritized environment optimization, where the former considers agents unbiasedly and the latter accounts for agent priorities. We show, through formal proofs, under which conditions the environment can change while guaranteeing completeness (i.e., all agents reach goals), and analyze the role of agent priorities in the environment optimization. We proceed to impose real-world constraints on the environment optimization and formulate it mathematically as a constrained stochastic optimization problem. Since the relation between agents, environment and performance is challenging to model, we leverage reinforcement learning to develop a model-free solution and a primal-dual mechanism to handle constraints. Distinct information processing architectures are integrated for various implementation scenarios, including online/offline optimization and discrete/continuous environment. Numerical results corroborate the theory and demonstrate the validity and adaptability of our approach.
翻訳日:2023-05-22 17:28:31 公開日:2023-05-18
# Chain-of-Thought Prompting による無作為感の推論

Reasoning Implicit Sentiment with Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.11255v1 )

ライセンス: Link先を確認
Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua(参考訳) 感情分析システムは、入力テキストにおける主要な意見表現に基づいて、与えられた目標の感情極性を決定する一方で、暗黙的な感情分析(ISA)では、意見の手がかりは暗黙的で曖昧な方法で現れる。 したがって、暗黙の感情を検出するには、意見の潜在意図を推測する常識とマルチホップ推論能力が必要である。 最近のチェーン・オブ・思想(CoT)のアイデアにインスパイアされた本研究では、ISAの人間的な推論プロセスを模倣するThree-hop Reasoning(THOR) CoTフレームワークを紹介します。 我々は、THORが暗黙の側面、意見、そして最後に感情の極性を段階的に誘導する3段階の原理を設計する。 我々のTHOR+Flan-T5 (11B)は、監督設定で最先端(SoTA)を6%以上押し上げます。 さらに驚くべきことに、THOR+GPT3 (175B)はゼロショット設定でSoTAを50%以上押し上げる。 私たちのコードはhttps://github.com/scofield7419/THOR-ISAにあります。

While sentiment analysis systems try to determine the sentiment polarities of given targets based on the key opinion expressions in input texts, in implicit sentiment analysis (ISA) the opinion cues come in an implicit and obscure manner. Thus detecting implicit sentiment requires the common-sense and multi-hop reasoning ability to infer the latent intent of opinion. Inspired by the recent chain-of-thought (CoT) idea, in this work we introduce a Three-hop Reasoning (THOR) CoT framework to mimic the human-like reasoning process for ISA. We design a three-step prompting principle for THOR to step-by-step induce the implicit aspect, opinion, and finally the sentiment polarity. Our THOR+Flan-T5 (11B) pushes the state-of-the-art (SoTA) by over 6% F1 on supervised setup. More strikingly, THOR+GPT3 (175B) boosts the SoTA by over 50% F1 on zero-shot setting. Our code is at https://github.com/scofield7419/THOR-ISA.
翻訳日:2023-05-22 17:28:11 公開日:2023-05-18
# ロバストな量子制御系:量子情報 -- 量子ソフトコンピューティングに基づくインテリジェントロボティクスにおける熱力学隠れ力制御

Robust Quantum Controllers: Quantum Information -- Thermodynamic Hidden Force Control in Intelligent Robotics based on Quantum Soft Computing ( http://arxiv.org/abs/2305.11254v1 )

ライセンス: Link先を確認
Sergey V. Ulyanov, Viktor S. Ulyanov and Takakhide Hagiwara(参考訳) 量子・ソフトコンピューティング技術に基づく知的ロバスト制御系の設計のための一般的な戦略について述べる。 ハイブリッドインテリジェントコントローラの信頼性は、不完全な知識ベースを自己組織化する能力を提供することによって向上する。 予測不能な制御状況下での知的制御システムの堅牢性のレベル向上に主な注意が払われる。 古典的コンピュータ上で量子アルゴリズムをモデル化するためのSW&HWプラットフォームとスーパーコンピュータアクセラレータのサポートツールについて述べる。

A generalized strategy for the design of intelligent robust control systems based on quantum / soft computing technologies is described. The reliability of hybrid intelligent controllers increase by providing the ability to self-organize of imperfect knowledge bases. The main attention is paid to increasing the level of robustness of intelligent control systems in unpredictable control situations with the demonstration by illustrative examples. A SW & HW platform and support tools for a supercomputer accelerator for modeling quantum algorithms on a classical computer are described.
翻訳日:2023-05-22 17:27:52 公開日:2023-05-18
# AMII:適応行動合成のための適応的マルチモーダル対人・対人モデル

AMII: Adaptive Multimodal Inter-personal and Intra-personal Model for Adapted Behavior Synthesis ( http://arxiv.org/abs/2305.11310v1 )

ライセンス: Link先を確認
Jieyeon Woo, Mireille Fares, Catherine Pelachaud, Catherine Achard(参考訳) ソーシャル・インタラクティブ・エージェント(Socially Interactive Agents, SIAs)は、人間のマルチモーダル行動と同様の振る舞いを示す物理的または仮想的なエンボディエージェントである。 siaが話者や聞き手の役割を担うことができるため、話し言葉や顔のジェスチャーなど、シアスの非言語的行動のモデル化は、常に困難な課題であった。 SIAは、自身の発言に適合した適切な行動、以前の行動(対人的)、および両方の役割に対するユーザの行動(対人的)を発行しなければならない。 本研究では、ユーザと対話しながら、話者やリスナーとして交互に行動しながら、SIAに対して適応的な顔ジェスチャーを合成する新しいアプローチAMIIを提案する。 AMIIの特徴は、モダリティが音声または顔のジェスチャーに対応し、対人関係と対人関係を捉えるために注意機構を利用する、モダリティメモリ符号化スキーマである。 客観的な評価を行い,最先端のアプローチと比較することで,我々のアプローチを検証する。

Socially Interactive Agents (SIAs) are physical or virtual embodied agents that display similar behavior as human multimodal behavior. Modeling SIAs' non-verbal behavior, such as speech and facial gestures, has always been a challenging task, given that a SIA can take the role of a speaker or a listener. A SIA must emit appropriate behavior adapted to its own speech, its previous behaviors (intra-personal), and the User's behaviors (inter-personal) for both roles. We propose AMII, a novel approach to synthesize adaptive facial gestures for SIAs while interacting with Users and acting interchangeably as a speaker or as a listener. AMII is characterized by modality memory encoding schema - where modality corresponds to either speech or facial gestures - and makes use of attention mechanisms to capture the intra-personal and inter-personal relationships. We validate our approach by conducting objective evaluations and comparing it with the state-of-the-art approaches.
翻訳日:2023-05-22 17:20:34 公開日:2023-05-18
# デザインのファクトファクト:設計勧告のモデルに依存しない方法

Counterfactuals for Design: A Model-Agnostic Method For Design Recommendations ( http://arxiv.org/abs/2305.11308v1 )

ライセンス: Link先を確認
Lyle Regenwetter, Yazan Abu Obaideh, Faez Ahmed(参考訳) 本稿では,設計問題における非現実的最適化手法であるMCD(Multi-Objective Counterfactuals for Design)を紹介する。 反事実は、異なる決定や選択につながる仮定的な状況である。 本稿では,設計の修正を識別し,機能性能の向上につながる設計推薦ツールとして,ファクトファクトファクト検索問題を考察する。 mcdは、設計問題において重要な多目的クエリをサポートし、逆目的検索とサンプリングプロセスを分離することにより、効率を高め、客観的なトレードオフ可視化を容易にすることにより、既存の逆目的検索方法を改善している。 本論文は,2次元テストケースを用いてmcdのコア機能を実証し,さらに自転車設計の3つのケーススタディを行い,実世界設計問題におけるmcdの有効性を示す。 最初のケーススタディでは、MCDは、重量削減や構造安全因子の改善など、機能性能を大幅に向上させるクエリ設計の修正を推奨している。 第2のケーススタディは、mcdが事前学習した言語モデルを使って、主観的なテキストに基づいてデザインの変更を効果的に提案できることを示しています。 最後に、著者らは、重み付けと構造性能の改善を同時に行い、複雑なマルチモーダルクエリ上でのMCDの性能を実証しながら、クエリ設計とターゲット画像とテキストプロンプトとの類似性を高めることに取り組む。 全体として、mcdは実践者やデザイン自動化研究者に対して、仮説的な設計変更と、複数の設計目標に対する影響を探求することで、‘what if’の質問に対する答えを求める貴重な推奨を提供する可能性がある。 論文で使われているコード、テスト問題、データセットはdecode.mit.edu/projects/counterfactuals/で公開されている。

We introduce Multi-Objective Counterfactuals for Design (MCD), a novel method for counterfactual optimization in design problems. Counterfactuals are hypothetical situations that can lead to a different decision or choice. In this paper, the authors frame the counterfactual search problem as a design recommendation tool that can help identify modifications to a design, leading to better functional performance. MCD improves upon existing counterfactual search methods by supporting multi-objective queries, which are crucial in design problems, and by decoupling the counterfactual search and sampling processes, thus enhancing efficiency and facilitating objective tradeoff visualization. The paper demonstrates MCD's core functionality using a two-dimensional test case, followed by three case studies of bicycle design that showcase MCD's effectiveness in real-world design problems. In the first case study, MCD excels at recommending modifications to query designs that can significantly enhance functional performance, such as weight savings and improvements to the structural safety factor. The second case study demonstrates that MCD can work with a pre-trained language model to suggest design changes based on a subjective text prompt effectively. Lastly, the authors task MCD with increasing a query design's similarity to a target image and text prompt while simultaneously reducing weight and improving structural performance, demonstrating MCD's performance on a complex multimodal query. Overall, MCD has the potential to provide valuable recommendations for practitioners and design automation researchers looking for answers to their ``What if'' questions by exploring hypothetical design modifications and their impact on multiple design objectives. The code, test problems, and datasets used in the paper are available to the public at decode.mit.edu/projects/counterfactuals/.
翻訳日:2023-05-22 17:20:15 公開日:2023-05-18
# toffoli-hadamard回路の改良

Improved Synthesis of Toffoli-Hadamard Circuits ( http://arxiv.org/abs/2305.11305v1 )

ライセンス: Link先を確認
Matthew Amy, Andrew N. Glaudell, Sarah Meng Li, Neil J. Ross(参考訳) Toffoli-Hadamard ゲート集合上の回路で正確に表現できる行列は、$M/ \sqrt{2}{}^k$ という形の直交行列であり、$M$ は整数行列であり、$k$ は非負の整数である。 このゲート集合の正確な合成問題は、与えられた行列に対する回路を構成する問題である。 既存の方法は、$O(2^n \log(n)k)$ゲートからなる回路を生成し、$n$は行列の次元である。 本稿では,2つの改良された合成法を提案する。 まず、クリフニコフが2013年に導入したclifford+$t$回路の手法をトッフォリ・ハダマール回路に容易に適用でき、合成回路の複雑さを$o(2^n \log(n)k)$から$o(n^2 \log(n)k)$に低減できることを示した。 次に、同様のコスト改善の代替合成法を提案するが、その適用範囲は3量子ビット以下の回路に限られる。 また,dyadic分数上の直交行列についても適用し,通常の1量子ゲート$h$ではなく2量子ビットゲート$h\otimes h$を用いた回路に対応する。

The matrices that can be exactly represented by a circuit over the Toffoli-Hadamard gate set are the orthogonal matrices of the form $M/ \sqrt{2}{}^k$, where $M$ is an integer matrix and $k$ is a nonnegative integer. The exact synthesis problem for this gate set is the problem of constructing a circuit for a given such matrix. Existing methods produce circuits consisting of $O(2^n \log(n)k)$ gates, where $n$ is the dimension of the matrix. In this paper, we provide two improved synthesis methods. First, we show that a technique introduced by Kliuchnikov in 2013 for Clifford+$T$ circuits can be straightforwardly adapted to Toffoli-Hadamard circuits, reducing the complexity of the synthesized circuit from $O(2^n \log(n)k)$ to $O(n^2 \log(n)k)$. Then, we present an alternative synthesis method of similarly improved cost, but whose application is restricted to circuits on no more than three qubits. Our results also apply to orthogonal matrices over the dyadic fractions, which correspond to circuits using the 2-qubit gate $H\otimes H$, rather than the usual single-qubit Hadamard gate $H$.
翻訳日:2023-05-22 17:19:44 公開日:2023-05-18
# ストリーミング観測によるベイズリスクの逆Q-Learning

Bayesian Risk-Averse Q-Learning with Streaming Observations ( http://arxiv.org/abs/2305.11300v1 )

ライセンス: Link先を確認
Yuhao Wang, Enlu Zhou(参考訳) 我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。 データ不足によるトレーニング環境と実環境とのモデル不特定さを考慮し,無限地平線を持つベイズリスクmdp(brmdp)の定式化を行い,移行モデルの推定にベイズ後方法を用い,モデル不確実性を考慮したリスク関数を課す。 エージェントの制御外にある実環境からの観測が定期的に到着し、エージェントがベイズの後部を更新してモデルの不確実性を減少させる。 理論的には、BRMDPはロバスト性と保守性の間のトレードオフのバランスを保ち、BRMDPを実環境からのストリーミング観測で解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムをさらに発展させる。 提案手法は,実世界観測の可利用性に依存するリスク回避かつ最適方針を学習する。 提案するアルゴリズムに対して強い収束の理論的保証を提供する。

We consider a robust reinforcement learning problem, where a learning agent learns from a simulated training environment. To account for the model mis-specification between this training environment and the real environment due to lack of data, we adopt a formulation of Bayesian risk MDP (BRMDP) with infinite horizon, which uses Bayesian posterior to estimate the transition model and impose a risk functional to account for the model uncertainty. Observations from the real environment that is out of the agent's control arrive periodically and are utilized by the agent to update the Bayesian posterior to reduce model uncertainty. We theoretically demonstrate that BRMDP balances the trade-off between robustness and conservativeness, and we further develop a multi-stage Bayesian risk-averse Q-learning algorithm to solve BRMDP with streaming observations from real environment. The proposed algorithm learns a risk-averse yet optimal policy that depends on the availability of real-world observations. We provide a theoretical guarantee of strong convergence for the proposed algorithm.
翻訳日:2023-05-22 17:19:18 公開日:2023-05-18
# 安全自律システムのための集団推論

Collective Reasoning for Safe Autonomous Systems ( http://arxiv.org/abs/2305.11295v1 )

ライセンス: Link先を確認
Selma Saidi (TU Dortmund University, Dortmund, Germany)(参考訳) マルチエージェント自律システムにおけるコラボレーションは、安全性を確保しながらパフォーマンスを向上させるために重要である。 しかしながら、知覚品質などの特徴の不均一性のため、いくつかの自律システムは、特に不確実性の下で、共通の環境モデルの構築に協力する際、他のシステムよりも信頼性が高いとみなす必要がある。 本稿では,集合的知性に頼って自律システムの信頼性を高めるという考え方を紹介する。 社会認識学から概念を借りて、自律システムの個々の特性を活用し、協調的に安全性、信頼性、良い意思決定を達成するために、集合的推論のための設計ルールを定義し、定式化します。

Collaboration in multi-agent autonomous systems is critical to increase performance while ensuring safety. However, due to heterogeneity of their features in, e.g., perception qualities, some autonomous systems have to be considered more trustworthy than others when contributing to collaboratively build a common environmental model, especially under uncertainty. In this paper, we introduce the idea of increasing the reliability of autonomous systems by relying on collective intelligence. We borrow concepts from social epistemology to exploit individual characteristics of autonomous systems, and define and formalize at design rules for collective reasoning to achieve collaboratively increased safety, trustworthiness and good decision making.
翻訳日:2023-05-22 17:18:58 公開日:2023-05-18
# logic toolkitによる確率パズルの解法

Solving probability puzzles with logic toolkit ( http://arxiv.org/abs/2305.11294v1 )

ライセンス: Link先を確認
Adrian Groza(参考訳) 提案手法は方程式FOLにおける確率論的パズルの定式化である。 与えられたパズルのすべてのモデルに対する1つの理論と、好ましいモデルに対する2つ目の理論である。 次に、FOL理論のすべての解釈モデルを計算する Mace4 を2回呼び出す。 まず、可能なすべてのモデル Mp を計算するように要求される。 第二に、追加の制約が追加され、Mace4は優先モデルMfのみを算出する。 最後に、確率の定義が適用され、好ましいモデルの数は可能なモデルの数で分割される。 提案手法は,確率論的集団からのパズルの正しい解を見つけるために,論理的集団の学生に,モデリングと形式化という,彼らの好む道具を用いて提案する。 ここでは5つの確率的パズルを例示し、min folを翻訳して対応する解釈モデルを見つけることでどのように解くかを示します。 Mace4はここで選ぶツールだった。 確率論的パズルの様々なコレクションにおけるこの手法の限界についての研究

The proposed approach is to formalise the probabilistic puzzle in equational FOL. Two formalisations are needed: one theory for all models of the given puzzle, and a second theory for the favorable models. Then Mace4 - that computes all the interpretation models of a FOL theory - is called twice. First, it is asked to compute all the possible models M p .Second, the additional constraint is added, and Mace4 computes only favourabile models M f. Finally, the definition of probability is applied: the number of favorable models is divided by the number of possible models. The proposed approach equips students from the logic tribe to find the correct solution for puzzles from the probabilitistic tribe, by using their favourite instruments: modelling and formalisation. I have exemplified here five probabilistic puzzles and how they can be solved by translating the min FOL and then find the corresponding interpretation models. Mace4 was the tool of choice here. Ongoing work is investigating the limits of this method on various collections of probabilistic puzzles
翻訳日:2023-05-22 17:18:46 公開日:2023-05-18
# 分子の励起状態エネルギーに対する多要素機械学習

Multi-Fidelity Machine Learning for Excited State Energies of Molecules ( http://arxiv.org/abs/2305.11292v1 )

ライセンス: Link先を確認
Vivin Vinod, Sayan Maity, Peter Zaspel, Ulrich Kleinekath\"ofer(参考訳) 分子励起状態の正確かつ高速な計算は、いまだに非常に難しいトピックである。 多くの応用において、より大きな分子集合体におけるエネルギーファンネルの詳細な知識は、高精度の励起状態エネルギーを必要とする重要な重要性である。 この目的のために、機械学習技術は極めて有用なツールであるが、高精度なトレーニングデータセットを生成するコストは依然として厳しい課題である。 このハードルを克服するため,本研究では,高い精度のトレーニングデータと安価で精度の低いデータを組み合わせることで,高コストレベルの精度を実現するマルチ忠実度機械学習の利用を提案する。 本研究は, ベンゼン, ナフタレン, アントラセンの3つの分子について, 初めて励起状態エネルギーを予測する手法である。 エネルギーは、古典的分子動力学シミュレーションやリアルタイム密度汎関数的タイト結合計算から生じるコンフォメーションのために訓練され、テストされる。 マルチフィデリティ機械学習モデルは、高コストトレーニングデータのみに基づいて構築された機械学習モデルと同等の精度を実現できると同時に、データ生成のための計算労力がはるかに少ないことを示すことができる。 これらのベンチマークテスト計算で得られた数値利得は30以上であったが、精度の高いデータでは間違いなくはるかに高い。

The accurate but fast calculation of molecular excited states is still a very challenging topic. For many applications, detailed knowledge of the energy funnel in larger molecular aggregates is of key importance requiring highly accurate excited state energies. To this end, machine learning techniques can be an extremely useful tool though the cost of generating highly accurate training datasets still remains a severe challenge. To overcome this hurdle, this work proposes the use of multi-fidelity machine learning where very little training data from high accuracies is combined with cheaper and less accurate data to achieve the accuracy of the costlier level. In the present study, the approach is employed to predict the first excited state energies for three molecules of increasing size, namely, benzene, naphthalene, and anthracene. The energies are trained and tested for conformations stemming from classical molecular dynamics simulations and from real-time density functional tight-binding calculations. It can be shown that the multi-fidelity machine learning model can achieve the same accuracy as a machine learning model built only on high cost training data while having a much lower computational effort to generate the data. The numerical gain observed in these benchmark test calculations was over a factor of 30 but certainly can be much higher for high accuracy data.
翻訳日:2023-05-22 17:18:31 公開日:2023-05-18
# Google Mapsにおける超スケーラブルな逆強化学習

Massively Scalable Inverse Reinforcement Learning in Google Maps ( http://arxiv.org/abs/2305.11290v1 )

ライセンス: Link先を確認
Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion(参考訳) 人間の潜在選好を最適化することは、グローバルスケーラブルなソリューションが依然としてオープンな問題であるルートレコメンデーションにおいて大きな課題である。 過去の研究は、逆強化学習(IRL)の適用に対する一般的な解決策をますます生み出しているが、これらは世界規模のMDP、大規模なデータセット、高度パラメータ化モデル(それぞれ数億の状態、軌道、パラメータ)に拡張されることはなかった。 本研究では,グラフ圧縮,並列化,問題初期化に主観的固有ベクトルに基づく一連の進歩を通して,これまでの限界を克服する。 我々は,既存の作業を一般化し,計画地平線を介して重要なパフォーマンストレードオフを制御できるreceeding horizon inverse planning (rhip)を導入する。 当社の方針は,世界ルート品質の16~24%向上を実現しており,我々の知る限り,IRLが現在までの現実世界における最大の事例である。 その結果,より持続可能な交通手段(二輪車など)に対して,走行時間以外の要因(ルート安全性など)が重要な役割を担っている。 結論として,キーコンポーネントのアブレーション,最先端の固有値ソルバに対する負の結果,irl固有のバッチ戦略によるスケーラビリティ向上の機会を見出した。

Optimizing for humans' latent preferences is a grand challenge in route recommendation, where globally-scalable solutions remain an open problem. Although past work created increasingly general solutions for the application of inverse reinforcement learning (IRL), these have not been successfully scaled to world-sized MDPs, large datasets, and highly parameterized models; respectively hundreds of millions of states, trajectories, and parameters. In this work, we surpass previous limitations through a series of advancements focused on graph compression, parallelization, and problem initialization based on dominant eigenvectors. We introduce Receding Horizon Inverse Planning (RHIP), which generalizes existing work and enables control of key performance trade-offs via its planning horizon. Our policy achieves a 16-24% improvement in global route quality, and, to our knowledge, represents the largest instance of IRL in a real-world setting to date. Our results show critical benefits to more sustainable modes of transportation (e.g. two-wheelers), where factors beyond journey time (e.g. route safety) play a substantial role. We conclude with ablations of key components, negative results on state-of-the-art eigenvalue solvers, and identify future opportunities to improve scalability via IRL-specific batching strategies.
翻訳日:2023-05-22 17:18:09 公開日:2023-05-18
# spdニューラルネットワークのためのリーマン多層ロジスティクス回帰

Riemannian Multiclass Logistics Regression for SPD Neural Networks ( http://arxiv.org/abs/2305.11288v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Gaowen Liu, Ramana Rao Kompella, Xiaojun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)を学習するためのディープニューラルネットワークは、機械学習において注目を集めている。 かなりの進歩にもかかわらず、既存のSPDネットワークのほとんどは、SPD多様体の幾何を正確に捉える固有の分類器ではなく、近似空間上の伝統的なユークリッド分類器を使用している。 双曲型ニューラルネットワーク(HNN)の成功に触発されて,SPDネットワークのためのリーマン型マルチクラスロジスティクスレグレッション(RMLR)を提案する。 我々は、SPD多様体上のリーマン計量の族に対する一般化されたフレームワークを導入し、SPDネットワークに対する特定の$\orth{n}$-invariant Log-Euclidean Metricsを示す。 さらに、既存のSPDネットワークにおいて最も人気のある分類器をフレームワークの特別なケースとして取り上げる。 一般的なSPD学習ベンチマークの大規模な実験は、分類器の優位性を示している。

Deep neural networks for learning symmetric positive definite (SPD) matrices are gaining increasing attention in machine learning. Despite the significant progress, most existing SPD networks use traditional Euclidean classifiers on approximated spaces rather than intrinsic classifiers that accurately capture the geometry of SPD manifolds. Inspired by the success of hyperbolic neural networks (HNNs), we propose Riemannian multiclass logistics regression (RMLR) for SPD networks. We introduce a general unified framework for a family of Riemannian metrics on SPD manifolds and showcase the specific $\orth{n}$-invariant Log-Euclidean Metrics for SPD networks. Moreover, we encompass the most popular classifier in existing SPD networks as a special case of our framework. Extensive experiments on popular SPD learning benchmarks demonstrate the superiority of our classifiers.
翻訳日:2023-05-22 17:17:45 公開日:2023-05-18
# 異なる言語からの音声を用いたパーキンソン病検出のためのaiモデルの安全な開発のための連合学習

Federated learning for secure development of AI models for Parkinson's disease detection using speech from different languages ( http://arxiv.org/abs/2305.11284v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Cristian David Rios-Urrego, Elmar Noeth, Andreas Maier, Seung Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、人の発話に影響を与える神経疾患である。 pd自動評価手法では,ディープラーニングモデルが特に注目されている。 近年,診断精度をさらに向上させるクロスパス学とクロス言語モデルが検討されている。 しかし、厳格な患者データプライバシー規制は、医療機関が患者データの共有をほとんど妨げている。 本稿では,ドイツ,スペイン,チェコの3つの実世界の言語コーパスから発せられる音声信号を用いて,PD検出にフェデレートラーニング(FL)を用いる。 その結果, FLモデルでは, 全局所モデルで診断精度が向上する一方で, 協調作業者間のデータ共有を不要とする利点もあり, 集中的に組み合わせた学習セットに基づくモデルとは全く異なる性能が得られないことが示唆された。 これにより、制度間協力が簡単になり、患者の成果が向上する。

Parkinson's disease (PD) is a neurological disorder impacting a person's speech. Among automatic PD assessment methods, deep learning models have gained particular interest. Recently, the community has explored cross-pathology and cross-language models which can improve diagnostic accuracy even further. However, strict patient data privacy regulations largely prevent institutions from sharing patient speech data with each other. In this paper, we employ federated learning (FL) for PD detection using speech signals from 3 real-world language corpora of German, Spanish, and Czech, each from a separate institution. Our results indicate that the FL model outperforms all the local models in terms of diagnostic accuracy, while not performing very differently from the model based on centrally combined training sets, with the advantage of not requiring any data sharing among collaborators. This will simplify inter-institutional collaborations, resulting in enhancement of patient outcomes.
翻訳日:2023-05-22 17:17:31 公開日:2023-05-18
# MALM: マスク強化による食品レシピ検索のための局所マッチング

MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval ( http://arxiv.org/abs/2305.11327v1 )

ライセンス: Link先を確認
Bhanu Prakash Voutharoja and Peng Wang and Lei Wang and Vivienne Guan(参考訳) 画像からレシピへの検索は、重要な実用価値を持つ視覚から言語への課題である。 このタスクの主な課題は、長いレシピにおける超高冗長性と、食品の組み合わせと食品の外観の両方に反映される大きなバリエーションにある。 この課題に対処するデファクトのアイデアは、食品イメージが他のレシピよりもペアのレシピに合致する共有機能埋め込みスペースを学ぶことである。 しかし、そのような教師付きグローバルマッチングは監督の崩壊を招きやすい、すなわち、トレーニングペアを識別するのに必要な部分的な情報のみを識別できる一方、一般化において潜在的に有用な他の情報は失われる可能性がある。 そこで,本稿では,画像テキストマッチングモジュールとマスキング自己蒸留モジュールが相互に利益を享受し,一般化可能なクロスモダリティ表現を学習する仮面提示型局所マッチングネットワーク(malm)を提案する。 一方,画像とテキストのトークン化された表現間の局所マッチングを行い,きめ細かなクロスモダリティ対応を明示的に見つける。 このプロセスでは,特に食品が不足している場合の局所的マッチングによる過度な適合を軽減するために,マスク画像パッチの表現が関与する。 一方, マスク付きパッチの隠蔽表現を自己蒸留で予測することは, より汎用的な画像表現の学習に役立つ。 そして、このモデルのマルチタスク性により、マスクされたパッチの表現をテキスト認識することができ、情報の再構成が容易になる。 Recipe1Mデータセットによる実験結果から,本手法は最先端(SOTA)手法よりも優れていることが示された。 私たちのコードはhttps://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie valで利用可能になります。

Image-to-recipe retrieval is a challenging vision-to-language task of significant practical value. The main challenge of the task lies in the ultra-high redundancy in the long recipe and the large variation reflected in both food item combination and food item appearance. A de-facto idea to address this task is to learn a shared feature embedding space in which a food image is aligned better to its paired recipe than other recipes. However, such supervised global matching is prone to supervision collapse, i.e., only partial information that is necessary for distinguishing training pairs can be identified, while other information that is potentially useful in generalization could be lost. To mitigate such a problem, we propose a mask-augmentation-based local matching network (MALM), where an image-text matching module and a masked self-distillation module benefit each other mutually to learn generalizable cross-modality representations. On one hand, we perform local matching between the tokenized representations of image and text to locate fine-grained cross-modality correspondence explicitly. We involve representations of masked image patches in this process to alleviate overfitting resulting from local matching especially when some food items are underrepresented. On the other hand, predicting the hidden representations of the masked patches through self-distillation helps to learn general-purpose image representations that are expected to generalize better. And the multi-task nature of the model enables the representations of masked patches to be text-aware and thus facilitates the lost information reconstruction. Experimental results on Recipe1M dataset show our method can clearly outperform state-of-the-art (SOTA) methods. Our code will be available at https://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie val
翻訳日:2023-05-22 17:12:32 公開日:2023-05-18
# 表データ探索を容易にする対話型インタフェースの自動生成に向けて

Towards the Automatic Generation of Conversational Interfaces to Facilitate the Exploration of Tabular Data ( http://arxiv.org/abs/2305.11326v1 )

ライセンス: Link先を確認
Marcos Gomez, Jordi Cabot, Robert Claris\'o(参考訳) タブラルデータは、構造化されたデータをオンラインで公開し、交換する最も一般的なフォーマットである。 明らかな例は、あらゆる種類の行政機関が公開するオープンデータポータルの数の増加である。 しかし、これらのデータソースの利用は現在、プログラムでデータを操作し、消化できる技術系の人々に限られている。 その代替として,表形式のデータソースの探索を容易にする対話インタフェースを提供するチャットボットを提案する。 私たちのアプローチでは、普通の市民なら誰でもそのメリットを享受できます。 さらに、私たちのチャットボットは手動で作られていません。代わりに、設定可能な会話パターンのコレクションのインスタンス化によって、データソース自身から自動的に生成されます。

Tabular data is the most common format to publish and exchange structured data online. A clear example is the growing number of open data portals published by all types of public administrations. However, exploitation of these data sources is currently limited to technical people able to programmatically manipulate and digest such data. As an alternative, we propose the use of chatbots to offer a conversational interface to facilitate the exploration of tabular data sources. With our approach, any regular citizen can benefit and leverage them. Moreover, our chatbots are not manually created: instead, they are automatically generated from the data source itself thanks to the instantiation of a configurable collection of conversation patterns.
翻訳日:2023-05-22 17:11:44 公開日:2023-05-18
# 弱可積分境界不純物モデルにおけるゆっくりと崩壊するゼロモード

Slowly decaying zero mode in a weakly non-integrable boundary impurity model ( http://arxiv.org/abs/2305.11325v1 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Gabriel Cardoso, Leonid Korneev, Dries Sels, Alexander G. Abanov, Aditi Mitra(参考訳) 半無限鎖上の横フィールドイジングモデル(TFIM)は、エッジゼロモードを持つ。 本研究は、境界可積分分解相互作用によって摂動される不純物モデルを考える。 十分に大きな横磁場に対しては、tfimの順序相ではゼロモードが崩壊することが観測される。 崩壊は、鎖に沿って可積分分解相互作用がゼロでないゼロモードと定性的に異なる。 不純物モデルでは、零モードは非局所準保存作用素に緩和することで減衰し、後者は、チェーンの対向端がスペクトルの完全な縮退を保証するために非可換摂動を持たないときに正確に保存される。 熱力学の極限において、準保存作用素は消滅し、零モードの崩壊がフェルミの黄金律に従う状態が特定される。 崩壊のおもちゃモデルがクリロフ空間で構築され、フェルミの黄金律がこのおもちゃモデルからどのように回収されるかが強調されている。

The transverse field Ising model (TFIM) on the half-infinite chain possesses an edge zero mode. This work considers an impurity model -- TFIM perturbed by a boundary integrability breaking interaction. For sufficiently large transverse field, but in the ordered phase of the TFIM, the zero mode is observed to decay. The decay is qualitatively different from zero modes where the integrability breaking interactions are non-zero all along the chain. It is shown that for the impurity model, the zero mode decays by relaxing to a non-local quasi-conserved operator, the latter being exactly conserved when the opposite edge of the chain has no non-commuting perturbations so as to ensure perfect degeneracy of the spectrum. In the thermodynamic limit, the quasi-conserved operator vanishes, and a regime is identified where the decay of the zero mode obeys Fermi's Golden Rule. A toy model for the decay is constructed in Krylov space and it is highlighted how Fermi's Golden Rule may be recovered from this toy model.
翻訳日:2023-05-22 17:11:26 公開日:2023-05-18
# ペア標本間の累積差

Cumulative differences between paired samples ( http://arxiv.org/abs/2305.11323v1 )

ライセンス: Link先を確認
Isabel Kloumann, Hannah Korevaar, Chris McConnell, Mark Tygert, and Jessica Zhao(参考訳) 最も単純な、最も一般的なペアのサンプルは、2つの集団からの観測であり、それぞれの観測された応答は、他の集団からの観測された応答に対応する。 共変量の同じ値の観測された応答の対(各集団から1つずつ)は「一致した対」として知られる(同変量の値に基づく一致)。 2つの集団間の累積差のグラフは、共変量関数としての反応の差を示す。 実際、グラフ上の2つの点を結ぶ分離線の傾きは、2つの点の間の共変量の値の広い間隔の平均差、すなわち、グラフの傾きは応答の平均差となる。 (「平均」とは、試料を重み付けした場合の重み付け平均のこと。) さらに、カイパー計量として知られる単純な統計学は、共変量のすべての値に対する全体的な違いを単一のスカラーにまとめる。 クイパー計量 (kuiper metric) は、2つの集団間の応答の合計差の絶対値であり、総数の絶対値が最も大きい共変量の値の間隔で合計される。 トータルは、トータルが取られる間隔がコ変量の範囲全体である場合、コ変量全体の(重み付け)平均となるように正規化されるべきである(すなわち、トータルの和は、サンプルが重み付けされていない場合、またはトータル重量で割られる場合、トータルの合計は、トータルの観測数で割られる)。 この累積的アプローチは完全に非パラメトリックで一意に定義されており(グラフとスカラーの要約統計を組み立てる正しい方法が1つしかない)、信頼性図やパラメトリックあるいは半パラメトリック回帰のような伝統的な手法とは異なり、パラメータ設定によって典型的に顕著な違いがある。

The simplest, most common paired samples consist of observations from two populations, with each observed response from one population corresponding to an observed response from the other population at the same value of an ordinal covariate. The pair of observed responses (one from each population) at the same value of the covariate is known as a "matched pair" (with the matching based on the value of the covariate). A graph of cumulative differences between the two populations reveals differences in responses as a function of the covariate. Indeed, the slope of the secant line connecting two points on the graph becomes the average difference over the wide interval of values of the covariate between the two points; i.e., slope of the graph is the average difference in responses. ("Average" refers to the weighted average if the samples are weighted.) Moreover, a simple statistic known as the Kuiper metric summarizes into a single scalar the overall differences over all values of the covariate. The Kuiper metric is the absolute value of the total difference in responses between the two populations, totaled over the interval of values of the covariate for which the absolute value of the total is greatest. The total should be normalized such that it becomes the (weighted) average over all values of the covariate when the interval over which the total is taken is the entire range of the covariate (i.e., the sum for the total gets divided by the total number of observations, if the samples are unweighted, or divided by the total weight, if the samples are weighted). This cumulative approach is fully nonparametric and uniquely defined (with only one right way to construct the graphs and scalar summary statistics), unlike traditional methods such as reliability diagrams or parametric or semi-parametric regressions, which typically obscure significant differences due to their parameter settings.
翻訳日:2023-05-22 17:11:05 公開日:2023-05-18
# SpikeCP: コンフォーマル予測による遅延適応型信頼性スパイクニューラルネットワーク

SpikeCP: Delay-Adaptive Reliable Spiking Neural Networks via Conformal Prediction ( http://arxiv.org/abs/2305.11322v1 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Osvaldo Simeone(参考訳) spiking neural networks (snns)は、入力提示の過程でニューロン間で交換されるスパイクの数にエネルギーが依存する内部イベント駆動ニューラルダイナミクスを介して時系列データを処理する。 snn分類器の典型的な実装では、入力シーケンス全体が処理された後に決定が生成され、入力間でかなり均一なレイテンシとエネルギー消費レベルが発生する。 最近導入された遅延適応型SNNは、SNNモデルが十分に 'confident'' である場合の早期決定を生成することで、各例の難易度に応じて、推論レイテンシーとそれに伴うエネルギー消費を調整している。 本稿では,SNNが入力サンプルを処理しているため,その分類決定はまず不信であり,その後,決定の根本的真理,未知,テスト精度に関して過信される傾向にあることを示す。 これにより、望ましいレベルの精度を保証する停止時間を決定することが困難になる。 そこで本研究では,事前学習したSNN分類器をラップすることで,入力依存の停止時に発生する決定に対して信頼性が保証される新しい遅延適応型SNN推論手法を提案する。 このアプローチは、基礎となるSNNと比較して最小限の複雑さを伴い、実行時にしきい値の設定とカウントのみを必要とし、整合予測(CP)からツールを活用する。

Spiking neural networks (SNNs) process time-series data via internal event-driven neural dynamics whose energy consumption depends on the number of spikes exchanged between neurons over the course of the input presentation. In typical implementations of an SNN classifier, decisions are produced after the entire input sequence has been processed, resulting in latency and energy consumption levels that are fairly uniform across inputs. Recently introduced delay-adaptive SNNs tailor the inference latency -- and, with it, the energy consumption -- to the difficulty of each example, by producing an early decision when the SNN model is sufficiently ``confident''. In this paper, we start by observing that, as an SNN processes input samples, its classification decisions tend to be first under-confident and then over-confident with respect to the decision's ground-truth, unknown, test accuracy. This makes it difficult to determine a stopping time that ensures a desired level of accuracy. To address this problem, we introduce a novel delay-adaptive SNN-based inference methodology that, wrapping around any pre-trained SNN classifier, provides guaranteed reliability for the decisions produced at input-dependent stopping times. The approach entails minimal added complexity as compared to the underlying SNN, requiring only thresholding and counting operations at run time, and it leverages tools from conformal prediction (CP).
翻訳日:2023-05-22 17:10:33 公開日:2023-05-18
# Join: 固有の画像分解のための共同GANインバージョン

JoIN: Joint GANs Inversion for Intrinsic Image Decomposition ( http://arxiv.org/abs/2305.11321v1 )

ライセンス: Link先を確認
Viraj Shah, Svetlana Lazebnik, Julien Philip(参考訳) 本稿では,gan(generative adversarial network)のバンクを先行として,不適切な逆画像問題を解くことを提案し,本手法を顔や素材の固有画像分解に適用する。 提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。 我々のアプローチの核心は、GANの潜伏空間が逆問題を解決するのに適した最適化領域であるという考えである。 入力画像が与えられた場合、GANの集合の潜在符号を共同で反転させ、それらの出力を組み合わせて入力を再生する。 1つのGANのみを反転させるのに制限のあるほとんどのGAN反転法とは対照的に、複数のGANを共同で反転させながら、分布前を維持できることを実証する。 提案手法はモジュラーであり,様々なフォワードイメージングモデルを実現するとともに,合成画像と実画像の両方を分解し,GANラテント空間の特性を画像のリライティングに活用するといった付加的な利点を提供する。

In this work, we propose to solve ill-posed inverse imaging problems using a bank of Generative Adversarial Networks (GAN) as a prior and apply our method to the case of Intrinsic Image Decomposition for faces and materials. Our method builds on the demonstrated success of GANs to capture complex image distributions. At the core of our approach is the idea that the latent space of a GAN is a well-suited optimization domain to solve inverse problems. Given an input image, we propose to jointly inverse the latent codes of a set of GANs and combine their outputs to reproduce the input. Contrary to most GAN inversion methods which are limited to inverting only a single GAN, we demonstrate that it is possible to maintain distribution priors while inverting several GANs jointly. We show that our approach is modular, allowing various forward imaging models, that it can successfully decompose both synthetic and real images, and provides additional advantages such as leveraging properties of GAN latent space for image relighting.
翻訳日:2023-05-22 17:10:07 公開日:2023-05-18
# テキストから音声へのアクセント適応のためのパラメータ効率向上学習

Parameter-Efficient Learning for Text-to-Speech Accent Adaptation ( http://arxiv.org/abs/2305.11320v1 )

ライセンス: Link先を確認
Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien(参考訳) 本稿では,テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。 従来のトレーニング可能なパラメータの1.2~0.8%しか使用せず, 音声合成における競合性能を実現することにより, 冷凍前訓練TSモデルからの資源効率の向上を実現した。 本研究は, 最適輸送(OT)の理論的基礎を基礎として, OTに基づく補助的非教師的損失を導入し, 教師付きトレーニング損失に加えて, 事前訓練されたソースドメインと(見えない)ターゲットドメインとの差を最大化する。 さらに,この教師なしの損失改善を生かして,スライスワッセルスタイン距離と最大平均差のどちらかを介してシステム性能を向上させる。 本研究のメリットは,残差アダプタ学習に基づくpelソリューションの実現と,マンダリンアクセント適応評価時のモデル再プログラミングによって実証される。 実験の結果,提案手法はパラメータ効率の良いデコーダの微調整により競合自然性を達成でき,補助的な教師なし損失はモデル性能を経験的に向上できることがわかった。

This paper presents a parameter-efficient learning (PEL) to develop a low-resource accent adaptation for text-to-speech (TTS). A resource-efficient adaptation from a frozen pre-trained TTS model is developed by using only 1.2\% to 0.8\% of original trainable parameters to achieve competitive performance in voice synthesis. Motivated by a theoretical foundation of optimal transport (OT), this study carries out PEL for TTS where an auxiliary unsupervised loss based on OT is introduced to maximize a difference between the pre-trained source domain and the (unseen) target domain, in addition to its supervised training loss. Further, we leverage upon this unsupervised loss refinement to boost system performance via either sliced Wasserstein distance or maximum mean discrepancy. The merit of this work is demonstrated by fulfilling PEL solutions based on residual adapter learning, and model reprogramming when evaluating the Mandarin accent adaptation. Experiment results show that the proposed methods can achieve competitive naturalness with parameter-efficient decoder fine-tuning, and the auxiliary unsupervised loss improves model performance empirically.
翻訳日:2023-05-22 17:09:48 公開日:2023-05-18
# 協調生成AI:テキストから画像への効率的な編集のためのGPT-kの統合

Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation ( http://arxiv.org/abs/2305.11317v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xinyi Wang, Yujie Lu, Tsu-Jui Fu, Xin Eric Wang, Miguel Eckstein and William Yang Wang(参考訳) text-to-image(t2i)生成の分野は、研究コミュニティと日々のユーザの両方で大きな注目を集めている。 t2iモデルの進歩にもかかわらず、ユーザが遭遇する一般的な問題は、入力プロンプトを反復的に編集して満足のいく画像を受け取る必要があることである。 GPT-kのような大規模言語モデルのテキスト生成能力の実証から,このようなモデルを用いてT2I生成の迅速な編集プロセスを改善する可能性を検討する。 我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。 その結果, GPT-k モデルは修飾詞の挿入に重点を置いているのに対し, 人間は語句を置き換えがちであることがわかった。 実験の結果, GPT-kは主主題の自然変化を予測するよりも, 修飾体の調整に有効であることが示唆された。 gpt-kモデルが提案する編集を採用すると、残りの編集の割合を20-30%削減できる。

The field of text-to-image (T2I) generation has garnered significant attention both within the research community and among everyday users. Despite the advancements of T2I models, a common issue encountered by users is the need for repetitive editing of input prompts in order to receive a satisfactory image, which is time-consuming and labor-intensive. Given the demonstrated text generation power of large-scale language models, such as GPT-k, we investigate the potential of utilizing such models to improve the prompt editing process for T2I generation. We conduct a series of experiments to compare the common edits made by humans and GPT-k, evaluate the performance of GPT-k in prompting T2I, and examine factors that may influence this process. We found that GPT-k models focus more on inserting modifiers while humans tend to replace words and phrases, which includes changes to the subject matter. Experimental results show that GPT-k are more effective in adjusting modifiers rather than predicting spontaneous changes in the primary subject matters. Adopting the edit suggested by GPT-k models may reduce the percentage of remaining edits by 20-30%.
翻訳日:2023-05-22 17:09:26 公開日:2023-05-18
# 候補生成、トランスフォーマーベースのリランキング、および2段階の解像度を改良したtoponym resolutionの改善

Improving Toponym Resolution with Better Candidate Generation, Transformer-based Reranking, and Two-Stage Resolution ( http://arxiv.org/abs/2305.11315v1 )

ライセンス: Link先を確認
Zeyu Zhang and Steven Bethard(参考訳) ジオコーディングは、テキスト中の位置参照を地理空間意味論をエンコードする構造化データに変換するタスクである。 我々はジオコーディングのための新しいアーキテクチャGeoNormを提案する。 GeoNormはまず、地理空間オントロジーから候補項目のリストを生成するために情報検索技術を使用する。 その後、トランスフォーマーベースのニューラルネットワークを使用して候補エントリをリランクし、エントリの人口などのオントロジーからの情報を組み込む。 この生成と参照のプロセスは、まず、曖昧でない国、州、郡を解決し、次に、特定された国、州、郡をコンテキストとして、残りの場所の言及を解決します。 提案手法は,複数データセット上での最先端性能を実現する。 コードとモデルは \url{https://github.com/clulab/geonorm} で利用可能である。

Geocoding is the task of converting location mentions in text into structured data that encodes the geospatial semantics. We propose a new architecture for geocoding, GeoNorm. GeoNorm first uses information retrieval techniques to generate a list of candidate entries from the geospatial ontology. Then it reranks the candidate entries using a transformer-based neural network that incorporates information from the ontology such as the entry's population. This generate-and-rerank process is applied twice: first to resolve the less ambiguous countries, states, and counties, and second to resolve the remaining location mentions, using the identified countries, states, and counties as context. Our proposed toponym resolution framework achieves state-of-the-art performance on multiple datasets. Code and models are available at \url{https://github.com/clulab/geonorm}.
翻訳日:2023-05-22 17:09:07 公開日:2023-05-18
# BELLA:局所線形近似によるブラックボックスモデル説明

BELLA: Black box model Explanations by Local Linear Approximations ( http://arxiv.org/abs/2305.11311v1 )

ライセンス: Link先を確認
Nedeljko Radulovic, Albert Bifet, Fabian Suchanek(参考訳) 近年,ブラックボックスモデルの意思決定プロセスの理解は法的要件だけでなく,その性能を評価する新たな方法にもなっている。 しかし、ポストホックな解釈手法の状況は、合成データ生成に依存している。 これは不確実性をもたらし、解釈の信頼性を損なう可能性がある。 さらに、非常に少ないデータポイントにのみ適用される説明を生成する傾向がある。 これにより説明が不安定になり、範囲が制限される。 最後に、直接検証可能な意味を持たないスコアを提供する。 本稿では,回帰ブラックボックスモデルの個別予測を説明するための決定論的モデル非依存ポストホックアプローチであるbellaを提案する。 BELLAは特徴空間で訓練された線形モデルという形で説明を提供する。 したがって、その係数は、その特徴値から予測値を計算するために直接使用できる。 さらに、BELLAは線形モデルが適用する近傍の大きさを最大化し、説明が正確で、単純で、汎用的で、堅牢である。 BELLAは事実と反事実の両方を説明することができる。 ユーザスタディでは,最適なデシダラタの重要性を確認し,BELLAがこれらのデシダラタに対して最先端のアプローチよりも優れていることを示す。

In recent years, understanding the decision-making process of black-box models has become not only a legal requirement but also an additional way to assess their performance. However, the state of the art post-hoc interpretation approaches rely on synthetic data generation. This introduces uncertainty and can hurt the reliability of the interpretations. Furthermore, they tend to produce explanations that apply to only very few data points. This makes the explanations brittle and limited in scope. Finally, they provide scores that have no direct verifiable meaning. In this paper, we present BELLA, a deterministic model-agnostic post-hoc approach for explaining the individual predictions of regression black-box models. BELLA provides explanations in the form of a linear model trained in the feature space. Thus, its coefficients can be used directly to compute the predicted value from the feature values. Furthermore, BELLA maximizes the size of the neighborhood to which the linear model applies, so that the explanations are accurate, simple, general, and robust. BELLA can produce both factual and counterfactual explanations. Our user study confirms the importance of the desiderata we optimize, and our experiments show that BELLA outperforms the state-of-the-art approaches on these desiderata.
翻訳日:2023-05-22 17:08:50 公開日:2023-05-18
# 条件付き生成モデルからのデータリアクション

Data Redaction from Conditional Generative Models ( http://arxiv.org/abs/2305.11351v1 )

ライセンス: Link先を確認
Zhifeng Kong and Kamalika Chaudhuri(参考訳) 深層生成モデルは有害な内容などの望ましくないサンプルを生成することが知られている。 従来の緩和方法には、スクラッチから再トレーニング、フィルタリング、編集が含まれるが、これらは計算コストが高いか、第三者が回避できる。 本稿では, 条件付き生成モデルについて異なるアプローチを採り, 学習済み条件付き生成モデルを用いて, 高い確率で, 望ましくないコンテンツに導く条件を再現する方法について検討する。 これはモデルにコンディショニングネットワークを蒸留することで実現され、深層生成モデルのクラスに対して効率的、効率的、制御可能、普遍的なソリューションを提供する。 テキスト対画像モデルにおけるプロンプトの再現実験と、テキスト対音声モデルにおける音声の再現実験を行った。 本手法は, 計算量的に軽量であり, 高い世代品質を維持しつつ, ベースライン法よりも高い再現性と頑健性をもたらす。

Deep generative models are known to produce undesirable samples such as harmful content. Traditional mitigation methods include re-training from scratch, filtering, or editing; however, these are either computationally expensive or can be circumvented by third parties. In this paper, we take a different approach and study how to post-edit an already-trained conditional generative model so that it redacts certain conditionals that will, with high probability, lead to undesirable content. This is done by distilling the conditioning network in the models, giving a solution that is effective, efficient, controllable, and universal for a class of deep generative models. We conduct experiments on redacting prompts in text-to-image models and redacting voices in text-to-speech models. Our method is computationally light, leads to better redaction quality and robustness than baseline methods while still retaining high generation quality.
翻訳日:2023-05-22 17:01:39 公開日:2023-05-18
# マルチモーダル弱信号を用いた非教師なしドメイン非依存偽ニュース検出

Unsupervised Domain-agnostic Fake News Detection using Multi-modal Weak Signals ( http://arxiv.org/abs/2305.11349v1 )

ライセンス: Link先を確認
Amila Silva, Ling Luo, Shanika Karunasekera, Christopher Leckie(参考訳) ニュースにアクセスするための主要なプラットフォームの一つとしてソーシャルメディアが出現したことで、フェイクニュースが広く普及した。 これは偽ニュース検出の自動化に関する多くの研究を動機付けている。 教師なしの偽ニュース検出の試みは限られているが、その性能は、ニュース記録に関連する様々なモダリティの知識を活用せず、既存のニュースデータセットに様々な潜在バイアスが存在するためである。 そこで本研究では,非教師付き偽ニュース検出のための効果的なフレームワークを提案する。まず,ニュースレコードの4つのモダリティに利用可能な知識を組込み,次に,マルチモーダル組込みからニュースレコードの有効性を識別する,ノイズロバスト自己教師付き学習手法を提案する。 また,既存のニュースデータセットの潜在バイアスを最小化するニュースデータセットを構築する新しい手法を提案する。 提案手法に従って,LUND-COVIDと略される新型コロナウイルス関連ニュース記事419,351件からなる大規模未ラベルニュースデータセットを作成した。 LUND-COVIDを用いて提案した教師なしフレームワークをトレーニングし,既存のラベル付きデータセットを用いて評価した。 提案手法は,マルチモーダルなフェイクニュース検出,フェイクニュース早期検出,数発のフェイクニュース検出など,既存の教師なしベースラインよりも優れており,トレーニング中に未確認領域に顕著な改善が得られた。

The emergence of social media as one of the main platforms for people to access news has enabled the wide dissemination of fake news. This has motivated numerous studies on automating fake news detection. Although there have been limited attempts at unsupervised fake news detection, their performance suffers due to not exploiting the knowledge from various modalities related to news records and due to the presence of various latent biases in the existing news datasets. To address these limitations, this work proposes an effective framework for unsupervised fake news detection, which first embeds the knowledge available in four modalities in news records and then proposes a novel noise-robust self-supervised learning technique to identify the veracity of news records from the multi-modal embeddings. Also, we propose a novel technique to construct news datasets minimizing the latent biases in existing news datasets. Following the proposed approach for dataset construction, we produce a Large-scale Unlabelled News Dataset consisting 419,351 news articles related to COVID-19, acronymed as LUND-COVID. We trained the proposed unsupervised framework using LUND-COVID to exploit the potential of large datasets, and evaluate it using a set of existing labelled datasets. Our results show that the proposed unsupervised framework largely outperforms existing unsupervised baselines for different tasks such as multi-modal fake news detection, fake news early detection and few-shot fake news detection, while yielding notable improvements for unseen domains during training.
翻訳日:2023-05-22 17:01:24 公開日:2023-05-18
# フェアネスの名において:臨床記録の同定におけるバイアスの評価

In the Name of Fairness: Assessing the Bias in Clinical Record De-identification ( http://arxiv.org/abs/2305.11348v1 )

ライセンス: Link先を確認
Yuxin Xiao, Shulammite Lim, Tom Joseph Pollard, Marzyeh Ghassemi(参考訳) オープンサイエンスと再現可能な研究にはデータ共有が不可欠であるが、臨床データの法的共有には、電子健康記録から保護された健康情報を取り除く必要がある。 このプロセスはde-identificationとして知られ、多くの商用およびオープンソースシステムで機械学習アルゴリズムを使用することでしばしば達成される。 これらのシステムは, 平均的に有意な結果を示しているが, 異なる集団間での成績のばらつきについては, 十分に検討されていない。 本研究は, 大規模実験分析を用いて, 臨床メモにおける名前の同定システムに対するバイアスについて検討する。 これを実現するために、性別、人種、名前の人気、そして人気の10年という4つの年齢層で異なる16の名前セットを作成します。 それらの名称を手作業による治験テンプレート100個に挿入し,9つの公衆・個人識別手法の性能評価を行った。 以上の結果から,ほとんどの方法において,統計学的に有意な性能差があることが判明した。 さらに, 名前, 性別, 臨床ノートの特徴において, 脱識別品質がポリセミーの影響を受けていることを示す。 特定されたギャップを緩和するために,臨床状況と多様な名前の微調整による簡易かつ方法に依存しない解法を提案する。 全体としては、下流の利害関係者がすべての人口構成政党に公平にサービスを提供する高品質なシステムを構築することができるように、既存の方法のバイアスに即座に対処することが不可欠である。

Data sharing is crucial for open science and reproducible research, but the legal sharing of clinical data requires the removal of protected health information from electronic health records. This process, known as de-identification, is often achieved through the use of machine learning algorithms by many commercial and open-source systems. While these systems have shown compelling results on average, the variation in their performance across different demographic groups has not been thoroughly examined. In this work, we investigate the bias of de-identification systems on names in clinical notes via a large-scale empirical analysis. To achieve this, we create 16 name sets that vary along four demographic dimensions: gender, race, name popularity, and the decade of popularity. We insert these names into 100 manually curated clinical templates and evaluate the performance of nine public and private de-identification methods. Our findings reveal that there are statistically significant performance gaps along a majority of the demographic dimensions in most methods. We further illustrate that de-identification quality is affected by polysemy in names, gender context, and clinical note characteristics. To mitigate the identified gaps, we propose a simple and method-agnostic solution by fine-tuning de-identification methods with clinical context and diverse names. Overall, it is imperative to address the bias in existing methods immediately so that downstream stakeholders can build high-quality systems to serve all demographic parties fairly.
翻訳日:2023-05-22 17:00:58 公開日:2023-05-18
# 自然摂動とデータ中毒に対する深層多スペクトルセグメンテーションモデルの堅牢性の定量化

Quantifying the robustness of deep multispectral segmentation models against natural perturbations and data poisoning ( http://arxiv.org/abs/2305.11347v1 )

ライセンス: Link先を確認
Elise Bishoff, Charles Godfrey, Myles McKay, Eleanor Byler(参考訳) オーバヘッドイメージセグメンテーションタスクでは、従来のRGBチャネル以外のスペクトル帯域を追加すれば、モデルのパフォーマンスが向上する。 しかし、この追加データの導入が、敵攻撃や自然摂動に対するモデル堅牢性にどのように影響するかは、まだ不明である。 敵対的な堅牢性のために、追加情報はモデルの悪意のある入力を識別する能力を改善するか、単に新しい攻撃経路と脆弱性を提供する。 自然摂動の場合、追加の情報はモデル決定により良い情報を与え、摂動効果を弱めるか、全く大きな影響を与えない。 本研究では,敵対的攻撃や自然摂動を受けるマルチスペクトル(RGBおよび近赤外線)画像分割モデルの性能とロバスト性を特徴付ける。 既存の敵対的・自然的堅牢性の研究は、主にデジタル摂動に焦点を当てているが、我々は物理的な世界条件を念頭に設計された現実的な摂動の創造に重点を置いている。 対向的ロバスト性については,データ中毒攻撃に注目する一方で,自然のロバスト性については,imagenet-cによる霧と雪の一般的な腐敗の拡大に注目する。 全体としては、RGBモデルとマルチスペクトルモデルの両方が、入力や融合アーキテクチャに関わらずデータ中毒攻撃に対して脆弱であり、物理的に実現可能な自然摂動はモデル性能を低下させるが、その影響は融合アーキテクチャと入力データによって異なる。

In overhead image segmentation tasks, including additional spectral bands beyond the traditional RGB channels can improve model performance. However, it is still unclear how incorporating this additional data impacts model robustness to adversarial attacks and natural perturbations. For adversarial robustness, the additional information could improve the model's ability to distinguish malicious inputs, or simply provide new attack avenues and vulnerabilities. For natural perturbations, the additional information could better inform model decisions and weaken perturbation effects or have no significant influence at all. In this work, we seek to characterize the performance and robustness of a multispectral (RGB and near infrared) image segmentation model subjected to adversarial attacks and natural perturbations. While existing adversarial and natural robustness research has focused primarily on digital perturbations, we prioritize on creating realistic perturbations designed with physical world conditions in mind. For adversarial robustness, we focus on data poisoning attacks whereas for natural robustness, we focus on extending ImageNet-C common corruptions for fog and snow that coherently and self-consistently perturbs the input data. Overall, we find both RGB and multispectral models are vulnerable to data poisoning attacks regardless of input or fusion architectures and that while physically realizable natural perturbations still degrade model performance, the impact differs based on fusion architecture and input data.
翻訳日:2023-05-22 17:00:36 公開日:2023-05-18
# エネルギーモデルを用いた報酬条件強化学習のベイズ再パラメータ化

Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning with Energy-based Models ( http://arxiv.org/abs/2305.11340v1 )

ライセンス: Link先を確認
Wenhao Ding, Tong Che, Ding Zhao, Marco Pavone(参考訳) 近年、報酬条件強化学習(RCRL)は、その単純さ、柔軟性、および非政治性から人気を集めている。 しかし、現在のRCRLアプローチは基本的に限定的であり、RCRLの2つの重要な課題、すなわち高報酬対ゴー(RTG)入力の一般化の改善、テスト期間中のアウト・オブ・ディストリビューション(OOD)RTGクエリの回避に対処できないことを示す。 バニラRCRLアーキテクチャを訓練する際のこれらの課題を解決するため、ベイズの定理に触発されたRCRLの新しい帰納バイアスであるベイズ再パラメータ化RCRL(BR-RCRL)を提案する。 BR-RCRLは、バニラRCRLが高RTG入力を一般化することを防ぐコア障害を取り除く。 br-rcrlはまた、バニラrcrlメソッドで予測不能な振る舞いをもたらすoodクエリを避けながら、総リターンを最大化する適応的推論方法を設計できる。 BR-RCRL は Gym-Mujoco と Atari のオフライン RL ベンチマークで最先端性能を実現し,バニラ RCRL を最大 11% 改善した。

Recently, reward-conditioned reinforcement learning (RCRL) has gained popularity due to its simplicity, flexibility, and off-policy nature. However, we will show that current RCRL approaches are fundamentally limited and fail to address two critical challenges of RCRL -- improving generalization on high reward-to-go (RTG) inputs, and avoiding out-of-distribution (OOD) RTG queries during testing time. To address these challenges when training vanilla RCRL architectures, we propose Bayesian Reparameterized RCRL (BR-RCRL), a novel set of inductive biases for RCRL inspired by Bayes' theorem. BR-RCRL removes a core obstacle preventing vanilla RCRL from generalizing on high RTG inputs -- a tendency that the model treats different RTG inputs as independent values, which we term ``RTG Independence". BR-RCRL also allows us to design an accompanying adaptive inference method, which maximizes total returns while avoiding OOD queries that yield unpredictable behaviors in vanilla RCRL methods. We show that BR-RCRL achieves state-of-the-art performance on the Gym-Mujoco and Atari offline RL benchmarks, improving upon vanilla RCRL by up to 11%.
翻訳日:2023-05-22 17:00:11 公開日:2023-05-18
# 解剖学的ランドマーク検出のための位置印とサンプル認識中央損失の協調変換器

Coordinated Transformer with Position \& Sample-aware Central Loss for Anatomical Landmark Detection ( http://arxiv.org/abs/2305.11338v1 )

ライセンス: Link先を確認
Qikui Zhu, Yihui Bi, Danxin Wang, Xiangpeng Chu, Jie Chen, Yanqing Wang(参考訳) 熱マップに基づく解剖学的ランドマーク検出はまだ2つの未解決課題に直面している。 1) ヒートマップの分布を正確に評価できないこと 2)グローバル空間構造情報を効果的に活用できない。 計算不能問題に対処するために,新しい位置認識およびサンプル認識中心損失を提案する。 具体的には、中央損失は位置情報を吸収し、ヒートマップ分布の正確な評価を可能にする。 これにより、ランドマークと非ランドマークの極端な不均衡という課題を解決しつつ、簡単でハードなサンプルを適応的に区別し、ハードなサンプルにもっと集中させることができる。 構造情報の無視という課題に対処するため,CoorTransformerと呼ばれるコーディネートトランスフォーマーが,ランドマーク調整情報の指導の下で長距離依存を確立し,グローバル空間構造を生かしつつ,スパークランドマークに注目する。 さらに、coortransformerはコンバージェンスを高速化でき、トランスフォーマがスパース表現学習で収束しにくい欠陥を効果的に回避できる。 先進的なCoorTransformerと中心的損失を用いて,ランドマーク間の基盤となる関係を本質的に活用し,ターゲットランドマーク周辺の豊富な構造的知識を取り入れた,様々なシナリオを処理可能な一般化検出モデルを提案する。 3つの困難なランドマーク検出タスクにおいて, coortransformer と central loss を分析し, 評価した。 実験の結果,CoorTransformerは最先端の手法よりも優れており,中心的な損失はp値0.05のモデルの性能を著しく向上させることがわかった。

Heatmap-based anatomical landmark detection is still facing two unresolved challenges: 1) inability to accurately evaluate the distribution of heatmap; 2) inability to effectively exploit global spatial structure information. To address the computational inability challenge, we propose a novel position-aware and sample-aware central loss. Specifically, our central loss can absorb position information, enabling accurate evaluation of the heatmap distribution. More advanced is that our central loss is sample-aware, which can adaptively distinguish easy and hard samples and make the model more focused on hard samples while solving the challenge of extreme imbalance between landmarks and non-landmarks. To address the challenge of ignoring structure information, a Coordinated Transformer, called CoorTransformer, is proposed, which establishes long-range dependencies under the guidance of landmark coordination information, making the attention more focused on the sparse landmarks while taking advantage of global spatial structure. Furthermore, CoorTransformer can speed up convergence, effectively avoiding the defect that Transformers have difficulty converging in sparse representation learning. Using the advanced CoorTransformer and central loss, we propose a generalized detection model that can handle various scenarios, inherently exploiting the underlying relationship between landmarks and incorporating rich structural knowledge around the target landmarks. We analyzed and evaluated CoorTransformer and central loss on three challenging landmark detection tasks. The experimental results show that our CoorTransformer outperforms state-of-the-art methods, and the central loss significantly improves the performance of the model with p-values< 0.05.
翻訳日:2023-05-22 16:59:43 公開日:2023-05-18
# roomdreamer:コヒーレントな幾何学とテクスチャを用いたテキスト駆動3次元室内シーン合成

RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent Geometry and Texture ( http://arxiv.org/abs/2305.11337v1 )

ライセンス: Link先を確認
Liangchen Song, Liangliang Cao, Hongyu Xu, Kai Kang, Feng Tang, Junsong Yuan, Yang Zhao(参考訳) 3次元屋内シーン撮影技術は広く用いられているが、メッシュが作り出すものは多く望まれる。 本稿では,強力な自然言語を用いて異なるスタイルで新しい部屋を合成する「roomdreamer」を提案する。 既存の画像合成法とは違って,図形とテクスチャを入力シーン構造に整合させ,同時にプロンプトするという課題に対処する。 重要な洞察は、シーンのテクスチャと幾何学の両方を考慮して、シーン全体を扱うべきだということだ。 提案するフレームワークは,幾何誘導拡散とメッシュ最適化という2つの重要なコンポーネントで構成されている。 Geometry Guided Diffusion for 3D Sceneは、シーン全体に対して2Dを同時に適用することにより、シーンスタイルの整合性を保証する。 メッシュ最適化は、幾何学とテクスチャを共同で改善し、スキャンされたシーンのアーティファクトを除去する。 提案手法を検証するために,スマートフォンでスキャンした実室内シーンを広範囲に実験し,本手法の有効性を実証した。

The techniques for 3D indoor scene capturing are widely used, but the meshes produced leave much to be desired. In this paper, we propose "RoomDreamer", which leverages powerful natural language to synthesize a new room with a different style. Unlike existing image synthesis methods, our work addresses the challenge of synthesizing both geometry and texture aligned to the input scene structure and prompt simultaneously. The key insight is that a scene should be treated as a whole, taking into account both scene texture and geometry. The proposed framework consists of two significant components: Geometry Guided Diffusion and Mesh Optimization. Geometry Guided Diffusion for 3D Scene guarantees the consistency of the scene style by applying the 2D prior to the entire scene simultaneously. Mesh Optimization improves the geometry and texture jointly and eliminates the artifacts in the scanned scene. To validate the proposed method, real indoor scenes scanned with smartphones are used for extensive experiments, through which the effectiveness of our method is demonstrated.
翻訳日:2023-05-22 16:59:14 公開日:2023-05-18
# 自分の本を書く: 小さなLLMの堅牢性とパフォーマンスを改善するために、クローズドからオープンな本QAに進む方法

Writing your own book: A method for going from closed to open book QA to improve robustness and performance of smaller LLMs ( http://arxiv.org/abs/2305.11334v1 )

ライセンス: Link先を確認
Giorgi Kokaia, Pratyush Sinha, Yutong Jiang, Nozha Boujemaa(参考訳) 本稿では,問合せタスクにおける大規模言語モデル(LLM)の性能向上を目的とした,木探索と自己記述型QAという2つの新しい手法を紹介する。 Tree-Searchは、特定のプロンプトのためにLLMから多様な情報を抽出するために特別に作られたサンプリング技術である。 自己コンテキスト化 qaはツリー検索を利用して、モデルがプロンプトに関連する幅広い情報を使用して独自のコンテキストを作成し、明示的に評価し、最初のプロンプトにオープンブックの回答を返す。 GPT3.5(text-davinci-003) で評価した結果, 精度, 情報性, コヒーレンス, 一貫性など, 様々な指標により, 結果の質が向上することを示した。 さらに,本手法は強靭性を高め,木の大きさと正の相関性を示し,応答品質と強靭性の両方に寄与することを示した。 最後に、tree-searchの他の有望な応用について論じ、質問応答以外の幅広いタスクの拡張の可能性を強調した。 木探索および自己文脈化QA手法の精錬、生成したコンテキストのコヒーレンスの改善、ブートストラップがモデルロバスト性に与える影響など、今後の課題についても検討する。

We introduce two novel methods, Tree-Search and Self-contextualizing QA, designed to enhance the performance of large language models (LLMs) in question-answering tasks. Tree-Search is a sampling technique specifically created to extract diverse information from an LLM for a given prompt. Self-contextualizing QA leverages Tree-Search to enable the model to create its own context using a wide range of information relevant to the prompt, evaluate it explicitly and return a open book answer to the initial prompt . We demonstrate that the quality of generated answers improves according to various metrics, including accuracy, informativeness, coherence, and consistency, as evaluated by GPT3.5(text-davinci-003). Furthermore, we show that our methods result in increased robustness and that performance is positively correlated with tree size, benefiting both answer quality and robustness. Finally, we discuss other promising applications of Tree-Search, highlighting its potential to enhance a broad range of tasks beyond question-answering. \noindent We also discuss several areas for future work, including refining the Tree-Search and Self-Contextualizing QA methods, improving the coherence of the generated context, and investigating the impact of bootstrapping on model robustness
翻訳日:2023-05-22 16:58:57 公開日:2023-05-18
# フェルミオン作用素を用いた格子実験と量子コンピュータにおける変分固有解法

Lattice Experiments using Fermionic Operators and the Variational Eigensolver in a Quantum Computer ( http://arxiv.org/abs/2305.11329v1 )

ライセンス: Link先を確認
Wladimir Silva(参考訳) この研究は、IBMの16キュービットのグアダルーペ量子プロセッサにおいて、様々な格子系の基底状態を見つけるための一連の実験について述べる。 我々は,雑音に耐性を持ち,格子内の頂点数に依存しない変分量子固有ソルバ(qve)の設計を目指す。 さらに, 磁気システムの臨界点と相転移, 高温超伝導体, 量子磁性, 電荷密度の研究において, 2つのIsingモデルに対して, 解法を検証した。 最終エネルギー、精度パーセンテージ、実行時間、角パラメータ、実験用のソースコードを含む完全な結果メトリクスを提供する。

This work describes a series of experiments in IBM's 16-qubit Guadalupe quantum processor to find the ground state of various lattice systems implemented in the Qiskit library. We aim to design a Variational Quantum Eigensolver (QVE) resistant to noise and independent of the number of vertices in the lattice. Furthermore, we test our solution against two Ising models very important in the study of critical points and phase transitions of magnetic systems as well as high-temperature superconductors, and quantum magnetism and charge density. We provide complete result metrics including final energies, precision percentages, execution times, angular parameters and source code for experimentation.
翻訳日:2023-05-22 16:58:30 公開日:2023-05-18
# SuSana Distanciaが必要なのは、距離に基づく2つの新しい損失関数による距離学習におけるクラス分離可能性の強化

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification ( http://arxiv.org/abs/2305.09062v3 )

ライセンス: Link先を確認
Mauricio Mendez-Ruiz, Jorge Gonzalez-Zapata, Ivan Reyes-Amezcua, Daniel Flores-Araiza, Francisco Lopez-Tiro, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz(参考訳) 少数ショット学習は、いくつかのラベル付きデータサンプルだけで新しい概念を学ぶことを目的とした、困難な研究分野である。 メトリック学習アプローチに基づく最近の研究は、サポート(トレーニング)とクエリセット(テスト)を使用して、それらのセット間の類似性比較メトリックを学習する、エピソディクスタスクを包含するメタラーニングアプローチを活用している。 データ不足のため、埋め込みネットワークの学習プロセスは、数発のタスクの重要な部分となる。 これまでの研究では、メトリック学習のアプローチを用いてこの問題に対処していたが、基礎となる潜在空間の性質と差分クラスの分離性は完全に強制されたわけではない。 本研究では,少数のデータ間のクラス内距離とクラス間距離に着目し,組込みベクトルの重要性を考慮した2つの異なる損失関数を提案する。 最初の損失関数はプロト三重項損失(proto-triplet loss)である。 ICNNの損失を補う第2の損失関数は、訓練されたネットワークから得られる埋め込みの質を評価するのに役立つ、クラス内およびクラス内隣人のスコアに基づいている。 実験で得られた結果から,miniimagennetベンチマークの精度は,他のメトリックベースのマイノリティ学習法に比べて2%向上し,ネットワークがこれまで認識されていなかったクラスに汎用化できるように,損失関数の能力が実証された。 実験では,Caltech CUB, Dogs, Carsといった他のドメインに対して,最先端技術と比較して競合的な一般化能力を実証した。

Few-shot learning is a challenging area of research that aims to learn new concepts with only a few labeled samples of data. Recent works based on metric-learning approaches leverage the meta-learning approach, which is encompassed by episodic tasks that make use a support (training) and query set (test) with the objective of learning a similarity comparison metric between those sets. Due to the lack of data, the learning process of the embedding network becomes an important part of the few-shot task. Previous works have addressed this problem using metric learning approaches, but the properties of the underlying latent space and the separability of the difference classes on it was not entirely enforced. In this work, we propose two different loss functions which consider the importance of the embedding vectors by looking at the intra-class and inter-class distance between the few data. The first loss function is the Proto-Triplet Loss, which is based on the original triplet loss with the modifications needed to better work on few-shot scenarios. The second loss function, which we dub ICNN loss is based on an inter and intra class nearest neighbors score, which help us to assess the quality of embeddings obtained from the trained network. Our results, obtained from a extensive experimental setup show a significant improvement in accuracy in the miniImagenNet benchmark compared to other metric-based few-shot learning methods by a margin of 2%, demonstrating the capability of these loss functions to allow the network to generalize better to previously unseen classes. In our experiments, we demonstrate competitive generalization capabilities to other domains, such as the Caltech CUB, Dogs and Cars datasets compared with the state of the art.
翻訳日:2023-05-22 10:38:21 公開日:2023-05-18
# tsallis $q$-gaussianの特性関数とその計測・計測への応用

Characteristic Function of the Tsallis $q$-Gaussian and Its Applications in Measurement and Metrology ( http://arxiv.org/abs/2303.08615v2 )

ライセンス: Link先を確認
Viktor Witkovsk\'y(参考訳) tsallis $q$-gaussian 分布は標準ガウス分布の強力な一般化であり、非拡張統計力学、金融市場、画像処理など様々な分野で一般的に用いられている。 これは$q$-distributionファミリーに属し、非付加エントロピーによって特徴づけられる。 汎用性と実用性のため、$q$-Gaussian は測定モデルの入力量をモデル化するための自然な選択である。 本稿では,独立な$q$-Gauss的確率変数の線形結合の特性関数を提案し,その逆解析法を提案する。 提案手法により、線形計測モデルにおける出力量の正確な確率分布を、独立な$q$-gaussian確率変数としてモデル化した入力量で決定することができる。 これは分布の伝播による不確実性解析のためのモンテカルロ法に代わる計算手順を提供する。

The Tsallis $q$-Gaussian distribution is a powerful generalization of the standard Gaussian distribution and is commonly used in various fields, including non-extensive statistical mechanics, financial markets and image processing. It belongs to the $q$-distribution family, which is characterized by a non-additive entropy. Due to their versatility and practicality, $q$-Gaussians are a natural choice for modeling input quantities in measurement models. This paper presents the characteristic function of a linear combination of independent $q$-Gaussian random variables and proposes a numerical method for its inversion. The proposed technique makes it possible to determine the exact probability distribution of the output quantity in linear measurement models, with the input quantities modeled as independent $q$-Gaussian random variables. It provides an alternative computational procedure to the Monte Carlo method for uncertainty analysis through the propagation of distributions.
翻訳日:2023-05-20 01:02:38 公開日:2023-05-18
# 非感染性疾患の有病率と主なリスク要因--機械学習に基づく横断的研究

Prevalence and Major Risk Factors of Non-communicable Diseases: A Machine Learning based Cross-Sectional Study ( http://arxiv.org/abs/2303.04808v3 )

ライセンス: Link先を確認
Mrinmoy Roy, Anica Tasnim Protity, Srabonti Das, Porarthi Dhar(参考訳) 目的:バングラデシュのダッカで栄養指導を求める成人患者を対象に,いくつかの非感染性疾患(NCD)の頻度を判定し,リスク要因を分析した。 結果: 性別, 年齢, 肥満, NCD (DM, CKD, IBS, CVD, CRD, 甲状腺) の関係について検討した。 最も頻度の高いNCDは心血管疾患(CVD)であり,全症例の83.56%にみられた。 CVDは男性より多かった。 その結果、男性参加者は女性よりも血圧分布が高かった。 一方,糖尿病(dm)では,性別による傾向は認められなかった。 CVD,DMともに加齢による進行を認めた。 その結果,中高年者では若年者よりも慢性呼吸器疾患が多かった。 データによると、入院患者5人に1人が肥満だった。 共同調査の結果、人口の31.5%がNCDを1つ、30.1%がNCDを2つ、38.3%がNCDを2つ以上持っていることがわかった。 さらに、糖尿病患者の86.25%が心血管障害を患っていた。 全甲状腺患者にCVDを施行した。 t-testを用いてckdと甲状腺(p-value 0.061)の関係を見いだした。 35歳未満の男性は甲状腺と慢性呼吸器疾患(p値0.018)の間に統計的に有意な関係がある。 また,65歳以上 (p-value 0.038) におけるdmとckdとの関連も見いだした。 さらに,35~35~65歳未満では,ckdと甲状腺 (p < 0.05) との間に有意な相関が認められた。 心臓疾患と慢性呼吸器疾患の統計学的に有意な相互作用を,糖尿病と組み合わせてanova試験を行った。 DMとRTIの組み合わせは,65歳以上の男性患者のCKDにも影響した。

Objective: The study aimed to determine the prevalence of several non-communicable diseases (NCD) and analyze risk factors among adult patients seeking nutritional guidance in Dhaka, Bangladesh. Result: Our study observed the relationships between gender, age groups, obesity, and NCDs (DM, CKD, IBS, CVD, CRD, thyroid). The most frequently reported NCD was cardiovascular issues (CVD), which was present in 83.56% of all participants. CVD was more common in male participants. Consequently, male participants had a higher blood pressure distribution than females. Diabetes mellitus (DM), on the other hand, did not have a gender-based inclination. Both CVD and DM had an age-based progression. Our study showed that chronic respiratory illness was more frequent in middle-aged participants than in younger or elderly individuals. Based on the data, every one in five hospitalized patients was obese. We analyzed the co-morbidities and found that 31.5% of the population has only one NCD, 30.1% has two NCDs, and 38.3% has more than two NCDs. Besides, 86.25% of all diabetic patients had cardiovascular issues. All thyroid patients in our study had CVD. Using a t-test, we found a relationship between CKD and thyroid (p-value 0.061). Males under 35 years have a statistically significant relationship between thyroid and chronic respiratory diseases (p-value 0.018). We also found an association between DM and CKD among patients over 65 (p-value 0.038). Moreover, there has been a statistically significant relationship between CKD and Thyroid (P < 0.05) for those below 35 and 35-65. We used a two-way ANOVA test to find the statistically significant interaction of heart issues and chronic respiratory illness, in combination with diabetes. The combination of DM and RTI also affected CKD in male patients over 65 years old.
翻訳日:2023-05-20 01:02:23 公開日:2023-05-18
# 太陽放射圧下での変換可能な宇宙船の体構成と関節駆動姿勢安定化の最適化

Optimization of body configuration and joint-driven attitude stabilization for transformable spacecrafts under solar radiation pressure ( http://arxiv.org/abs/2301.08435v2 )

ライセンス: Link先を確認
Yuki Kubo, Toshihiro Chujo(参考訳) 太陽セイルは、理論上は太陽放射圧(SRP)を用いた特異なインパルスのため、最も有望な宇宙探査システムの一つである。 近年、一部の研究者は、アクチュアブルジョイントで身体構成を積極的に再構成できる「トランスフォーマブル宇宙船」を提案している。 変換可能な宇宙船は、太陽帆のように使用される場合の自由度を制御する高い冗長性のため、軌道と姿勢制御能力を大きく向上することが期待されている。 しかし、その大量の入力は制御に困難をもたらすため、以前の研究者は制御能力を制限するために強い制約を課した。 本稿では,SRPによるトランスフォーマブル宇宙船の姿勢制御技術について述べる。 著者らは, 任意のsrp力とトルクを得るための関節角度最適化と, 関節角度の揺らぎによって駆動される運動量減衰制御の2つの方法を提案している。 提案手法は一般的な形態で定式化され,各体にSRPを優先的に受け取ることができる前面を持つ変換可能な宇宙船に適用できる。 数値シミュレーションにより,提案手法の有効性を確認した。 本報告は, 軌道・姿勢制御能力の大幅な向上を期待できる拡張可能な推進剤を使わずに, トランスフォーマブル宇宙船の高制御冗長化に寄与する。

A solar sail is one of the most promising space exploration system because of its theoretically infinite specific impulse using solar radiation pressure (SRP). Recently, some researchers proposed "transformable spacecrafts" that can actively reconfigure their body configurations with actuatable joints. The transformable spacecrafts are expected to greatly enhance orbit and attitude control capability due to its high redundancy in control degree of freedom if they are used like solar sails. However, its large number of input poses difficulties in control, and therefore, previous researchers imposed strong constraints to limit its potential control capabilities. This paper addresses novel attitude control techniques for the transformable spacecrafts under SRP. The authors have constructed two proposed methods; one of those is a joint angle optimization to acquire arbitrary SRP force and torque, and the other is a momentum damping control driven by joint angle actuation. Our proposed methods are formulated in general forms and applicable to any transformable spacecraft that has front faces that can dominantly receive SRP on each body. Validity of the proposed methods are confirmed by numerical simulations. This paper contributes to making most of the high control redundancy of transformable spacecrafts without consuming any expendable propellants, which is expected to greatly enhance orbit and attitude control capability.
翻訳日:2023-05-20 01:01:53 公開日:2023-05-18
# 解釈可能な一般化ニューラルクロージャモデル

Generalized Neural Closure Models with Interpretability ( http://arxiv.org/abs/2301.06198v2 )

ライセンス: Link先を確認
Abhinav Gupta and Pierre F.J. Lermusiaux(参考訳) 動的モデルの予測能力と計算コストの改善は、機械学習(ML)による計算物理学の強化の中心にあることが多い。 しかし、ほとんどの学習結果は、異なる計算グリッド解像度、初期および境界条件、ドメインジオメトリ、物理または問題固有のパラメータに対する解釈可能性と一般化に制限されている。 本研究では, ニューラル偏差微分方程式の新規かつ汎用的な手法を開発することにより, これらの課題を同時に解決する。 マルコフ型および非マルコフ型ニューラルネットワーク(NN)の閉包パラメータ化を用いて, 偏微分方程式(PDE)における既存/低忠実度力学モデルを直接拡張する。 連続時空間におけるnnsと既存のモデルの融合と数値的離散化は、自動的に所望の一般化を可能にする。 マルコフ項は解析形式の抽出を可能にし、解釈可能性を提供するように設計されている。 非マルコフ項は、現実世界を表すのに必要な本質的に欠落した時間遅延を説明できる。 連続形式で随伴pdesを得ることにより、微分可能および非微分可能計算物理符号、異なるmlフレームワーク、非一様空間時空間トレーニングデータの処理を直接実装することができる。 本稿では,非線形波,衝撃波,海洋酸性化モデルに基づく4つの実験セットを用いて,ニューラルクロージャモデル(gncms)フレームワークを実証する。 学習したgncmsは、物理の欠如を発見し、主要な数値的誤り項を発見し、解釈可能な方法で関数型候補を判別し、一般化し、より単純なモデルにおける複雑さの欠如を補償する。 最後に、新しいフレームワークの計算上の利点を分析する。

Improving the predictive capability and computational cost of dynamical models is often at the heart of augmenting computational physics with machine learning (ML). However, most learning results are limited in interpretability and generalization over different computational grid resolutions, initial and boundary conditions, domain geometries, and physical or problem-specific parameters. In the present study, we simultaneously address all these challenges by developing the novel and versatile methodology of unified neural partial delay differential equations. We augment existing/low-fidelity dynamical models directly in their partial differential equation (PDE) forms with both Markovian and non-Markovian neural network (NN) closure parameterizations. The melding of the existing models with NNs in the continuous spatiotemporal space followed by numerical discretization automatically allows for the desired generalizability. The Markovian term is designed to enable extraction of its analytical form and thus provides interpretability. The non-Markovian terms allow accounting for inherently missing time delays needed to represent the real world. We obtain adjoint PDEs in the continuous form, thus enabling direct implementation across differentiable and non-differentiable computational physics codes, different ML frameworks, and treatment of nonuniformly-spaced spatiotemporal training data. We demonstrate the new generalized neural closure models (gnCMs) framework using four sets of experiments based on advecting nonlinear waves, shocks, and ocean acidification models. Our learned gnCMs discover missing physics, find leading numerical error terms, discriminate among candidate functional forms in an interpretable fashion, achieve generalization, and compensate for the lack of complexity in simpler models. Finally, we analyze the computational advantages of our new framework.
翻訳日:2023-05-20 01:01:33 公開日:2023-05-18
# Masked Autoencodersはアート学習者。

Masked Autoencoders Are Articulatory Learners ( http://arxiv.org/abs/2210.15195v3 )

ライセンス: Link先を確認
Ahmed Adel Attia, Carol Espy-Wilson(参考訳) 調音録音は声道に沿った異なる調音器の位置と動きを追跡し、音声生成の研究や調音ベースの音声合成装置や音声インバージョンシステムといった音声技術の開発に広く用いられている。 ウィスコンシン大学x線マイクロビーム(xrmb)データセットは、音声録音と同期した調音記録を提供する様々なデータセットの1つである。 xrmbの調音録音では、マイクロビームで追跡できる多数の調音器にペレットが配置されている。 しかし、録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。 本研究では,マスキングオートエンコーダを用いて,xrmbデータセットの話者47名中41名を対象に,誤追跡された調音録音を正確に再構成する深層学習手法を提案する。 従来使用できなかった3.4時間のうち3.28時間程度を収集し,8つの調音器のうち3つが誤追跡された場合でも,実感に合致した調音軌跡を再現することができる。

Articulatory recordings track the positions and motion of different articulators along the vocal tract and are widely used to study speech production and to develop speech technologies such as articulatory based speech synthesizers and speech inversion systems. The University of Wisconsin X-Ray microbeam (XRMB) dataset is one of various datasets that provide articulatory recordings synced with audio recordings. The XRMB articulatory recordings employ pellets placed on a number of articulators which can be tracked by the microbeam. However, a significant portion of the articulatory recordings are mistracked, and have been so far unsuable. In this work, we present a deep learning based approach using Masked Autoencoders to accurately reconstruct the mistracked articulatory recordings for 41 out of 47 speakers of the XRMB dataset. Our model is able to reconstruct articulatory trajectories that closely match ground truth, even when three out of eight articulators are mistracked, and retrieve 3.28 out of 3.4 hours of previously unusable recordings.
翻訳日:2023-05-20 01:00:43 公開日:2023-05-18
# 離散pdesにおける神経閉鎖モデルの比較

Comparison of neural closure models for discretised PDEs ( http://arxiv.org/abs/2210.14675v2 )

ライセンス: Link先を確認
Hugo Melchers, Daan Crommelin, Barry Koren, Vlado Menkovski, Benjamin Sanderse(参考訳) 近年,ニューラルネットワークを用いたマルチスケールシステムにおいて,小さなスケールを効率的に近似する手法として,ニューラルクロージャモデルが提案されている。 損失関数の選択と関連するトレーニング手順は、結果として生じる神経閉鎖モデルの精度と安定性に大きな影響を及ぼす。 本研究では,「導出的適合性」,「軌道的適合性」,「離散的最適化」,「軌道的適合性」の3つの異なる手順を体系的に比較した。 導出的フィッティングは概念的には最も単純で計算学的に最も効率的なアプローチであり、テスト問題の一つ(Kuramoto-Sivashinsky)では合理的に機能するが、他方(Burgers)では不十分である。 軌道フィッティングは計算コストが高いが、より堅牢であり、したがって好ましいアプローチである。 2つの軌道フィッティング手順のうち、離散化最適化アプローチは、最適化最適化最適化アプローチよりも正確なモデルを生成する。 最適化・then-discretiseアプローチはまだ正確なモデルを生成することができるが、トレーニング中に適度に正確な勾配を生成しながら、長期的行動に関するモデルを訓練するために、トレーニングに使用される軌道の長さを選択することに注意する必要がある。 既存の2つの定理は、その短期的正確性に基づいて、神経閉鎖モデルの長期的な正確性に関する洞察を与える新しい方法で解釈される。

Neural closure models have recently been proposed as a method for efficiently approximating small scales in multiscale systems with neural networks. The choice of loss function and associated training procedure has a large effect on the accuracy and stability of the resulting neural closure model. In this work, we systematically compare three distinct procedures: "derivative fitting", "trajectory fitting" with discretise-then-optimise, and "trajectory fitting" with optimise-then-discretise. Derivative fitting is conceptually the simplest and computationally the most efficient approach and is found to perform reasonably well on one of the test problems (Kuramoto-Sivashinsky) but poorly on the other (Burgers). Trajectory fitting is computationally more expensive but is more robust and is therefore the preferred approach. Of the two trajectory fitting procedures, the discretise-then-optimise approach produces more accurate models than the optimise-then-discretise approach. While the optimise-then-discretise approach can still produce accurate models, care must be taken in choosing the length of the trajectories used for training, in order to train the models on long-term behaviour while still producing reasonably accurate gradients during training. Two existing theorems are interpreted in a novel way that gives insight into the long-term accuracy of a neural closure model based on how accurate it is in the short term.
翻訳日:2023-05-20 01:00:26 公開日:2023-05-18
# ヒッグスポテンシャルのないモデルによるスセイ破砕における放射質量増加の量子シミュレーション

A Model without Higgs Potential for Quantum Simulation of Radiative Mass-Enhancement in SUSY Breaking ( http://arxiv.org/abs/2210.02778v5 )

ライセンス: Link先を確認
Masao Hirokawa(参考訳) 超対称性量子力学におけるフェルミオン状態およびボゾン状態における質量増強の量子シミュレーションモデルについて検討する。 ボソニック状態とフェルミオン状態はキュービットで分類される。 このモデルは非常に単純であり、超対称性(susy)が自発的に破られるときに起こる質量拡張の量子シミュレーションとして実装できる。 ここでは、量子シミュレーションは、物理現実としていくつかの量子情報デバイスを用いたターゲット量子現象の実現を意味する。 このモデルでは、1モードのスカラーボソンの消滅と生成からなる準粒子がXゲートのスピン効果をいかに食し、自発性SUSY破壊におけるフェルミオン状態の質量増強を得るかを記述している。 我々のモデルの相互作用にはヒッグスポテンシャルがない。 代わりに、クォービットは二重井戸ポテンシャルの2レベルの近似によってヒッグスポテンシャルの代用として作用し、自発的なSUSY破壊が起こり、質量が増大する。

We study a quantum-simulation model of a mass enhancement in the fermionic states, as well as in the bosonic ones, of the supersymmetric quantum mechanics. The bosonic and fermionic states are graded by a qubit. This model is so simple that it may be implemented as a quantum simulation of the mass enhancement taking place when supersymmetry (SUSY) is spontaneously broken. Here, our quantum simulation means the realization of the target quantum phenomenon with some quantum-information devices as a physical reality. The model describes how the quasi-particle consisting of the annihilation and creation of 1-mode scalar bosons eats the spin effect given by the X-gate, and how it acquires the mass enhancement in the fermionic states in the spontaneous SUSY breaking. Our model's interaction does not have any Higgs potential. Instead, the qubit acts as a substitute for the Higgs potential by the 2-level-system approximation of the double-well potential, and then, the spontaneous SUSY breaking takes place and the mass is enhanced.
翻訳日:2023-05-20 01:00:00 公開日:2023-05-18
# gLaSDI:パラメトリック物理インフォームドグレディ遅延宇宙ダイナミクスの同定

gLaSDI: Parametric Physics-informed Greedy Latent Space Dynamics Identification ( http://arxiv.org/abs/2204.12005v2 )

ライセンス: Link先を確認
Xiaolong He, Youngsoo Choi, William D. Fries, Jon Belof, Jiun-Shyan Chen(参考訳) 高次元非線形力学系の高精度, 効率的, 堅牢なデータ駆動還元次数モデリングのために, パラメトリック適応物理学インフォームドグレディ遅延宇宙ダイナミクス同定法(gLaSDI)を提案する。 提案したgLaSDIフレームワークでは、オートエンコーダが高次元データの固有非線形潜在表現を発見し、ダイナミックス識別(DI)モデルが局所潜在空間のダイナミクスをキャプチャする。 オートエンコーダとローカルDIモデルにインタラクティブなトレーニングアルゴリズムが採用され、単純な潜時空間のダイナミクスの識別が可能となり、データ駆動の低次モデリングの精度と効率が向上する。 最適モデル性能のためのパラメータ空間の探索を最大化し、高速化するために、物理インフォームド残差ベースエラーインジケータと統合された適応グリーディサンプリングアルゴリズムを導入し、ハエの最適なトレーニングサンプルを探すためにランダムサブセット評価を導入する。 さらに、パラメータ空間内の最小の局所diモデル数によるモデリング精度の向上のために、局所diモデルでキャプチャされた局所潜在空間ダイナミクスを利用するため、k-nearest近傍凸補間スキームを用いる。 提案手法の有効性は, バーガーズ方程式, 非線形熱伝導, 放射対流など, 様々な非線形力学問題をモデル化することによって実証される。 提案する適応グリーディサンプリングは, 従来の一様サンプリングよりも精度が優れる。 高忠実度モデルと比較して、gLaSDIは1から5%の相対誤差で17から2,658倍のスピードアップを達成する。

A parametric adaptive physics-informed greedy Latent Space Dynamics Identification (gLaSDI) method is proposed for accurate, efficient, and robust data-driven reduced-order modeling of high-dimensional nonlinear dynamical systems. In the proposed gLaSDI framework, an autoencoder discovers intrinsic nonlinear latent representations of high-dimensional data, while dynamics identification (DI) models capture local latent-space dynamics. An interactive training algorithm is adopted for the autoencoder and local DI models, which enables identification of simple latent-space dynamics and enhances accuracy and efficiency of data-driven reduced-order modeling. To maximize and accelerate the exploration of the parameter space for the optimal model performance, an adaptive greedy sampling algorithm integrated with a physics-informed residual-based error indicator and random-subset evaluation is introduced to search for the optimal training samples on the fly. Further, to exploit local latent-space dynamics captured by the local DI models for an improved modeling accuracy with a minimum number of local DI models in the parameter space, a k-nearest neighbor convex interpolation scheme is employed. The effectiveness of the proposed framework is demonstrated by modeling various nonlinear dynamical problems, including Burgers equations, nonlinear heat conduction, and radial advection. The proposed adaptive greedy sampling outperforms the conventional predefined uniform sampling in terms of accuracy. Compared with the high-fidelity models, gLaSDI achieves 17 to 2,658x speed-up with 1 to 5% relative errors.
翻訳日:2023-05-20 00:59:42 公開日:2023-05-18
# 繰り返し第一価格オークションにおける最適ノンレグレット学習

Optimal No-regret Learning in Repeated First-price Auctions ( http://arxiv.org/abs/2003.09795v6 )

ライセンス: Link先を確認
Yanjun Han, Zhengyuan Zhou, Tsachy Weissman(参考訳) オンライン学習は,競売の終了時にのみ入賞者を観察し,その累積利益を最大化するために適応入札を学習する,繰り返し第1価格オークションにおいて学習する。 この目標を達成するために、入札者は検閲されたフィードバックに直面する: 彼女が入札に勝った場合、彼女は他の入札者の最も高い入札を見ることができず、それは未知の分布から引き出された「textit{iid}」であると仮定する。 本稿では,1価オークションの2つの構造的性質,すなわち,フィードバック構造とペイオフ関数を活用し,ほぼ最適に近い$\widetilde{o}(\sqrt{t})$ regretboundを実現する最初の学習アルゴリズムを開発した。 第一価格オークションのフィードバックは、アクション(bid)間のグラフフィードバック、コンテキスト間のクロスラーニング(private value)、コンテキスト上の部分順序を組み合わせ、部分的に順序付けられたコンテキストの包帯として一般化する。 我々は、この枠組みの強みと弱みの両立を立証し、反逆的文脈では不可能でありながら、アクション/コンテキストサイズからほぼ独立している後悔が可能であることを示す。 特に、このフレームワークは、入札者のプライベート値が \emph{iid} である場合、最初の価格のオークションに対して$O(\sqrt{T}\log^{2.5}T)$ regret をもたらす。 上記のフレームワークの限界にもかかわらず、一価オークションの特別報酬関数を更に活用し、反対に生成されたプライベート値が存在する場合でもサンプル効率のよいアルゴリズムを開発する。 我々は,このアルゴリズムに対して$O(\sqrt{T}\log^3 T)$ regret boundを定め,第一価格オークションにおける最適学習保証の完全な評価を提供する。

We study online learning in repeated first-price auctions where a bidder, only observing the winning bid at the end of each auction, learns to adaptively bid in order to maximize her cumulative payoff. To achieve this goal, the bidder faces a censored feedback: if she wins the bid, then she is not able to observe the highest bid of the other bidders, which we assume is \textit{iid} drawn from an unknown distribution. In this paper, we develop the first learning algorithm that achieves a near-optimal $\widetilde{O}(\sqrt{T})$ regret bound, by exploiting two structural properties of first-price auctions, i.e. the specific feedback structure and payoff function. The feedback in first-price auctions combines the graph feedback across actions (bids), the cross learning across contexts (private values), and a partial order over the contexts; we generalize it as the partially ordered contextual bandits. We establish both strengths and weaknesses of this framework, by showing a curious separation that a regret nearly independent of the action/context sizes is possible under stochastic contexts, but is impossible under adversarial contexts. In particular, this framework leads to an $O(\sqrt{T}\log^{2.5}T)$ regret for first-price auctions when the bidder's private values are \emph{iid}. Despite the limitation of the above framework, we further exploit the special payoff function of first-price auctions to develop a sample-efficient algorithm even in the presence of adversarially generated private values. We establish an $O(\sqrt{T}\log^3 T)$ regret bound for this algorithm, hence providing a complete characterization of optimal learning guarantees for first-price auctions.
翻訳日:2023-05-19 23:11:35 公開日:2023-05-18
# unified machine learning: unlabelled data(open-lacu)を活用した拡張カテゴリによるオープンセット学習

Unified machine learning: Open-set learning with augmented category by exploiting unlabelled data (Open-LACU) ( http://arxiv.org/abs/2002.01368v6 )

ライセンス: Link先を確認
Emile R. Engelbrecht, Johan A. du Preez(参考訳) 半教師付き学習(SSL)とオープンセット認識を単一の学習ポリシーに統合することで、コスト効率とアプリケーショングレードの分類器の開発が容易になる。 しかし、これまでの試みでは、未観測の新規カテゴリー(試験中にのみ見られる)と観察された新規カテゴリ(未学習のトレーニングデータに存在するもの)の違いは明らかになっていない。 本研究は,2つの新しいカテゴリタイプを一般化する最初の政策であるOpen-LACU(Exploiting Unlabelled Data)によるAugmented Categoryを用いたオープンセット学習を紹介する。 我々は、Margin-GAN(Margin Generative Adversarial Networks)の最先端OSR手法をいくつかのOpen-LACU構成に適応させ、Open-LACUのベンチマークを設定し、Margin-GANを用いた新規検出に関するユニークな洞察を提供する。 最後に,遠隔センシングにおけるセマンティクスセグメンテーションの応用,放射線学におけるオブジェクト検出,cough解析による疾患識別について論じ,オープン・ラキュー政策の意義を強調する。 これらの応用には観察および観測されていない新しいカテゴリが含まれており、これらのビッグデータ領域における分類器のトレーニングにOpen-LACUが不可欠である。

Unifying semi-supervised learning (SSL) and open-set recognition into a single learning policy would facilitate the development of cost-efficient and application-grade classifiers. However, previous attempts do not clarify the difference between unobserved novel categories (those only seen during testing) and observed novel categories (those present in unlabelled training data). This study introduces Open-Set Learning with Augmented Category by Exploiting Unlabelled Data (Open-LACU), the first policy that generalises between both novel category types. We adapt the state-of-the-art OSR method of Margin Generative Adversarial Networks (Margin-GANs) into several Open-LACU configurations, setting the benchmarks for Open-LACU and offering unique insights into novelty detection using Margin-GANs. Finally, we highlight the significance of the Open-LACU policy by discussing the applications of semantic segmentation in remote sensing, object detection in radiology and disease identification through cough analysis. These applications include observed and unobserved novel categories, making Open-LACU essential for training classifiers in these big data domains.
翻訳日:2023-05-19 23:11:05 公開日:2023-05-18
# 可変性を利用した多層パーセプトロントレーサビリティ

Multi-layer Perceptron Trainability Explained via Variability ( http://arxiv.org/abs/2105.08911v3 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) 様々なアプリケーションでディープニューラルネットワーク(DNN)が驚くほど成功したにもかかわらず、ディープラーニングの基本的側面は、DNNのトレーニング容易性など不完全なままである。 トレーサビリティスタディでは、比較条件下で、あるdnnモデルを訓練しやすくする要因を識別することを目的としている。 特に,同じ数のパラメータを持つ多層パーセプトロン(MLP)モデルについて検討した。 深層学習の利点と深層学習の難しさを説明するために,可変性という新しい概念を導入する。 簡単に言えば、ニューラルネットワークの可変性は、よくスケールされたランダムな重みに関するデータ空間におけるランドスケープパターンの豊かさを表している。 変動性はアクティベーションの数と正の相関を示し、また「定数の崩壊」と呼ばれる現象と負の相関を示すが、これはよく知られた消滅する勾配現象とは一致しない。 小さなスタイリッシュモデル問題に関する実験により、変動性は正確にmlpトレーサビリティを予測できることが確認された。 さらに, MLPモデルにおけるアクティベーション関数として, 絶対値関数は, 一般的なReLU関数よりも可変性がよいことを示す。

Despite the tremendous successes of deep neural networks (DNNs) in various applications, many fundamental aspects of deep learning remain incompletely understood, including DNN trainability. In a trainability study, one aims to discern what makes one DNN model easier to train than another under comparable conditions. In particular, our study focuses on multi-layer perceptron (MLP) models equipped with the same number of parameters. We introduce a new notion called variability to help explain the benefits of deep learning and the difficulties in training very deep MLPs. Simply put, variability of a neural network represents the richness of landscape patterns in the data space with respect to well-scaled random weights. We empirically show that variability is positively correlated to the number of activations and negatively correlated to a phenomenon called "Collapse to Constant", which is related but not identical to the well-known vanishing gradient phenomenon. Experiments on a small stylized model problem confirm that variability can indeed accurately predict MLP trainability. In addition, we demonstrate that, as an activation function in MLP models, the absolute value function can offer better variability than the popular ReLU function can.
翻訳日:2023-05-19 21:21:30 公開日:2023-05-18
# 部分的多視点学習

Few-shot Partial Multi-view Learning ( http://arxiv.org/abs/2105.02046v4 )

ライセンス: Link先を確認
Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Jiebo Luo(参考訳) 実世界のアプリケーションでは、データが複数のビューを持つことが多い。 各ビューの情報を完全に探索することは、データをより代表的にする上で重要である。 しかしながら、データ収集や前処理のさまざまな制限や障害のため、実際のデータが欠如やデータの不足に苦しむことは避けられない。 これら2つの課題の共存により、パターン分類タスクの達成がより困難になる。 現在、私たちの知る限り、これらの2つの問題を同時に解決できる適切な方法はほとんどない。 本論文では,この課題に対するコミュニティの注目度を高めるために,低データ体制における視点欠落問題に対するネガティブな影響を克服することを目的とした,少数ショット部分的多視点学習という新たな課題を提案する。 このタスクの課題は2つあります。 (i)欠落した見解の干渉によるデータ不足の影響を克服することは困難である。 (ii) 限られたデータ数が情報不足を悪化させるため、ビューミス問題に対処するのが難しくなる。 これらの課題に対処するため,新しいガウス密度アンコール法を提案する。 限られた部分的多視点データに対して統一的密集アンカーを学習し、データ不足やビュー不足の影響を緩和できる統一的密集表現空間に固定する。 提案手法を評価するために広範な実験を行う。 Cub-googlenet-doc2vec, Hand written, Caltech102, Scene15, Animal, ORL, tieredImagenet, Birds-200-2011 のデータセットの結果は,その有効性を検証する。

It is often the case that data are with multiple views in real-world applications. Fully exploring the information of each view is significant for making data more representative. However, due to various limitations and failures in data collection and pre-processing, it is inevitable for real data to suffer from view missing and data scarcity. The coexistence of these two issues makes it more challenging to achieve the pattern classification task. Currently, to our best knowledge, few appropriate methods can well-handle these two issues simultaneously. Aiming to draw more attention from the community to this challenge, we propose a new task in this paper, called few-shot partial multi-view learning, which focuses on overcoming the negative impact of the view-missing issue in the low-data regime. The challenges of this task are twofold: (i) it is difficult to overcome the impact of data scarcity under the interference of missing views; (ii) the limited number of data exacerbates information scarcity, thus making it harder to address the view-missing issue in turn. To address these challenges, we propose a new unified Gaussian dense-anchoring method. The unified dense anchors are learned for the limited partial multi-view data, thereby anchoring them into a unified dense representation space where the influence of data scarcity and view missing can be alleviated. We conduct extensive experiments to evaluate our method. The results on Cub-googlenet-doc2vec, Handwritten, Caltech102, Scene15, Animal, ORL, tieredImagenet, and Birds-200-2011 datasets validate its effectiveness.
翻訳日:2023-05-19 21:21:09 公開日:2023-05-18
# 二重ロバスト半教師付き平均推定:MARラベルによる選択バイアスの減少

Double Robust Semi-Supervised Inference for the Mean: Selection Bias under MAR Labeling with Decaying Overlap ( http://arxiv.org/abs/2104.06667v2 )

ライセンス: Link先を確認
Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic(参考訳) 近年,半教師付き推論 (SS) が注目されている。 U| >> |L| の設定は、SS推論を、いわゆる「肯定性」や「オーバーラップ」の仮定に自然に違反するため、標準の欠落したデータ問題とは異なるものにしている。 しかし、SSの文献の多くは、L と U が等しく分布している、すなわちラベリングにおいて選択バイアスがないと暗黙に仮定している。 選択バイアスを許容するランダム (MAR) 型ラベルの欠落は, 確率スコア (PS) の減衰特性によって必然的に悪化する。 本稿では, このギャップを, 試作問題, 応答平均の推定に対処する。 二重ロバスト ss (drss) 平均推定器を提案し,その漸近特性の完全なキャラクタリゼーションを与える。 提案した推定器は、結果またはPSモデルが正しく指定されている限り一貫している。 両モデルが正しく指定されると、より小さいサイズ |l| に依存する非標準一貫性率で推論結果を提供する。 結果は不均衡治療群による因果推論にも拡張される。 さらに,新しいオフセットロジスティックモデルや階層化されたラベリングモデルなど,減衰するpsのモデルと推定器の新たな選択肢をいくつか提示する。 それらの特性を高次元と低次元の両方で示す。 これらは独立した関心事である。 最後に,広範囲なシミュレーションと実データアプリケーションを提案する。

Semi-supervised (SS) inference has received much attention in recent years. Apart from a moderate-sized labeled data, L, the SS setting is characterized by an additional, much larger sized, unlabeled data, U. The setting of |U| >> |L|, makes SS inference unique and different from the standard missing data problems, owing to natural violation of the so-called "positivity" or "overlap" assumption. However, most of the SS literature implicitly assumes L and U to be equally distributed, i.e., no selection bias in the labeling. Inferential challenges in missing at random (MAR) type labeling allowing for selection bias, are inevitably exacerbated by the decaying nature of the propensity score (PS). We address this gap for a prototype problem, the estimation of the response's mean. We propose a double robust SS (DRSS) mean estimator and give a complete characterization of its asymptotic properties. The proposed estimator is consistent as long as either the outcome or the PS model is correctly specified. When both models are correctly specified, we provide inference results with a non-standard consistency rate that depends on the smaller size |L|. The results are also extended to causal inference with imbalanced treatment groups. Further, we provide several novel choices of models and estimators of the decaying PS, including a novel offset logistic model and a stratified labeling model. We present their properties under both high and low dimensional settings. These may be of independent interest. Lastly, we present extensive simulations and also a real data application.
翻訳日:2023-05-19 21:20:42 公開日:2023-05-18
# ODENetとResNetの普遍近似特性:数学的解析と数値実験

Universal Approximation Properties for an ODENet and a ResNet: Mathematical Analysis and Numerical Experiments ( http://arxiv.org/abs/2101.10229v3 )

ライセンス: Link先を確認
Yuto Aizawa, Masato Kimura, and Kazunori Matsui(参考訳) スキップ接続を持つ深層学習システムのための簡易な数学的モデルであるODENetのクラスとResNetのクラスに対する普遍近似特性(UAP)を証明した。 UAPは次のように述べている。 n$ と $m$ を入力および出力データの次元とし、$m\leq n$ と仮定する。 すると、任意の非多項連続活性化関数を持つ幅$n+m$のオデネットは、$\mathbb{r}^n$ 上のコンパクト部分集合上の任意の連続関数を近似できることを示す。 また,resnet は深さが無限になるのと同じ性質を持つことを示した。 さらに、ある種のチューニング変数に関して損失関数の勾配を明示的に導出する。 これを用いてODENetの学習アルゴリズムを構築する。 このアルゴリズムの有用性を実証するために、回帰問題、二項分類、MNISTにおける多項分類に適用する。

We prove a universal approximation property (UAP) for a class of ODENet and a class of ResNet, which are simplified mathematical models for deep learning systems with skip connections. The UAP can be stated as follows. Let $n$ and $m$ be the dimension of input and output data, and assume $m\leq n$. Then we show that ODENet of width $n+m$ with any non-polynomial continuous activation function can approximate any continuous function on a compact subset on $\mathbb{R}^n$. We also show that ResNet has the same property as the depth tends to infinity. Furthermore, we derive the gradient of a loss function explicitly with respect to a certain tuning variable. We use this to construct a learning algorithm for ODENet. To demonstrate the usefulness of this algorithm, we apply it to a regression problem, a binary classification, and a multinomial classification in MNIST.
翻訳日:2023-05-19 21:20:15 公開日:2023-05-18
# 単ショット物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク

Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection ( http://arxiv.org/abs/2012.01724v5 )

ライセンス: Link先を確認
Ping-Yang Chen, Ming-Ching Chang, Jun-Wei Hsieh, Yong-Sheng Chen(参考訳) 本稿では,高速かつ高精度な単発物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。 特徴ピラミッド (FP) は近年の視覚的検出において広く用いられているが, FP のトップダウン経路はプールシフトによる正確な位置決めを保たない。 FPの利点は、より多くの層を持つ深いバックボーンを使用することによって弱まる。 また、小型物体と大型物体の両方を同時に正確に検出することは不可能である。 これらの問題に対処するために、双方向(トップダウンおよびボトムアップ)融合とそれに伴う改善により、高精度なローカライズのための高品質な特徴を維持するための新しい並列FP構造を提案する。 1) ボトムアップ融合モジュール (BFM) を用いた並列拡散FP構造を用いて, 小型・大型両方の物体を同時に高精度に検出する。 2) 結合再編成(core)モジュールは,機能融合のためのボトムアップ経路を提供し,低層特徴マップから失われた情報を復元する双方向融合fpを実現する。 (3) CORE 機能はよりリッチなコンテキスト情報を保持するためにさらに浄化される。 トップダウン経路とボトムアップ経路の両方でのCORE浄化は、ほんの数イテレーションで完了する。 (4) COREに残留設計を追加することで、より深い、より軽いバックボーンでのトレーニングや統合が容易になる新しいRe-COREモジュールが実現される。 提案するネットワークは,UAVDT17およびMS COCOデータセット上での最先端性能を実現する。 コードはhttps://github.com/pingyang1117/prbnet_pytorchで入手できる。

This paper proposes the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weakened as deeper backbones with more layers are used. In addition, it cannot keep up accurate detection of both small and large objects at the same time. To address these issues, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. We provide the following design improvements: (1) A parallel bifusion FP structure with a bottom-up fusion module (BFM) to detect both small and large objects at once with high accuracy. (2) A concatenation and re-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such CORE purification in both top-down and bottom-up pathways can be finished in only a few iterations. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of deeper or lighter backbones. The proposed network achieves state-of-the-art performance on the UAVDT17 and MS COCO datasets. Code is available at https://github.com/pingyang1117/PRBNet_PyTorch.
翻訳日:2023-05-19 21:19:59 公開日:2023-05-18
# ハーディ型・ハーディ型関係を用いたデバイス非依存的ランダム性・非局所性・絡み合いの再現性の検討

Revealing Incommensurability between Device-Independent Randomness, Nonlocality, and Entanglement using Hardy and Hardy-type Relations ( http://arxiv.org/abs/2011.12518v3 )

ライセンス: Link先を確認
Souradeep Sasmal, Ashutosh Rai, Sayan Gangopadhyay, Dipankar Home, Urbasi Sinha(参考訳) ハーディ・アンド・カベロ・リアング・リ (cll) の非局所性関係を用いた無作為性認定装置非依存的定量化の包括的処理は、当事者1人当たり2つの測定結果、1人当たり2つの結果 (2-2-2) シナリオで提供される。 ハーディ非局所性について、ハーディパラメータの特定の非ゼロ値で表される与えられた非局所性に対して、ハーディ証明可能なランダム性の量はCHSH非局所性と関連しているのとは異なり、一意ではないことが明らかになった。 これは、ハーディ非局所性パラメータの任意の指定された非最大値が量子極値分布の集合を特徴付けるためである。 そして、与えられたハーディパラメータに対応する検証可能な量のランダムネスの範囲に繋がる。 一方、所定の量のCLL非局所性に対して、証明可能なランダム性はCHSH非局所性と同様にユニークである。 さらに,Hardy と CLL の関係の保証境界を評価する解析的処理の厳密性は,半定値法に基づく計算境界との正確な一致によって証明される。 興味深いことに、解析的に評価されたハーディおよびCLL認定ランダム性は、ハーディとCLLの非局所性パラメータの非最大値に対して実現可能である。 特に, CLL非局所パラメータの小さい値に対応する, 最大2ビットに近い最大2ビットのランダム性でも, 非最大絡み合った純2ビット状態から実現可能であることを示す。 したがって、これはランダム性、非局所性、絡み合いの間の量的不調和性をはっきりと示している。

A comprehensive treatment of the quantification of randomness certified device-independently by using the Hardy and Cabello-Liang-Li (CLL) nonlocality relations is provided in the two parties - two measurements per party - two outcomes per measurement (2-2-2) scenario. For the Hardy nonlocality, it is revealed that for a given amount of nonlocality signified by a particular non-zero value of the Hardy parameter, the amount of Hardy-certifiable randomness is not unique, unlike the way the amount of certifiable randomness is related to the CHSH nonlocality. This is because any specified non-maximal value of Hardy nonlocality parameter characterises a set of quantum extremal distributions. Then this leads to a range of certifiable amounts of randomness corresponding to a given Hardy parameter. On the other hand, for a given amount of CLL-nonlocality, the certifiable randomness is unique, similar to that for the CHSH nonlocality. Furthermore, the tightness of our analytical treatment evaluating the respective guaranteed bounds for the Hardy and CLL relations is demonstrated by their exact agreement with the Semi-Definite-Programming based computed bounds. Interestingly, the analytically evaluated maximum achievable bounds of both Hardy and CLL-certified randomness have been found to be realisable for non-maximal values of the Hardy and CLL nonlocality parameters. In particular, we have shown that even close to the maximum 2 bits of CLL-certified randomness can be realised from non-maximally entangled pure two-qubit states corresponding to small values of the CLL nonlocal parameter. This, therefore, clearly illustrates the quantitative incommensurability between randomness, nonlocality and entanglement.
翻訳日:2023-05-19 21:19:35 公開日:2023-05-18
# GAP: 知識グラフからテキスト生成のためのグラフ対応言語モデルフレームワーク

GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2204.06674v4 )

ライセンス: Link先を確認
Anthony Colas, Mehrdad Alvandipour, Daisy Zhe Wang(参考訳) KG-to-text生成の最近の改良は、微調整タスクの性能向上を図った補助的な事前訓練タスクによるものである。 これらのタスクは広範な計算資源を必要とするが、限界的な改善を示唆しているだけである。 ここでは,既存の事前学習済み言語モデルにグラフ認識要素を組み込むことにより,最先端モデルよりも優れており,追加事前学習タスクによって生じるギャップを解消できることを実証する。 本研究では, 周辺情報を捕捉するマスク構造と, 接続型に依存したグラフ注意重みにバイアスを与える新しい型エンコーダを提案する。 2つのKG-to-textベンチマークデータセットの実験は、我々のモデルは、少ないパラメータと追加の事前トレーニングタスクを伴いながら競合することを示している。 問題をフレームワークとして定式化することにより、提案した様々なコンポーネントを交換し、グラフにあるトポロジおよび型情報に基づいて、KG-to-text生成モデルを解釈し始めることができる。

Recent improvements in KG-to-text generation are due to additional auxiliary pre-training tasks designed to give the fine-tune task a boost in performance. These tasks require extensive computational resources while only suggesting marginal improvements. Here, we demonstrate that by fusing graph-aware elements into existing pre-trained language models, we are able to outperform state-of-the-art models and close the gap imposed by additional pre-training tasks. We do so by proposing a mask structure to capture neighborhood information and a novel type encoder that adds a bias to the graph-attention weights depending on the connection type. Experiments on two KG-to-text benchmark datasets show our models are competitive while involving fewer parameters and no additional pre-training tasks. By formulating the problem as a framework, we can interchange the various proposed components and begin interpreting KG-to-text generative models based on the topological and type information found in a graph.
翻訳日:2023-05-19 21:11:38 公開日:2023-05-18
# PyDTS: 競合するリスクを伴う離散時間生存(正規化)回帰のためのPythonパッケージ

PyDTS: A Python Package for Discrete-Time Survival (Regularized) Regression with Competing Risks ( http://arxiv.org/abs/2204.05731v4 )

ライセンス: Link先を確認
Tomer Meir, Rom Gutman, and Malka Gorfine(参考訳) 時系列分析(生存分析)は、関心の反応が予め特定された事象が起こるまでの時間であるときに用いられる。 時間から時間へのデータは、時間自体が離散的であるか、障害時間を間隔にグループ化したり、測定を丸めるため、時に離散される。 さらに、個人の失敗は、競合するリスク(イベント)として知られる、いくつかの異なる障害タイプのひとつになり得る。 生存回帰分析のためのほとんどの方法とソフトウェアパッケージは、時間が連続的なスケールで測定されると仮定している。 離散時間データを用いた標準的な連続時間モデルの適用により、離散時間モデルの偏り推定が生じることはよく知られている。 離散時間生存データに対する半パラメトリック競合リスクモデルをシミュレーション、推定、評価するためのPythonパッケージPyDTSを紹介する。 このパッケージは、LASSOや弾性ネットなどの規則化された回帰方法を含む高速な手順を実装している。 シミュレーション研究はパッケージの柔軟性と正確性を示す。 このパッケージの有用性は、入院期間を予測するためのMIMIC (Medicical Information Mart for Intensive Care) - IVデータセットを分析して実証される。

Time-to-event analysis (survival analysis) is used when the response of interest is the time until a pre-specified event occurs. Time-to-event data are sometimes discrete either because time itself is discrete or due to grouping of failure times into intervals or rounding off measurements. In addition, the failure of an individual could be one of several distinct failure types, known as competing risks (events). Most methods and software packages for survival regression analysis assume that time is measured on a continuous scale. It is well-known that naively applying standard continuous-time models with discrete-time data may result in biased estimators of the discrete-time models. The Python package PyDTS, for simulating, estimating and evaluating semi-parametric competing-risks models for discrete-time survival data, is introduced. The package implements a fast procedure that enables including regularized regression methods, such as LASSO and elastic net, among others. A simulation study showcases flexibility and accuracy of the package. The utility of the package is demonstrated by analysing the Medical Information Mart for Intensive Care (MIMIC) - IV dataset for prediction of hospitalization length of stay.
翻訳日:2023-05-19 21:11:21 公開日:2023-05-18
# PALBERT:AlbertをPonderに教える

PALBERT: Teaching ALBERT to Ponder ( http://arxiv.org/abs/2204.03276v4 )

ライセンス: Link先を確認
Nikita Balagansky, Daniil Gavrilov(参考訳) 現在、事前訓練されたモデルは幅広いNLPタスクのデフォルト選択と見なすことができる。 sotaの結果にもかかわらず、これらのモデルは異なる入力シーケンスに対して異なる数の計算層を必要とする可能性があるという実用的な証拠がある。 この問題は、最初に推論速度を改善するために設計された適応計算時間アプローチを実装することで解決できる。 最近提案されたPonderNetは、出口層のインデックスを潜伏変数として扱うことで早期出口を実行するための有望なソリューションであるかもしれない。 しかし、当初提案された出口基準は、i$-th層からの出口確率に基づいて訓練後分布からのサンプリングに依存するため、出口層の指標に大きなばらつきが生じ、結果として得られるモデルの性能が大幅に低下する。 本稿では,新しい決定論的q-exit基準と再訪モデルアーキテクチャを用いて, pondernetの改良を提案する。 提案手法をALBERTとRoBERTaに適用し,近年の早期出口法と比較した。 提案した変更は,オリジナルのPonderNetアーキテクチャにおいて大幅に改善され,幅広いGLUEタスクにおいてPABEEを上回っていると考えられる。 さらに,ラムダ層とその性能をより深く理解するために,提案するアーキテクチャの詳細なアブレーション実験を行った。

Currently, pre-trained models can be considered the default choice for a wide range of NLP tasks. Despite their SoTA results, there is practical evidence that these models may require a different number of computing layers for different input sequences, since evaluating all layers leads to overconfidence in wrong predictions (namely overthinking). This problem can potentially be solved by implementing adaptive computation time approaches, which were first designed to improve inference speed. Recently proposed PonderNet may be a promising solution for performing an early exit by treating the exit layer's index as a latent variable. However, the originally proposed exit criterion, relying on sampling from trained posterior distribution on the probability of exiting from the $i$-th layer, introduces major variance in exit layer indices, significantly reducing the resulting model's performance. In this paper, we propose improving PonderNet with a novel deterministic Q-exit criterion and a revisited model architecture. We adapted the proposed mechanism to ALBERT and RoBERTa and compared it with recent methods for performing an early exit. We observed that the proposed changes can be considered significant improvements on the original PonderNet architecture and outperform PABEE on a wide range of GLUE tasks. In addition, we also performed an in-depth ablation study of the proposed architecture to further understand Lambda layers and their performance.
翻訳日:2023-05-19 21:11:01 公開日:2023-05-18
# 視覚障害者のディープフェイク検出

Audio-Visual Person-of-Interest DeepFake Detection ( http://arxiv.org/abs/2204.03083v3 )

ライセンス: Link先を確認
Davide Cozzolino, Alessandro Pianese, Matthias Nie{\ss}ner, Luisa Verdoliva(参考訳) 顔操作技術は非常に急速に進歩しており、新しい手法が日々提案されている。 本研究の目的は,現実世界で遭遇する多種多様な操作方法やシナリオに対応可能なディープフェイク検出器を提案することである。 私たちの重要な洞察は、合成発電機が再生できない可能性のある特定の特徴を持っていることです。 そこで我々は,人物の身元を特徴付ける音響視覚的特徴を抽出し,それを応用して個人関心深度検出器(POI)を作成する。 我々は、各アイデンティティに対して最も差別的な移動面と音声セグメント埋め込みを学ぶために、対照的な学習パラダイムを利用する。 その結果、人のビデオや音声が操作されると、埋め込み空間におけるその表現は実際のアイデンティティと矛盾し、信頼できる検出が可能となる。 訓練は実際の音声映像のみで行われるため、検出器は特定の操作方法に依存しず、最高の一般化能力が得られる。 さらに,シングルモダリティ攻撃(オーディオのみ,ビデオのみ)とマルチモダリティ攻撃(オーディオビデオ)の両方を検出でき,低品質ビデオや腐敗ビデオに対して堅牢である。 各種データセットに対する実験により,SOTAの性能,特に低品質ビデオにおける性能が保証されることを確認した。 コードはhttps://github.com/grip-unina/poi-forensicsで公開されている。

Face manipulation technology is advancing very rapidly, and new methods are being proposed day by day. The aim of this work is to propose a deepfake detector that can cope with the wide variety of manipulation methods and scenarios encountered in the real world. Our key insight is that each person has specific characteristics that a synthetic generator likely cannot reproduce. Accordingly, we extract audio-visual features which characterize the identity of a person, and use them to create a person-of-interest (POI) deepfake detector. We leverage a contrastive learning paradigm to learn the moving-face and audio segment embeddings that are most discriminative for each identity. As a result, when the video and/or audio of a person is manipulated, its representation in the embedding space becomes inconsistent with the real identity, allowing reliable detection. Training is carried out exclusively on real talking-face video; thus, the detector does not depend on any specific manipulation method and yields the highest generalization ability. In addition, our method can detect both single-modality (audio-only, video-only) and multi-modality (audio-video) attacks, and is robust to low-quality or corrupted videos. Experiments on a wide variety of datasets confirm that our method ensures a SOTA performance, especially on low quality videos. Code is publicly available on-line at https://github.com/grip-unina/poi-forensics.
翻訳日:2023-05-19 21:10:37 公開日:2023-05-18
# 進化的計算に基づく筋電制御器の電力効率設計に向けて

Towards Power-Efficient Design of Myoelectric Controller based on Evolutionary Computation ( http://arxiv.org/abs/2204.02179v2 )

ライセンス: Link先を確認
Ahmed Aqeel Shaikh, Anand Kumar Mukhopadhyay, Soumyajit Poddar, and Suman Samui(参考訳) 筋電図認識は上肢義肢や生体ロボティックハンドムーブメントシステムを含む様々な応用のための制御戦略の設計において重要な側面の1つである。 本研究は, 表面筋電図(SEMG)信号の復号化のためのSVM分類器を用いた教師あり学習フレームワークを応用して, 筋運動を推定し, エネルギー効率の高いEMGベースのコントローラを設計する手法を提案する。 EMGをベースとした制御器の最適化性能を達成するため,分類器設計の主な戦略は,システム全体の誤動作を低減することである(EMGをベースとした制御器が'Rest'位置にある場合)。 この目的のために,従来のソフトマージンカーネル化svmの単一学習目標とは異なり,提案する教師付き学習システムの学習アルゴリズムを,汎用的な制約付き多目的最適化問題として定式化した。 SVMハイパーパラメータのチューニングには、非支配的なソート遺伝的アルゴリズムNSGA-II(Non-Maninated sorting genetic algorithm II)が使用される。 5つの異なる上肢位置において11名の被験者から収集したsEMG信号からなるデータセットを用いて実験を行った。 提案手法は,emgベースの制御器のエネルギー効率を最適化するための分類器のパラメータ選択において,設計者にはるかに柔軟性を与える。

Myoelectric pattern recognition is one of the important aspects in the design of the control strategy for various applications including upper-limb prostheses and bio-robotic hand movement systems. The current work has proposed an approach to design an energy-efficient EMG-based controller by considering a supervised learning framework using a kernelized SVM classifier for decoding the information of surface electromyography (sEMG) signals to infer the underlying muscle movements. In order to achieve the optimized performance of the EMG-based controller, our main strategy of classifier design is to reduce the false movements of the overall system (when the EMG-based controller is at the `Rest' position). To this end, unlike the traditional single training objective of soft margin kernelized SVM, we have formulated the training algorithm of the proposed supervised learning system as a general constrained multi-objective optimization problem. An elitist multi-objective evolutionary algorithm $-$ the non-dominated sorting genetic algorithm II (NSGA-II) has been used for the tuning of SVM hyperparameters. We have presented the experimental results by performing the experiments on a dataset consisting of the sEMG signals collected from eleven subjects at five different upper limb positions. It is evident from the presented result that the proposed approach provides much more flexibility to the designer in selecting the parameters of the classifier to optimize the energy efficiency of the EMG-based controller.
翻訳日:2023-05-19 21:10:13 公開日:2023-05-18
# 自己教師付き事前学習表現の有用性に影響を及ぼす要因の分析

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition ( http://arxiv.org/abs/2203.16973v4 )

ライセンス: Link先を確認
Ashish Seth and Lodagala V S V Durga Prasad and Sreyan Ghosh and S. Umesh(参考訳) 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、低リソース環境で自動音声認識(ASR)システムを構築するための一般的なアプローチである。 しかし、文献では、SSL事前トレーニングに活用できる同一のドメインや言語に対して、かなりの量のラベルのないデータが利用できるという仮定が一般的であり、現実の環境では実現不可能であることを認めている。 本稿では,この間欠的なgram vaani asrチャレンジの一環として,openstream pre-training sslデータのドメイン,言語,データセットサイズ,その他の側面が,最終パフォーマンスの低リソースダウンストリームasrタスクに与える影響について検討する。 また、SSLを用いてトレーニングされたモデルが持つ事前知識の効果を研究するために、継続した事前学習パラダイムを構築した。 大規模な実験と研究により、ASRシステムの性能はSSL事前トレーニングに使用されるデータに影響を受けやすいことが明らかとなった。 彼らのパフォーマンスは、事前トレーニングデータの類似性とボリュームの増加によって向上する。 我々の研究は、低リソース環境でのより良いASRシステムの構築と、SSLベースの音声システムのための事前学習の一般化に向けたステアリサーチにおいて、音声コミュニティに役立ちます。

Self-supervised learning (SSL) to learn high-level speech representations has been a popular approach to building Automatic Speech Recognition (ASR) systems in low-resource settings. However, the common assumption made in literature is that a considerable amount of unlabeled data is available for the same domain or language that can be leveraged for SSL pre-training, which we acknowledge is not feasible in a real-world setting. In this paper, as part of the Interspeech Gram Vaani ASR challenge, we try to study the effect of domain, language, dataset size, and other aspects of our upstream pre-training SSL data on the final performance low-resource downstream ASR task. We also build on the continued pre-training paradigm to study the effect of prior knowledge possessed by models trained using SSL. Extensive experiments and studies reveal that the performance of ASR systems is susceptible to the data used for SSL pre-training. Their performance improves with an increase in similarity and volume of pre-training data. We believe our work will be helpful to the speech community in building better ASR systems in low-resource settings and steer research towards improving generalization in SSL-based pre-training for speech systems.
翻訳日:2023-05-19 21:09:50 公開日:2023-05-18
# AugESC:感情支援会話のための大規模言語モデルによる対話強化

AugESC: Dialogue Augmentation with Large Language Models for Emotional Support Conversation ( http://arxiv.org/abs/2202.13047v3 )

ライセンス: Link先を確認
Chujie Zheng, Sahand Sabour, Jiaxin Wen, Zheng Zhang, Minlie Huang(参考訳) クラウドソースによる対話コーパスは通常、データキュレーションのコストがかかるため、規模やトピックのカバレッジが制限される。 これにより、ダウンストリーム対話モデルのオープンドメイントピックへの一般化が妨げられる。 本研究では,感情支援会話(ESC)の課題において,対話強化のための大規模言語モデルを活用する。 対話強化を対話完了タスクとして扱うことにより、様々なトピックの利用可能な対話投稿から完全な対話を完遂するよう、微調整言語モデルに促す。 このアプローチを適用して,クラウドソース型ESConvコーパスのスケールとトピックカバレッジを大きく拡張した,ESCタスク用の拡張データセットであるAugESCを構築した。 包括的人間評価を通じて,本手法は対話強化の強力なベースラインよりも優れており,augescはクラウドソースコーパスと同等の対話品質を有することを示す。 また,人間の対話的評価を行い,augesc上での学習が,下流対話モデルのオープンドメイントピックへの一般化能力を向上させることを証明した。 これらの結果は、AugESCの有用性を示唆し、データスカース対話タスクの改善における大規模言語モデルの可能性を強調している。

Crowdsourced dialogue corpora are usually limited in scale and topic coverage due to the expensive cost of data curation. This would hinder the generalization of downstream dialogue models to open-domain topics. In this work, we leverage large language models for dialogue augmentation in the task of emotional support conversation (ESC). By treating dialogue augmentation as a dialogue completion task, we prompt a fine-tuned language model to complete full dialogues from available dialogue posts of various topics, which are then postprocessed based on heuristics. Applying this approach, we construct AugESC, an augmented dataset for the ESC task, which largely extends the scale and topic coverage of the crowdsourced ESConv corpus. Through comprehensive human evaluation, we demonstrate that our approach is superior to strong baselines of dialogue augmentation and that AugESC has comparable dialogue quality to the crowdsourced corpus. We also conduct human interactive evaluation and prove that post-training on AugESC improves downstream dialogue models' generalization ability to open-domain topics. These results suggest the utility of AugESC and highlight the potential of large language models in improving data-scarce dialogue generation tasks.
翻訳日:2023-05-19 21:09:29 公開日:2023-05-18
# AutoTriggER:補助トリガー抽出によるラベル効率とロバスト名称のエンティティ認識

AutoTriggER: Label-Efficient and Robust Named Entity Recognition with Auxiliary Trigger Extraction ( http://arxiv.org/abs/2109.04726v3 )

ライセンス: Link先を確認
Dong-Ho Lee, Ravi Kiran Selvam, Sheikh Muhammad Sarwar, Bill Yuchen Lin, Fred Morstatter, Jay Pujara, Elizabeth Boschee, James Allan and Xiang Ren(参考訳) 名前付きエンティティ認識(ner)のための深層ニューラルネットワークは、ラベル不足を克服し、遠方の監督と説明などの補助情報を活用することで、未知のエンティティに一般化する素晴らしい結果を示している。 しかし、こうした追加情報を取得する費用は一般的に禁止されている。 本稿では,テキスト中の人間の読みやすい手がかりである '`entity triggers'' を自動生成し,活用することにより,NERの性能を向上させるための新しい2段階フレームワーク(AutoTriggER)を提案する。 本フレームワークは, 埋め込み補間手法を用いて, モデルに先行する知識を強化する。 このアプローチにより、モデルがトリガを利用してエンティティのバウンダリと型を推論することが可能になる。 3つのよく研究されたNERデータセットの実験を通じて、AutoTriggERは強力なラベル効率を示し、目に見えないエンティティに一般化でき、RoBERTa-CRFベースラインを平均0.5F1ポイント上回っている。

Deep neural models for named entity recognition (NER) have shown impressive results in overcoming label scarcity and generalizing to unseen entities by leveraging distant supervision and auxiliary information such as explanations. However, the costs of acquiring such additional information are generally prohibitive. In this paper, we present a novel two-stage framework (AutoTriggER) to improve NER performance by automatically generating and leveraging ``entity triggers'' which are human-readable cues in the text that help guide the model to make better decisions. Our framework leverages post-hoc explanation to generate rationales and strengthens a model's prior knowledge using an embedding interpolation technique. This approach allows models to exploit triggers to infer entity boundaries and types instead of solely memorizing the entity words themselves. Through experiments on three well-studied NER datasets, AutoTriggER shows strong label-efficiency, is capable of generalizing to unseen entities, and outperforms the RoBERTa-CRF baseline by nearly 0.5 F1 points on average.
翻訳日:2023-05-19 21:08:50 公開日:2023-05-18
# ランダム投影による分類の最適性と複雑さ

Optimality and complexity of classification by random projection ( http://arxiv.org/abs/2108.06339v3 )

ライセンス: Link先を確認
Mireille Boutin, Evzenie Coupkova(参考訳) 分類器の一般化誤差は、分類器が選択される関数の集合の複雑さに関連している。 ランダムな一次元特徴を閾値付けした低複雑性分類器群について検討する。 この特徴は、データを無作為直線上に投影し、それをk までの順序の単項によってパラメトリ化された高次元空間に埋め込むことにより得られる。 より具体的には、拡張データをn時間に投影し、トレーニングデータのパフォーマンスに基づいて、これらのnの中で最良の分類器を選択する。 このタイプの分類器は、任意の精度で、コンパクト集合上の任意の連続函数と、そのサポートを可測部分集合に分割するコンパクト集合上のブール関数とに非常に柔軟であることが示される。 特に、クラス条件密度の完全な知識が与えられたとき、これらの低複素度分類器の誤差は k と n が無限大になるときの最適(ベイズ)誤差に収束する。 一方、トレーニングデータセットのみを与えると、分類器がすべてのトレーニングポイントを完全に分類し、k と n が無限大になることを示す。 また、ランダム分類器の一般化誤差も有界である。 一般に、我々の境界は、vc次元がo(ln n)よりも大きいどの分類器よりも優れている。 特に、我々の境界は、射影 n の数が非常に大きい場合を除き、ランダム射影アプローチの一般化誤差と拡張空間における線形分類器の間には大きな利点があることを意味する。 漸近的に、サンプル数が無限に近づくにつれて、ギャップはそのような n に対して持続する。 したがって、最適化ではなくランダムにパラメータを選択することで一般化特性に大きな利益をもたらす可能性がある。

The generalization error of a classifier is related to the complexity of the set of functions among which the classifier is chosen. We study a family of low-complexity classifiers consisting of thresholding a random one-dimensional feature. The feature is obtained by projecting the data on a random line after embedding it into a higher-dimensional space parametrized by monomials of order up to k. More specifically, the extended data is projected n-times and the best classifier among those n, based on its performance on training data, is chosen. We show that this type of classifier is extremely flexible, as it is likely to approximate, to an arbitrary precision, any continuous function on a compact set as well as any boolean function on a compact set that splits the support into measurable subsets. In particular, given full knowledge of the class conditional densities, the error of these low-complexity classifiers would converge to the optimal (Bayes) error as k and n go to infinity. On the other hand, if only a training dataset is given, we show that the classifiers will perfectly classify all the training points as k and n go to infinity. We also bound the generalization error of our random classifiers. In general, our bounds are better than those for any classifier with VC dimension greater than O (ln n) . In particular, our bounds imply that, unless the number of projections n is extremely large, there is a significant advantageous gap between the generalization error of the random projection approach and that of a linear classifier in the extended space. Asymptotically, as the number of samples approaches infinity, the gap persists for any such n. Thus, there is a potentially large gain in generalization properties by selecting parameters at random, rather than optimization.
翻訳日:2023-05-19 21:08:31 公開日:2023-05-18
# スパイクニューラルネットワークによる動的グラフ表現学習のスケールアップ

Scaling Up Dynamic Graph Representation Learning via Spiking Neural Networks ( http://arxiv.org/abs/2208.10364v3 )

ライセンス: Link先を確認
Jintang Li, Zhouxin Yu, Zulun Zhu, Liang Chen, Qi Yu, Zibin Zheng, Sheng Tian, Ruofan Wu, Changhua Meng(参考訳) 近年、動的で経時的に進化する時相グラフをモデル化することを目的として、動的グラフ表現学習の研究が急増している。 しかしながら、現在の研究は通常、リカレントニューラルネットワーク(RNN)でグラフダイナミクスをモデル化し、大きな時間グラフ上の計算とメモリオーバーヘッドに深刻な負担を被る。 これまでのところ、大きな時間グラフ上での動的グラフ表現学習のスケーラビリティは、大きな課題の1つである。 本稿では,時間グラフの時間的および構造的パターンを効率的に捉えるために,スケーラブルなフレームワークspikenetを提案する。 我々は、RNNの代わりにスパイクニューラルネットワーク(SNN)を用いて、時間グラフの進化するダイナミクスを捉えることができる新しい方向を探究する。 RNNに代わる低消費電力の代替として、SNNは明らかにグラフ力学をニューロンのスパイクトレインとしてモデル化し、スパイクベースの効率的な伝播を可能にする。 3つの大規模実世界時相グラフデータセットの実験により、spikenetは計算コストが低い時相ノード分類タスクの強いベースラインを上回ることが示されている。 特にSpikeNetは、パラメータと計算オーバーヘッドが大幅に少ない巨大な時間グラフ(2.7Mノードと13.9Mエッジ)に一般化している。

Recent years have seen a surge in research on dynamic graph representation learning, which aims to model temporal graphs that are dynamic and evolving constantly over time. However, current work typically models graph dynamics with recurrent neural networks (RNNs), making them suffer seriously from computation and memory overheads on large temporal graphs. So far, scalability of dynamic graph representation learning on large temporal graphs remains one of the major challenges. In this paper, we present a scalable framework, namely SpikeNet, to efficiently capture the temporal and structural patterns of temporal graphs. We explore a new direction in that we can capture the evolving dynamics of temporal graphs with spiking neural networks (SNNs) instead of RNNs. As a low-power alternative to RNNs, SNNs explicitly model graph dynamics as spike trains of neuron populations and enable spike-based propagation in an efficient way. Experiments on three large real-world temporal graph datasets demonstrate that SpikeNet outperforms strong baselines on the temporal node classification task with lower computational costs. Particularly, SpikeNet generalizes to a large temporal graph (2.7M nodes and 13.9M edges) with significantly fewer parameters and computation overheads.Our code is publicly available at \url{https://github.com/EdisonLeeeee/SpikeNet}.
翻訳日:2023-05-19 21:03:06 公開日:2023-05-18
# ランドマークの学習による複数4次元表現遷移の生成

Generating Multiple 4D Expression Transitions by Learning Face Landmark Trajectories ( http://arxiv.org/abs/2208.00050v2 )

ライセンス: Link先を確認
Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo(参考訳) 本稿では,4次元表情生成の問題点について述べる。 これは通常、中性3d顔をアニメーション化して表現ピークに達し、その後中立状態に戻ることで対処される。 しかし現実の世界では、人々はより複雑な表現を示し、ある表現から別の表現に切り替える。 そこで我々は,異なる表現間の遷移を生成し,長大で構成された4次元表現を合成する新しいモデルを提案する。 これには3つのサブプロブレムが含まれる。 (i)表現の時間的ダイナミクスをモデル化すること。 (ii)それらの間の学習の遷移、 (iii)ジェネリックメッシュを変形させる。 本研究では,多様体値gan(motion3dgan)を訓練することで生成する3次元ランドマークの集合の運動を用いて,表現の時間的発展をエンコードする。 合成式の生成を可能にするため、このモデルは開始式と終了式をエンコードする2つのラベルを受け入れる。 メッシュの最終的なシーケンスは、sparse2denseメッシュデコーダ(s2d-dec)によって生成される。 動きの軌跡を明示的に扱うことにより、モデルはアイデンティティから完全に独立する。 5つの公開データセットに関する広範囲な実験により,提案手法が従来のソリューションに対して大幅な改善をもたらすと同時に,未発見のデータに対する優れた一般化が維持されることが示された。

In this work, we address the problem of 4D facial expressions generation. This is usually addressed by animating a neutral 3D face to reach an expression peak, and then get back to the neutral state. In the real world though, people show more complex expressions, and switch from one expression to another. We thus propose a new model that generates transitions between different expressions, and synthesizes long and composed 4D expressions. This involves three sub-problems: (i) modeling the temporal dynamics of expressions, (ii) learning transitions between them, and (iii) deforming a generic mesh. We propose to encode the temporal evolution of expressions using the motion of a set of 3D landmarks, that we learn to generate by training a manifold-valued GAN (Motion3DGAN). To allow the generation of composed expressions, this model accepts two labels encoding the starting and the ending expressions. The final sequence of meshes is generated by a Sparse2Dense mesh Decoder (S2D-Dec) that maps the landmark displacements to a dense, per-vertex displacement of a known mesh topology. By explicitly working with motion trajectories, the model is totally independent from the identity. Extensive experiments on five public datasets show that our proposed approach brings significant improvements with respect to previous solutions, while retaining good generalization to unseen data.
翻訳日:2023-05-19 21:02:27 公開日:2023-05-18
# DGPO:多様性誘導政策最適化による複数戦略の発見

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization ( http://arxiv.org/abs/2207.05631v2 )

ライセンス: Link先を確認
Wenze Chen, Shiyu Huang, Yuan Chiang, Tim Pearce, Wei-Wei Tu, Ting Chen, Jun Zhu(参考訳) ほとんどの強化学習アルゴリズムは、与えられたタスクを解決する単一の最適戦略を求める。 しかし、エージェントとユーザとのインタラクションをより活発にしたり、あるいは予期せぬ摂動に対するポリシーの堅牢性を改善するために、多様なソリューションセットを学ぶことは、しばしば有用である。 本稿では,特定の課題を解決するための複数の戦略を見出すオンポリシーアルゴリズムであるdgpoを提案する。 以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。 具体的には,情報理論の多様性目標に基づく本質的な報酬を設計する。 最終目標は戦略の多様性と外的報酬を交互に制約することであった。 制約付き最適化問題を確率的推論タスクとして解き、導出した下限を最大化するためにポリシー反復を用いる。 実験の結果,多種多様な強化学習タスクにおいて,多様な戦略を効率的に発見できることがわかった。 ベースライン法と比較して、DGPOはより多様な戦略を発見し、しばしばより良いサンプル効率で同等の報酬を得る。

Most reinforcement learning algorithms seek a single optimal strategy that solves a given task. However, it can often be valuable to learn a diverse set of solutions, for instance, to make an agent's interaction with users more engaging, or improve the robustness of a policy to an unexpected perturbance. We propose Diversity-Guided Policy Optimization (DGPO), an on-policy algorithm that discovers multiple strategies for solving a given task. Unlike prior work, it achieves this with a shared policy network trained over a single run. Specifically, we design an intrinsic reward based on an information-theoretic diversity objective. Our final objective alternately constraints on the diversity of the strategies and on the extrinsic reward. We solve the constrained optimization problem by casting it as a probabilistic inference task and use policy iteration to maximize the derived lower bound. Experimental results show that our method efficiently discovers diverse strategies in a wide variety of reinforcement learning tasks. Compared to baseline methods, DGPO achieves comparable rewards, while discovering more diverse strategies, and often with better sample efficiency.
翻訳日:2023-05-19 21:02:03 公開日:2023-05-18
# グラフコントラスト学習のための対実的ハード負サンプルの生成

Generating Counterfactual Hard Negative Samples for Graph Contrastive Learning ( http://arxiv.org/abs/2207.00148v3 )

ライセンス: Link先を確認
Haoran Yang, Hongxu Chen, Sixiao Zhang, Xiangguo Sun, Qian Li, Xiangyu Zhao, Guandong Xu(参考訳) グラフコントラスト学習は教師なしグラフ表現学習の強力なツールとして登場した。 グラフコントラスト学習の成功の鍵は、入力グラフの構造的意味論を学習するために、ペアを対比する高品質な正と負のサンプルを取得することである。 最近の研究は通常、同じトレーニングバッチから正のサンプルまたは外部の無関係グラフで負のサンプルをサンプリングする。 しかし、そのような戦略には重大な制限があり、これは偽陰性サンプルをサンプリングすることの避けられない問題である。 本稿では,これらのサンプリングベース戦略と異なる視点を持つ<textbf{c>ounterfactual mechanismを用いて,<textbf{g>raph \textbf{c}ontrastive learning,すなわち<textbf{cgc}</textbf{c>ontrastive learningの人工的ハード・ネガティブなサンプルを生成する新しい手法を提案する。 偽りのメカニズムを利用して, 硬い負のサンプルを生成し, 生成したサンプルが類似していることを保証するが, 正のサンプルとは異なるラベルを持つことを保証する。 提案手法は,従来の教師なしグラフ学習法とsomaグラフコントラスト学習法と比較して,複数のデータセットで結果を満たす。 また, 異なる硬い負の試料を用いたcgcの性能評価や, 異なる類似度測定による硬い負の試料の評価など, 提案手法の詳細な説明を行うため, 補足実験を行った。

Graph contrastive learning has emerged as a powerful tool for unsupervised graph representation learning. The key to the success of graph contrastive learning is to acquire high-quality positive and negative samples as contrasting pairs for the purpose of learning underlying structural semantics of the input graph. Recent works usually sample negative samples from the same training batch with the positive samples, or from an external irrelevant graph. However, a significant limitation lies in such strategies, which is the unavoidable problem of sampling false negative samples. In this paper, we propose a novel method to utilize \textbf{C}ounterfactual mechanism to generate artificial hard negative samples for \textbf{G}raph \textbf{C}ontrastive learning, namely \textbf{CGC}, which has a different perspective compared to those sampling-based strategies. We utilize counterfactual mechanism to produce hard negative samples, which ensures that the generated samples are similar to, but have labels that different from the positive sample. The proposed method achieves satisfying results on several datasets compared to some traditional unsupervised graph learning methods and some SOTA graph contrastive learning methods. We also conduct some supplementary experiments to give an extensive illustration of the proposed method, including the performances of CGC with different hard negative samples and evaluations for hard negative samples generated with different similarity measurements.
翻訳日:2023-05-19 21:01:47 公開日:2023-05-18
# 変圧器の構成と訓練目的に関する研究

A Study on Transformer Configuration and Training Objective ( http://arxiv.org/abs/2205.10505v3 )

ライセンス: Link先を確認
Fuzhao Xue, Jianghai Chen, Aixin Sun, Xiaozhe Ren, Zangwei Zheng, Xiaoxin He, Yongming Chen, Xin Jiang, Yang You(参考訳) トランスフォーマーベースのモデルは、多くのタスク、特にビジョンと言語タスクで印象的な結果をもたらしました。 多くのモデルトレーニングでは、通常、従来の構成が採用される。 例えば、隠れた次元(すなわちモデル幅)のベースモデルを 768 に設定し、トランスフォーマー層(すなわちモデル深さ)を 12 に設定することが多い。 本稿では,従来の構成を再考する。 理論的解析と実験的評価により, マスク付きオートエンコーダは, 深部変圧器訓練における過密問題を緩和するのに有効であることを示す。 そこで本研究では,より深く狭いトランスフォーマー構成をマスキングオートエンコーダのトレーニングに利用するbambooを提案する。 ImageNetでは、そのような構成の変更により、再設計されたモデルは87.1%のトップ1の精度を実現し、MAEやBEiTのようなSoTAモデルより優れている。 言語タスクでは、再設計されたモデルは、GLUEデータセット上で、デフォルト設定でBERTを平均1.1ポイント上回る。

Transformer-based models have delivered impressive results on many tasks, particularly vision and language tasks. In many model training situations, conventional configurations are typically adopted. For example, we often set the base model with hidden dimensions (i.e. model width) to be 768 and the number of transformer layers (i.e. model depth) to be 12. In this paper, we revisit these conventional configurations. Through theoretical analysis and experimental evaluation, we show that the masked autoencoder is effective in alleviating the over-smoothing issue in deep transformer training. Based on this finding, we propose Bamboo, an idea of using deeper and narrower transformer configurations, for masked autoencoder training. On ImageNet, with such a simple change in configuration, re-designed model achieves 87.1% top-1 accuracy and outperforms SoTA models like MAE and BEiT. On language tasks, re-designed model outperforms BERT with default setting by 1.1 points on average, on GLUE datasets.
翻訳日:2023-05-19 20:59:53 公開日:2023-05-18
# Adversarial Scratches: CNN分類器へのデプロイ可能なアタック

Adversarial Scratches: Deployable Attacks to CNN Classifiers ( http://arxiv.org/abs/2204.09397v3 )

ライセンス: Link先を確認
Loris Giulivi, Malhar Jere, Loris Rossi, Farinaz Koushanfar, Gabriela Ciocarlie, Briland Hitaj, Giacomo Boracchi(参考訳) 研究の活発化により、ディープニューラルネットワークは敵の例に影響を受けやすいことが示されている。 これらはモデルの入力に適用される小さな摂動の形をとり、誤った予測につながる。 残念なことに、ほとんどの文献では、視覚的に知覚できない摂動に焦点をあてて、多くの場合、物理的ターゲットにデプロイできないデジタル画像に適用している。 我々は、画像の傷の形を取り、他の最先端の攻撃よりもはるかに高い展開性を持つ新しいL0ブラックボックス攻撃であるAdversarial Scratchesを提示する。 敵対的スクラッチはB\'ezier Curvesを利用して検索空間の次元を減らし、攻撃を特定の場所に制限する。 公開APIや交通標識の画像など,いくつかのシナリオでAdversarial Scratchesをテストしています。 その結果、攻撃は多くの場合、他のデプロイ可能なstate-of-the-artメソッドよりも高い騙し率を達成でき、クエリの大幅な削減とごくわずかなピクセルの変更が必要となる。

A growing body of work has shown that deep neural networks are susceptible to adversarial examples. These take the form of small perturbations applied to the model's input which lead to incorrect predictions. Unfortunately, most literature focuses on visually imperceivable perturbations to be applied to digital images that often are, by design, impossible to be deployed to physical targets. We present Adversarial Scratches: a novel L0 black-box attack, which takes the form of scratches in images, and which possesses much greater deployability than other state-of-the-art attacks. Adversarial Scratches leverage B\'ezier Curves to reduce the dimension of the search space and possibly constrain the attack to a specific location. We test Adversarial Scratches in several scenarios, including a publicly available API and images of traffic signs. Results show that, often, our attack achieves higher fooling rate than other deployable state-of-the-art methods, while requiring significantly fewer queries and modifying very few pixels.
翻訳日:2023-05-19 20:59:36 公開日:2023-05-18
# REV:自由テキスト合理化の情報理論評価

REV: Information-Theoretic Evaluation of Free-Text Rationales ( http://arxiv.org/abs/2210.04982v3 )

ライセンス: Link先を確認
Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha Swayamdipta(参考訳) 自由文有理数の生成は、説明可能なNLPへの有望なステップであるが、そのような有理数の評価は依然として課題である。 既存のメトリクスは主に、合理的性と与えられたラベルの関係を測定することに重点を置いています。 理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである。 本研究は,条件付きV情報を用いた情報理論の観点から検討する(Hewitt et al., 2021)。 より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外の理性理論において,ラベル関連情報量の定量化を行う。 思考の連鎖を含む推論タスクを伴う4つのベンチマーク実験は、既存のメトリクスと比較して合理性とラベルのペアを評価する上でのREVの有効性を示す。 さらに、REVは、有理性評価に関する人間の判断と整合性を示し、自由文有理性における新しい情報のより敏感な測定を提供する。 従来のパフォーマンス指標と並行して使用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。

Generating free-text rationales is a promising step towards explainable NLP, yet evaluating such rationales remains a challenge. Existing metrics have mostly focused on measuring the association between the rationale and a given label. We argue that an ideal metric should focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using conditional V-information (Hewitt et al., 2021). More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), to quantify the amount of new, label-relevant information in a rationale beyond the information already available in the input or the label. Experiments across four benchmarks with reasoning tasks, including chain-of-thought, demonstrate the effectiveness of REV in evaluating rationale-label pairs, compared to existing metrics. We further demonstrate REV is consistent with human judgments on rationale evaluations and provides more sensitive measurements of new information in free-text rationales. When used alongside traditional performance metrics, REV provides deeper insights into models' reasoning and prediction processes.
翻訳日:2023-05-19 20:52:31 公開日:2023-05-18
# 未ロール圧縮ブラインドデコンボリューション

Unrolled Compressed Blind-Deconvolution ( http://arxiv.org/abs/2209.14165v2 )

ライセンス: Link先を確認
Bahareh Tolooshams, Satish Mulleti, Demba Ba, Yonina C. Eldar(参考訳) マルチチャネルブラインドデコンボリューション(S-MBD)の問題は、レーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。 計算と実装のコストを削減するため,本研究では,受信した全信号に対してはるかに少ない測定値からブラインドリカバリが可能な圧縮手法を提案する。 提案した圧縮は、フィルタを介して信号を測定し、次にサブサンプリングを行い、実装コストを大幅に削減する。 圧縮された測定値からスパースフィルタの識別性と回復を理論的に保証する。 この結果から,広範囲の圧縮フィルタの設計が可能となった。 そこで我々は,圧縮フィルタを学習し,S-MBD問題を解くために,データ駆動型アンロール学習フレームワークを提案する。 エンコーダはリカレント推論ネットワークであり、圧縮された測定値をスパースフィルタの推定にマッピングする。 提案手法はソース形状の選択に対して頑健であり,最適化に基づく手法に比べて回復性能が向上することを示す。 最後に,データ制限型アプリケーション (fewshot learning) では,従来のディープラーニングと比較して,未ロール学習の優れた一般化能力を強調した。

The problem of sparse multichannel blind deconvolution (S-MBD) arises frequently in many engineering applications such as radar/sonar/ultrasound imaging. To reduce its computational and implementation cost, we propose a compression method that enables blind recovery from much fewer measurements with respect to the full received signal in time. The proposed compression measures the signal through a filter followed by a subsampling, allowing for a significant reduction in implementation cost. We derive theoretical guarantees for the identifiability and recovery of a sparse filter from compressed measurements. Our results allow for the design of a wide class of compression filters. We, then, propose a data-driven unrolled learning framework to learn the compression filter and solve the S-MBD problem. The encoder is a recurrent inference network that maps compressed measurements into an estimate of sparse filters. We demonstrate that our unrolled learning method is more robust to choices of source shapes and has better recovery performance compared to optimization-based methods. Finally, in data-limited applications (fewshot learning), we highlight the superior generalization capability of unrolled learning compared to conventional deep learning.
翻訳日:2023-05-19 20:52:10 公開日:2023-05-18
# 医療・医用画像分析における公正性の進展と展望

Progress and Prospects for Fairness in Healthcare and Medical Image Analysis ( http://arxiv.org/abs/2209.13177v4 )

ライセンス: Link先を確認
Zikang Xu, Yongshuo Zong, Jun Li, Qingsong Yao, S. Kevin Zhou(参考訳) 機械学習を利用した医療画像解析は、現在の自動診断システムにおいて重要な部分となっている。 しかし、機械学習モデルは、例えば、年配の女性に悪い予測性能を与えるような、ある種のサブグループに対する体系的な偏見を示すことが示されている。 このような敏感な領域では有害で危険であるため、研究者は一般的な機械学習分野における公平性問題に対処するバイアス軽減アルゴリズムの開発に取り組んでいる。 しかし, 医用画像の特徴を考慮すれば, 医療用画像解析(MedIA)の公平性にはさらなる努力が必要である。 そこで本調査では, フェアネス研究の現在の動向と, メディアにおけるその状況について概観する。 具体的には、まず公平さの定義を議論し、医療画像におけるバイアスの原因を分析する。 そこで我々は,MedIAの公正性に関する現在の研究について論じ,また,MedIAの公正性を評価するために利用可能な公開医療画像データセットのコレクションについて述べる。 さらに, 分類, 物体検出, ランドマーク検出など, 医療画像における様々なタスクの公平性を評価するために, 広範囲にわたる実験を行った。 最後に,フェアメディア開発における課題と今後の方向性について論じる。

Machine learning-enabled medical imaging analysis has become a vital part of the current automatic diagnosis system. However, machine learning models have been shown to demonstrate a systematic bias towards certain subgroups of people, e.g., giving a worse predictive performance to old females. It is harmful and dangerous in such a sensitive area and therefore researchers have been working on developing bias mitigation algorithms to address the fairness issue in the general machine learning field. However, given the specific characteristics of medical imaging, fairness in medical image analysis (MedIA) requires additional efforts. Hence, in this survey, we give a comprehensive review of the current progress of fairness study and that in MedIA. Specifically, we first discuss the definitions of fairness and analyze the source of bias in medical imaging. Then, we discuss current research on fairness for MedIA and present a collection of public medical imaging datasets that can be used for evaluating fairness in MedIA. Furthermore, we conduct extensive experiments to evaluate the fairness of several different tasks for medical imaging, including classification, object detection, and landmark detection. Finally, we discuss the challenges and potential future directions in developing fair MedIA.
翻訳日:2023-05-19 20:51:52 公開日:2023-05-18
# 視野限定型カメラによる広域地すべり化

Wide-Area Geolocalization with a Limited Field of View Camera ( http://arxiv.org/abs/2209.11854v2 )

ライセンス: Link先を確認
Lena M. Downes, Ted J. Steiner, Rebecca L. Russell, and Jonathan P. How(参考訳) GPSの補足または置換であるクロスビュージオローカライゼーションは、地上カメラから撮影した画像と衛星や航空機から撮影した画像とをマッチングすることにより、検索エリア内のエージェントをローカライズする。 地表面画像と地表面画像との視線差は、地表面の地形化を難しくするが、地表面のエージェントがパノラマカメラにアクセスできると仮定すると、大きな進歩が見られる。 例えば、我々の以前の研究(WAG)では、都市規模のパノラマ・クロスビュー・ジオローカライゼーションを可能にする探索領域の離散化、トレーニング損失、粒子フィルタ重み付けが導入された。 しかし、パノラマカメラはその複雑さとコストのために既存のロボットプラットフォームでは広く使われていない。 非パノラマ・クロスビュー・ジオローカライゼーションはロボット工学にも適用できるが、さらに難しい。 提案するRestricted FOV Wide-Area Geolocalization (ReWAG)は,標準の非パノラマ地上カメラを用いてWAGを一般化し,ポーズ対応の埋め込みを作成し,シムズネットワークに粒子ポーズを組み込む戦略を提供する。 ReWAGは、オドメトリーと90度のFOVカメラのみで、GPSで移動エージェントをグローバルにローカライズすることができ、パノラマカメラでWAGが達成したものと同じようなローカライズ精度を実現し、ベースラインビジョントランスフォーマー(ViT)アプローチと比較して100倍のローカライズ精度を向上させることができるニューラルネットワークとパーティクルフィルタシステムである。 ReWAGの数十kmのテストパスへの収束を示すビデオハイライトがhttps://youtu.be/U_OBQrt8qCEで公開されている。

Cross-view geolocalization, a supplement or replacement for GPS, localizes an agent within a search area by matching images taken from a ground-view camera to overhead images taken from satellites or aircraft. Although the viewpoint disparity between ground and overhead images makes cross-view geolocalization challenging, significant progress has been made assuming that the ground agent has access to a panoramic camera. For example, our prior work (WAG) introduced changes in search area discretization, training loss, and particle filter weighting that enabled city-scale panoramic cross-view geolocalization. However, panoramic cameras are not widely used in existing robotic platforms due to their complexity and cost. Non-panoramic cross-view geolocalization is more applicable for robotics, but is also more challenging. This paper presents Restricted FOV Wide-Area Geolocalization (ReWAG), a cross-view geolocalization approach that generalizes WAG for use with standard, non-panoramic ground cameras by creating pose-aware embeddings and providing a strategy to incorporate particle pose into the Siamese network. ReWAG is a neural network and particle filter system that is able to globally localize a mobile agent in a GPS-denied environment with only odometry and a 90 degree FOV camera, achieving similar localization accuracy as what WAG achieved with a panoramic camera and improving localization accuracy by a factor of 100 compared to a baseline vision transformer (ViT) approach. A video highlight that demonstrates ReWAG's convergence on a test path of several dozen kilometers is available at https://youtu.be/U_OBQrt8qCE.
翻訳日:2023-05-19 20:51:36 公開日:2023-05-18
# 文脈自由言語と正規言語の交叉について

On the Intersection of Context-Free and Regular Languages ( http://arxiv.org/abs/2209.06809v2 )

ライセンス: Link先を確認
Clemente Pasti, Andreas Opedal, Tiago Pimentel, Tim Vieira, Jason Eisner, Ryan Cotterell(参考訳) バーヒルル構成は形式言語理論の古典的な結果である。 単純な構成により、文脈自由言語と正規言語との交点自体が文脈自由であることを示している。 構成においては、正規言語は有限状態オートマトンによって指定される。 しかし、オリジナルの構成 (Bar-Hillel et al., 1961) もその重み付き拡張 (Nederhof and Satta, 2003) も、$\varepsilon$-arcs で有限状態オートマトンを扱うことはできない。 言語を変更することなく、有限状態オートマトンから$\varepsilon$-arcsを効率的に取り除くことができるが、そのような操作はオートマトンのパスセットを修正する。 我々は、所望のオートマトンが$\varepsilon$-arcsである場合にバーヒルルを一般化する構成を示し、さらに、我々の一般化された構成が、入力オートマトンと文法の両方の構造を符号化し、元の構成の漸近的なサイズを保った文法に導くことを証明する。

The Bar-Hillel construction is a classic result in formal language theory. It shows, by a simple construction, that the intersection of a context-free language and a regular language is itself context-free. In the construction, the regular language is specified by a finite-state automaton. However, neither the original construction (Bar-Hillel et al., 1961) nor its weighted extension (Nederhof and Satta, 2003) can handle finite-state automata with $\varepsilon$-arcs. While it is possible to remove $\varepsilon$-arcs from a finite-state automaton efficiently without modifying the language, such an operation modifies the automaton's set of paths. We give a construction that generalizes the Bar-Hillel in the case where the desired automaton has $\varepsilon$-arcs, and further prove that our generalized construction leads to a grammar that encodes the structure of both the input automaton and grammar while retaining the asymptotic size of the original construction.
翻訳日:2023-05-19 20:50:22 公開日:2023-05-18
# 円錐型プログラミングによるマルチパラメータ量子メソロジーのためのタイトクイッククレージュ'{e}r-rao型境界

Tight Cram\'{e}r-Rao type bounds for multiparameter quantum metrology through conic programming ( http://arxiv.org/abs/2209.05218v4 )

ライセンス: Link先を確認
Masahito Hayashi and Yingkai Ouyang(参考訳) 量子センサの最大ポテンシャルを解き放つために、最善の精度で互換性のないパラメータを推定できる実用的な測定戦略を持つことが重要となる。 しかし、プローブ状態上の相関のない測定であっても、最適な精度で実用的な測定方法はまだ分かっていない。 ここでは、最適な精度で相関のない計測戦略を見つけるための具体的な方法を示す。 本研究では,マルチパラメータ推定のための精度境界の理論を統一したコニックプログラミングの枠組みを導入することで,この基本的な問題を解決する。 すなわち、行列のテンソル積空間上で定義される様々な円錐上の線型プログラムから生じる、分離可能な行列の特定の円錐を含む精度境界を与える。 その後,本理論は,これらの境界を密接化できる非相関計測戦略の最終的な精度境界に対して,上界と下界の両方を計算する効率的なアルゴリズムを開発することを可能にする。 特に、我々の理論から生じる無相関な測定戦略は、上限から究極の精度境界まで飽和させる。 また,従来の計算可能境界と最終精度境界との間には厳密なギャップがあることを数値的に示す。

In the quest to unlock the maximum potential of quantum sensors, it is of paramount importance to have practical measurement strategies that can estimate incompatible parameters with best precisions possible. However, it is still not known how to find practical measurements with optimal precisions, even for uncorrelated measurements over probe states. Here, we give a concrete way to find uncorrelated measurement strategies with optimal precisions. We solve this fundamental problem by introducing a framework of conic programming that unifies the theory of precision bounds for multiparameter estimates for uncorrelated and correlated measurement strategies under a common umbrella. Namely, we give precision bounds that arise from linear programs on various cones defined on a tensor product space of matrices, including a particular cone of separable matrices. Subsequently, our theory allows us to develop an efficient algorithm that calculates both upper and lower bounds for the ultimate precision bound for uncorrelated measurement strategies, where these bounds can be tight. In particular, the uncorrelated measurement strategy that arises from our theory saturates the upper bound to the ultimate precision bound. Also, we show numerically that there is a strict gap between the previous efficiently computable bounds and the ultimate precision bound.
翻訳日:2023-05-19 20:49:51 公開日:2023-05-18
# 凸強凸サドル点問題の加速原始双対法

Accelerated Primal-Dual Methods for Convex-Strongly-Concave Saddle Point Problems ( http://arxiv.org/abs/2209.04604v2 )

ライセンス: Link先を確認
Mohammad Khalafi, Digvijay Boob(参考訳) 本研究では,標準近位ステップの代わりに一次関数の線形近似を用いたサドル点問題 (SPP) に対する原始双対 (PD) 法を検討した結果,線形化 PD (LPD) 法が得られた。 凸強凹 SPP に対して,LPD 法は主関数のリプシッツ定数に最適値に依存することが観察された。 この問題を解決するために, 加速度勾配Descent とLPD法を組み合わせることで, 単ループ線形化Primal-Dual (ALPD) 法を実現する。 ALPD法は、SPPが半線形結合関数を持つ場合、最適勾配複雑性を実現する。 また,本手法は,主成分の最適勾配評価を保ち,alpd法と比較して結合項の勾配評価を著しく改善する汎用非線形カップリング関数を有するsps用不適合alpd法を提案する。 我々は数値実験でこの結果を検証する。

We investigate a primal-dual (PD) method for the saddle point problem (SPP) that uses a linear approximation of the primal function instead of the standard proximal step, resulting in a linearized PD (LPD) method. For convex-strongly concave SPP, we observe that the LPD method has a suboptimal dependence on the Lipschitz constant of the primal function. To fix this issue, we combine features of Accelerated Gradient Descent with the LPD method resulting in a single-loop Accelerated Linearized Primal-Dual (ALPD) method. ALPD method achieves the optimal gradient complexity when the SPP has a semi-linear coupling function. We also present an inexact ALPD method for SPPs with a general nonlinear coupling function that maintains the optimal gradient evaluations of the primal parts and significantly improves the gradient evaluations of the coupling term compared to the ALPD method. We verify our findings with numerical experiments.
翻訳日:2023-05-19 20:49:31 公開日:2023-05-18
# ランキング強化型教師なし文表現学習

Ranking-Enhanced Unsupervised Sentence Representation Learning ( http://arxiv.org/abs/2209.04333v3 )

ライセンス: Link先を確認
Yeon Seonwoo, Guoyin Wang, Changmin Seo, Sajal Choudhary, Jiwei Li, Xiang Li, Puyang Xu, Sunghyun Park, Alice Oh(参考訳) 教師なし文表現学習は、対照的な学習と、ドロップアウトマスキングのようなデータ拡張手法を通じて進歩している。 この進歩にもかかわらず、文エンコーダは意味的ベクトルを予測する際に入力文のみを使用することに制限される。 本研究では,文の意味が,入力文と類似した最寄りの文によっても決定されることを示す。 そこで本研究では,教師なしの文エンコーダである RankEncoder を提案する。 RankEncoderは、入力文自体だけでなく、外部コーパス内の他の文との関係を利用して、入力文の意味ベクトルを予測する。 我々はsemantic textual benchmarkデータセット上でrankencoderを評価する。 実験結果から検証する。 1) RankEncoderは80.07%のSpearman相関を実現している。 2) RankEncoderは、既存の教師なし文の埋め込み方法に普遍的に適用でき、 3)rankencoderは類似文対の類似度スコアの予測に特に有効である。

Unsupervised sentence representation learning has progressed through contrastive learning and data augmentation methods such as dropout masking. Despite this progress, sentence encoders are still limited to using only an input sentence when predicting its semantic vector. In this work, we show that the semantic meaning of a sentence is also determined by nearest-neighbor sentences that are similar to the input sentence. Based on this finding, we propose a novel unsupervised sentence encoder, RankEncoder. RankEncoder predicts the semantic vector of an input sentence by leveraging its relationship with other sentences in an external corpus, as well as the input sentence itself. We evaluate RankEncoder on semantic textual benchmark datasets. From the experimental results, we verify that 1) RankEncoder achieves 80.07% Spearman's correlation, a 1.1% absolute improvement compared to the previous state-of-the-art performance, 2) RankEncoder is universally applicable to existing unsupervised sentence embedding methods, and 3) RankEncoder is specifically effective for predicting the similarity scores of similar sentence pairs.
翻訳日:2023-05-19 20:49:10 公開日:2023-05-18
# adatask:マルチタスク学習のためのタスク認識適応学習率アプローチ

AdaTask: A Task-aware Adaptive Learning Rate Approach to Multi-task Learning ( http://arxiv.org/abs/2211.15055v2 )

ライセンス: Link先を確認
Enneng Yang, Junwei Pan, Ximei Wang, Haibin Yu, Li Shen, Xihua Chen, Lei Xiao, Jie Jiang, Guibing Guo(参考訳) マルチタスク学習(MTL)モデルは、コンピュータビジョン、自然言語処理、レコメンダシステムにおいて印象的な結果を示している。 多くのアプローチが提案されているが、それぞれのパラメータでどのように異なるタスクをバランスさせるかはまだ不明である。 本稿では,このパラメータ上の各タスクの総更新によって,パラメータのタスク支配度を測定することを提案する。 具体的には、対応するタスクからパラメータの2乗更新(au)を指数関数的に減少させる平均値で総更新を計算する。この新しいメトリックに基づいて、既存のmtlメソッドの多くのパラメータ、特に高い共有層におけるパラメータが、1つまたは複数のタスクで支配されていることを観測する。 AUの優位は、主に1つまたは複数のタスクからの累積勾配の優位性に起因する。 そこで本研究では,適応学習率のアプローチにおいて,各パラメータに対する各タスクの学習率を<emph{accumulative gradients}>と分離するタスク単位適応学習率アプローチ adatask を提案する。 コンピュータビジョンとレコメンダシステムMTLデータセットに関する総合的な実験は、AdaTaskが支配的なタスクのパフォーマンスを大幅に改善し、SOTAの平均タスク性能が向上することを示した。 合成データと実世界のデータセットの両方の分析は、共有層ごとにadatask balanceパラメータをよく示している。

Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.
翻訳日:2023-05-19 20:43:25 公開日:2023-05-18
# 深層完全畳み込みニューラルネットワークの普遍近似特性について

On the Universal Approximation Property of Deep Fully Convolutional Neural Networks ( http://arxiv.org/abs/2211.14047v2 )

ライセンス: Link先を確認
Ting Lin, Zuowei Shen, Qianxiao Li(参考訳) 動的システムの観点からの深部完全畳み込みネットワークによるシフト不変あるいは同変関数の近似について検討する。 我々は, 深い残差完全畳み込みネットワークとその連続層ネットワークが, 一定のチャネル幅でこれらの対称関数の普遍近似を達成できることを証明した。 さらに、各層に少なくとも2つのチャネルを持ち、少なくとも2つの畳み込みカーネルサイズを持つ非残留変種でも同じことができることを示す。 さらに,チャネルが少ないネットワークやカーネルが少ないネットワークが普遍的な近似器にならないという意味では,これらの要件が必要であることを示す。

We study the approximation of shift-invariant or equivariant functions by deep fully convolutional networks from the dynamical systems perspective. We prove that deep residual fully convolutional networks and their continuous-layer counterpart can achieve universal approximation of these symmetric functions at constant channel width. Moreover, we show that the same can be achieved by non-residual variants with at least 2 channels in each layer and convolutional kernel size of at least 2. In addition, we show that these requirements are necessary, in the sense that networks with fewer channels or smaller kernels fail to be universal approximators.
翻訳日:2023-05-19 20:42:59 公開日:2023-05-18
# SPCXR: ドメイン固有基礎モデルに向けた胸部X線を用いた自己教師型プレトレーニング

SPCXR: Self-supervised Pretraining using Chest X-rays Towards a Domain Specific Foundation Model ( http://arxiv.org/abs/2211.12944v2 )

ライセンス: Link先を確認
Syed Muhammad Anwar, Abhijeet Parida, Sara Atito, Muhammad Awais, Gustavo Nino, Josef Kitler, Marius George Linguraru(参考訳) 胸部X線(CXR)は肺疾患の診断と予後のための画像モダリティとして広く用いられている。 画像解析のタスクは様々です。 例えば、病理診断や肺分画がある。 機械学習アルゴリズムが特定のタスクのために開発される大規模な作業がある。 最近の顕著な例は、CXRデータを用いたコロナウイルス(covid-19)の検出である。 しかしながら、教師付き学習に基づく従来の診断ツール設計手法は、より良い臨床結果を得るために良質なトレーニングデータアノテーションの必要性によって負担されている。 本稿では,cxrsの汎用表現をグループマスク型自己教師付きフレームワークを用いて学習する,新しい自己教師付きパラダイムを提案する。 事前訓練されたモデルは、コビッド19、肺炎の検出、一般的な健康スクリーニングといったドメイン固有のタスクのために微調整される。 肺の分節作業には,同じ事前訓練が有効であることを示す。 提案手法は,複数のダウンストリームタスクにおいて,事前学習の成功を示すロバストな性能を示す。 さらに、テスト期間中に大きなドリフトを持つデータ上での事前学習モデルの性能は、より汎用的な表現を学ぶことを証明している。 これらの方法は、ユニークな小規模の小児用データセットにおいて、covid-19検出によってさらに検証される。 教師付き変圧器方式と比較した場合, 精度(約25%)は有意であった。 これは、提案するフレームワークの強度と信頼性と事前学習戦略に信頼性を与えます。

Chest X-rays (CXRs) are a widely used imaging modality for the diagnosis and prognosis of lung disease. The image analysis tasks vary. Examples include pathology detection and lung segmentation. There is a large body of work where machine learning algorithms are developed for specific tasks. A significant recent example is Coronavirus disease (covid-19) detection using CXR data. However, the traditional diagnostic tool design methods based on supervised learning are burdened by the need to provide training data annotation, which should be of good quality for better clinical outcomes. Here, we propose an alternative solution, a new self-supervised paradigm, where a general representation from CXRs is learned using a group-masked self-supervised framework. The pre-trained model is then fine-tuned for domain-specific tasks such as covid-19, pneumonia detection, and general health screening. We show that the same pre-training can be used for the lung segmentation task. Our proposed paradigm shows robust performance in multiple downstream tasks which demonstrates the success of the pre-training. Moreover, the performance of the pre-trained models on data with significant drift during test time proves the learning of a better generic representation. The methods are further validated by covid-19 detection in a unique small-scale pediatric data set. The performance gain in accuracy (~25%) is significant when compared to a supervised transformer-based method. This adds credence to the strength and reliability of our proposed framework and pre-training strategy.
翻訳日:2023-05-19 20:42:51 公開日:2023-05-18
# deanthropomorphising nlp: 言語モデルは意識できるのか?

Deanthropomorphising NLP: Can a Language Model Be Conscious? ( http://arxiv.org/abs/2211.11483v2 )

ライセンス: Link先を確認
Matthew Shardlow and Piotr Przyby{\l}a(参考訳) この作業は、Transformerモデルアーキテクチャに基づいた事前訓練された言語モデルであるLaMDAがセンシティブである、という最近の主張に関する議論の中で、声高に意図されている。 この主張が確認できれば、同様のモデルが広く使われているため、自然言語処理(nlp)コミュニティに深刻な影響が及ぶだろう。 しかし、ここでは、このような言語モデルは、感性や意識に欠けるものではなく、特にlamdaは、それを許容する他の類似のモデルに対して進歩を示さないという立場を取る。 統合情報理論を用いてトランスフォーマーアーキテクチャを分析することでこれを正当化する。 われわれは意識の主張を,NLP報告において人為的言語を使用する傾向の広さの一部として捉えている。 主張の妥当性にかかわらず、私たちはこの瞬間を言語モデリングの進歩を積み重ね、そのタスクの倫理的意味を考察する機会と捉えています。 この作業をNLPコミュニティ以外の読者にとって役立つものにするため、言語モデリングにおける必要な背景も提示する。

This work is intended as a voice in the discussion over the recent claims that LaMDA, a pretrained language model based on the Transformer model architecture, is sentient. This claim, if confirmed, would have serious ramifications in the Natural Language Processing (NLP) community due to wide-spread use of similar models. However, here we take the position that such a language model cannot be sentient, or conscious, and that LaMDA in particular exhibits no advances over other similar models that would qualify it. We justify this by analysing the Transformer architecture through Integrated Information Theory. We see the claims of consciousness as part of a wider tendency to use anthropomorphic language in NLP reporting. Regardless of the veracity of the claims, we consider this an opportune moment to take stock of progress in language modelling and consider the ethical implications of the task. In order to make this work helpful for readers outside the NLP community, we also present the necessary background in language modelling.
翻訳日:2023-05-19 20:42:33 公開日:2023-05-18
# SLICER:低リソース自己教師型事前学習によるユニバーサル音声表現の学習

SLICER: Learning universal audio representations using low-resource self-supervised pre-training ( http://arxiv.org/abs/2211.01519v2 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,未ラベル音声データに対する事前学習エンコーダに対して,音声と音声の分類のための大量のラベル付きデータの必要性を低減するための,新たな自己教師付き学習(SSL)手法を提案する。 私たちの主な目標は、低リソースの非ラベルオーディオプリトレーニング環境で、さまざまな音声や非音声タスクにまたがる音声表現を学習することです。 近年、sslベースの音声表現学習におけるクラスタリングとコントラスト学習パラダイムの成功に触発されて、スライサ(インスタンスとクラスタレベルの効率的な表現の対称学習)を提案し、クラスタリングとコントラスト学習パラダイムの両方のベストをまとめる。 生徒と教師のエンコーダからの潜在表現を対称的に失われ、インスタンスとクラスタレベルのコントラスト学習タスクを同時に解決する。 入力スペクトログラムをクラスタ数に等しい次元の出力部分空間に投影するだけで、クラスタ表現をオンラインで得る。 さらに,ラベルを必要とせず,教師なしの音声表現学習を支援するため,ミキサップに基づく新しいメル・スペクトログラム拡張手法k-mixを提案する。 全体として、SLICERはLAPE Benchmark \cite{9868132}で最先端の結果を達成し、DeLoRes-Mや他の以前のアプローチよりも大幅に上回っている。 すべてのコードをgithubで公開します。

We present a new Self-Supervised Learning (SSL) approach to pre-train encoders on unlabeled audio data that reduces the need for large amounts of labeled data for audio and speech classification. Our primary aim is to learn audio representations that can generalize across a large variety of speech and non-speech tasks in a low-resource un-labeled audio pre-training setting. Inspired by the recent success of clustering and contrasting learning paradigms for SSL-based speech representation learning, we propose SLICER (Symmetrical Learning of Instance and Cluster-level Efficient Representations), which brings together the best of both clustering and contrasting learning paradigms. We use a symmetric loss between latent representations from student and teacher encoders and simultaneously solve instance and cluster-level contrastive learning tasks. We obtain cluster representations online by just projecting the input spectrogram into an output subspace with dimensions equal to the number of clusters. In addition, we propose a novel mel-spectrogram augmentation procedure, k-mix, based on mixup, which does not require labels and aids unsupervised representation learning for audio. Overall, SLICER achieves state-of-the-art results on the LAPE Benchmark \cite{9868132}, significantly outperforming DeLoRes-M and other prior approaches, which are pre-trained on $10\times$ larger of unsupervised data. We will make all our codes available on GitHub.
翻訳日:2023-05-19 20:42:17 公開日:2023-05-18
# mast:マルチスケールオーディオスペクトログラムトランスフォーマー

MAST: Multiscale Audio Spectrogram Transformers ( http://arxiv.org/abs/2211.01515v2 )

ライセンス: Link先を確認
Sreyan Ghosh and Ashish Seth and S. Umesh and Dinesh Manocha(参考訳) 本稿では,MAST(Multiscale Audio Spectrogram Transformer)を音響分類に適用し,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に導入する。 入力音声スペクトログラムが与えられたとき、まずパッチを当てて初期時間分解能と埋め込み次元に投影し、マストの複数のステージが徐々に埋め込み次元を拡大し、入力の時間分解能を低減させる。 我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いて,単純な低レベル音響情報をモデル化し,高次元埋め込みを用いて高レベル音響情報をモデル化する。 我々はまた、学生と教師エンコーダの潜在表現間の対称的なコントラスト損失を計算し、パッチ・ドロップを利用するSS-MASTと呼ばれる新しい自己監督学習(SSL)手法を提案するために、我々のアプローチを拡張した。 実際に、MASTは、LAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回り、音声コマンドにおけるキーワードスポッティングの最先端の結果を得る。 さらに,提案したSS-MASTは,提案したSSASTよりも平均2.6%向上した。

We present Multiscale Audio Spectrogram Transformer (MAST) for audio classification, which brings the concept of multiscale feature hierarchies to the Audio Spectrogram Transformer (AST). Given an input audio spectrogram, we first patchify and project it into an initial temporal resolution and embedding dimension, post which the multiple stages in MAST progressively expand the embedding dimension while reducing the temporal resolution of the input. We use a pyramid structure that allows early layers of MAST operating at a high temporal resolution but low embedding space to model simple low-level acoustic information and deeper temporally coarse layers to model high-level acoustic information with high-dimensional embeddings. We also extend our approach to present a new Self-Supervised Learning (SSL) method called SS-MAST, which calculates a symmetric contrastive loss between latent representations from a student and a teacher encoder, leveraging patch-drop, a novel audio augmentation approach that we introduce. In practice, MAST significantly outperforms AST by an average accuracy of 3.4% across 8 speech and non-speech tasks from the LAPE Benchmark, achieving state-of-the-art results on keyword spotting in Speech Commands. Additionally, our proposed SS-MAST achieves an absolute average improvement of 2.6% over the previously proposed SSAST.
翻訳日:2023-05-19 20:41:49 公開日:2023-05-18
# PeerDA:スパン識別タスクにおけるピア関係のモデル化によるデータ拡張

PeerDA: Data Augmentation via Modeling Peer Relation for Span Identification Tasks ( http://arxiv.org/abs/2210.08855v2 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Yang Deng, Wai Lam, Lidong Bing(参考訳) span identificationは、テキスト入力から特定のテキストスパンを特定し、それらを予め定義されたカテゴリに分類することを目的としている。 モデルのトレーニングに置換(Subordinate)関係(つまり、スパンが特定のカテゴリのインスタンスである場合)を単に活用する以前の研究とは異なり、本論文はピア(PR)関係を初めて探求し、2つのスパンが同じカテゴリのインスタンスであることを示し、類似した特徴を共有する。 具体的には,pr関係のスパン対をトレーニングの強化データとして用いる新しいpeerda(peerda)アプローチを提案する。 PeerDAには2つのユニークな利点がある。(1)トレーニングデータを増やすためのPRスパンペアが多数存在する。 2)拡張データは,モデルにスパンセマンティクスを活用させることにより,訓練されたモデルが表面的なスパンカテゴリマッピングを過剰に適合することを防止することができる。 7つの領域にわたる4つの多様なタスクにまたがる10のデータセットの実験結果は、PeerDAの有効性を示している。 特に、PeerDAは6つの最先端の結果を達成する。

Span identification aims at identifying specific text spans from text input and classifying them into pre-defined categories. Different from previous works that merely leverage the Subordinate (SUB) relation (i.e. if a span is an instance of a certain category) to train models, this paper for the first time explores the Peer (PR) relation, which indicates that two spans are instances of the same category and share similar features. Specifically, a novel Peer Data Augmentation (PeerDA) approach is proposed which employs span pairs with the PR relation as the augmentation data for training. PeerDA has two unique advantages: (1) There are a large number of PR span pairs for augmenting the training data. (2) The augmented data can prevent the trained model from over-fitting the superficial span-category mapping by pushing the model to leverage the span semantics. Experimental results on ten datasets over four diverse tasks across seven domains demonstrate the effectiveness of PeerDA. Notably, PeerDA achieves state-of-the-art results on six of them.
翻訳日:2023-05-19 20:41:07 公開日:2023-05-18
# インベントリは暗く、誤った情報で溢れている:広告技術サプライチェーンにおける広告インベントリプールの濫用を理解する

The Inventory is Dark and Full of Misinformation: Understanding the Abuse of Ad Inventory Pooling in the Ad-Tech Supply Chain ( http://arxiv.org/abs/2210.06654v2 )

ライセンス: Link先を確認
Yash Vekaria (1), Rishab Nithyanand (2), Zubair Shafiq (1) ((1) University of California, Davis, (2) University of Iowa)(参考訳) 広告技術により、パブリッシャーは複雑なサプライチェーンを通じて何百万もの需要パートナーに広告インベントリをプログラム的に販売できる。 Bogusや低品質パブリッシャーは、広告技術の不透明な性質を利用して、広告在庫を欺いて収益化することができる。 本稿では,広告技術の透明性基準に反する誤報サイトが,無関係サイトと広告インベントリを結びつけてブランドの安全性を回避した事例を初めて調査する。 誤情報サイトによって悪用されるダークプールに対して、いくつかの主要な広告取引所が不当に責任を負っていることがわかった。 さらに、ダークプーリングによって偽情報サイトが広告の在庫を信用できるブランドに偽装できるという証拠も見つかる。 最後に、広告交換パートナーのベッティングの改善、広告技術サプライチェーンのエンドツーエンド検証を可能にする新しい広告技術透明性標準の採用、および当社のような独立した監査の広範な展開といった潜在的な対策について論じる。

Ad-tech enables publishers to programmatically sell their ad inventory to millions of demand partners through a complex supply chain. Bogus or low quality publishers can exploit the opaque nature of the ad-tech to deceptively monetize their ad inventory. In this paper, we investigate for the first time how misinformation sites subvert the ad-tech transparency standards and pool their ad inventory with unrelated sites to circumvent brand safety protections. We find that a few major ad exchanges are disproportionately responsible for the dark pools that are exploited by misinformation websites. We further find evidence that dark pooling allows misinformation sites to deceptively sell their ad inventory to reputable brands. We conclude with a discussion of potential countermeasures such as better vetting of ad exchange partners, adoption of new ad-tech transparency standards that enable end-to-end validation of the ad-tech supply chain, as well as widespread deployment of independent audits like ours.
翻訳日:2023-05-19 20:40:48 公開日:2023-05-18
# EC-NAS:ニューラルネットワーク検索のためのタブラルベンチマークを意識したエネルギー消費

EC-NAS: Energy Consumption Aware Tabular Benchmarks for Neural Architecture Search ( http://arxiv.org/abs/2210.06015v2 )

ライセンス: Link先を確認
Pedram Bakhtiarifard, Christian Igel, Raghavendra Selvan(参考訳) ディープラーニングモデルの選択、トレーニング、デプロイによるエネルギー消費は、ここ数年も増加を続けている。 この研究の目標は、低消費電力の計算リソースで訓練しやすく、現実のエッジ/モバイルコンピューティング環境にデプロイし、環境に優しいエネルギー効率のディープラーニングモデルの設計を支援することです。 ニューラルネットワーク探索(NAS)のためのタブラルベンチマークでは、事前計算された性能統計を提供することで、NAS戦略をより低い計算コストで評価することができる。 そこで本研究では,nasの性能基準としてエネルギー効率を含め,異なるアーキテクチャのエネルギー消費とカーボンフットプリントに関する情報を含め,表式ベンチマークの更新を提案する。 EC-NASと呼ばれるベンチマークは、エネルギー消費を意識したNAS研究をサポートするためにオープンソースにされている。 EC-NASはまた、エネルギー消費を予測する代理モデルを含み、このデータセットを作成する際の全体的なエネルギーコストを削減するのに役立ちます。 エネルギー消費と精度のトレードオフを明らかにする多目的最適化アルゴリズムを適用することで,ec-nasの有用性を実証する。

Energy consumption from selecting, training and deploying deep learning models has continued to increase over the past few years. Our goal in this work is to support the design of energy-efficient deep learning models that are easier to train with lower compute resources, practical to deploy in real-world edge/mobile computing settings and environmentally sustainable. Tabular benchmarks for neural architecture search (NAS) allow the evaluation of NAS strategies at lower computational cost by providing pre-computed performance statistics. In this work, we suggest including energy efficiency as an additional performance criterion to NAS and present an updated tabular benchmark by including information on energy consumption and carbon footprint for different architectures. The benchmark called EC-NAS is made available open-source to support energy consumption-aware NAS research. EC-NAS also includes a surrogate model for predicting energy consumption, and helps us reduce the overall energy cost of creating this dataset. We demonstrate the usefulness of EC-NAS by applying multi-objective optimisation algorithms that reveal the trade-off between energy consumption and accuracy, showing that it is possible to discover energy-efficient architectures with little to no loss in performance.
翻訳日:2023-05-19 20:40:28 公開日:2023-05-18
# 非エルミート位相:原理と展望

Non-Hermitian Topological Phases: Principles and Prospects ( http://arxiv.org/abs/2212.06478v4 )

ライセンス: Link先を確認
Ayan Banerjee, Ronika Sarkar, Soumi Dey, Awadhesh Narayan(参考訳) 非エルミート的概念と位相的概念の相乗効果は近年非常に実りある活動へと繋がった。 これらの相互作用により、様々な新しい非エルミート位相現象が発見されている。 本稿では,非エルミート位相の位相的特徴を支える重要な原理について述べる。 Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger および non-Hermitian Chern insulator というパラダイムモデルを用いて、例外点、複素エネルギーギャップ、非Hermitian対称性分類を含む非Hermitian topological system の中心的な特徴を説明する。 非エルミート皮膚効果と、バルク境界対応の復元を可能にする一般化ブリルアンゾーンの概念について議論する。 具体例を用いて障害の役割を考察し,線形応答枠組みを示し,非エルミート位相系のホール輸送特性を解析した。 また、この分野の急速な実験的進歩についても調査する。 最後に、近い将来の探査に有望である可能性のある方向を強調することで締めくくります。

The synergy between non-Hermitian concepts and topological ideas have led to very fruitful activity in the recent years. Their interplay has resulted in a wide variety of new non-Hermitian topological phenomena being discovered. In this review, we present the key principles underpinning the topological features of non-Hermitian phases. Using paradigmatic models -- Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger and non-Hermitian Chern insulator -- we illustrate the central features of non-Hermitian topological systems, including exceptional points, complex energy gaps and non-Hermitian symmetry classification. We discuss the non-Hermitian skin effect and the notion of the generalized Brillouin zone, which allows restoring the bulk-boundary correspondence. Using concrete examples, we examine the role of disorder, present the linear response framework, and analyze the Hall transport properties of non-Hermitian topological systems. We also survey the rapidly growing experimental advances in this field. Finally, we end by highlighting possible directions which, in our view, may be promising for explorations in the near future.
翻訳日:2023-05-19 20:33:48 公開日:2023-05-18
# clozingからcomprehendingへ - トレーニング済みのマスク付き言語モデルからトレーニング済みマシンリーダへ

From Clozing to Comprehending: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader ( http://arxiv.org/abs/2212.04755v2 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Wenxuan Zhang, Meng Zhou, Wai Lam, Luo Si, Lidong Bing(参考訳) ラベル付きデータを取得することなく、事前学習された機械読解(MRC)モデルにMLM(pre-trained masked language model)を適合させる新しい手法であるPMRを提案する。 PMRは、既存のMLMのモデル事前学習と下流微調整の相違を解決することができる。 提案したPMRを構築するために,ウィキペディアハイパーリンクを用いて多量の汎用的で高品質なMRCスタイルのトレーニングデータを構築し,MRCスタイルの事前学習をガイドするWikiアンカー抽出タスクを設計した。 その単純さとは別に、PMRは抽出質問回答や名前付きエンティティ認識などの抽出タスクを効果的に解決する。 PMRは、特に低リソースのシナリオにおいて、既存のアプローチよりも大幅に改善されている。 MRC定式化におけるシーケンス分類タスクに適用すると、PMRは高品質な有理数の抽出を可能とし、分類過程を説明し、予測説明可能性を高める。 PMRはまた、MRCの定式化において様々な抽出および分類タスクに取り組む統一モデルとして機能する可能性がある。

We present Pre-trained Machine Reader (PMR), a novel method for retrofitting pre-trained masked language models (MLMs) to pre-trained machine reading comprehension (MRC) models without acquiring labeled data. PMR can resolve the discrepancy between model pre-training and downstream fine-tuning of existing MLMs. To build the proposed PMR, we constructed a large volume of general-purpose and high-quality MRC-style training data by using Wikipedia hyperlinks and designed a Wiki Anchor Extraction task to guide the MRC-style pre-training. Apart from its simplicity, PMR effectively solves extraction tasks, such as Extractive Question Answering and Named Entity Recognition. PMR shows tremendous improvements over existing approaches, especially in low-resource scenarios. When applied to the sequence classification task in the MRC formulation, PMR enables the extraction of high-quality rationales to explain the classification process, thereby providing greater prediction explainability. PMR also has the potential to serve as a unified model for tackling various extraction and classification tasks in the MRC formulation.
翻訳日:2023-05-19 20:32:53 公開日:2023-05-18
# DC-MBR:最小ベイズリスク復号のための分散冷却

DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding ( http://arxiv.org/abs/2212.04205v2 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) 最小ベイズリスク復号(MBR)はニューラルネットワーク翻訳において有望な復号アルゴリズムとして現れる。 しかし,MBRではラベルの平滑化が不十分であり,ビームサーチによる良好な改善と各種タスクの汎用性の向上が期待できる。 本研究では,トークンレベルとシーケンスレベル分布のラベル平滑化の不整合が問題の原因であることを示す。 ラベル平滑化はトークンレベルではわずかな変化しか生じないが,シーケンスレベルの分布は非常に歪んでいることを示す。 問題を emph{autoregressive over-smoothness} と呼ぶ。 この問題に対処するために,ソフトマックス温度を調整して出力分布のエントロピーを制御する,シンプルで効果的な分散冷却MBR(DC-MBR)を提案する。 理論上,事前調整ラベル平滑化係数と分布冷却の等価性を証明する。 NMTベンチマークの大規模な実験は、分布冷却が様々な環境でMBRを改善することを検証する。

Minimum Bayesian Risk Decoding (MBR) emerges as a promising decoding algorithm in Neural Machine Translation. However, MBR performs poorly with label smoothing, which is surprising as label smoothing provides decent improvement with beam search and improves generality in various tasks. In this work, we show that the issue arises from the un-consistency of label smoothing on the token-level and sequence-level distributions. We demonstrate that even though label smoothing only causes a slight change in the token-level, the sequence-level distribution is highly skewed. We coin the issue \emph{autoregressive over-smoothness}. To address this issue, we propose a simple and effective method, Distributional Cooling MBR (DC-MBR), which manipulates the entropy of output distributions by tuning down the Softmax temperature. We theoretically prove the equivalence between pre-tuning label smoothing factor and distributional cooling. Extensive experiments on NMT benchmarks validate that distributional cooling improves MBR in various settings.
翻訳日:2023-05-19 20:32:36 公開日:2023-05-18
# 逆負のサンプルを持つグラフ畳み込みニューラルネットワークの分解決定点過程

Graph Convolutional Neural Networks with Diverse Negative Samples via Decomposed Determinant Point Processes ( http://arxiv.org/abs/2212.02055v2 )

ライセンス: Link先を確認
Wei Duan, Junyu Xuan, Maoying Qiao, Jie Lu(参考訳) グラフ畳み込みネットワーク(GCN)は,ノードとそのトポロジから高レベル特徴を抽出することにより,グラフ表現学習において大きな成功を収めている。 GCNは一般的にメッセージパッシング機構に従うため、各ノードはその表現を更新するためにその1階目の隣人からの情報を集約する。 結果として、エッジを持つノードの表現は正の相関関係を持つべきであり、したがって正のサンプルと見なすことができる。 しかし、グラフ全体の非隣接ノードはより多く存在し、表現更新に多様で有用な情報を提供する。 2つの非隣接ノードは通常異なる表現を持ち、負のサンプルと見なすことができる。 ノード表現以外にも、グラフの構造情報は学習にも不可欠である。 本稿では,DPP(Determinant point process)における品質多様性分解を用いて,様々な負のサンプルを得た。 非隣接ノードの様々な部分集合上の分布を定義する際、グラフ構造情報とノード表現の両方を組み込む。 DPPサンプリングは行列固有値分解を必要とするため,計算効率を向上させるための最短パスベース法を提案する。 最後に,得られた負のサンプルをグラフ畳み込み演算に組み込む。 これらのアイデアは、ノード分類タスクの実験で実証的に評価される。 これらの実験により, 提案手法は, 標準表現学習の全体的な性能を向上させるだけでなく, 過小評価問題を大幅に軽減することを示した。

Graph convolutional networks (GCNs) have achieved great success in graph representation learning by extracting high-level features from nodes and their topology. Since GCNs generally follow a message-passing mechanism, each node aggregates information from its first-order neighbour to update its representation. As a result, the representations of nodes with edges between them should be positively correlated and thus can be considered positive samples. However, there are more non-neighbour nodes in the whole graph, which provide diverse and useful information for the representation update. Two non-adjacent nodes usually have different representations, which can be seen as negative samples. Besides the node representations, the structural information of the graph is also crucial for learning. In this paper, we used quality-diversity decomposition in determinant point processes (DPP) to obtain diverse negative samples. When defining a distribution on diverse subsets of all non-neighbouring nodes, we incorporate both graph structure information and node representations. Since the DPP sampling process requires matrix eigenvalue decomposition, we propose a new shortest-path-base method to improve computational efficiency. Finally, we incorporate the obtained negative samples into the graph convolution operation. The ideas are evaluated empirically in experiments on node classification tasks. These experiments show that the newly proposed methods not only improve the overall performance of standard representation learning but also significantly alleviate over-smoothing problems.
翻訳日:2023-05-19 20:32:17 公開日:2023-05-18
# より小さな言語モデルへの蒸留推論能力

Distilling Reasoning Capabilities into Smaller Language Models ( http://arxiv.org/abs/2212.00193v2 )

ライセンス: Link先を確認
Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan(参考訳) 思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。 しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本稿では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。 そこで本研究では,元の問題を一連の部分問題に分解し,それを用いて中間的推論ステップを導く,代替的推論スキームであるsocratic cotを提案する。 我々は、Socratic CoTを使って、2つの小さな蒸留モデル(問題解法とサブプロブレム解法)を訓練する。 実際には、新しい問題が発生すると、2つの蒸留モデルが同期して、複雑な問題を分解し、解決する。 複数の推論データセット(GSM8K,StrategyQA,SVAMP)では,提案した蒸留手法により,ベースラインに比べて70%以上の小型モデルの性能が向上する。 最後に,Socratic CoTがCoTの有効な代替品である場合について検討し,より小さなモデル (GPT-2 large) が10倍のモデル (GPT-3 6B) より優れていることを示す。 私たちのコードはこちらで入手可能です。

Step-by-step reasoning approaches like chain of thought (CoT) have proved to be very effective in inducing reasoning capabilities in large language models. However, the success of the CoT approach is fundamentally tied to the model size, and billion parameter-scale models are often needed to get CoT to work. In this paper, we propose a knowledge distillation approach that leverages the step-by-step CoT reasoning capabilities of larger models and distills these abilities into smaller models. In this work, we propose an alternative reasoning scheme, Socratic CoT, that learns a decomposition of the original problem into a sequence of subproblems and uses it to guide the intermediate reasoning steps. We use Socratic CoT to train a combination of two small distilled models: a problem decomposer and a subproblem solver. In practice, given a new problem, the two distilled models work in sync to decompose and solve complex problems. On multiple reasoning datasets (GSM8K, StrategyQA, and SVAMP), our proposed distillation strategies boosts the performance of smaller models over 70% compared to the baselines. Finally, we investigate when Socratic CoT is an effective alternative to CoT, demonstrating cases where a much smaller model (GPT-2 large) can outperform a 10X larger model (GPT-3 6B). Our code is available here: https://github.com/kumar-shridhar/Distiiling-LM
翻訳日:2023-05-19 20:31:57 公開日:2023-05-18
# 因果グラフにおけるフロントドア調整のための線形時間アルゴリズム

Linear-Time Algorithms for Front-Door Adjustment in Causal Graphs ( http://arxiv.org/abs/2211.16468v2 )

ライセンス: Link先を確認
Marcel Wien\"obst, Benito van der Zander, Maciej Li\'skiewicz(参考訳) 観測データから因果効果を推定することは経験科学の基本的な課題である。 保守されていない共同ファウンダーがシステムに関わると、特に困難になる。 本論文は, 観測メディエータを用いて, 未観測のコンバウンドの存在下においても因果関係を識別できる古典的な手法である, 正面調整に焦点を当てたものである。 フロントドア推定の統計的特性はかなりよく理解されているが、アルゴリズム的な側面は長い間解明されていない。 最近、Jeong, Tian, and Barenboim [NeurIPS 2022] は、与えられた有向非巡回グラフ (DAG) におけるフロントドア基準を満たす集合を、$O(n^3(n+m))$ run time で見つけるための最初の多項式時間アルゴリズムを提示した。 我々の研究では、このタスクに対する最初の線形時間、すなわち$O(n+m)$のアルゴリズムを与え、漸近的に最適な時間複雑性に達する。 この結果は全てのフロントドア調整セットの$o(n(n+m))$遅延列挙アルゴリズムを意味し、jeongらによる以前の作業も改善された。 は$n^3$である。 さらに, 最小のフロントドア調整セットを求める最初の線形時間アルゴリズムを提案する。 提案するアルゴリズムを複数のプログラミング言語に実装することで,実使用を容易にし,その実現性を実証的に検証する。

Causal effect estimation from observational data is a fundamental task in empirical sciences. It becomes particularly challenging when unobserved confounders are involved in a system. This paper focuses on front-door adjustment -- a classic technique which, using observed mediators allows to identify causal effects even in the presence of unobserved confounding. While the statistical properties of the front-door estimation are quite well understood, its algorithmic aspects remained unexplored for a long time. Recently, Jeong, Tian, and Barenboim [NeurIPS 2022] have presented the first polynomial-time algorithm for finding sets satisfying the front-door criterion in a given directed acyclic graph (DAG), with an $O(n^3(n+m))$ run time, where $n$ denotes the number of variables and $m$ the number of edges of the causal graph. In our work, we give the first linear-time, i.e., $O(n+m)$, algorithm for this task, which thus reaches the asymptotically optimal time complexity. This result implies an $O(n(n+m))$ delay enumeration algorithm of all front-door adjustment sets, again improving previous work by Jeong et al.\ by a factor of $n^3$. Moreover, we provide the first linear-time algorithm for finding a minimal front-door adjustment set. We offer implementations of our algorithms in multiple programming languages to facilitate practical usage and empirically validate their feasibility, even for large graphs.
翻訳日:2023-05-19 20:31:05 公開日:2023-05-18
# CIM:スパース逆連続制御のための制約付き固有モチベーション

CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous Control ( http://arxiv.org/abs/2211.15205v2 )

ライセンス: Link先を確認
Xiang Zheng, Xingjun Ma, Cong Wang(参考訳) 内在的動機付けは、希薄な報酬または欠如した報酬で強化学習タスクを解決するための有望な探索技術である。 固有のモチベーションを実装するには2つの技術的課題があります。 1)効率的な探査を促進するための適切な本質的目標の設計方法 2)本質的な目的と外生的な目的を組み合わせて、より良い解決策を見つける方法。 現在の文献では、本質的な目的はすべてタスクに依存しない方法で設計され、単純な追加(あるいは報酬のない事前訓練に自身で使用する)によって外生的な目的と組み合わせられている。 本研究では、これらの設計が典型的なスパース逆連続制御タスクで失敗することを示す。 そこで本研究では,制約付き本質的目標を構築するために,容易に達成可能なタスクプリエントを活用するための制約付き本質的モチベーション(cim)を提案し,同時に,本質的目標と外生的目標を同時最大化フレームワークで適応的にバランスさせるラグランジアン法を活用した。 我々は、複数のスパース逆連続制御タスクにおいて、CIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを示す。 さらに、CIMの重要なテクニックを既存のメソッドにプラグインしてパフォーマンスを向上させることも可能です。

Intrinsic motivation is a promising exploration technique for solving reinforcement learning tasks with sparse or absent extrinsic rewards. There exist two technical challenges in implementing intrinsic motivation: 1) how to design a proper intrinsic objective to facilitate efficient exploration; and 2) how to combine the intrinsic objective with the extrinsic objective to help find better solutions. In the current literature, the intrinsic objectives are all designed in a task-agnostic manner and combined with the extrinsic objective via simple addition (or used by itself for reward-free pre-training). In this work, we show that these designs would fail in typical sparse-reward continuous control tasks. To address the problem, we propose Constrained Intrinsic Motivation (CIM) to leverage readily attainable task priors to construct a constrained intrinsic objective, and at the same time, exploit the Lagrangian method to adaptively balance the intrinsic and extrinsic objectives via a simultaneous-maximization framework. We empirically show, on multiple sparse-reward continuous control tasks, that our CIM approach achieves greatly improved performance and sample efficiency over state-of-the-art methods. Moreover, the key techniques of our CIM can also be plugged into existing methods to boost their performances.
翻訳日:2023-05-19 20:30:09 公開日:2023-05-18
# sensorx2car: 道路シナリオにおける自動運転のためのセンサツーカーキャリブレーション

SensorX2car: Sensors-to-car calibration for autonomous driving in road scenarios ( http://arxiv.org/abs/2301.07279v2 )

ライセンス: Link先を確認
Guohang Yan, Zhaotong Luo, Zhuochun Liu and Yikang Li(参考訳) 適切に調整されたセンサーは、信頼できる自動運転システムの前提条件である。 しかし,従来の手法ではセンサ間の外在的な校正に重点を置いており,センサと車両座標系とのミスアライメントにはほとんど焦点が当てられていない。 既存の標的のないアプローチは、このミスアライメントを扱うために、ルートや道路の特徴といった特定の事前知識に依存している。 この研究はこれらの制限を取り除き、カメラ、LiDAR、GNSS/INS、ミリ波レーダーの4つの一般的な校正法を提案する。 画像特徴, 3D LiDAR点, GNSS/INS解決ポーズ, レーダ速度といったセンサ固有のパターンを利用して, 通常の運転中, センサから車への回転を数分で調整し, SensorX2car というツールボックスを構成する。 実世界のシミュレーション実験により提案手法の実用性を実証した。 一方、関連するコードはコミュニティに利益をもたらすためにオープンソース化されている。 私たちの知る限りでは、sensorx2carは最初のオープンソースのセンサーから車へのキャリブレーションツールボックスです。 コードはhttps://github.com/OpenCalib/SensorX2carで入手できる。

Properly-calibrated sensors are the prerequisite for a dependable autonomous driving system. However, most prior methods focus on extrinsic calibration between sensors, and few focus on the misalignment between the sensors and the vehicle coordinate system. Existing targetless approaches rely on specific prior knowledge, such as driving routes and road features, to handle this misalignment. This work removes these limitations and proposes more general calibration methods for four commonly used sensors: Camera, LiDAR, GNSS/INS, and millimeter-wave Radar. By utilizing sensor-specific patterns: image feature, 3D LiDAR points, GNSS/INS solved pose, and radar speed, we design four corresponding methods to mainly calibrate the rotation from sensor to car during normal driving within minutes, composing a toolbox named SensorX2car. Real-world and simulated experiments demonstrate the practicality of our proposed methods. Meanwhile, the related codes have been open-sourced to benefit the community. To the best of our knowledge, SensorX2car is the first open-source sensor-to-car calibration toolbox. The code is available at https://github.com/OpenCalib/SensorX2car.
翻訳日:2023-05-19 20:24:19 公開日:2023-05-18
# 最大化ネットワークの予測勾配とパラメータ初期化への適用

Expected Gradients of Maxout Networks and Consequences to Parameter Initialization ( http://arxiv.org/abs/2301.06956v2 )

ライセンス: Link先を確認
Hanna Tseran, Guido Mont\'ufar(参考訳) 本稿では,最大化ネットワークの入力とパラメータに対する勾配について検討し,アーキテクチャやパラメータ分布に依存するモーメントの境界値を求める。 我々は、入力出力ヤコビアンの分布が、安定なパラメータの初期化を複雑にする入力に依存することを観察する。 勾配のモーメントに基づいて,パラメータ初期化戦略を定式化し,広域ネットワークにおける勾配の消失や爆発を回避する。 深層完全接続ネットワークと畳み込みネットワークの実験により、この戦略が深層最大化ネットワークのSGDとAdamトレーニングを改善することが示されている。 さらに, 線形領域の期待値, 曲線長歪みの予測値, NTKの予測値について, 洗練された境界を求める。

We study the gradients of a maxout network with respect to inputs and parameters and obtain bounds for the moments depending on the architecture and the parameter distribution. We observe that the distribution of the input-output Jacobian depends on the input, which complicates a stable parameter initialization. Based on the moments of the gradients, we formulate parameter initialization strategies that avoid vanishing and exploding gradients in wide networks. Experiments with deep fully-connected and convolutional networks show that this strategy improves SGD and Adam training of deep maxout networks. In addition, we obtain refined bounds on the expected number of linear regions, results on the expected curve length distortion, and results on the NTK.
翻訳日:2023-05-19 20:23:58 公開日:2023-05-18
# 永遠のワームホールとノイジー・シカモアの永遠の物語

The Neverending Story of the Eternal Wormhole and the Noisy Sycamore ( http://arxiv.org/abs/2301.03522v3 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) daniel jafferisらによる最新のnature論文"traversable wormhole dynamics on a quantum processor"(量子プロセッサ上での可逆ワームホールダイナミクス)が話題になっている。 nature の論文では、google の sycamore 量子プロセッサを使って 5 項のスパース n = 7 syk モデルをシミュレートする実験について論じている。 自然の論文は、学習されたハミルトニアンが210項の n = 10 syk モデルの重要な重力特性を保ち、可逆的なワームホール挙動を生成するのに十分であることを示した。 実験について検討し、イアン・ハッキングを記憶した実験に関する哲学的課題について議論する。 最近、ノーマン・ヤオと2人の大学院生は、jafferis et al.のlearning hamiltonianに複数の欠陥を発見し、nature paperにコメントを投稿した。 予想通り、Jafferis氏と彼のチームは誤解を明らかにする簡単な方法を見つけた。 彼らは問題を回避できる物理的正当性を見出した。 本稿では、ヤオとその学生が育てた主な議論と、ジャフェリスらが学んだハミルトニアンを救った方法を明らかにする。 私はこの論文を、学習されたハミルトンの文脈におけるこの最近の発展に関する哲学的なコメントで締めくくります。

There has been a great buzz surrounding Daniel Jafferis et al.'s latest Nature paper, "Traversable wormhole dynamics on a quantum processor". The Nature paper discusses an experiment in which Google's Sycamore quantum processor is used to simulate a sparse N = 7 SYK model with 5 terms (a learned Hamiltonian). The Nature paper shows that the learned Hamiltonian preserves the key gravitational characteristics of an N = 10 SYK model with 210 terms and is sufficient to produce a traversable wormhole behavior. I will examine the experiment and discuss some philosophical challenges concerning the experiment in memory of Ian Hacking. Recently, Norman Yao and two graduate students discovered multiple flaws in Jafferis et al.'s learned Hamiltonian and uploaded a comment on the Nature paper. As expected, Jafferis and his team found a simple way to clarify the misunderstanding. They found a physical justification that allowed them to avoid the problem. In this paper, I elucidate the main arguments Yao and his students raised and the way Jafferis et al. found to save their learned Hamiltonian. I will end this paper with a philosophical comment on this recent development in the context of the learned Hamiltonian.
翻訳日:2023-05-19 20:23:31 公開日:2023-05-18
# 境界パワースペクトルを持つ自由および相互作用スカラー場理論におけるクリロフ複素性

Krylov Complexity in Free and Interacting Scalar Field Theories with Bounded Power Spectrum ( http://arxiv.org/abs/2212.14702v3 )

ライセンス: Link先を確認
Hugo A. Camargo, Viktor Jahnke, Keun-Young Kim, Mitsuhiro Nishida(参考訳) 有限温度での$d$次元における自由および相互作用する巨大なスカラー場の量子論において、Krylov複雑性として知られる作用素成長の概念を研究する。 連続運動量空間における質量,摂動相互作用による一ループ自己エネルギー,有限紫外遮断の影響を考察する。 これらの変形は、ランチョス係数とクリロフ複雑性の挙動を変化させ、前者の「スタガー」を2つのファミリーに、後者の指数的成長率を減少させ、漸近的な振る舞いの遷移を誘導する。 また,質量ギャップの存在とスタガリングの性質との関係,および連続理論における紫外カットオフと格子理論との関係についても考察した。

We study a notion of operator growth known as Krylov complexity in free and interacting massive scalar quantum field theories in $d$-dimensions at finite temperature. We consider the effects of mass, one-loop self-energy due to perturbative interactions, and finite ultraviolet cutoffs in continuous momentum space. These deformations change the behavior of Lanczos coefficients and Krylov complexity and induce effects such as the "staggering" of the former into two families, a decrease in the exponential growth rate of the latter, and transitions in their asymptotic behavior. We also discuss the relation between the existence of a mass gap and the property of staggering, and the relation between our ultraviolet cutoffs in continuous theories and lattice theories.
翻訳日:2023-05-19 20:23:08 公開日:2023-05-18
# 作用素緩和と古典的影の最適深さ

Operator relaxation and the optimal depth of classical shadows ( http://arxiv.org/abs/2212.11963v3 )

ライセンス: Link先を確認
Matteo Ippoliti, Yaodong Li, Tibor Rakovszky, Vedika Khemani(参考訳) 古典的影はランダム化測定を用いることで、サンプル効率の良い方法で量子状態の多くの性質を学習する強力な方法である。 ここでは,確率化ステップが可変深さ$t$の局所ユニタリ回路に作用する,最近提案されている古典影のバージョンである ``shallow shadows'' を用いて,ポーリ作用素の期待値を学ぶサンプル複雑性について検討する。 シャドウノルム(サンプルの複雑さを制御する量)は、ランダム化(``twirling'')回路の下での作用素のハイゼンベルク時間発展の特性、すなわち、作用素が非自明に作用する部位の数を特徴付ける重み分布の進化によって表されることを示す。 空間的に連続した重量$k$のパウリ作用素の場合、これは作用素の拡散(作用素の支持が時間とともに増大し、その重量が増加する)と作用素緩和(作用素の大多数が恒等作用素の平衡密度を発達し、その重量を減少させる)という2つの過程の競合を含む。 この単純な絵から導き出す (i) 奥行き $t\sim \log(k)$ に対して任意の空間次元における$t=0$ プロトコルに対するサンプル複雑性の指数関数的な増加を保証する影ノルム上の上限 (ii) 平均場近似における一次元の定量的結果、例えば、最適深さへの普遍部分リード補正は、無限行列積状態の数値シミュレーションとよく一致することが判明した。 我々の研究は量子多体力学の基本的な考え方と量子情報科学の応用を結びつけ、量子状態の異なる性質を学ぶための高度に最適化されたプロトコルへの道を開く。

Classical shadows are a powerful method for learning many properties of quantum states in a sample-efficient manner, by making use of randomized measurements. Here we study the sample complexity of learning the expectation value of Pauli operators via ``shallow shadows'', a recently-proposed version of classical shadows in which the randomization step is effected by a local unitary circuit of variable depth $t$. We show that the shadow norm (the quantity controlling the sample complexity) is expressed in terms of properties of the Heisenberg time evolution of operators under the randomizing (``twirling'') circuit -- namely the evolution of the weight distribution characterizing the number of sites on which an operator acts nontrivially. For spatially-contiguous Pauli operators of weight $k$, this entails a competition between two processes: operator spreading (whereby the support of an operator grows over time, increasing its weight) and operator relaxation (whereby the bulk of the operator develops an equilibrium density of identity operators, decreasing its weight). From this simple picture we derive (i) an upper bound on the shadow norm which, for depth $t\sim \log(k)$, guarantees an exponential gain in sample complexity over the $t=0$ protocol in any spatial dimension, and (ii) quantitative results in one dimension within a mean-field approximation, including a universal subleading correction to the optimal depth, found to be in excellent agreement with infinite matrix product state numerical simulations. Our work connects fundamental ideas in quantum many-body dynamics to applications in quantum information science, and paves the way to highly-optimized protocols for learning different properties of quantum states.
翻訳日:2023-05-19 20:22:54 公開日:2023-05-18
# 有効薄膜トーラス限界からのチャーン絶縁体の断熱的調製

Adiabatic preparation of fractional Chern insulators from an effective thin-torus limit ( http://arxiv.org/abs/2212.11294v2 )

ライセンス: Link先を確認
Benjamin Michen, C\'ecile Repellin, and Jan Carl Budich(参考訳) 量子シミュレータにおける断熱合成の出発点として,分数チャーン絶縁体(fcis)の準一次元(thin torus,tt)極限を探索する。 本手法は,一方向のホッピング振幅を実験的に制御可能なノブとして調整し,システムの有効アスペクト比を動的に変化させる。 連続体における分数量子ホール(FQH)系のTT制限と同様に、ホッピング誘起TT制限はFCI状態と自明な電荷密度波(CDW)基底状態とを断熱的に結合する。 この断熱経路は、cdw状態の初期化とホッピング異方性の断熱的減少に依存する状態形成スキームに利用することができる。 以上の結果は,格子上および結合線からなる複数のfciモデルにおける励起ギャップの計算に基づく。 強い異方性ホッピング限界のギャップを解析的に計算することにより,そのスケーリングが十分に大きなホッピング異方性のための大規模FCIの生成と相容れないことを示す。 正確な対角化の枠組みにおける数値シミュレーションは、これらの結果を裏付ける完全な異方性範囲を探索する。

We explore the quasi one-dimensional (thin torus, or TT) limit of fractional Chern insulators (FCIs) as a starting point for their adiabatic preparation in quantum simulators. Our approach is based on tuning the hopping amplitude in one direction as an experimentally amenable knob to dynamically change the effective aspect ratio of the system. Similar to the TT limit of fractional quantum Hall (FQH) systems in the continuum, we find that the hopping-induced TT limit adiabatically connects the FCI state to a trivial charge density wave (CDW) ground state. This adiabatic path may be harnessed for state preparation schemes relying on the initialization of a CDW state followed by the adiabatic decrease of a hopping anisotropy. Our findings are based on the calculation of the excitation gap in a number of FCI models, both on a lattice and consisting of coupled wires. By analytical calculation of the gap in the limit of strongly anisotropic hopping, we show that its scaling is compatible with the preparation of large size FCIs for sufficiently large hopping anisotropy. Our numerical simulations in the framework of exact diagonalization explore the full anisotropy range to corroborate these results.
翻訳日:2023-05-19 20:22:18 公開日:2023-05-18
# ClarifyDelphi: 社会的・道徳的状況に対する理解度を低下させる質問

ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations ( http://arxiv.org/abs/2212.10409v2 )

ライセンス: Link先を確認
Valentina Pyatkin, Jena D. Hwang, Vivek Srikumar, Ximing Lu, Liwei Jiang, Yejin Choi, Chandra Bhagavatula(参考訳) コンテキストは、常識的な道徳的推論でさえ、すべてです。 文脈の変化は、行動の道徳的判断を覆す可能性がある;「友人に嘘をつく」ことは一般に間違っているが、もしそれが彼らの人生を守ることを意図しているなら、道徳的に受け入れられるかもしれない。 我々はClarifyDelphiという対話型システムを紹介し、社会的または道徳的な状況の付加的な状況を引き出すために、明確化の質問(例えば、なぜ友達に嘘をついたのか? 我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。 そこで本稿では,質問に対する仮説的回答の道徳的判断の偏りを最大化することを目的とした,実現可能性報酬付き強化学習フレームワークを提案する。 人的評価により,本システムは,競争ベースラインと比較して,より関連性の高い,有益で難解な質問を生成できることが示される。 我々の研究は、究極的には、道徳的認知の柔軟性(道徳的規則が曲げられる様々な文脈)を研究してきた認知科学の研究に触発され、この方向の研究が道徳的判断の認知的および計算的調査の両方に役立つことを願っている。

Context is everything, even in commonsense moral reasoning. Changing contexts can flip the moral judgment of an action; "Lying to a friend" is wrong in general, but may be morally acceptable if it is intended to protect their life. We present ClarifyDelphi, an interactive system that learns to ask clarification questions (e.g., why did you lie to your friend?) in order to elicit additional salient contexts of a social or moral situation. We posit that questions whose potential answers lead to diverging moral judgments are the most informative. Thus, we propose a reinforcement learning framework with a defeasibility reward that aims to maximize the divergence between moral judgments of hypothetical answers to a question. Human evaluation demonstrates that our system generates more relevant, informative and defeasible questions compared to competitive baselines. Our work is ultimately inspired by studies in cognitive science that have investigated the flexibility in moral cognition (i.e., the diverse contexts in which moral rules can be bent), and we hope that research in this direction can assist both cognitive and computational investigations of moral judgments.
翻訳日:2023-05-19 20:21:56 公開日:2023-05-18
# スパイクニューラルネットワークにおけるトレードオフの探求

Exploring Tradeoffs in Spiking Neural Networks ( http://arxiv.org/abs/2212.09500v2 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) Spiking Neural Networks(SNN)は、低消費電力コンピューティングのための従来のDeep Neural Networksに代わる有望な代替品として登場した。 しかしながら、SNNの有効性は、その性能だけでなく、そのエネルギー消費、予測速度、騒音に対する堅牢性によって決定される。 最近のFast \& Deep法は、他の方法と同様に、ニューロンを最大で一度に発火させることにより、高速でエネルギー効率の高い計算を実現する。 Time-To-First-Spike (TTFS)として知られるこの制約は、多くの面でSNNの機能を制限する。 本研究では, この制約を用いた場合の性能, エネルギー消費, 速度, 安定性の関係を考察する。 より正確には、スパーシリティと予測遅延のコストでパフォーマンスと堅牢性を得られるトレードオフの存在を強調します。 これらのトレードオフを改善するために,ニューロン毎の複数のスパイクを可能にするFast \& Deepの緩和版を提案する。 我々の実験は、スパイク制約の緩和は、より高速な収束、類似の空間性、同等の予測遅延、TTFS SNNと比較してノイズに対する堅牢性の向上といった利点を享受しつつ、より高い性能を提供することを示した。 TTFSの限界を強調し、制約のないSNNの利点を実証することにより、ニューロモルフィックコンピューティングのための効果的な学習戦略の開発に貴重な洞察を提供する。

Spiking Neural Networks (SNNs) have emerged as a promising alternative to traditional Deep Neural Networks for low-power computing. However, the effectiveness of SNNs is not solely determined by their performance but also by their energy consumption, prediction speed, and robustness to noise. The recent method Fast \& Deep, along with others, achieves fast and energy-efficient computation by constraining neurons to fire at most once. Known as Time-To-First-Spike (TTFS), this constraint however restricts the capabilities of SNNs in many aspects. In this work, we explore the relationships between performance, energy consumption, speed and stability when using this constraint. More precisely, we highlight the existence of tradeoffs where performance and robustness are gained at the cost of sparsity and prediction latency. To improve these tradeoffs, we propose a relaxed version of Fast \& Deep that allows for multiple spikes per neuron. Our experiments show that relaxing the spike constraint provides higher performance while also benefiting from faster convergence, similar sparsity, comparable prediction latency, and better robustness to noise compared to TTFS SNNs. By highlighting the limitations of TTFS and demonstrating the advantages of unconstrained SNNs we provide valuable insight for the development of effective learning strategies for neuromorphic computing.
翻訳日:2023-05-19 20:21:33 公開日:2023-05-18
# 事前学習言語モデルに基づくグラディエント・ベース・イントラアテンション・プルーニング

Gradient-based Intra-attention Pruning on Pre-trained Language Models ( http://arxiv.org/abs/2212.07634v2 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang(参考訳) 事前訓練された言語モデルは優れた性能を得るが、計算コストが高い。 プルーニングや知識蒸留といった技術は、その大きさや潜伏時間を減らすために開発されてきた。 本研究では,知識蒸留によるタスク特異的な刈り取りを行い,高効率なモデルを生成する構造的刈り取り法(gradient-based intra-attention pruning)を提案する。 それぞれの注意を損なう一般的なアプローチと異なり、粒度検査とプルーン内部構造は構造探索空間を大きく拡大し、より柔軟なモデルを可能にする。 また, 2つの手法のより優れた組み合わせのために, 蒸留処理における干渉を低減する勾配分離戦略を提案する。 GLUE、SQuAD、CoNLL 2003 の実験では、GRAIN は特に高頻度のシステムにおいて他の手法よりも優れており、9,3\%\sim99\% の性能を維持しながら 6\sim7\times$ speedups を達成している。 トランスフォーマーの重量が3$%しか残っていない極端な圧縮下では、プルーニングされたモデルはより大きなモデルに比べてまだ競争力がある。

Pre-trained language models achieve superior performance but are computationally expensive. Techniques such as pruning and knowledge distillation have been developed to reduce their sizes and latencies. In this work, we propose a structured pruning method GRAIN (Gradient-based Intra-attention pruning), which performs task-specific pruning with knowledge distillation and yields highly effective models. Different from common approaches that prune each attention head as a whole, GRAIN inspects and prunes intra-attention structures, which greatly expands the structure search space and enables more flexible models. We also propose a gradient separation strategy that reduces the interference of distillation on pruning for a better combination of the two approaches. Experiments on GLUE, SQuAD, and CoNLL 2003 show that GRAIN notably outperforms other methods, especially in the high sparsity regime, and achieves $6\sim7\times$ speedups while maintaining $93\%\sim99\%$ performance. Under extreme compression where only $3\%$ transformer weights remain, the pruned model is still competitive compared to larger models.
翻訳日:2023-05-19 20:21:10 公開日:2023-05-18
# MILO: 効率的なモデルトレーニングとチューニングのためのモデル非依存サブセット選択フレームワーク

MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning ( http://arxiv.org/abs/2301.13287v3 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Alexandre V. Evfimievski, Tejaswini Pedapati, Kiran Kate, Lucian Popa, Rishabh Iyer(参考訳) ディープネットワークのトレーニングと大規模なデータセットでのハイパーパラメータのチューニングは、計算集約的だ。 効率的なトレーニングのための主要な研究方向の1つは、トレーニングデータの一般化されたサブセットを選択することで、トレーニングコストを削減することである。 単純な適応的ランダムなサブセット選択ベースラインと比較して、既存のインテリジェントなサブセット選択アプローチは、モデル依存の勾配と特徴埋め込みを計算し、部分モジュラー目的のグリーディ最大化を適用するという、時間を要するサブセット選択ステップのために競合しない。 我々の重要な洞察は、下流モデルパラメータへの依存をなくすことで、サブセットを前処理ステップとして選択することができ、追加コストなしで複数のモデルをトレーニングできるということです。 そこで本研究では,モデルに依存しないサブセット選択フレームワークMILOを提案し,モデル学習からサブセット選択を分離し,より優れたモデル収束と性能を実現する。 実験結果から,miloはモデル3倍のトレーニング – 10倍の速度 – ハイパーパラメータ20倍のチューニング – 75倍の速度 – を,パフォーマンスを損なうことなく,フルデータセットのトレーニングやチューニングよりも高速にトレーニングできることがわかった。

Training deep networks and tuning hyperparameters on large datasets is computationally intensive. One of the primary research directions for efficient training is to reduce training costs by selecting well-generalizable subsets of training data. Compared to simple adaptive random subset selection baselines, existing intelligent subset selection approaches are not competitive due to the time-consuming subset selection step, which involves computing model-dependent gradients and feature embeddings and applies greedy maximization of submodular objectives. Our key insight is that removing the reliance on downstream model parameters enables subset selection as a pre-processing step and enables one to train multiple models at no additional cost. In this work, we propose MILO, a model-agnostic subset selection framework that decouples the subset selection from model training while enabling superior model convergence and performance by using an easy-to-hard curriculum. Our empirical results indicate that MILO can train models $3\times - 10 \times$ faster and tune hyperparameters $20\times - 75 \times$ faster than full-dataset training or tuning without compromising performance.
翻訳日:2023-05-19 20:13:31 公開日:2023-05-18
# マルチタスク言語モデリングによる分子・テキスト表現の統一

Unifying Molecular and Textual Representations via Multi-task Language Modelling ( http://arxiv.org/abs/2301.12586v2 )

ライセンス: Link先を確認
Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, Matteo Manica(参考訳) ニューラルネットワークモデルの最近の進歩は化学分野にもうまく適用され、分子設計や合成計画における古典的な問題に対する生成的解を提供する。 これらの新しい手法は、科学的発見におけるデータ駆動自動化の新しい時代を加速する可能性がある。 しかし、通常、各タスクには特別なモデルが必要であるため、問題固有の微調整やタスクの相互関係の無視が必要となる。 この分野の主な障害は、自然言語と化学表現の統一表現の欠如であり、人間と機械の相互作用の複雑化と制限である。 本稿では,化学と自然言語の両領域で幅広いタスクを解くことができる,最初のマルチドメインマルチタスク言語モデルを提案する。 我々のモデルは化学と自然言語を同時に扱うことができ、単一のドメインやタスク固有のモデルで高価な事前学習を必要としない。 興味深いことに、ドメイン間での重み共有は、単一ドメインとクロスドメインタスクの最先端のベースラインに対してベンチマークすることで、我々のモデルを大幅に改善します。 特に、ドメインとタスク間での情報共有は、数十以上の関連するメトリクスで測定されるように、スケールによって増大するクロスドメインタスクに大きな改善をもたらす。 本研究は,問題特異的な微調整と人間-モデル間相互作用の強化により,物理科学における発見を堅牢かつ効率的に促進できることを示唆する。

The recent advances in neural language models have also been successfully applied to the field of chemistry, offering generative solutions for classical problems in molecular design and synthesis planning. These new methods have the potential to fuel a new era of data-driven automation in scientific discovery. However, specialized models are still typically required for each task, leading to the need for problem-specific fine-tuning and neglecting task interrelations. The main obstacle in this field is the lack of a unified representation between natural language and chemical representations, complicating and limiting human-machine interaction. Here, we propose the first multi-domain, multi-task language model that can solve a wide range of tasks in both the chemical and natural language domains. Our model can handle chemical and natural language concurrently, without requiring expensive pre-training on single domains or task-specific models. Interestingly, sharing weights across domains remarkably improves our model when benchmarked against state-of-the-art baselines on single-domain and cross-domain tasks. In particular, sharing information across domains and tasks gives rise to large improvements in cross-domain tasks, the magnitude of which increase with scale, as measured by more than a dozen of relevant metrics. Our work suggests that such models can robustly and efficiently accelerate discovery in physical sciences by superseding problem-specific fine-tuning and enhancing human-model interactions.
翻訳日:2023-05-19 20:13:06 公開日:2023-05-18
# alim: 雑音部分ラベル学習のためのラベル重要度調整機構

ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning ( http://arxiv.org/abs/2301.12077v2 )

ライセンス: Link先を確認
Mingyu Xu, Zheng Lian, Lei Feng, Bin Liu, Jianhua Tao(参考訳) ノイズのある部分ラベル学習(noisy pll)は、弱い教師付き学習の重要な分野である。 基底トラックラベルが候補ラベルセットに隠さなければならないPLLとは異なり、ノイズの多いPLLはこの制約を緩和し、基底トラックラベルが候補ラベルセットに含まれないようにする。 この困難な問題に対処するため、既存の作品のほとんどはノイズのサンプルを検出し、各ノイズのラベルを推定しようと試みている。 しかし、検出エラーは避けられない。 これらのエラーはトレーニング中に蓄積され、モデル最適化に継続的に影響を及ぼす。 そこで我々は,「ALIM(Adjusting Label Importance Mechanism)」と呼ばれる理論的保証付きノイズの多いPLLのための新しいフレームワークを提案する。 初期候補セットとモデル出力をトレードオフすることで、検出エラーの負の影響を低減することを目的としている。 ALIMは既存のPLLアプローチと統合可能なプラグイン戦略である。 評価実験の結果,提案手法は雑音の多いPLL上での最先端性能を実現することができることがわかった。 \textcolor[rgb]{0.93,0.0,0.47}{Our コードは補足材料} にある。

Noisy partial label learning (noisy PLL) is an important branch of weakly supervised learning. Unlike PLL where the ground-truth label must conceal in the candidate label set, noisy PLL relaxes this constraint and allows the ground-truth label may not be in the candidate label set. To address this challenging problem, most of the existing works attempt to detect noisy samples and estimate the ground-truth label for each noisy sample. However, detection errors are unavoidable. These errors can accumulate during training and continuously affect model optimization. To this end, we propose a novel framework for noisy PLL with theoretical guarantees, called ``Adjusting Label Importance Mechanism (ALIM)''. It aims to reduce the negative impact of detection errors by trading off the initial candidate set and model outputs. ALIM is a plug-in strategy that can be integrated with existing PLL approaches. Experimental results on benchmark datasets demonstrate that our method can achieve state-of-the-art performance on noisy PLL. \textcolor[rgb]{0.93,0.0,0.47}{Our code can be found in Supplementary Material}.
翻訳日:2023-05-19 20:12:41 公開日:2023-05-18
# 自己フィードバックによるドメイン非依存的分子生成

Domain-Agnostic Molecular Generation with Self-feedback ( http://arxiv.org/abs/2301.11259v3 )

ライセンス: Link先を確認
Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法に革命をもたらし、化学や薬品の設計に価値ある支援を提供するという大きな人気を集めている。 しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭い領域の焦点、そして注釈付きデータや外部の分子データベースによって多様で方向的に実現可能な分子を作成する際の制限など、多くの課題に直面している。 そこで本研究では,分子生成に特化した分子言語モデルであるMollGenを紹介する。 MolGenは1億以上の分子SELFIESを再構成し、ドメインに依存しない分子プレフィックスチューニングを通じて異なるドメイン間の知識伝達を促進することによって、固有の構造的および文法的な洞察を得る。 さらに,事前学習モデルに刺激を与える自己フィードバックパラダイムを提案し,分子を望ましい性質で生成するという究極の目標と整合させる。 MolGenはよく知られた分子生成ベンチマークにおいて優れた性能を示す。 さらなる分析により、分子分布を正確に捉え、その構造特性を暗黙的に学習し、効率的に化学空間を探索できることが示されている。 トレーニング済みのモデル、コード、データセットは、https://github.com/zjunlp/MolGen.comで公開されています。

The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To this end, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. MolGen acquires intrinsic structural and grammatical insights by reconstructing over 100 million molecular SELFIES, while facilitating knowledge transfer between different domains through domain-agnostic molecular prefix tuning. Moreover, we present a self-feedback paradigm that inspires the pre-trained model to align with the ultimate goal of producing molecules with desirable properties. Extensive experiments demonstrate that MolGen achieves superior performance on well-known molecule generation benchmarks. Further analysis shows that MolGen can accurately capture molecule distributions, implicitly learn their structural characteristics, and efficiently explore chemical space. The pre-trained model, codes, and datasets are publicly available for future research at https://github.com/zjunlp/MolGen.
翻訳日:2023-05-19 20:12:05 公開日:2023-05-18
# トウガラシの葉形質の個体群的解析を可能にする少ないショット学習

Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa ( http://arxiv.org/abs/2301.10351v3 )

ライセンス: Link先を確認
John Lagergren, Mirko Pavicic, Hari B. Chhetri, Larry M. York, P. Doug Hyatt, David Kainer, Erica M. Rutter, Kevin Flores, Jack Bailey-Bale, Marie Klein, Gail Taylor, Daniel Jacobson, Jared Streich(参考訳) 植物表現型は一般的に、時間と費用のかかる取り組みであり、研究者の大規模な集団は、生物学的に関連のある植物形質を注意深く測定する必要がある。 本研究では,これらの課題に対して,畳み込みニューラルネットワーク(CNN)を用いて,葉体を分割し,フィールドで得られた2,906 P. trichocarpa の葉像を可視化する。 従来の手法とは対照的に、我々のアプローチ (i)実験的又は画像前処理を必要としない。 (ii)RGBの生画像をフル解像度で使用し、 (iii) 訓練に必要なサンプルはごくわずかである(例:静脈セグメンテーションの8つの画像のみ)。 従来のオープンソース画像処理ツールを用いて得られたセグメンテーションから葉形態および静脈トポロジーに関連する形質を抽出し、実世界の物理的測定を用いて検証し、ゲノムワイドな関連研究を行い、形質を制御する遺伝子を同定する。 このようにして、現在の作業は、植物表現型コミュニティを提供するように設計されている。 (i)最小限のトレーニングデータを必要とする高速で正確な画像に基づく特徴抽出方法 (ii)ドメイン科学者や機械学習研究者のための、68種類のリーフ表現型を含む新しい集団規模のデータセット。 数発の学習コード、データ、結果はすべて公開されています。

Plant phenotyping is typically a time-consuming and expensive endeavor, requiring large groups of researchers to meticulously measure biologically relevant plant traits, and is the main bottleneck in understanding plant adaptation and the genetic architecture underlying complex traits at population scale. In this work, we address these challenges by leveraging few-shot learning with convolutional neural networks (CNNs) to segment the leaf body and visible venation of 2,906 P. trichocarpa leaf images obtained in the field. In contrast to previous methods, our approach (i) does not require experimental or image pre-processing, (ii) uses the raw RGB images at full resolution, and (iii) requires very few samples for training (e.g., just eight images for vein segmentation). Traits relating to leaf morphology and vein topology are extracted from the resulting segmentations using traditional open-source image-processing tools, validated using real-world physical measurements, and used to conduct a genome-wide association study to identify genes controlling the traits. In this way, the current work is designed to provide the plant phenotyping community with (i) methods for fast and accurate image-based feature extraction that require minimal training data, and (ii) a new population-scale data set, including 68 different leaf phenotypes, for domain scientists and machine learning researchers. All of the few-shot learning code, data, and results are made publicly available.
翻訳日:2023-05-19 20:11:42 公開日:2023-05-18
# tutteの定理に基づくハイブリッドブール制約による量子インスパイアされた完全マッチング問題を解く

Solving Quantum-Inspired Perfect Matching Problems via Tutte's Theorem-Based Hybrid Boolean Constraints ( http://arxiv.org/abs/2301.09833v2 )

ライセンス: Link先を確認
Moshe Y. Vardi and Zhiwei Zhang(参考訳) 異なるタイプの制約を持つブール制約-満足問題(ハイブリッド制約)の満足度を決定することは、重要なアプリケーションにおいてよく研究される問題である。 ここでは,量子コンピューティングにおけるハイブリッドブール制約の新しい応用について検討する。 この問題は、エッジカラーグラフにおける制約付き完全マッチングに関連している。 汎用ハイブリッド制約ソルバは強力であるが,ハイブリッド制約がスケールしにくいため,制約マッチング問題の直接エンコーディングが依然として必要であることを示す。 本稿では,グラフ理論におけるtutteの定理に基づく新しい符号化法と最適化手法を提案する。 実験の結果,satソルバを用いた適切な言語でのエンコーディングは,制約付きマッチングベンチマークにおいて,多くの競合手法よりもかなり優れていることがわかった。 本研究は,強力な汎用制約ソルバを適用する際に問題固有のエンコーディングを設計する必要性を明らかにした。

Determining the satisfiability of Boolean constraint-satisfaction problems with different types of constraints, that is hybrid constraints, is a well-studied problem with important applications. We study here a new application of hybrid Boolean constraints, which arises in quantum computing. The problem relates to constrained perfect matching in edge-colored graphs. While general-purpose hybrid constraint solvers can be powerful, we show that direct encodings of the constrained-matching problem as hybrid constraints scale poorly and special techniques are still needed. We propose a novel encoding based on Tutte's Theorem in graph theory as well as optimization techniques. Empirical results demonstrate that our encoding, in suitable languages with advanced SAT solvers, scales significantly better than a number of competing approaches on constrained-matching benchmarks. Our study identifies the necessity of designing problem-specific encodings when applying powerful general-purpose constraint solvers.
翻訳日:2023-05-19 20:11:18 公開日:2023-05-18
# 追加パーソナライゼーションによるフェデレーション勧告

Federated Recommendation with Additive Personalization ( http://arxiv.org/abs/2301.09109v3 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Tianyi Zhou(参考訳) フェデレーション学習(fl)によるレコメンデーションシステムの構築は、次世代のインターネットサービスとプライバシ保護を推進するための新たな課題である。 既存のアプローチは、ユーザがクライアント側にプライベートを埋め込みながら、FLによる共有アイテムの埋め込みを訓練する。 しかし、すべてのクライアントに同一のアイテムを埋め込むと、同一アイテムを知覚するユーザーの個人差が捉えられなくなり、パーソナライズが低下する。 さらに、FLに密接なアイテムを埋め込むと、通信コストとレイテンシが高くなる。 これらの課題に対処するために,fedrap(federated recommend with additive personalization)を提案する。これはflを通じてアイテムのグローバルビューと,ユーザ毎のパーソナライズビューをローカルに学習する。 fedrapは、flの通信コストを節約するためにグローバルビューのスパーシティを強制し、レギュライゼーションを通じて2つのビューの違いを奨励する。 正規化の重みを増すとともに,地域・グローバルな視点を段階的に学習するための効果的なカリキュラムを提案する。 ユーザのレコメンデーションを生成するために、feedrapは2つのビューを一緒に追加して、パーソナライズされたアイテム埋め込みを得る。 FedRAPは複数のベンチマークでFL設定で最高のパフォーマンスを達成する。 最近のフェデレーション推奨法やいくつかのアブレーション研究ベースラインを上回っている。

Building recommendation systems via federated learning (FL) is a new emerging challenge for advancing next-generation Internet service and privacy protection. Existing approaches train shared item embedding by FL while keeping the user embedding private on client side. However, item embedding identical for all clients cannot capture users' individual differences on perceiving the same item and thus leads to poor personalization. Moreover, dense item embedding in FL results in expensive communication cost and latency. To address these challenges, we propose Federated Recommendation with Additive Personalization (FedRAP), which learns a global view of items via FL and a personalized view locally on each user. FedRAP enforces sparsity of the global view to save FL's communication cost and encourages difference between the two views through regularization. We propose an effective curriculum to learn the local and global views progressively with increasing regularization weights. To produce recommendations for an user, FedRAP adds the two views together to obtain a personalized item embedding. FedRAP achieves the best performance in FL setting on multiple benchmarks. It outperforms recent federated recommendation methods and several ablation study baselines.
翻訳日:2023-05-19 20:11:04 公開日:2023-05-18
# 冷間原子量子シミュレータにおける閉じ込め下でのエルゴディディティ破壊

Ergodicity Breaking Under Confinement in Cold-Atom Quantum Simulators ( http://arxiv.org/abs/2301.07717v2 )

ライセンス: Link先を確認
Jean-Yves Desaules, Guo-Xian Su, Ian P. McCulloch, Bing Yang, Zlatko Papi\'c, Jad C. Halimeh(参考訳) 合成量子物質デバイスにおけるゲージ理論の量子シミュレーションは、過去10年間に多くの牽引力を獲得し、様々な異種量子多体現象の観測が可能となった。 本研究では、スピン=1/2$量子リンクの1+1$D量子電磁力学のトポロジカルな$\theta$-angleによる定式化について考察する。 このシステムを、質量とスタガーの磁化項を持つPXPモデルに正確にマッピングすることで、閉じ込めと量子多体散乱とヒルベルト空間の断片化というエルゴーディック的パラダイムの間の興味深い相互作用を示す。 このモデルのリッチな動的位相図をマッピングし、質量$\mu$の小さな値でエルゴード相を発見し、ポテンシャル$\chi$を精算し、大きな$\mu$に対する創発的な可積分相と、両方のパラメータの大きな値に対する断片化相を求める。 また、後者は多数の効果的なモデルに繋がる共鳴をホストしていることを示す。 本研究は,現在のコールド原子装置で直接アクセス可能な実験プローブを提案する。

The quantum simulation of gauge theories on synthetic quantum matter devices has gained a lot of traction in the last decade, making possible the observation of a range of exotic quantum many-body phenomena. In this work, we consider the spin-$1/2$ quantum link formulation of $1+1$D quantum electrodynamics with a topological $\theta$-angle, which can be used to tune a confinement-deconfinement transition. Exactly mapping this system onto a PXP model with mass and staggered magnetization terms, we show an intriguing interplay between confinement and the ergodicity-breaking paradigms of quantum many-body scarring and Hilbert-space fragmentation. We map out the rich dynamical phase diagram of this model, finding an ergodic phase at small values of the mass $\mu$ and confining potential $\chi$, an emergent integrable phase for large $\mu$, and a fragmented phase for large values of both parameters. We also show that the latter hosts resonances that lead to a vast array of effective models. We propose experimental probes of our findings, which can be directly accessed in current cold-atom setups.
翻訳日:2023-05-19 20:10:43 公開日:2023-05-18
# VRA: 分布外検出のための変分活性化

VRA: Variational Rectified Activation for Out-of-distribution Detection ( http://arxiv.org/abs/2302.11716v4 )

ライセンス: Link先を確認
Mingyu Xu, Zheng Lian, Bin Liu, Jianhua Tao(参考訳) オープンな世界で信頼できる機械学習システムを構築するには、分散(ood)検出が不可欠である。 研究者はOODデータに対するモデル過信を減らすための様々な戦略を提案している。 その中でも、ReActはモデル過信を扱う典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増す。 有望な結果にもかかわらず、このテクニックはギャップを広げる最善の選択だろうか? そこで本研究では, 最適動作の探索に変分法を応用し, 異常に低い活性化と高い活性化を抑制し, ood検出における中間活性化を増幅する必要性を検証した。 そこで本研究では,これらの抑制と増幅操作を一括関数を用いてシミュレートする,'Variational Rectified Activation' (VRA)' と呼ばれる新しい手法を提案する。 複数のベンチマークデータセットの実験結果から,本手法が既存のポストホック戦略より優れていることが示された。 一方、VRAは異なるスコアリング機能やネットワークアーキテクチャと互換性がある。 \textcolor[rgb]{0.93,0.0,0.47}{Our コードは補足材料} にある。

Out-of-distribution (OOD) detection is critical to building reliable machine learning systems in the open world. Researchers have proposed various strategies to reduce model overconfidence on OOD data. Among them, ReAct is a typical and effective technique to deal with model overconfidence, which truncates high activations to increase the gap between in-distribution and OOD. Despite its promising results, is this technique the best choice for widening the gap? To answer this question, we leverage the variational method to find the optimal operation and verify the necessity of suppressing abnormally low and high activations and amplifying intermediate activations in OOD detection, rather than focusing only on high activations like ReAct. This motivates us to propose a novel technique called ``Variational Rectified Activation (VRA)'', which simulates these suppression and amplification operations using piecewise functions. Experimental results on multiple benchmark datasets demonstrate that our method outperforms existing post-hoc strategies. Meanwhile, VRA is compatible with different scoring functions and network architectures. \textcolor[rgb]{0.93,0.0,0.47}{Our code can be found in Supplementary Material}.
翻訳日:2023-05-19 20:05:21 公開日:2023-05-18
# 結果測定誤差による反事実予測

Counterfactual Prediction Under Outcome Measurement Error ( http://arxiv.org/abs/2302.11121v2 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu(参考訳) 医学、雇用、刑事司法などの領域を越えて、予測モデルは、専門家や政策立案者に不完全な利益を反映するラベルを標的とすることが多い。 例えば、医師の意思決定を知らせるために展開される臨床リスク評価は、しばしば医療費(例えば、コスト、入院)を患者の医療ニーズの代案として予測する。 これらのプロキシは、測定を意図した目標結果と体系的に異なる結果測定誤差を受ける可能性がある。 しかしながら、結果測定誤差を特徴づけ、緩和するための事前モデリングは、モデルによって通知される決定が、しばしば利害の目標結果とその記録されたプロキシに影響を及ぼすリスク軽減の介入として機能するという事実を無視する。 したがって, 測定誤差に対処するには, 結果に対する処理効果の非現実的モデリングが必要である。 本研究では, 結果測定誤差, 治療効果, 選択バイアスを過去の意思決定方針から推定し, モデル信頼性への横断的脅威について検討した。 本研究では,プロキシ測定誤差特性の知識を前提として,これらの課題の複合効果を補正するリスク最小化手法を開発した。 また,治療依存性の測定誤差パラメータを事前に不明な場合に推定する手法を開発した。 提案手法の有効性を理論的に実証するとともに,医療領域や雇用領域で実施されたランダム化制御試験による実世界のデータを用いた実験を行った。 さらに, 結果測定誤差や治療効果を補正するモデルには, 信頼性にかなりの限界があることを示す。 本研究は,意思決定支援のための予測モデルの設計・評価において,モデル妥当性に対する横断的脅威を検討することの重要性を強調する。

Across domains such as medicine, employment, and criminal justice, predictive models often target labels that imperfectly reflect the outcomes of interest to experts and policymakers. For example, clinical risk assessments deployed to inform physician decision-making often predict measures of healthcare utilization (e.g., costs, hospitalization) as a proxy for patient medical need. These proxies can be subject to outcome measurement error when they systematically differ from the target outcome they are intended to measure. However, prior modeling efforts to characterize and mitigate outcome measurement error overlook the fact that the decision being informed by a model often serves as a risk-mitigating intervention that impacts the target outcome of interest and its recorded proxy. Thus, in these settings, addressing measurement error requires counterfactual modeling of treatment effects on outcomes. In this work, we study intersectional threats to model reliability introduced by outcome measurement error, treatment effects, and selection bias from historical decision-making policies. We develop an unbiased risk minimization method which, given knowledge of proxy measurement error properties, corrects for the combined effects of these challenges. We also develop a method for estimating treatment-dependent measurement error parameters when these are unknown in advance. We demonstrate the utility of our approach theoretically and via experiments on real-world data from randomized controlled trials conducted in healthcare and employment domains. As importantly, we demonstrate that models correcting for outcome measurement error or treatment effects alone suffer from considerable reliability limitations. Our work underscores the importance of considering intersectional threats to model validity during the design and evaluation of predictive models for decision support.
翻訳日:2023-05-19 20:05:02 公開日:2023-05-18
# 群分布ロバスト最適化に対する確率近似手法

Stochastic Approximation Approaches to Group Distributionally Robust Optimization ( http://arxiv.org/abs/2302.09267v2 )

ライセンス: Link先を確認
Lijun Zhang, Peng Zhao, Tianbao Yang, Zhi-Hua Zhou(参考訳) 本稿では,群分布にロバストな最適化(gdro, group distributionally robust optimization)について検討する。 まず、GDROを確率的凸凹サドル点問題として定式化し、各反復において$m$のサンプルを用いて、$O(m)/\epsilon^2)$のサンプル複雑性を達成し、$Omega(m/\epsilon^2)$の対数係数に一致する$\epsilon$最適解を求める。 そして、オンライン学習の手法を使って、各ラウンドに必要なサンプル数を$m$から$$$に減らし、同じサンプルの複雑さを維持します。 具体的には、GDROを2人プレイヤゲームとして、一方のプレイヤーが単にSMDを実行し、他方のプレイヤーが非公開マルチアームバンディットのオンラインアルゴリズムを実行する。 次に,各分布から抽出できるサンプルの数が異なる,より実用的なシナリオを考察し,分布依存収束率の導出を可能にする重み付きGDROの新しい定式化を提案する。 n_i$ は$i$-th分布のサンプル予算を示し、$n_1 \geq n_2 \geq \cdots \geq n_m$ を仮定する。 最初のアプローチでは、サンプル予算が期待通りに満たされるように非一様サンプリングをsmdに組み込み、i$-th分布の過剰なリスクが$o(\sqrt{n_1 \log m}/n_i)$レートで減少することを証明する。 第2のアプローチでは、予算を正確に満たすためにミニバッチを使用し、確率勾配の分散を低減し、さらに小さな分散を活用可能な確率ミラープロキシアルゴリズムを利用して、慎重に設計された重み付きGDRO問題を最適化する。 適切な条件下では、$o((\log m)/\sqrt{n_i})$の収束率に達し、最適な$o(\sqrt{1/n_i})$の値にほぼ一致する。

This paper investigates group distributionally robust optimization (GDRO), with the purpose to learn a model that performs well over $m$ different distributions. First, we formulate GDRO as a stochastic convex-concave saddle-point problem, and demonstrate that stochastic mirror descent (SMD), using $m$ samples in each iteration, achieves an $O(m (\log m)/\epsilon^2)$ sample complexity for finding an $\epsilon$-optimal solution, which matches the $\Omega(m/\epsilon^2)$ lower bound up to a logarithmic factor. Then, we make use of techniques from online learning to reduce the number of samples required in each round from $m$ to $1$, keeping the same sample complexity. Specifically, we cast GDRO as a two-players game where one player simply performs SMD and the other executes an online algorithm for non-oblivious multi-armed bandits. Next, we consider a more practical scenario where the number of samples that can be drawn from each distribution is different, and propose a novel formulation of weighted GDRO, which allows us to derive distribution-dependent convergence rates. Denote by $n_i$ the sample budget for the $i$-th distribution, and assume $n_1 \geq n_2 \geq \cdots \geq n_m$. In the first approach, we incorporate non-uniform sampling into SMD such that the sample budget is satisfied in expectation, and prove the excess risk of the $i$-th distribution decreases at an $O(\sqrt{n_1 \log m}/n_i)$ rate. In the second approach, we use mini-batches to meet the budget exactly and also reduce the variance in stochastic gradients, and then leverage stochastic mirror-prox algorithm, which can exploit small variances, to optimize a carefully designed weighted GDRO problem. Under appropriate conditions, it attains an $O((\log m)/\sqrt{n_i})$ convergence rate, which almost matches the optimal $O(\sqrt{1/n_i})$ rate of only learning from the $i$-th distribution with $n_i$ samples.
翻訳日:2023-05-19 20:04:36 公開日:2023-05-18
# 手続き文理解における意味的構文解析の役割

The Role of Semantic Parsing in Understanding Procedural Text ( http://arxiv.org/abs/2302.06829v2 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Parisa Kordjamshidi, Choh Man Teng, and James Allen(参考訳) 本稿では,深い意味解析から抽出された記号的意味表現が,手続き的テキストにおける関連エンティティの状態の推論に有効かどうかを考察する。 我々は,意味解析知識の2つの源として,深い意味解析~(TRIPS)と意味的役割ラベルを考える。 まず,記号解析に基づく手続き推論フレームワーク PROPOLIS を提案する。 第2に,意味解析情報を最先端のニューラルモデルに統合し,手続き的推論を行う。 このような意味的知識を明示的に取り入れることで手続き的理解が向上することを示す。 本稿では,課題を明確にし,ニューラルモデル,シンボリックモデル,統合モデルの違いを識別する手続き的推論タスクを評価するための新しい指標を提案する。

In this paper, we investigate whether symbolic semantic representations, extracted from deep semantic parsers, can help reasoning over the states of involved entities in a procedural text. We consider a deep semantic parser~(TRIPS) and semantic role labeling as two sources of semantic parsing knowledge. First, we propose PROPOLIS, a symbolic parsing-based procedural reasoning framework. Second, we integrate semantic parsing information into state-of-the-art neural models to conduct procedural reasoning. Our experiments indicate that explicitly incorporating such semantic knowledge improves procedural understanding. This paper presents new metrics for evaluating procedural reasoning tasks that clarify the challenges and identify differences among neural, symbolic, and integrated models.
翻訳日:2023-05-19 20:03:49 公開日:2023-05-18
# ディープブースティング決定木を用いた効率的な不正検出

Efficient Fraud Detection Using Deep Boosting Decision Trees ( http://arxiv.org/abs/2302.05918v2 )

ライセンス: Link先を確認
Biao Xu, Yao Wang, Xiuwu Liao, Kaidong Wang(参考訳) 不正検出とは、複雑なデータから潜在的な不正行為を特定し、監視し、防止することである。 ai、特に機械学習の最近の開発と成功は、不正に対処する新しいデータ駆動方式を提供する。 方法論的観点から、機械学習に基づく不正検出は、従来の方法(決定木、強化木)とディープラーニングの2つのカテゴリに分けられる。 さらに, 検出された不正事件の頻度が高いため, 関連データは通常不均衡であり, 分類アルゴリズムの性能が著しく低下する。 本稿では,勾配ブースティングとニューラルネットワークに基づく不正検出の新しい手法として,DBDT(Deep boosting decision tree)を提案する。 従来の手法とディープラーニングの両方の利点を組み合わせるために,まず,ニューラルネットワークをノードとする決定木構造モデルであるソフト決定木(SDT)を構築し,さらに勾配向上のアイデアを用いてSDTをアンサンブルする。 このようにして、ニューラルネットワークを勾配向上に組み込んで表現学習能力を向上させるとともに、解釈可能性を維持する。 さらに,検出された不正事件の希少性に着目し,モデル学習段階において,アルゴリズムレベルでのデータ不均衡を扱うためのAUC最大化手法を提案する。 いくつかの実生活における不正検出データセットに対する大規模な実験により、DBDTは性能を大幅に改善し、高い解釈可能性を維持することができることが示された。 私たちのコードはhttps://github.com/freshmanxb/dbdtで利用可能です。

Fraud detection is to identify, monitor, and prevent potentially fraudulent activities from complex data. The recent development and success in AI, especially machine learning, provides a new data-driven way to deal with fraud. From a methodological point of view, machine learning based fraud detection can be divided into two categories, i.e., conventional methods (decision tree, boosting...) and deep learning, both of which have significant limitations in terms of the lack of representation learning ability for the former and interpretability for the latter. Furthermore, due to the rarity of detected fraud cases, the associated data is usually imbalanced, which seriously degrades the performance of classification algorithms. In this paper, we propose deep boosting decision trees (DBDT), a novel approach for fraud detection based on gradient boosting and neural networks. In order to combine the advantages of both conventional methods and deep learning, we first construct soft decision tree (SDT), a decision tree structured model with neural networks as its nodes, and then ensemble SDTs using the idea of gradient boosting. In this way we embed neural networks into gradient boosting to improve its representation learning capability and meanwhile maintain the interpretability. Furthermore, aiming at the rarity of detected fraud cases, in the model training phase we propose a compositional AUC maximization approach to deal with data imbalances at algorithm level. Extensive experiments on several real-life fraud detection datasets show that DBDT can significantly improve the performance and meanwhile maintain good interpretability. Our code is available at https://github.com/freshmanXB/DBDT.
翻訳日:2023-05-19 20:03:39 公開日:2023-05-18
# 一般化cp分解による低ランクテンソル完全化の数値予測

Exploring Numerical Priors for Low-Rank Tensor Completion with Generalized CP Decomposition ( http://arxiv.org/abs/2302.05881v4 )

ライセンス: Link先を確認
Shiran Yuan and Kaizhu Huang(参考訳) テンソル補完はコンピュータビジョン、データ解析、信号処理など多くの分野において重要である。 完備テンソル上の低ランク構造、すなわち低ランクテンソル完備化と呼ばれる手法のカテゴリは、最近広く研究されている。 このような手法は大きな成功を収めたが、テンソル要素の数値的事前化を活用しようと考える者はいなかった。 数値を無視すると、データに関する重要な情報が失われ、アルゴリズムが最適な精度に達するのを防ぐ。 本研究は,数値前処理を活用し,より高精度なテンソル補完を実現するために,gcdtc(generalized cp decomposition tensor completion)と呼ばれる新しい手法フレームワークの構築を試みるものである。 この新たなフレームワークでは、低ランクテンソル完備化にCP分解の一般化形式を適用する。 本稿では、GCDTCフレームワークのインスタンス化として、非負整数テンソル補完のためのSPTC(Smooth Poisson Tensor Completion)と呼ばれるアルゴリズムを提案する。 実世界のデータに関する一連の実験は、SPTCが現在の最先端手法よりも完成精度に優れた結果をもたらすことを示唆している。 関連コードは補足資料で利用可能である。

Tensor completion is important to many areas such as computer vision, data analysis, and signal processing. Enforcing low-rank structures on completed tensors, a category of methods known as low-rank tensor completion, has recently been studied extensively. Whilst such methods attained great success, none considered exploiting numerical priors of tensor elements. Ignoring numerical priors causes loss of important information regarding the data, and therefore prevents the algorithms from reaching optimal accuracy. This work attempts to construct a new methodological framework called GCDTC (Generalized CP Decomposition Tensor Completion) for leveraging numerical priors and achieving higher accuracy in tensor completion. In this newly introduced framework, a generalized form of CP Decomposition is applied to low-rank tensor completion. This paper also proposes an algorithm known as SPTC (Smooth Poisson Tensor Completion) for nonnegative integer tensor completion as an instantiation of the GCDTC framework. A series of experiments on real-world data indicate that SPTC could produce results superior in completion accuracy to current state-of-the-art methods. Related code is available in the supplemental materials.
翻訳日:2023-05-19 20:03:04 公開日:2023-05-18
# 履歴依存型動的文脈を用いた強化学習

Reinforcement Learning with History-Dependent Dynamic Contexts ( http://arxiv.org/abs/2302.02061v2 )

ライセンス: Link先を確認
Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig Boutilier(参考訳) 動的文脈マルコフ決定プロセス(dcmdps)は、文脈が時間とともに変化する非マルコフ環境を扱うためにコンテキスト境界mdpフレームワークを一般化した、歴史依存環境のための新しい強化学習フレームワークである。 本モデルでは,文脈遷移を決定するためにアグリゲーション関数を活用し,履歴長に対する指数関数依存を破るロジスティックdcmdpsに着目した特別ケースを検討する。 この特別な構造により、後悔の限界を定めている上位信頼境界型アルゴリズムを導出することができる。 この理論結果に動機づけられ,潜在空間に計画し,歴史依存的特徴よりも楽観的手法を用いたロジスティックdcmdpsのための実用的なモデルベースアルゴリズムを提案する。 提案手法の有効性を,レコメンデーションに応じてユーザ動作のダイナミクスが進化するレコメンデーションタスク(MovieLensデータを用いた)に示す。

We introduce Dynamic Contextual Markov Decision Processes (DCMDPs), a novel reinforcement learning framework for history-dependent environments that generalizes the contextual MDP framework to handle non-Markov environments, where contexts change over time. We consider special cases of the model, with a focus on logistic DCMDPs, which break the exponential dependence on history length by leveraging aggregation functions to determine context transitions. This special structure allows us to derive an upper-confidence-bound style algorithm for which we establish regret bounds. Motivated by our theoretical results, we introduce a practical model-based algorithm for logistic DCMDPs that plans in a latent space and uses optimism over history-dependent features. We demonstrate the efficacy of our approach on a recommendation task (using MovieLens data) where user behavior dynamics evolve in response to recommendations.
翻訳日:2023-05-19 20:02:30 公開日:2023-05-18
# 線形代数に対する量子ビット効率のよいランダム量子アルゴリズム

Qubit-Efficient Randomized Quantum Algorithms for Linear Algebra ( http://arxiv.org/abs/2302.01873v2 )

ライセンス: Link先を確認
Samson Wang, Sam McArdle, Mario Berta(参考訳) 本稿では,行列関数に対する量子ブロック符号化や他のコヒーレントなオラクルアクセスを使わずに,行列関数からのサンプリングを行うためのランダム化量子アルゴリズムのクラスを提案する。 したがって、量子ビットの使用は純粋にアルゴリズムであり、量子データ構造には追加の量子ビットは必要ない。 N\times N$ Hermitian 行列の場合、空間コストは$\log(N)+1$ qubitsであり、行列の構造によっては、ゲートの複雑さは、等価なエンドツーエンドの問題を考えるとき、最大$O(N^2)$の量子データ構造を使用する最先端の手法に匹敵する。 本フレームワークでは,解ベクトルの性質をサンプリングする量子線形系解法と,ハミルトンの基底状態とギブス状態の特性をサンプリングするアルゴリズムを提案する。 具体的な応用として、これらのサブルーチンを組み合わせて、量子多体系のグリーン関数を計算するスキームを提案する。

We propose a class of randomized quantum algorithms for the task of sampling from matrix functions, without the use of quantum block encodings or any other coherent oracle access to the matrix elements. As such, our use of qubits is purely algorithmic, and no additional qubits are required for quantum data structures. For $N\times N$ Hermitian matrices, the space cost is $\log(N)+1$ qubits and depending on the structure of the matrices, the gate complexity can be comparable to state-of-the-art methods that use quantum data structures of up to size $O(N^2)$, when considering equivalent end-to-end problems. Within our framework, we present a quantum linear system solver that allows one to sample properties of the solution vector, as well as algorithms for sampling properties of ground states and Gibbs states of Hamiltonians. As a concrete application, we combine these sub-routines to present a scheme for calculating Green's functions of quantum many-body systems.
翻訳日:2023-05-19 20:02:13 公開日:2023-05-18
# 関数変換の学習

Learning Functional Transduction ( http://arxiv.org/abs/2302.00328v2 )

ライセンス: Link先を確認
Mathieu Chalvidal, Thomas Serre and Rufin VanRullen(参考訳) 機械学習の研究は、回帰タスクに対する2つの一般的なアプローチに偏った: トランスダクティブメソッドは、利用可能なデータから直接見積もりを構築するが、通常は問題に非依存である。 帰納的メソッドはもっと具体的だが、一般的には計算集約的なソリューション検索を必要とする。 本研究では, ベクトル値再生カーネルバナッハ空間(RKBS)の理論を活用することにより, 遷移回帰原理を勾配降下によりメタ学習し, 効率の良いインコンテキスト・ニューラル近似器を形成することを示す。 この手法を有限次元および無限次元の空間上で定義される函数空間(関数値演算子)に適用し、トレーニングが終わると、Transducerは入力と出力の2組の例を与えられた関数関係の無限大をほぼ瞬時に捕捉し、新しい画像推定を返却できることを示す。 偏微分方程式や気候モデリングアプリケーションのための通常のディープラーニングトレーニングの計算コストのごく一部で、データ量が少ない外部要因の影響を受けて、複雑な物理系をモデル化するメタリーナードトランスダクティブアプローチの利点を実証する。

Research in machine learning has polarized into two general approaches for regression tasks: Transductive methods construct estimates directly from available data but are usually problem unspecific. Inductive methods can be much more specific but generally require compute-intensive solution searches. In this work, we propose a hybrid approach and show that transductive regression principles can be meta-learned through gradient descent to form efficient in-context neural approximators by leveraging the theory of vector-valued Reproducing Kernel Banach Spaces (RKBS). We apply this approach to function spaces defined over finite and infinite-dimensional spaces (function-valued operators) and show that once trained, the Transducer can almost instantaneously capture an infinity of functional relationships given a few pairs of input and output examples and return new image estimates. We demonstrate the benefit of our meta-learned transductive approach to model complex physical systems influenced by varying external factors with little data at a fraction of the usual deep learning training computational cost for partial differential equations and climate modeling applications.
翻訳日:2023-05-19 20:01:53 公開日:2023-05-18
# UNFUSED: 自己監督蒸留を用いた教師なしファインタニング

UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation ( http://arxiv.org/abs/2303.05668v2 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,自己教師付き学習を活用し,音声分類のための大量のラベル付きデータの必要性を減らすための新しいアプローチであるunfusedを提案する。 対象データセット上で自己教師付き事前学習エンコーダを直接微調整する以前の作業とは異なり、実際の微調整ステップの前に、エンコーダを使用して教師なし微調整のための擬似ラベルを生成する。 まず,ラベルなしオーディオデータセット上で,新しい自己教師付き学習アルゴリズム(ssl)を用いてエンコーダを訓練する。 そして、そのエンコーダを使用して、抽出した表現をクラスタリングすることで、ターゲットタスクデータセット上で擬似ラベルを生成する。 これらの擬似ラベルはランダムに初期化モデル上で自己蒸留を誘導するために用いられる。 最後に、結果エンコーダがターゲットタスクデータセット上で微調整されます。 UnFuSeD を通じて,文献における一般的なSSLパラダイムから脱却し,同じエンコーダを事前学習・微調整するシステムを提案し,低リソース音声分類にSSL事前学習を利用する新たな自己蒸留システムを提案する。 実際に、UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大幅に上回っている。 さらに、unfusedにより、以前のstate-of-the-artシステムよりもパラメータ数を40%削減できる。 すべてのコードを公開しています。

In this paper, we introduce UnFuSeD, a novel approach to leverage self-supervised learning and reduce the need for large amounts of labeled data for audio classification. Unlike prior works, which directly fine-tune a self-supervised pre-trained encoder on a target dataset, we use the encoder to generate pseudo-labels for unsupervised fine-tuning before the actual fine-tuning step. We first train an encoder using a novel self-supervised learning algorithm (SSL) on an unlabeled audio dataset. Then, we use that encoder to generate pseudo-labels on our target task dataset via clustering the extracted representations. These pseudo-labels are then used to guide self-distillation on a randomly initialized model, which we call unsupervised fine-tuning. Finally, the resultant encoder is then fine-tuned on our target task dataset. Through UnFuSeD, we propose the first system that moves away from generic SSL paradigms in literature, which pre-train and fine-tune the same encoder, and present a novel self-distillation-based system to leverage SSL pre-training for low-resource audio classification. In practice, UnFuSeD achieves state-of-the-art results on the LAPE Benchmark, significantly outperforming all our baselines. Additionally, UnFuSeD allows us to achieve this at a 40% reduction in the number of parameters over the previous state-of-the-art system. We make all our codes publicly available.
翻訳日:2023-05-19 19:55:18 公開日:2023-05-18
# 二重量子ドット干渉計における磁束可変ハイブリッド化

Flux-Tunable Hybridization in a Double Quantum Dot Interferometer ( http://arxiv.org/abs/2303.04144v2 )

ライセンス: Link先を確認
Christian G. Prosko, Ivan Kulesh, Michael Chan, Lin Han, Di Xiao, Candice Thomas, Michael J. Manfra, Srijit Goswami, Filip K. Malinowski(参考訳) 磁束でスレッディングされた2つのレベル間で共有される1つの電子は、干渉が起こると予測される既約単純量子系である。 2つの量子ドットからなるループに実装された2つの電子準位と磁束の間のトンネル結合のチューニングを示す。 ドットのゲート電極の高周波反射計を用いてドット間結合を抽出し、1つのフラックス量子の周期的な振動を示す。 異なるトンネル方式では、振動のコントラストをベンチマークし、その振幅は関連するレベルによって変化するが、トンネルは振動ミニマでは一般的に抑制されない。 これらの結果は、フラックスによって調整されたトンネル結合を持つキュービットのパリティ可読化の実現可能性と限界を確立する。

A single electron shared between two levels threaded by a magnetic flux is an irreducibly simple quantum system in which interference is predicted to occur. We demonstrate tuning of the tunnel coupling between two such electronic levels with flux, implemented in a loop comprising two quantum dots. Using radio-frequency reflectometry of the dots' gate electrodes we extract the inter-dot coupling, which exhibits oscillations with a periodicity of one flux quantum. In different tunneling regimes we benchmark the oscillations' contrast, and find that their amplitude varies with the levels involved, while tunneling is generically not suppressed at oscillation minima. These results establish the feasibility and limitations of parity readout of qubits with tunnel couplings tuned by flux.
翻訳日:2023-05-19 19:54:32 公開日:2023-05-18
# イベントストリームを用いた時空間表現学習のためのイベントボクセルセットトランスフォーマ

Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams ( http://arxiv.org/abs/2303.03856v2 )

ライセンス: Link先を確認
Bochen Xie and Yongjian Deng and Zhanpeng Shao and Hai Liu and Qingsong Xu and Youfu Li(参考訳) イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。 ほとんどの最先端のイベントベース手法は、イベントを密集したフレームに投影し、従来の学習モデルで処理する。 しかし、これらの手法はイベントデータのスパーシリティと高時間分解能を犠牲にして、大きなモデルサイズと高い計算複雑性をもたらす。 本研究では,イベントストリームにおける時空間表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しいアテンション対応モデルを開発した。 まずイベントストリームをvoxelセットに変換し、次に階層的にvoxel機能を集約して堅牢な表現を得る。 EVSTrのコアは、ローカル情報集約のためのMNEL(Multi-Scale Neighbor Embedding Layer)とグローバル機能インタラクションのためのVoxel Self-Attention Layer(VSAL)という2つのよく設計されたコンポーネントで構成される、差別的時空間特徴を抽出するイベントボクセルトランスフォーマーエンコーダである。 ネットワークを長期の時間構造に組み込むことにより,セグメント化されたボクセル集合から動作パターンを学習するためのセグメントモデリング戦略を導入する。 オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。 総合的な実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。 さらに、現実のイベントベースの行動認識データセットの欠如を補うために、挑戦的な視覚シナリオで記録された新しいデータセット(NeuroHAR)を提案する。

Event cameras are neuromorphic vision sensors representing visual information as sparse and asynchronous event streams. Most state-of-the-art event-based methods project events into dense frames and process them with conventional learning models. However, these approaches sacrifice the sparsity and high temporal resolution of event data, resulting in a large model size and high computational complexity. To fit the sparse nature of events and sufficiently explore the relationship between them, we develop a novel attention-aware model named Event Voxel Set Transformer (EVSTr) for spatiotemporal representation learning on event streams. It first converts the event stream into voxel sets and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder to extract discriminative spatiotemporal features, which consists of two well-designed components, including a Multi-Scale Neighbor Embedding Layer (MNEL) for local information aggregation and a Voxel Self-Attention Layer (VSAL) for global feature interactions. Enabling the network to incorporate a long-range temporal structure, we introduce a segment modeling strategy to learn motion patterns from a sequence of segmented voxel sets. We evaluate the proposed model on two event-based recognition tasks: object classification and action recognition. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity. Additionally, we present a new dataset (NeuroHAR) recorded in challenging visual scenarios to complement the lack of real-world event-based datasets for action recognition.
翻訳日:2023-05-19 19:54:21 公開日:2023-05-18
# 認定ロバストニューラルネットワーク:一般化と破壊耐性

Certified Robust Neural Networks: Generalization and Corruption Resistance ( http://arxiv.org/abs/2303.02251v2 )

ライセンス: Link先を確認
Amine Bennouna, Ryan Lucas, Bart Van Parys(参考訳) 近年の研究は、(「腐敗」に対する)堅牢性が一般化と相反することを示した。 例えば、adversarial trainingは、現代のニューラルネットワークが抱える脆弱性を小さなデータ摂動に軽減することを目的としている。 驚くべきことに、オーバーフィッティングは標準的な訓練にほとんど欠席しているにもかかわらず、敵の訓練において大きな関心事である。 この特異な「乱暴な過剰フィッティング」現象の理論的証拠を提供する。 続いて、ロバスト性と一般化を橋渡しする分散ロバストな損失関数を新たに導入する。 我々は,データ回避と中毒攻撃という2つの一般的なタイプの腐敗に対して,認証された堅牢性を享受する上での損失を,理論的にも実証的にも実証する。 総合ロバスト(hr)トレーニング手順がsota性能に与える影響を,注意深い数値実験により明らかにする。 最後に, 人事訓練は対人訓練の直接的な拡張と解釈でき, 計算負荷が無視できることを示す。 アルゴリズムを実装するpythonライブラリは、https://github.com/ryanlucas3/hr_neural_networksで利用可能です。

Recent work have demonstrated that robustness (to "corruption") can be at odds with generalization. Adversarial training, for instance, aims to reduce the problematic susceptibility of modern neural networks to small data perturbations. Surprisingly, overfitting is a major concern in adversarial training despite being mostly absent in standard training. We provide here theoretical evidence for this peculiar "robust overfitting" phenomenon. Subsequently, we advance a novel distributionally robust loss function bridging robustness and generalization. We demonstrate both theoretically as well as empirically the loss to enjoy a certified level of robustness against two common types of corruption--data evasion and poisoning attacks--while ensuring guaranteed generalization. We show through careful numerical experiments that our resulting holistic robust (HR) training procedure yields SOTA performance. Finally, we indicate that HR training can be interpreted as a direct extension of adversarial training and comes with a negligible additional computational burden. A ready-to-use python library implementing our algorithm is available at https://github.com/RyanLucas3/HR_Neural_Networks.
翻訳日:2023-05-19 19:53:16 公開日:2023-05-18
# コンパイルされた非局所ゲームの量子値のバウンディング:chshからbqp検証へ

Bounding the quantum value of compiled nonlocal games: from CHSH to BQP verification ( http://arxiv.org/abs/2303.01545v2 )

ライセンス: Link先を確認
Anand Natarajan and Tina Zhang(参考訳) 本稿では, 量子完全性と音響性を保ちつつ, プローバ間の分離をシミュレートする暗号を用いて, 絡み合った非ローカルゲームを単一プローサの対話プロトコルに変換する, 汎用的な暗号「コンパイル」手順を作成するためのステップを提案する。 A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. アプリケーションとして、BQPに対して単一プロプライエタリな古典的検証プロトコルを提供し、CHSH剛性解析を用いてその健全性を証明する。 本プロトコルは,Mahadevプロトコルの機能 (FOCS '18) を再現するが,(1) プロトコルは概念的に直感的であり,構成成分が少ないこと,2) 音質解析は非局所的ケースの解析を直接的に行うこと,(2) 音質解析はTFや適応ハードコアビットの仮定を明示的に用いておらず,QFHEをブラックボックスとしてのみ必要である(ただし,現在知られているQFHEの構成はTCFsのみである)。

We present a step towards the goal of producing a general cryptographic 'compilation' procedure which can translate any entangled nonlocal game into a single-prover interactive protocol while preserving quantum completeness and soundness, using cryptography to simulate the separation between the provers. A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. As an application, we give a single-prover cryptographically sound classical verification protocol for BQP, and we prove its soundness using our CHSH rigidity analysis. Our protocol replicates the functionality of Mahadev's protocol (FOCS '18) but with two advantages: (1) the protocol is conceptually intuitive and requires fewer bespoke ingredients, and the soundness analysis is simpler and directly follows the analysis of the nonlocal case, and (2) the soundness analysis does not explicitly use the assumption of a TCF or an adaptive hardcore bit, and only requires QFHE as a black box (though currently the only known constructions of QFHE use TCFs).
翻訳日:2023-05-19 19:53:01 公開日:2023-05-18
# 量子性の簡単なテストも量子ビットを認証する

Simple Tests of Quantumness Also Certify Qubits ( http://arxiv.org/abs/2303.01293v2 )

ライセンス: Link先を確認
Zvika Brakerski, Alexandru Gheorghiu, Gregory D. Kahanamoku-Meyer, Eitan Porat, Thomas Vidick(参考訳) 量子性の検定は、古典的検証者が証明者が古典的でないことを(のみ)証明できるプロトコルである。 我々は、(kalai et al., 2022)のような最近の提案を捉えた、あるテンプレートに従う量子性テストが、実際にはもっと多くのことができることを示す。 すなわち、同じプロトコルは、証明可能なランダム性や古典的な量子計算のデリゲートといったアプリケーションの中心にあるビルディングブロックであるqubitの認定に使用できる。 Certification qubits は以前、Learning with Errors 問題と適応ハードコアの使用の難しさに基づいてのみ可能であることが知られていた(Brakerski et al., 2018)。 提案手法は,量子トラップドアクラウフリー関数の存在や量子完全準同型暗号を基盤とした量子ビット認証を可能にする。 これらは例えば、エラーを伴うリング学習からインスタンス化することができる。 技術的には、そのようなプロトコルの量子音響性は、単純なアルゴリズム的タスクのバウンダリを証明し、プロトコルの「2つの課題」に非公式に答えることに還元できることを示す。 この還元は、一般的な量子証明器の巻き戻しの不可能性を利用して、これらのプロトコルが量子性を示すという直観を定式化する。 これにより (Kahanamoku-Meyer et al., 2021) と (Kalai et al., 2022) の量子音響性に厳密な境界を証明でき、量子多項式時間証明器が $\cos^2 \frac{\pi}{8}\approx 0.853$ 以上の確率で成功できないことを示す。 従来、古典的確率の成功確率の上限と量子的確率の成功確率の上限のみが知られていた。 そして、この量子音響性証明を拡張して、量子音響性境界に接近するプロバーが、ほぼ反可換な測定を行う必要があることを示す。 これは証明者がqubitを持つことを示す。

A test of quantumness is a protocol that allows a classical verifier to certify (only) that a prover is not classical. We show that tests of quantumness that follow a certain template, which captures recent proposals such as (Kalai et al., 2022), can in fact do much more. Namely, the same protocols can be used for certifying a qubit, a building-block that stands at the heart of applications such as certifiable randomness and classical delegation of quantum computation. Certifying qubits was previously only known to be possible based on the hardness of the Learning with Errors problem and the use of adaptive hardcore (Brakerski et al., 2018). Our framework allows certification of qubits based only on the existence of post-quantum trapdoor claw-free functions, or on quantum fully homomorphic encryption. These can be instantiated, for example, from Ring Learning with Errors. On the technical side, we show that the quantum soundness of any such protocol can be reduced to proving a bound on a simple algorithmic task: informally, answering ``two challenges simultaneously'' in the protocol. Our reduction formalizes the intuition that these protocols demonstrate quantumness by leveraging the impossibility of rewinding a general quantum prover. This allows us to prove tight bounds on the quantum soundness of (Kahanamoku-Meyer et al., 2021) and (Kalai et al., 2022), showing that no quantum polynomial-time prover can succeed with probability larger than $\cos^2 \frac{\pi}{8}\approx 0.853$. Previously, only an upper bound on the success probability of classical provers, and a lower bound on the success probability of quantum provers, were known. We then extend this proof of quantum soundness to show that provers that approach the quantum soundness bound must perform almost anti-commuting measurements. This certifies that the prover holds a qubit.
翻訳日:2023-05-19 19:52:30 公開日:2023-05-18
# ソフトアクタ-クリティックが収束する点

The Point to Which Soft Actor-Critic Converges ( http://arxiv.org/abs/2303.01240v3 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) soft actor-critic は soft q-learning の後継である。 最大エントロピーの枠組みの下で生活したが、それらの関係はいまだに不明である。 本稿では,その極限において,それらが同じ解に収束することを証明する。 これは、最適化を難解なものからより簡単な方法に翻訳するので、魅力的です。 同じ正当化はkl発散のような他の正規化にも適用できる。

Soft actor-critic is a successful successor over soft Q-learning. While lived under maximum entropy framework, their relationship is still unclear. In this paper, we prove that in the limit they converge to the same solution. This is appealing since it translates the optimization from an arduous to an easier way. The same justification can also be applied to other regularizers such as KL divergence.
翻訳日:2023-05-19 19:51:52 公開日:2023-05-18
# マスタリング記号演算: コンパイルされたニューラルネットワークによる言語モデルの拡張

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks ( http://arxiv.org/abs/2304.01665v2 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 言語モデル(lms) 決定論的シンボリック推論と規則に基づくタスクを扱う能力は、テキストデータに暗黙的な学習に依存するため、依然として限られている。 完全なルール理解能力を実現するために,LMのアーキテクチャに重みを特別に設計したコンパイルニューラルネットワーク(CoNN)を組み込んで,高精度で堅牢な性能を実現する方法について検討する。 CoNNは、人工的に生成された注目重みを通してルールを実行するトランスフォーマーベースのニューラルネットワークである。 CNNモジュールをLMに組み込むことで"Neural Comprehension"と呼ぶこの手法は,ルール集約的な課題を効果的に解決する。 シンボル推論タスクと実世界の算術推論タスクに関する実験は,既存の手法と比較して,提案手法の優れた性能を示す。 さらに,本手法が真に象徴的理解能力を有することの可能性を強調して,記号的操作タスクにおける不完全な実行を実現する。 私たちのコードは、https://github.com/wengsyx/neural-comprehensionで公開されています。

Language models (LMs) proficiency in handling deterministic symbolic reasoning and rule-based tasks remains limited due to their dependency implicit learning on textual data. To enable fully rule comprehension ability, we explore how to incorporate compiled neural networks (CoNNs) which weight is specially designed into the architecture of LMs, to achieve high accuracy and robust performance. CoNNs are transformer-based neural networks that execute rules through artificially generated attention weights. Our method, which call "Neural Comprehension", by incorporating CoNN modules into the LM, the framework effectively tackles rule-intensive challenges. Our experiments on symbolic reasoning tasks and real-world arithmetic reasoning tasks demonstrate the superior performance of our method compared to existing techniques. Furthermore, our LM achieves flawless execution on symbolic operations tasks, highlighting the potential of our method in enabling LMs to possess true symbolic comprehension capabilities. Our code is publicly available at: https://github.com/WENGSYX/Neural-Comprehension.
翻訳日:2023-05-19 19:45:51 公開日:2023-05-18
# ニューラルネットワークエントロピー(NNetEn):エントロピーに基づく脳波信号とカオス時系列分類、NNetEn計算のためのPythonパッケージ

Neural Network Entropy (NNetEn): Entropy-Based EEG Signal and Chaotic Time Series Classification, Python Package for NNetEn Calculation ( http://arxiv.org/abs/2303.17995v2 )

ライセンス: Link先を確認
Andrei Velichko, Maksim Belyaev, Yuriy Izotov, Murugappan Murugappan and Hanif Heidari(参考訳) エントロピー測度は時系列分類問題に有効な特徴である。 シャノンエントロピーのような伝統的なエントロピー測度は確率分布関数を用いる。 しかし, 時系列を効果的に分離するためには, システムのカオス力学を特徴付ける新しいエントロピー推定法が必要となる。 ニューラルネットワークエントロピー(NNetEn)の概念は,ニューラルネットワークの貯水池に記録された時系列のエントロピーに関連する特別なデータセットの分類に基づいている。 NNetEnは、時系列のカオス力学を元の方法で推定し、確率分布関数を考慮しない。 R2効率とピアソン効率の2つの新しい分類指標を提案する。 NNetEnの効率は分散分析を用いて2つのカオス時系列の正弦写像の分離を検証した。 2つの閉ダイナミック時系列 (r = 1.1918 と r = 1.2243) に対して、f-ratio は 124 の値に達し、分類問題における導入法の高い効率を反映している。 健常者およびアルツハイマー病患者の脳波信号分類は、nnetenの特徴の実際的応用を示している。 従来のエントロピー測度とNNetEn概念を併用する際の分類精度の向上による相乗効果を示す。 pythonにおけるアルゴリズムの実装について述べる。

Entropy measures are effective features for time series classification problems. Traditional entropy measures, such as Shannon entropy, use probability distribution function. However, for the effective separation of time series, new entropy estimation methods are required to characterize the chaotic dynamic of the system. Our concept of Neural Network Entropy (NNetEn) is based on the classification of special datasets in relation to the entropy of the time series recorded in the reservoir of the neural network. NNetEn estimates the chaotic dynamics of time series in an original way and does not take into account probability distribution functions. We propose two new classification metrics: R2 Efficiency and Pearson Efficiency. The efficiency of NNetEn is verified on separation of two chaotic time series of sine mapping using dispersion analysis. For two close dynamic time series (r = 1.1918 and r = 1.2243), the F-ratio has reached the value of 124 and reflects high efficiency of the introduced method in classification problems. The electroenceph-alography signal classification for healthy persons and patients with Alzheimer disease illustrates the practical application of the NNetEn features. Our computations demonstrate the synergistic effect of increasing classification accuracy when applying traditional entropy measures and the NNetEn concept conjointly. An implementation of the algorithms in Python is presented.
翻訳日:2023-05-19 19:45:34 公開日:2023-05-18
# 曲がった時空を伝播する量子光子の重力赤方偏移入門

Introduction to gravitational redshift of quantum photons propagating in curved spacetime ( http://arxiv.org/abs/2303.17412v3 )

ライセンス: Link先を確認
Luis Adri\'an Alan\'is Rodr\'iguez, Andreas Wolfgang Schell and David Edward Bruschi(参考訳) 重力赤方偏移は、曲面時空で伝播する量子光子の文脈で議論される。 リアルな光子をモデル化する簡単な入門が提示され、光子のスペクトルに対する重力の影響は、主に伝播方向に閉じ込められている。 すると、鋭いモータを持つ光子作用素に対する赤方偏移誘起変換はユニタリではなく、有限帯域を持つ現実光子に対してユニタリ変換を構築することができる。 得られたユニタリ変換は、ヒルベルト空間基底の一般化回転である多重モード混合演算として特徴づけられる。 最後に、これらの結果の応用について、量子通信プロトコルの性能、量子力学およびセンシングに対する効果の活用、および基礎科学のテストの可能性に焦点をあてて論じる。

Gravitational redshift is discussed in the context of quantum photons propagating in curved spacetime. A brief introduction to modelling realistic photons is first presented and the effect of gravity on the spectrum computed for photons largely confined along the direction of propagation. It is then shown that redshift-induced transformations on photon operators with sharp momenta are not unitary, while a unitary transformation can be constructed for realistic photons with finite bandwidth. The unitary transformation obtained is then characterized as a multimode mixing operation, which is a generalized rotation of the Hilbert-space basis. Finally, applications of these results are discussed with focus on performance of quantum communication protocols, exploitation of the effects for quantum metrology and sensing, as well as potential for tests of fundamental science.
翻訳日:2023-05-19 19:45:15 公開日:2023-05-18
# 多項分類におけるスパース・ジョイントシフト

Sparse joint shift in multinomial classification ( http://arxiv.org/abs/2303.16971v2 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) スパースジョイントシフト (SJS) は, 一般データセットシフトの抽出可能なモデルとして提案され, 特徴量やラベルの辺縁分布, 後部確率, クラス条件特徴量の変化を引き起こす可能性がある。 ラベル観察なしでターゲットデータセットにSJSを適用すると、ラベルの有効な予測とクラスの事前確率の推定が生成される可能性がある。 本研究では,特徴集合からより大きな特徴集合へのSJSの伝達,目標分布下でのクラス後部確率の条件補正式,SJSの識別可能性,SJSと共変量シフトの関係について述べる。 さらに,最適解探索の妨げとなるsjsの特性を推定するために提案されたアルゴリズムの不整合を指摘する。

Sparse joint shift (SJS) was recently proposed as a tractable model for general dataset shift which may cause changes to the marginal distributions of features and labels as well as the posterior probabilities and the class-conditional feature distributions. Fitting SJS for a target dataset without label observations may produce valid predictions of labels and estimates of class prior probabilities. We present new results on the transmission of SJS from sets of features to larger sets of features, a conditional correction formula for the class posterior probabilities under the target distribution, identifiability of SJS, and the relationship between SJS and covariate shift. In addition, we point out inconsistencies in the algorithms which were proposed for estimating the characteristics of SJS, as they could hamper the search for optimal solutions.
翻訳日:2023-05-19 19:45:01 公開日:2023-05-18
# オンライン分類一覧

List Online Classification ( http://arxiv.org/abs/2303.15383v3 )

ライセンス: Link先を確認
Shay Moran, Ohad Sharon, Iska Tsubari, Sivan Yosebashvili(参考訳) 学習者が複数のラベルのリスト(従来の1つのラベルではなく)を使って予測できるマルチクラスオンライン予測について検討する。 このモデルの学習性は、$b$-ary littlestone次元を使って特徴づける。 この次元は古典的なリトルストーン次元の変種であり、二項誤り木は$(k+1)$-aryミス木に置き換えられ、ここで$k$はリスト内のラベルの数である。 不可知論的設定では、コンパレータクラスがシングルラベル関数かマルチラベル関数か、アルゴリズムが使用するリストのサイズとのトレードオフによって異なるシナリオを探索する。 いくつかのケースでは否定的な後悔を達成でき、それがいつ可能かを完全に特徴づけることができる。 私たちの仕事の一部として、littlestoneのsoaやrosenblattのperceptronといった古典的なアルゴリズムをラベルのリストを使って予測します。 また、Sauer-Shelah-Perles Lemmaのオンライン版を含むリスト学習クラスに対する組合せ結果も確立した。 この結果は、適応仮説(つまり、メモリを持つ関数)を表現できる仮説クラスの一般化と、マージンを持つ線形分類のようなデータ依存的な仮定をモデル化するパターンクラスの枠組みの中で述べられている。

We study multiclass online prediction where the learner can predict using a list of multiple labels (as opposed to just one label in the traditional setting). We characterize learnability in this model using the $b$-ary Littlestone dimension. This dimension is a variation of the classical Littlestone dimension with the difference that binary mistake trees are replaced with $(k+1)$-ary mistake trees, where $k$ is the number of labels in the list. In the agnostic setting, we explore different scenarios depending on whether the comparator class consists of single-labeled or multi-labeled functions and its tradeoff with the size of the lists the algorithm uses. We find that it is possible to achieve negative regret in some cases and provide a complete characterization of when this is possible. As part of our work, we adapt classical algorithms such as Littlestone's SOA and Rosenblatt's Perceptron to predict using lists of labels. We also establish combinatorial results for list-learnable classes, including an list online version of the Sauer-Shelah-Perles Lemma. We state our results within the framework of pattern classes -- a generalization of hypothesis classes which can represent adaptive hypotheses (i.e. functions with memory), and model data-dependent assumptions such as linear classification with margin.
翻訳日:2023-05-19 19:44:49 公開日:2023-05-18
# 注意! in-attentive agentの動的認識論的論理モデル

Attention! Dynamic Epistemic Logic Models of (In)attentive Agents ( http://arxiv.org/abs/2303.13494v2 )

ライセンス: Link先を確認
Gaia Belardinelli and Thomas Bolander(参考訳) 注意は、私たちが観察する情報を制限し、選択する重要な認知能力である。 Bolander et al. (2016) による以前の研究は、エージェントが完全に注意されるか、全く注意を払わない動的てんかん論理(DEL)に基づく注意モデルを提案する。 不注意なエージェントが何も起こらないという現実的な特徴を導入する一方で、モデルは最も重要な注意の側面、すなわち選択性を表すものではない。 本稿では,原子式の部分集合に注意を払う一般化を提案する。 提案的注意のための対応する論理を導入し,その公理化が健全かつ完全であることを示す。 その後、我々は、何も起こらないと仮定する代わりに、彼らが出席できなかったものの特定の真理値(意図しない原子に関するある種の先例)にデフォルトとなる不注意なエージェントを説明するためにフレームワークを拡張した。 この特徴は、意図しない失明現象をより認知的に妥当な表現を可能にし、エージェントは目立たずで予期せぬ出来事に出席できなかったために偽の信念に終止符を打つ。 モデルのどちらのバージョンも、いくつかの明確なエッジ原則に基づいて、適切なDELイベントモデルを通じて注意に基づく学習を定義する。 このようなイベントモデルのサイズは、エージェント数と原子数の両方で指数関数的に増加するが、我々は、イベントモデルを記述するための新しい論理言語を導入し、この言語を使うことで、我々のイベントモデルはエージェント数と原子数で線形に表現できることを示す。 さらに、この言語を使ったイベントモデルの表現は、前述のエッジ原則の直接的な形式化によって実現されます。

Attention is the crucial cognitive ability that limits and selects what information we observe. Previous work by Bolander et al. (2016) proposes a model of attention based on dynamic epistemic logic (DEL) where agents are either fully attentive or not attentive at all. While introducing the realistic feature that inattentive agents believe nothing happens, the model does not represent the most essential aspect of attention: its selectivity. Here, we propose a generalization that allows for paying attention to subsets of atomic formulas. We introduce the corresponding logic for propositional attention, and show its axiomatization to be sound and complete. We then extend the framework to account for inattentive agents that, instead of assuming nothing happens, may default to a specific truth-value of what they failed to attend to (a sort of prior concerning the unattended atoms). This feature allows for a more cognitively plausible representation of the inattentional blindness phenomenon, where agents end up with false beliefs due to their failure to attend to conspicuous but unexpected events. Both versions of the model define attention-based learning through appropriate DEL event models based on a few and clear edge principles. While the size of such event models grow exponentially both with the number of agents and the number of atoms, we introduce a new logical language for describing event models syntactically and show that using this language our event models can be represented linearly in the number of agents and atoms. Furthermore, representing our event models using this language is achieved by a straightforward formalisation of the aforementioned edge principles.
翻訳日:2023-05-19 19:44:27 公開日:2023-05-18
# コンピュータグラフィックス画像の主観的・客観的品質評価

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images ( http://arxiv.org/abs/2303.08050v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Tao Wang, Wei Lu, Quan Zhou, Jun he, Qiyuan Wang, Xiongkuo Min, and Guangtao Zhai(参考訳) コンピュータグラフィックス画像(CGI)は、コンピュータプログラムによって人工的に生成され、ゲームやストリーミングメディアなどの様々なシナリオにおいて広く認識されている。 実際には、CGIの品質は、生産期間中のレンダリングの低下、マルチメディアアプリケーションの送信時に必然的な圧縮アーティファクト、構成と設計の低下による美的品質の低下に常に悩まされている。 しかし、コンピュータグラフィックス画像品質評価(CGIQA)の課題に対処する研究はほとんど行われていない。 ほとんどの画像品質評価(IQA)メトリクスは、自然シーン画像(NSI)のために開発され、合成歪みを持つNSIからなるデータベース上で検証される。 NSIとCGIの品質評価のギャップを埋めるため,6,000のCGI(CGIQA-6k)からなる大規模CGIQAデータベースを構築し,CGIの正確な知覚評価を得るために,よく制御された実験環境において主観的な実験を行う。 そこで本研究では,歪みと審美的品質の表現を両立し,効果的な深層学習に基づくno-reference (nr) iqaモデルを提案する。 実験の結果,提案手法は構築されたCGIQA-6kデータベースや他のCGIQA関連データベース上で,最先端のNR IQA手法よりも優れていた。 データベースは、さらなる研究を促進するためにリリースされる。

Computer graphics images (CGIs) are artificially generated by means of computer programs and are widely perceived under various scenarios, such as games, streaming media, etc. In practice, the quality of CGIs consistently suffers from poor rendering during production, inevitable compression artifacts during the transmission of multimedia applications, and low aesthetic quality resulting from poor composition and design. However, few works have been dedicated to dealing with the challenge of computer graphics image quality assessment (CGIQA). Most image quality assessment (IQA) metrics are developed for natural scene images (NSIs) and validated on databases consisting of NSIs with synthetic distortions, which are not suitable for in-the-wild CGIs. To bridge the gap between evaluating the quality of NSIs and CGIs, we construct a large-scale in-the-wild CGIQA database consisting of 6,000 CGIs (CGIQA-6k) and carry out the subjective experiment in a well-controlled laboratory environment to obtain the accurate perceptual ratings of the CGIs. Then, we propose an effective deep learning-based no-reference (NR) IQA model by utilizing both distortion and aesthetic quality representation. Experimental results show that the proposed method outperforms all other state-of-the-art NR IQA methods on the constructed CGIQA-6k database and other CGIQA-related databases. The database will be released to facilitate further research.
翻訳日:2023-05-19 19:43:36 公開日:2023-05-18
# 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン

Robust incremental learning pipelines for temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v4 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,時間表データセット上での回帰タスクに対する頑健な逐次学習モデルを提案する。 一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、データの分散シフトに対応するために、マシンラーニングモデルがインクリメンタルに構築される。 自己相似性(self-similarity)の概念を用いることで、このモデルは2つの基本的な機械学習モデルの構築ブロック、グラデーション強化決定木、ニューラルネットワークを使用して、複雑なモデルを構築する。 モデルは、特殊なニューラルアーキテクチャを使用しず、各モデル構築ブロックを独立して並列にトレーニングできるため、効率的である。 本モデルは,レジーム変化,脂肪尾分布,低信号対雑音比などの悪条件下でのロバストな性能を示すことが実証された。 モデルロバスト性は、異なるハイパーパラメータと複雑さの下で研究される。

In this paper, we present a robust incremental learning model for regression tasks on temporal tabular datasets. Using commonly available tabular and time-series prediction models as building blocks, a machine-learning model is built incrementally to adapt to distributional shifts in data. Using the concept of self-similarity, the model uses only two basic building blocks of machine learning models, gradient boosting decision trees and neural networks to build models for any required complexity. The model is efficient as no specialised neural architectures are used and each model building block can be independently trained in parallel. The model is demonstrated to have robust performances under adverse situations such as regime changes, fat-tailed distributions and low signal-to-noise ratios. Model robustness are studied under different hyper-parameters and complexities.
翻訳日:2023-05-19 19:43:09 公開日:2023-05-18
# 対人訓練と対人訓練の併用

Combining Adversaries with Anti-adversaries in Training ( http://arxiv.org/abs/2304.12550v2 )

ライセンス: Link先を確認
Xiaoling Zhou, Nan Yang, Ou Wu(参考訳) 敵対的トレーニングは、ディープニューラルネットワークの堅牢性を改善する効果的な学習技術である。 本研究では,異なるサンプルが異なる摂動方向(対向方向,反対向方向)と様々な摂動境界を持つことができるというより一般的な摂動範囲の下で,対向学習が深層学習モデルに与える影響を理論的に検討した。 理論的な考察から,学習における反逆者(反逆者摂動のサンプル)と反逆者(反逆者摂動のサンプル)の組み合わせは,いくつかの典型的な学習シナリオ(例えば,ノイズラベル学習と不均衡学習)において,クラス間の公正性向上と頑健性と一般化のトレードオフの改善に有効であることが示唆された。 本研究の理論的知見に基づいて,各トレーニングサンプルに異なる境界を持つ敵と反敵を結合した,より一般的な学習目標を示す。 メタ学習は組み合わせ重量を最適化するために利用される。 異なる学習シナリオにおけるベンチマークデータセットの実験により,提案手法の有効性が検証された。

Adversarial training is an effective learning technique to improve the robustness of deep neural networks. In this study, the influence of adversarial training on deep learning models in terms of fairness, robustness, and generalization is theoretically investigated under more general perturbation scope that different samples can have different perturbation directions (the adversarial and anti-adversarial directions) and varied perturbation bounds. Our theoretical explorations suggest that the combination of adversaries and anti-adversaries (samples with anti-adversarial perturbations) in training can be more effective in achieving better fairness between classes and a better tradeoff between robustness and generalization in some typical learning scenarios (e.g., noisy label learning and imbalance learning) compared with standard adversarial training. On the basis of our theoretical findings, a more general learning objective that combines adversaries and anti-adversaries with varied bounds on each training sample is presented. Meta learning is utilized to optimize the combination weights. Experiments on benchmark datasets under different learning scenarios verify our theoretical findings and the effectiveness of the proposed methodology.
翻訳日:2023-05-19 19:35:28 公開日:2023-05-18
# meta ai video similarity challengeの3位ソリューション

3rd Place Solution to Meta AI Video Similarity Challenge ( http://arxiv.org/abs/2304.11964v2 )

ライセンス: Link先を確認
Shuhei Yokoo, Peifei Zhu, Junki Ishikawa, Rintaro Hasegawa(参考訳) 本稿では,ビデオコピーの検出を目的としたコンペティションとして,Descriptor Track and Matching Track of the Meta AI Video similarity Challenge (VSC2022)の3位ソリューションを提案する。 提案手法は既存の画像コピー検出技術に基づいており,ビデオデータの性質を活用するためのいくつかの戦略が組み込まれている。 提案手法を用いることで,ベースライン結果と比較して精度が大幅に向上した(ディスクリプタトラック: 38%改善,マッチングトラック: 60%改善)。 私たちのコードはここで公開されている。 https://github.com/line/meta-ai-video- similarity-challenge-3rd-place-solution

This paper presents our 3rd place solution in both Descriptor Track and Matching Track of the Meta AI Video Similarity Challenge (VSC2022), a competition aimed at detecting video copies. Our approach builds upon existing image copy detection techniques and incorporates several strategies to exploit on the properties of video data, resulting in a simple yet powerful solution. By employing our proposed method, we achieved substantial improvements in accuracy compared to the baseline results (Descriptor Track: 38% improvement, Matching Track: 60% improvement). Our code is publicly available here: https://github.com/line/Meta-AI-Video-Similarity-Challenge-3rd-Place-Solution
翻訳日:2023-05-19 19:35:07 公開日:2023-05-18
# BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる

The Disharmony between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation between Activations ( http://arxiv.org/abs/2304.11692v3 )

ライセンス: Link先を確認
Inyoung Paik, Jaesik Choi(参考訳) バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。 本研究では,グラデーション爆発の発生と緩和を理論的および経験的に分析し,アクティベーション間の相関が,トレーニングを通してグラデーション爆発が持続するのを防ぐ上で重要な役割を担っていることを見出した。 最後に,我々の観測に基づいて,トレーニング不安定性を効果的に制御する適応学習率アルゴリズムを提案する。

Deep neural networks, which employ batch normalization and ReLU-like activation functions, suffer from instability in the early stages of training due to the high gradient induced by temporal gradient explosion. In this study, we analyze the occurrence and mitigation of gradient explosion both theoretically and empirically, and discover that the correlation between activations plays a key role in preventing the gradient explosion from persisting throughout the training. Finally, based on our observations, we propose an improved adaptive learning rate algorithm to effectively control the training instability.
翻訳日:2023-05-19 19:34:54 公開日:2023-05-18
# 目視: 注意に基づく読解時の人間のスキャンパス予測のためのデュアルシーケンスモデル

Eyettention: An Attention-based Dual-Sequence Model for Predicting Human Scanpaths during Reading ( http://arxiv.org/abs/2304.10784v2 )

ライセンス: Link先を確認
Shuwen Deng, David R. Reich, Paul Prasse, Patrick Haller, Tobias Scheffer and Lena A. J\"ager(参考訳) 読書中の眼球運動は、読み手の認知過程と読み上げられているテキストの特徴の両方について洞察を与える。 したがって、読書におけるスカンパスの分析は、言語学よりも認知科学からコンピュータ科学まで、様々な分野に注目が集まっている。 特に、視線追跡読取データは、機械学習に基づく言語モデルがより人間らしい言語行動を示す可能性を秘めていると論じられている。 しかし、人間の読みにおけるスカンパスのモデル化における主な課題の1つは、その二列性である: 単語は言語の文法規則に従って順序づけされるが、固定は時系列的に順序付けされる。 人間は左から右へ厳密に読み込むのではなく、単語をスキップまたは修正し、前の単語に回帰するので、言語と時間列のアライメントは自明ではない。 本稿では,単語列と固定の時系列列を同時に処理する最初の二重系列モデルであるeyettentionを開発した。 2つのシーケンスのアライメントは、クロスシーケンスアテンション機構によって達成される。 眼球運動はスキャンパスの予測において最先端のモデルを上回る。 異なる言語に対する広範囲な内部およびデータ集合の評価を提供する。 アブレーション研究と定性的分析は、モデルの振舞いの深い理解を支持する。

Eye movements during reading offer insights into both the reader's cognitive processes and the characteristics of the text that is being read. Hence, the analysis of scanpaths in reading have attracted increasing attention across fields, ranging from cognitive science over linguistics to computer science. In particular, eye-tracking-while-reading data has been argued to bear the potential to make machine-learning-based language models exhibit a more human-like linguistic behavior. However, one of the main challenges in modeling human scanpaths in reading is their dual-sequence nature: the words are ordered following the grammatical rules of the language, whereas the fixations are chronologically ordered. As humans do not strictly read from left-to-right, but rather skip or refixate words and regress to previous words, the alignment of the linguistic and the temporal sequence is non-trivial. In this paper, we develop Eyettention, the first dual-sequence model that simultaneously processes the sequence of words and the chronological sequence of fixations. The alignment of the two sequences is achieved by a cross-sequence attention mechanism. We show that Eyettention outperforms state-of-the-art models in predicting scanpaths. We provide an extensive within- and across-data set evaluation on different languages. An ablation study and qualitative analysis support an in-depth understanding of the model's behavior.
翻訳日:2023-05-19 19:34:39 公開日:2023-05-18
# deir: 識別モデルに基づく内因性報酬による効率的かつロバストな探索

DEIR: Efficient and Robust Exploration through Discriminative-Model-Based Episodic Intrinsic Rewards ( http://arxiv.org/abs/2304.10770v2 )

ライセンス: Link先を確認
Shanchuan Wan, Yujin Tang, Yingtao Tian, Tomoyuki Kaneko(参考訳) 探索は強化学習(RL)の基本的側面であり、その有効性はRLアルゴリズムの性能決定要因である。 近年の研究では、観察のノベルティから推定した内在的な報酬で探索を促進する効果が示されている。 しかし、環境の確率性とエージェントの行動の両方が観察に影響を与える可能性があるため、観察の新規性と探索の間にはギャップがある。 探索行動を正確に評価するために,エージェント探索に寄与する新規性に主にスケールする条件付き相互情報項で内在的な報酬を理論的に導出する新しい手法であるdeirを提案し,その報酬を識別的フォワードモデルで実装する。 MiniGridの標準および高度な探査作業に関する大規模な実験は、DEIRがベースラインよりもすぐれたポリシーを学習していることを示している。 プロッゲンの評価は,本質的報酬の一般化能力と一般適用性の両方を示す。 ソースコードはhttps://github.com/swan-utokyo/deirで入手できます。

Exploration is a fundamental aspect of reinforcement learning (RL), and its effectiveness is a deciding factor in the performance of RL algorithms, especially when facing sparse extrinsic rewards. Recent studies have shown the effectiveness of encouraging exploration with intrinsic rewards estimated from novelties in observations. However, there is a gap between the novelty of an observation and an exploration, as both the stochasticity in the environment and the agent's behavior may affect the observation. To evaluate exploratory behaviors accurately, we propose DEIR, a novel method in which we theoretically derive an intrinsic reward with a conditional mutual information term that principally scales with the novelty contributed by agent explorations, and then implement the reward with a discriminative forward model. Extensive experiments on both standard and advanced exploration tasks in MiniGrid show that DEIR quickly learns a better policy than the baselines. Our evaluations on ProcGen demonstrate both the generalization capability and the general applicability of our intrinsic reward. Our source code is available at https://github.com/swan-utokyo/deir.
翻訳日:2023-05-19 19:34:19 公開日:2023-05-18
# 最小コストアグリゲーションによるネットワーク量子ネットワーク

Networking quantum networks with minimum cost aggregation ( http://arxiv.org/abs/2304.08921v2 )

ライセンス: Link先を確認
Koji Azuma(参考訳) 量子インターネットは、分散量子センシングと大規模量子コンピュータネットワーク、および世界中の任意のクライアント間の量子通信を実現することを約束している。 主ビルディングブロックは、距離に関係なく、固定エラーのあるクライアント間での絡み合い、絡み合ったビット(ビット)の効率的な分布である。 実際には、これは従来の通信で現在のインターネットが行うことと類似した、複数の量子ネットワークで実現されるべきである。 しかし、長距離のebitの効率的な分布のための既存の量子リピータスキームは、線形ネットワーク上でのみ動作する。 さらに、任意の位相を持つ量子ネットワークからそのような線形ネットワークを選択する方法の処方もなかった。 本稿では,任意のトポロジで量子ネットワークを集約し,クライアントに距離に関係なく効率よくエラーを発生させる方法を提案する。 このレシピは、最小コスト集約とネットワーク結合という2つの新しい概念の組み合わせに基づいている。 我々のレシピは、ネットワーク自己組織型量子ネットワークのための量子インターネットプロトコルの設計の基礎を成し、グローバルな量子インターネットを構築する。

A quantum internet holds promise for achieving distributed quantum sensing and large-scale quantum computer networks, as well as quantum communication among arbitrary clients all over the globe. The main building block is efficient distribution of entanglement, entangled bits (ebits), between clients with fixed error, irrespective of their distance. In practice, this should be accomplished across multiple quantum networks, analogously to what the current Internet does in conventional communication. However, existing quantum repeater schemes for efficient distribution of ebits over long distances work only on linear networks. Besides, there was no prescription on how to choose such linear networks from quantum networks with arbitrary topology. Here we present a practical recipe on how to aggregate quantum networks with arbitrary topology in order to give clients ebits with fixed error efficiently, regardless of their distance. This recipe is based on combination of two new concepts of minimum cost aggregation and network concatenation. Our recipe forms the basis of designing a quantum internet protocol for networking self-organizing quantum networks to make a global-scale quantum internet.
翻訳日:2023-05-19 19:34:00 公開日:2023-05-18
# chatgptにおけるマルチステップ脱獄プライバシー攻撃

Multi-step Jailbreaking Privacy Attacks on ChatGPT ( http://arxiv.org/abs/2304.05197v2 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Wei Fan, Mingshi Xu, Jie Huang, Fanpu Meng, Yangqiu Song(参考訳) 大規模言語モデル(llm)の急速な進歩により、下流のnlpタスクの多くは適切なプロンプトによってうまく解決できる。 モデル開発者や研究者は、LDMから有害なコンテンツを生成するのを避けるためにダイアログ安全性に懸命に取り組んでいますが、AIGC(AIGC)を人間の利益のために活用することは依然として困難です。 強力なLLMは、様々なドメインからの既存のテキストデータ(例えば、GPT-3は45TBのテキストで訓練されている)を盗んでいるため、プライベート情報がトレーニングデータに含まれるかどうか、これらのLLMとその下流アプリケーションが提供するプライバシー上の脅威を疑うのは当然である。 本稿では,OpenAI の ChatGPT と ChatGPT によって強化された New Bing によるプライバシの脅威を調査し,アプリケーション統合 LLM が新たなプライバシの脅威を引き起こすことを示す。 この目的のために,我々の主張を裏付ける広範な実験を行い,LLMのプライバシーへの影響について論じる。

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given appropriate prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI's ChatGPT and the New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause new privacy threats. To this end, we conduct extensive experiments to support our claims and discuss LLMs' privacy implications.
翻訳日:2023-05-19 19:33:43 公開日:2023-05-18
# H2RBox-v2:水平箱監視物体検出の促進のための対称性の導入

H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection ( http://arxiv.org/abs/2304.04403v3 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Yue Zhou, Gefan Zhang, Feipeng Da, Junchi Yan(参考訳) 自律走行やリモートセンシングなどのオブジェクト指向物体検出の需要が急速に高まっている中、(現在)より容易に利用できる水平ボックス(HBox)から回転箱(RBox)を学習するための弱い教師付き検出器H2RBoxを含むパラダイムが提案されている。 本稿では,h2rbox-v2を用いて,hbox-supervised と rbox-supervised oriented object のギャップを埋める。 具体的には、H2RBoxに似た弱い教師付きネットワーク分岐と、視覚オブジェクトに固有の対称性から向きを学習する新しい自己教師付きブランチを用いて、リフレクション対称性を利用する。 この検出器はさらに安定化され、角周期性などの周辺問題に対処するための実用的な技術によって強化される。 我々の知る限り、H2RBox-v2は指向オブジェクト検出のための最初の対称性を意識した自己監督パラダイムである。 特に,H2RBoxと比較して,低品質なアノテーションやトレーニングデータへの感受性が低い。 具体的には、H2RBox-v2は、ローテーションアノテーション訓練済みの -- ローテーションFCOSに非常に近いパフォーマンスを達成する。 1)DOTA-v1.0/1.5/2.0:72.31%/64.76%/50.33%対72.44%/64.53%/51.77% 2)HRSC:89.66%対88.99% 3)FAIR1M:42.27%対41.25%。

With the rapidly increasing demand for oriented object detection e.g. in autonomous driving and remote sensing, the recently proposed paradigm involving weakly-supervised detector H2RBox for learning rotated box (RBox) from the (currently) more readily-available horizontal box (HBox) has shown promise. This paper presents H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. Specifically, we propose to leverage the reflection symmetry via flip and rotate consistencies, using a weakly-supervised network branch similar to H2RBox, together with a novel self-supervised branch that learns orientations from the symmetry inherent in visual objects. The detector is further stabilized and enhanced by practical techniques to cope with peripheral issues e.g. angular periodicity. To our best knowledge, H2RBox-v2 is the first symmetry-aware self-supervised paradigm for oriented object detection. In particular, our method shows less susceptibility to low-quality annotation and insufficient training data compared to H2RBox. Specifically, H2RBox-v2 achieves very close performance to a rotation annotation trained counterpart -- Rotated FCOS: 1) DOTA-v1.0/1.5/2.0: 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%; 2) HRSC: 89.66% vs. 88.99%; 3) FAIR1M: 42.27% vs. 41.25%.
翻訳日:2023-05-19 19:33:21 公開日:2023-05-18
# 各種ニューラルマシン翻訳のための統一モデル学習

Unified Model Learning for Various Neural Machine Translation ( http://arxiv.org/abs/2305.02777v2 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen and Jie Zhou(参考訳) 既存のニューラルマシン翻訳(nmt)の研究は主に、異なるタスク(例えば、文書翻訳とチャット翻訳)のデータに基づくデータセット固有のモデルの開発に焦点を当てている。 データセット固有のモデルは素晴らしいパフォーマンスを達成したが、各データセットが設計、トレーニング、保存されるモデルを必要とするため、面倒である。 本研究の目的は,これらの翻訳タスクをより一般的な設定に統一することである。 具体的には,異なるタスクからのデータを扱うnmt (umlnmt) の統一モデル学習モデルである ‘versatile' モデルを提案する。 統一的な学習を通じてUMLNMTは、インテリジェントなオンデマンド翻訳を実装し、複数のタスクを共同でトレーニングすることができる。 文翻訳、文書翻訳、チャット翻訳を含む7つの広く使われている翻訳タスクにおいて、UMLNMTはデータセット固有のモデルよりも大幅に改善され、モデル展開コストが大幅に削減された。 さらにUMLNMTは、最先端のデータセット固有のメソッドよりも、競争力や性能が向上する。 人的評価と詳細な分析は,多様かつ高品質な翻訳生成へのアプローチの優位性を示すものである。 さらに,中国語と英語の文対が186kの有名なアフォリスムに関する新しいジャンル翻訳データセットを提供する。

Existing neural machine translation (NMT) studies mainly focus on developing dataset-specific models based on data from different tasks (e.g., document translation and chat translation). Although the dataset-specific models have achieved impressive performance, it is cumbersome as each dataset demands a model to be designed, trained, and stored. In this work, we aim to unify these translation tasks into a more general setting. Specifically, we propose a ``versatile'' model, i.e., the Unified Model Learning for NMT (UMLNMT) that works with data from different tasks, and can translate well in multiple settings simultaneously, and theoretically it can be as many as possible. Through unified learning, UMLNMT is able to jointly train across multiple tasks, implementing intelligent on-demand translation. On seven widely-used translation tasks, including sentence translation, document translation, and chat translation, our UMLNMT results in substantial improvements over dataset-specific models with significantly reduced model deployment costs. Furthermore, UMLNMT can achieve competitive or better performance than state-of-the-art dataset-specific methods. Human evaluation and in-depth analysis also demonstrate the superiority of our approach on generating diverse and high-quality translations. Additionally, we provide a new genre translation dataset about famous aphorisms with 186k Chinese->English sentence pairs.
翻訳日:2023-05-19 19:27:54 公開日:2023-05-18
# CLUSTSEG: ユニバーサルセグメンテーションのためのクラスタリング

CLUSTSEG: Clustering for Universal Segmentation ( http://arxiv.org/abs/2305.02187v2 )

ライセンス: Link先を確認
James Liang, Tianfei Zhou, Dongfang Liu, Wenguan Wang(参考訳) 本稿では,様々な画像分割タスク(スーパーピクセル,セマンティクス,インスタンス,panopticなど)に取り組む,一般的なトランスフォーマティブベースのフレームワークであるclustsegを提案する。 1) クラスタセンタは、タスク固有の要求(例えば、インスタンスやカテゴリレベルの特徴性)に対して、アーキテクチャを変更することなく、明確に対処できるように、異種に初期化されている。 2) クロスアテンション方式で形式化された画素クラスタ割り当ては、クラスタセンター更新と代替されるが、追加パラメータは学習しない。 これらの革新はCLUSTSEGをEMクラスタリングに密接に結び付け、上記のセグメンテーションタスクで優れた結果をもたらす透過的で強力なフレームワークにする。

We present CLUSTSEG, a general, transformer-based framework that tackles different image segmentation tasks (i.e., superpixel, semantic, instance, and panoptic) through a unified neural clustering scheme. Regarding queries as cluster centers, CLUSTSEG is innovative in two aspects:1) cluster centers are initialized in heterogeneous ways so as to pointedly address task-specific demands (e.g., instance- or category-level distinctiveness), yet without modifying the architecture; and 2) pixel-cluster assignment, formalized in a cross-attention fashion, is alternated with cluster center update, yet without learning additional parameters. These innovations closely link CLUSTSEG to EM clustering and make it a transparent and powerful framework that yields superior results across the above segmentation tasks.
翻訳日:2023-05-19 19:27:34 公開日:2023-05-18
# アンリミフォーマ:アンリミット長入力長長変圧器

Unlimiformer: Long-Range Transformers with Unlimited Length Input ( http://arxiv.org/abs/2305.01625v2 )

ライセンス: Link先を確認
Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley(参考訳) トランスの提案以来、これらのモデルは入力中の全てのトークンに出席する必要があるため、有界な入力長に限定されてきた。 本研究では,既存のトレーニング済みエンコーダデコーダ変換器をラップし,k-nearest-neighbor(kNN)インデックスにクロスアテンション計算をオフロードする一般手法であるUnlimiformerを提案する。 このkNNインデックスはGPUまたはCPUメモリのいずれかに保持され、サブ線形時間でクエリされる。この方法では、事実上無制限な入力シーケンスをインデックスすることができる。 いくつかの長期文書および書籍要約ベンチマークでUnlimiformerを評価し,BookSumデータセットから500kのトークン長入力を,テスト時に入力トランケーションなしで処理可能であることを示した。 我々は、Unlimiformerが、学習重量を増すことなく、コードを変更することなく無制限な入力に拡張することで、BARTやLongformerのような事前学習モデルを改善することを示した。 コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。

Since the proposal of transformers, these models have been limited to bounded input lengths, because of their need to attend to every token in the input. In this work, we propose Unlimiformer: a general approach that wraps any existing pretrained encoder-decoder transformer, and offloads the cross-attention computation to a single k-nearest-neighbor (kNN) index, while the returned kNN distances are the attention dot-product scores. This kNN index can be kept on either the GPU or CPU memory and queried in sub-linear time; this way, we can index practically unlimited input sequences, while every attention head in every decoder layer retrieves its top-k keys, instead of attending to every key. We evaluate Unlimiformer on several long-document and book-summarization benchmarks, showing that it can process even 500k token-long inputs from the BookSum dataset, without any input truncation at test time. We demonstrate that Unlimiformer improves pretrained models such as BART and Longformer by extending them to unlimited inputs without additional learned weights and without modifying their code. We make our code and models publicly available at https://github.com/abertsch72/unlimiformer .
翻訳日:2023-05-19 19:27:16 公開日:2023-05-18
# 量子強化変分オートエンコーダによるハード分布の学習

Learning hard distributions with quantum-enhanced Variational Autoencoders ( http://arxiv.org/abs/2305.01592v2 )

ライセンス: Link先を確認
Anantha Rao, Dhiraj Madan, Anupama Ray, Dhinakaran Vinayagamurthy, M.S.Santhanam(参考訳) 量子生成機械学習における重要な課題は、多体量子システムの測定の確率分布をモデル化することである。 GAN(generative adversarial network)やVAE(variantal autoencoder)のような古典的生成モデルは、高い忠実度で積状態の分布をモデル化することができるが、絡み合った状態をモデル化するために指数的な数のパラメータを必要とする。 本稿では,量子相関を用いた量子古典ハイブリッドモデルである量子拡張型VAE(QeVAE)を導入する。 QeVAEの出力分布に対する閉形式表現を提供する。 また、QeVAEは4量子ビットや8量子ビットの量子回路状態、ハールランダム状態、量子キックローター状態など、量子状態のいくつかのクラスにおいて古典的モデルよりも優れており、いくつかの状態では2倍以上の忠実さを持つことを示す。 最後に、トレーニングされたモデルは、IBMq Manila量子コンピュータ上で実行された場合、古典的モデルよりも優れていた。 我々の研究は、量子生成学習アルゴリズムの新たな応用と高次元量子状態の測定分布のキャラクタリゼーションの道を開いた。

An important task in quantum generative machine learning is to model the probability distribution of measurements of many-body quantum systems. Classical generative models, such as generative adversarial networks (GANs) and variational autoencoders (VAEs), can model the distributions of product states with high fidelity, but fail or require an exponential number of parameters to model entangled states. In this paper, we introduce a quantum-enhanced VAE (QeVAE), a generative quantum-classical hybrid model that uses quantum correlations to improve the fidelity over classical VAEs, while requiring only a linear number of parameters. We provide a closed-form expression for the output distributions of the QeVAE. We also empirically show that the QeVAE outperforms classical models on several classes of quantum states, such as 4-qubit and 8-qubit quantum circuit states, haar random states, and quantum kicked rotor states, with a more than 2x increase in fidelity for some states. Finally, we find that the trained model outperforms the classical model when executed on the IBMq Manila quantum computer. Our work paves the way for new applications of quantum generative learning algorithms and characterizing measurement distributions of high-dimensional quantum states.
翻訳日:2023-05-19 19:26:53 公開日:2023-05-18
# ARBEx:ロバスト表情学習のための信頼性バランスを考慮した注意的特徴抽出

ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning ( http://arxiv.org/abs/2305.01486v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Karlo \v{S}erbetar, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae(参考訳) 本稿では,表情学習(fel)タスクにおけるクラス分布,バイアス,不確実性に対処すべく,信頼性のバランスをとるビジョントランスフォーマによって駆動される,新しい注意的特徴抽出フレームワークであるarbexを提案する。 ウィンドウベースのクロスアテンションvitと共に,データの事前処理とリファインメントの手法を補強し,最善のデータを絞り込む。 また,ラベル分布を持つ埋め込み空間における学習可能なアンカー点とマルチヘッド自己アテンション機構を用いて,アンカー点,注意点,信頼度値を活用し,ラベル予測のレジリエンスを高める,信頼性バランスを伴う弱い予測に対するパフォーマンスを最適化する。 適切なラベル分類とモデルの識別能力向上のために,アンカー損失を導入し,アンカーポイント間のマージンを増大させる。 さらに、トレーニング可能なマルチヘッド自己認識機構は、正確なラベルを特定する上で重要な役割を果たす。 このアプローチは予測の信頼性を向上させるための重要な要素を提供し、最終的な予測能力にかなりのポジティブな影響を及ぼす。 我々の適応モデルは、あらゆるディープニューラルネットワークと統合して、様々な認識タスクにおける課題をフォレストする。 我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models' discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.
翻訳日:2023-05-19 19:26:28 公開日:2023-05-18
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v3 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Haozhe Chi, Xindi Hu, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 新たなプロモータブルセグメンテーションタスクを設計し、オートマチックオールと手動プロンプトを含む2つのメインモードを通じて、事前訓練されたモデルを使用してゼロショットイメージセグメンテーションを保証した。 SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールにより、医療画像セグメンテーション(MIS)はより困難である。 一方、ゼロショットかつ効率的なMISは、アノテーション時間を大幅に短縮し、医用画像解析の開発を促進することができる。 したがってSAMは潜在的なツールであり、大規模な医療データセットのパフォーマンスをさらに検証する必要がある。 52のオープンソースデータセットを収集、ソートし、16のモダリティ、68のオブジェクト、553Kスライスを備えた大規模な医療セグメントデータセットを構築しました。 いわゆるCOSMOS 553Kデータセット上で,異なるSAMテスト戦略の包括的な分析を行った。 広範な実験により、SAMは医療画像の物体知覚のためのポイントやボックスなどの手動のヒントで、あらゆるモードと比較して、即時モードでのパフォーマンスが向上することが検証された。 加えて、SAMは特定のオブジェクトやモダリティにおいて顕著なパフォーマンスを示すが、不完全あるいは他の状況では完全に失敗する。 最後に,異なる因子(例えば,セグメンテーション対象のフーリエに基づく境界複雑性とサイズ)がSAMのセグメンテーション性能に与える影響を分析する。 広範な実験によりSAMのゼロショットセグメンテーション能力はMISに直接適用するには不十分であることが確認された。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It designed a novel promotable segmentation task, ensuring zero-shot image segmentation using the pre-trained model via two main modes including automatic everything and manual prompt. SAM has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging due to the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. Meanwhile, zero-shot and efficient MIS can well reduce the annotation time and boost the development of medical image analysis. Hence, SAM seems to be a potential tool and its performance on large medical datasets should be further validated. We collected and sorted 52 open-source datasets, and built a large medical segmentation dataset with 16 modalities, 68 objects, and 553K slices. We conducted a comprehensive analysis of different SAM testing strategies on the so-called COSMOS 553K dataset. Extensive experiments validate that SAM performs better with manual hints like points and boxes for object perception in medical images, leading to better performance in prompt mode compared to everything mode. Additionally, SAM shows remarkable performance in some specific objects and modalities, but is imperfect or even totally fails in other situations. Finally, we analyze the influence of different factors (e.g., the Fourier-based boundary complexity and size of the segmented objects) on SAM's segmentation performance. Extensive experiments validate that SAM's zero-shot segmentation capability is not sufficient to ensure its direct application to the MIS.
翻訳日:2023-05-19 19:25:18 公開日:2023-05-18
# ニューラルネットワークにおける非決定論的スタック

Nondeterministic Stacks in Neural Networks ( http://arxiv.org/abs/2304.12955v2 )

ライセンス: Link先を確認
Brian DuSell(参考訳) ニューラルネットワークは、言語を処理するコンピュータシステムの画期的な改善に寄与しているが、広く使われているニューラルネットワークアーキテクチャは、構文を処理する能力の限界をまだ示している。 この問題に対処するため、以前の研究では、ニューラルネットワークにスタックデータ構造を追加し、構文とスタック間の理論的接続からインスピレーションを得ている。 しかし、これらの手法は一度に1つのパースを追跡するように設計された決定論的スタックを用いるが、構文的曖昧さは解析に非決定論的スタックを必要とするが、言語では極めて一般的である。 この論文では,非決定論的スタックをニューラルネットワークに組み込む手法を提案することで,この不一致を解消する。 本研究では,動的プログラミングアルゴリズムを用いて,指数関数数を表す非決定論的プッシュダウンオートマトンを効率的にシミュレートする微分可能なデータ構造を開発する。 このモジュールをリカレントニューラルネットワーク(RNN)とトランスフォーマーの2つの主要なアーキテクチャに組み込む。 これにより、任意の文脈自由言語に対する形式的認識能力が向上し、決定論的文脈自由言語においてもトレーニングを支援することが示される。 経験的に、非決定論的スタックを持つニューラルネットワークは、理論的に最大解析の難しい言語を含む、以前のスタック推論モデルよりもずっと効果的に文脈自由言語を学習する。 また,非決定性スタックを付加したrnnでは,非コンテキストフリーパターンであるクロスシリアル依存性の学習など,驚くほど強力な動作が可能であることも示している。 自然言語モデリングの改善を実証し,構文一般化ベンチマークの分析を行う。 この作業は、より人間的な方法で構文の使用を学ぶシステムを構築するための重要なステップである。

Human language is full of compositional syntactic structures, and although neural networks have contributed to groundbreaking improvements in computer systems that process language, widely-used neural network architectures still exhibit limitations in their ability to process syntax. To address this issue, prior work has proposed adding stack data structures to neural networks, drawing inspiration from theoretical connections between syntax and stacks. However, these methods employ deterministic stacks that are designed to track one parse at a time, whereas syntactic ambiguity, which requires a nondeterministic stack to parse, is extremely common in language. In this dissertation, we remedy this discrepancy by proposing a method of incorporating nondeterministic stacks into neural networks. We develop a differentiable data structure that efficiently simulates a nondeterministic pushdown automaton, representing an exponential number of computations with a dynamic programming algorithm. We incorporate this module into two predominant architectures: recurrent neural networks (RNNs) and transformers. We show that this raises their formal recognition power to arbitrary context-free languages, and also aids training, even on deterministic context-free languages. Empirically, neural networks with nondeterministic stacks learn context-free languages much more effectively than prior stack-augmented models, including a language with theoretically maximal parsing difficulty. We also show that an RNN augmented with a nondeterministic stack is capable of surprisingly powerful behavior, such as learning cross-serial dependencies, a well-known non-context-free pattern. We demonstrate improvements on natural language modeling and provide analysis on a syntactic generalization benchmark. This work represents an important step toward building systems that learn to use syntax in more human-like fashion.
翻訳日:2023-05-19 19:24:20 公開日:2023-05-18
# リアルタイムASLジェスチャー認識のためのメディアパイプとCNN

Mediapipe and CNNs for Real-Time ASL Gesture Recognition ( http://arxiv.org/abs/2305.05296v2 )

ライセンス: Link先を確認
Rupesh Kumar, Ashutosh Bajpai, Ayush Sinha (Galgotias college of Engineering and Technology)(参考訳) 本稿では,現代のコンピュータビジョンと機械学習のアプローチを用いた,アメリカ手話(ASL)運動のリアルタイム同定システムについて述べる。 提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。 実験の結果、提案システムは99.95%の精度で全てのASLアルファベットを検出でき、聴覚障害者のための通信機器としての可能性を示している。 提案手法は手の動きが類似した手話にも適用可能であり, 難聴者の生活の質を高める可能性がある。 全体として、本研究は、mediapipeとcnnを用いたリアルタイム手話認識の有効性を示し、コンピュータビジョンと機械学習の分野で大きな貢献をした。

This research paper describes a realtime system for identifying American Sign Language (ASL) movements that employs modern computer vision and machine learning approaches. The suggested method makes use of the Mediapipe library for feature extraction and a Convolutional Neural Network (CNN) for ASL gesture classification. The testing results show that the suggested system can detect all ASL alphabets with an accuracy of 99.95%, indicating its potential for use in communication devices for people with hearing impairments. The proposed approach can also be applied to additional sign languages with similar hand motions, potentially increasing the quality of life for people with hearing loss. Overall, the study demonstrates the effectiveness of using Mediapipe and CNN for real-time sign language recognition, making a significant contribution to the field of computer vision and machine learning.
翻訳日:2023-05-19 19:17:35 公開日:2023-05-18
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v3 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Deqing Yang, Yanghua Xiao(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-19 19:17:22 公開日:2023-05-18
# ゼロショットスケッチに基づく画像検索を改善するAdapt and Align

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2305.05144v2 )

ライセンス: Link先を確認
Shiyin Dong, Mingrui Zhu, Nannan Wang, Heng Yang, Xinbo Gao(参考訳) ゼロショットスケッチに基づく画像検索(ZS-SBIR)は、スケッチや写真のドメイン横断性や、見えない画像分布と見えない画像分布のセマンティックなギャップによって困難である。 スケッチと写真ドメイン間で共有されるコンパクトな特徴空間を学習するために、様々な側面情報と学習戦略を持つ事前訓練されたモデルを微調整する以前の方法。 しかし、これらの取り組みはドメインを適応させ、見知らぬクラスから知識を移すのに不十分である。 本稿では,これらの課題に対処する効果的な `Adapt and Align'' アプローチを提案する。 具体的には、単純で軽量なドメインアダプタを挿入して、sketchドメインの新しい抽象概念を学び、クロスドメイン表現機能を改善する。 ゼロショットシナリオにおける画像-テキスト基盤モデル(例えばクリップ)の最近の進歩に触発されて、我々は学習した画像埋め込みをよりセマンティックなテキスト埋め込みで明示的に調整し、見慣れないクラスに望ましい知識伝達を達成する。 3つのベンチマークデータセットと2つの人気のあるバックボーンに関する大規模な実験は、検索精度と柔軟性の観点から、我々の手法の優位性を実証している。

Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that is shared between the sketch and photo domains and bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective ``Adapt and Align'' approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (e.g., CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.
翻訳日:2023-05-19 19:17:03 公開日:2023-05-18
# データカーネルを用いた基礎モデルの比較

Comparing Foundation Models using Data Kernels ( http://arxiv.org/abs/2305.05126v2 )

ライセンス: Link先を確認
Brandon Duderstadt and Hayden S. Helm and Carey E. Priebe(参考訳) 自己教師付き学習とニューラルネットワークのスケーリングの最近の進歩により、基盤モデルとして知られる大規模モデルの作成が可能になった。 基礎モデルを比較する現在のパラダイムは、さまざまなベンチマークデータセットの集約メトリクスでそれらを評価することです。 このモデルの比較方法は、選択された評価メトリックに大きく依存しており、理想的なメトリックが明確でないか、利用できない状況には不適当である。 本研究では,基礎モデルの埋め込み空間形状を直接比較する手法を提案する。 本手法はランダムグラフ理論に基礎を置き,1日当たりの埋め込み類似性の有効な仮説検証を可能にする。 さらに、人口レベルのモデル比較を容易にするために、我々の方法論を拡張できることを実証する。 特に,いくつかの下流メトリックと強く相関する距離関数を備えたモデルの多様体を,フレームワークがいかに誘導できるかを示す。 基礎モデルの分類学への第一歩として,この集団レベルのモデル比較の有用性について述べる。

Recent advances in self-supervised learning and neural network scaling have enabled the creation of large models, known as foundation models, which can be easily adapted to a wide range of downstream tasks. The current paradigm for comparing foundation models involves evaluating them with aggregate metrics on various benchmark datasets. This method of model comparison is heavily dependent on the chosen evaluation metric, which makes it unsuitable for situations where the ideal metric is either not obvious or unavailable. In this work, we present a methodology for directly comparing the embedding space geometry of foundation models, which facilitates model comparison without the need for an explicit evaluation metric. Our methodology is grounded in random graph theory and enables valid hypothesis testing of embedding similarity on a per-datum basis. Further, we demonstrate how our methodology can be extended to facilitate population level model comparison. In particular, we show how our framework can induce a manifold of models equipped with a distance function that correlates strongly with several downstream metrics. We remark on the utility of this population level model comparison as a first step towards a taxonomic science of foundation models.
翻訳日:2023-05-19 19:16:36 公開日:2023-05-18
# パラメトリック知識誘導による拡張型大規模言語モデル

Augmented Large Language Models with Parametric Knowledge Guiding ( http://arxiv.org/abs/2305.04757v2 )

ライセンス: Link先を確認
Ziyang Luo, Can Xu, Pu Zhao, Xiubo Geng, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang(参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えている。 しかし、それらの性能は、関連するデータへの限られた露出のために専門知識を必要とするドメイン固有のタスクに最適であるかもしれない。 さらに、API経由でのみアクセス可能なほとんどのSOTA (State-of-the-art) LLMの透明性の欠如は、ドメインカスタムデータによるさらなる微調整を妨げる。 さらに、LLMの所有者にプライベートデータを提供することで、データのプライバシの問題が発生する。 これらの課題に対処するために,LLMのパラメータを変更することなく,関連する知識にアクセスするための知識誘導モジュールを備えた新しいパラメトリック知識誘導(PKG)フレームワークを提案する。 私たちのpkgはオープンソースの"ホワイトボックス"言語モデルに基づいており、llmsが必要とする知識のオフラインメモリを可能にしています。 我々は、pkgフレームワークが、事実(+7.9%)、表(+11.9%)、医療(+3.0%)、マルチモーダル(+8.1%)の知識を必要とする、ドメイン知識集約型タスクにおける「ブラックボックス」llmの性能を向上させることを実証する。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP) with their impressive language understanding and generation capabilities. However, their performance may be suboptimal for domain-specific tasks that require specialized knowledge due to limited exposure to the related data. Additionally, the lack of transparency of most state-of-the-art (SOTA) LLMs, which can only be accessed via APIs, impedes further fine-tuning with domain custom data. Moreover, providing private data to the LLMs' owner leads to data privacy problems. To address these challenges, we propose the novel Parametric Knowledge Guiding (PKG) framework, which equips LLMs with a knowledge-guiding module to access relevant knowledge without altering the LLMs' parameters. Our PKG is based on open-source "white-box" language models, allowing offline memory of any knowledge that LLMs require. We demonstrate that our PKG framework can enhance the performance of "black-box" LLMs on a range of domain knowledge-intensive tasks that require factual (+7.9%), tabular (+11.9%), medical (+3.0%), and multimodal (+8.1%) knowledge.
翻訳日:2023-05-19 19:16:06 公開日:2023-05-18
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v2 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang(参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。 本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。 従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。 このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。 したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。 IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。 具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。

Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
翻訳日:2023-05-19 19:15:36 公開日:2023-05-18
# DisenBooth: 主観駆動型テキスト・画像生成のためのアイデンティティ保護型ディスタングル・チューニング

DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2305.03374v2 )

ライセンス: Link先を確認
Hong Chen, Yipeng Zhang, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu(参考訳) 近年注目されているテキスト記述に基づいて、対象者のカスタマイズ画像を生成することを目的としている。 既存の手法は主に、未学習の生成モデルを微調整することであり、そこではアイデンティティ関連情報とアイデンティティ関連情報が潜伏埋め込み空間に絡み合っている。 しかし、非常に絡み合った潜在埋め込みは、主題駆動のテキスト対画像生成の失敗に繋がる可能性がある。 i) 絡み合った埋め込みに隠されたアイデンティティ非関連情報が生成過程を支配し、それによって生成された画像は、所定のテキスト記述を無視しながら、無関係情報に大きく依存する。 (ii)エンタングル埋め込みに担う同一性関連情報は適切に保存できず、生成された画像内の被写体の同一性が変化する。 この問題に対処するため,本論文では,テキスト対画像生成のためのアイデンティティ保存型不等角調整フレームワークである disenbooth を提案する。 具体的には、DisenBoothはデノナイジング過程における事前訓練された拡散モデルを微調整する。 エンタングル埋め込みを使った従来の作品とは異なり、DisenBoothは代わりに、アンタングル埋め込みを使用して、対象のアイデンティティをそれぞれ保存し、アイデンティティ非関連情報をキャプチャする。 さらに,新たに開発した弱雑音化・対比埋め込み補助調律目標を設計,異角化を実現する。 大規模な実験により,本提案フレームワークは,ID保存埋め込みを用いた主観駆動型テキスト画像生成のベースラインモデルよりも優れていた。 さらに、ID保存の埋め込みとID関連の埋め込みを組み合わせることで、DisenBoothはより世代的柔軟性と制御性を示す。

Subject-driven text-to-image generation aims to generate customized images of the given subject based on the text descriptions, which has drawn increasing attention recently. Existing methods mainly resort to finetuning a pretrained generative model, where the identity-relevant information and the identity-irrelevant information are entangled in the latent embedding space. However, the highly entangled latent embedding may lead to the failure of subject-driven text-to-image generation as follows: (i) the identity-irrelevant information hidden in the entangled embedding may dominate the generation process, resulting in the generated images heavily dependent on the irrelevant information while ignoring the given text descriptions; (ii) the identity-relevant information carried in the entangled embedding can not be appropriately preserved, resulting in identity change of the subject in the generated images. To tackle the problems, we propose DisenBooth, an identity-preserving disentangled tuning framework for subject-driven text-to-image generation in this paper. Specifically, DisenBooth finetunes the pretrained diffusion model in the denoising process. Different from previous works that utilize an entangled embedding to denoise each image, DisenBooth instead utilizes disentangled embeddings to respectively preserve the subject identity and capture the identity-irrelevant information. We further design the novel weak denoising and contrastive embedding auxiliary tuning objectives to achieve the disentanglement. Extensive experiments show that our proposed DisenBooth framework outperforms baseline models for subject-driven text-to-image generation with the identity-preserved embedding. Additionally, by combining the identity-preserved embedding and identity-irrelevant embedding, DisenBooth demonstrates more generation flexibility and controllability.
翻訳日:2023-05-19 19:15:10 公開日:2023-05-18
# 一元的進化と周期的射影測定によるスピン配置ダイナミクスの複雑さ

Complexity of spin configurations dynamics due to unitary evolution and periodic projective measurements ( http://arxiv.org/abs/2305.03334v2 )

ライセンス: Link先を確認
Heitor P. Casagrande, Bo Xing, Marcello Dalmonte, Alex Rodriguez, Vinitha Balachandran, Dario Poletti(参考訳) 本研究では,多体量子系のハミルトニアンダイナミクスを,確率的セルオートマトンダイナミクスに繋がる周期的投影計測により検討する。 一連の測定値が与えられたとき、主成分分析を行うことで、それらのダイナミクスを特徴付ける。 システムのほぼ完全な記述に必要な主成分の数は、我々がpca複雑性と呼ぶ複雑性の尺度であり、ハミルトニアンパラメータと測定間隔の関数として研究されている。 我々は、ランダム局所ハミルトニアンや翻訳不変なランダム局所ハミルトニアンを含む相互作用、非相互作用、可積分および非可積分系を記述する異なるハミルトニアンを考える。 これらすべてのシナリオにおいて,PCAの複雑性は高原に近づく前に急速に増加する。 pca複雑性のダイナミクスは、ハミルトニアンパラメーターおよび測定プロトコルの関数として定量的および定性的に変化する。 重要なことに、pca複雑性のダイナミクスは、非可積分モデルの場合のように、単純な局所ダイナミクスを欠くモデルの特定のシステムパラメータにかなり敏感な振る舞いが存在する。 特に,システムパラメータに対するPCA複雑性ダイナミクスの感度を予測するために,局所力学と測定方向を考慮したメリットの指標を指摘する。

We study the Hamiltonian dynamics of a many-body quantum system subjected to periodic projective measurements which leads to probabilistic cellular automata dynamics. Given a sequence of measured values, we characterize their dynamics by performing a principal component analysis. The number of principal components required for an almost complete description of the system, which is a measure of complexity we refer to as PCA complexity, is studied as a function of the Hamiltonian parameters and measurement intervals. We consider different Hamiltonians that describe interacting, non-interacting, integrable, and non-integrable systems, including random local Hamiltonians and translational invariant random local Hamiltonians. In all these scenarios, we find that the PCA complexity grows rapidly in time before approaching a plateau. The dynamics of the PCA complexity can vary quantitatively and qualitatively as a function of the Hamiltonian parameters and measurement protocol. Importantly, the dynamics of PCA complexity present behavior that is considerably less sensitive to the specific system parameters for models which lack simple local dynamics, as is often the case in non-integrable models. In particular, we point out a figure of merit that considers the local dynamics and the measurement direction to predict the sensitivity of the PCA complexity dynamics to the system parameters.
翻訳日:2023-05-19 19:14:40 公開日:2023-05-18
# リンドブラッドダイナミクスのシミュレーションのための変分量子アルゴリズム

Variational Quantum Algorithms for Simulation of Lindblad Dynamics ( http://arxiv.org/abs/2305.02815v2 )

ライセンス: Link先を確認
Tasneem Watad and Netanel H. Lindner(参考訳) 時間発展型マルコフ開量子系と量子可観測器に対するリンドブラッドマスター方程式とその共役をシミュレートする変分型古典量子アルゴリズムを提案する。 本手法は、密度行列と量子観測可能な量子超状態の直接表現に基づいている。 我々は、解のユニタリおよび非ユニタリダイナミクスを効率的に捉える低深さ変分量子回路を設計し最適化する。 我々は,このアルゴリズムを異なるシステムサイズでベンチマークし,テストし,近未来のハードウェアで実用性を示す。

We introduce a variational hybrid classical-quantum algorithm to simulate the Lindblad master equation and its adjoint for time-evolving Markovian open quantum systems and quantum observables. Our method is based on a direct representation of density matrices and quantum observables as quantum superstates. We design and optimize low-depth variational quantum circuits that efficiently capture the unitary and non-unitary dynamics of the solutions. We benchmark and test the algorithm on different system sizes, showing its potential for utility with near-future hardware.
翻訳日:2023-05-19 19:13:58 公開日:2023-05-18
# DRew:遅延で動的にリワイヤされたメッセージパッシング

DRew: Dynamically Rewired Message Passing with Delay ( http://arxiv.org/abs/2305.08018v2 )

ライセンス: Link先を確認
Benjamin Gutteridge, Xiaowen Dong, Michael Bronstein, Francesco Di Giovanni(参考訳) メッセージパッシングニューラルネットワーク(mpnn)は、長距離インタラクションに依存するタスクのパフォーマンス低下を引き起こす過剰スワッシング現象に苦しむことが示されている。 これは主に、ノードの直近の近傍でローカルにのみ発生するメッセージパッシングに起因している。 リワイリングアプローチは、グラフを「より接続」し、長距離タスクに適していると思われるが、遠方のノードを各層で瞬時に通信させるので、グラフ上の距離によって与えられる帰納的バイアスを失うことが多い。 本稿では,いずれのmpnnアーキテクチャにも適用可能な,グラフの段階的高密度化を保証するためのレイヤ依存リワイリングを実現するフレームワークを提案する。 また,各層と相互距離に依存するノード間の接続をスキップする遅延機構を提案する。 提案手法を複数の長距離タスクで検証し,グラフトランスフォーマーやマルチホップmpnnよりも優れていることを示す。

Message passing neural networks (MPNNs) have been shown to suffer from the phenomenon of over-squashing that causes poor performance for tasks relying on long-range interactions. This can be largely attributed to message passing only occurring locally, over a node's immediate neighbours. Rewiring approaches attempting to make graphs 'more connected', and supposedly better suited to long-range tasks, often lose the inductive bias provided by distance on the graph since they make distant nodes communicate instantly at every layer. In this paper we propose a framework, applicable to any MPNN architecture, that performs a layer-dependent rewiring to ensure gradual densification of the graph. We also propose a delay mechanism that permits skip connections between nodes depending on the layer and their mutual distance. We validate our approach on several long-range tasks and show that it outperforms graph Transformers and multi-hop MPNNs.
翻訳日:2023-05-19 19:07:35 公開日:2023-05-18
# マッチング特徴抽出を用いた異種エッジデバイスのためのフェデレーション学習型産業健康診断

A Federated Learning-based Industrial Health Prognostics for Heterogeneous Edge Devices using Matched Feature Extraction ( http://arxiv.org/abs/2305.07854v2 )

ライセンス: Link先を確認
Anushiya Arunan, Yan Qin, Xiaoli Li, and Chau Yuen(参考訳) データ駆動型産業健康予測は、正確で信頼性の高い予測モデルを開発するために豊富な訓練データを必要とする。 しかし、厳格なデータプライバシー法とエッジ産業データの豊富さは、分散データ利用を必要とする。 したがって,産業保健分野は,分散型・プライバシー保全型学習手法であるフェデレーション学習(fl)から著しく利益を得るのに適している。 しかしながら,ヘテロジニアスデータから学習したモデルパラメータを有意義に集約し,ハイパフォーマンスなフェデレーションモデルを形成するという複雑さから,flベースの健康予測タスクはほとんど研究されていない。 特に、異質な分解機構と不等なデータセットサイズに由来するエッジデバイス間のデータの不均一性は、正確なフェデレーションモデルを開発する上で重要な統計的課題となる。 特徴類似性マッチングパラメータアグリゲーションアルゴリズムを用いて、異種エッジデータから識別的に学習するFLベースの健康予後モデルを提案する。 このアルゴリズムは局所的に訓練された不均一なモデルを探索し、まずニューロンと確率論的に類似した特徴抽出関数をマッチングし、それらを選択的に平均化し、フェデレートされたモデルパラメータを形成する。 このアルゴリズムは、従来の座標方向ニューロンの平均化とは対照的に、類似したニューロンを平均するだけであるため、局所モデルの異なる特徴抽出器は、結果のフェデレーションモデルへの希釈を少なくする。 ターボファンエンジンのLiイオン電池の循環劣化データと非循環劣化データの両方を用いて, 提案手法は, それぞれ44.5\%, 39.3\%の精度向上を達成できることを示した。

Data-driven industrial health prognostics require rich training data to develop accurate and reliable predictive models. However, stringent data privacy laws and the abundance of edge industrial data necessitate decentralized data utilization. Thus, the industrial health prognostics field is well suited to significantly benefit from federated learning (FL), a decentralized and privacy-preserving learning technique. However, FL-based health prognostics tasks have hardly been investigated due to the complexities of meaningfully aggregating model parameters trained from heterogeneous data to form a high performing federated model. Specifically, data heterogeneity among edge devices, stemming from dissimilar degradation mechanisms and unequal dataset sizes, poses a critical statistical challenge for developing accurate federated models. We propose a pioneering FL-based health prognostic model with a feature similarity-matched parameter aggregation algorithm to discriminatingly learn from heterogeneous edge data. The algorithm searches across the heterogeneous locally trained models and matches neurons with probabilistically similar feature extraction functions first, before selectively averaging them to form the federated model parameters. As the algorithm only averages similar neurons, as opposed to conventional naive averaging of coordinate-wise neurons, the distinct feature extractors of local models are carried over with less dilution to the resultant federated model. Using both cyclic degradation data of Li-ion batteries and non-cyclic data of turbofan engines, we demonstrate that the proposed method yields accuracy improvements as high as 44.5\% and 39.3\% for state-of-health estimation and remaining useful life estimation, respectively.
翻訳日:2023-05-19 19:07:00 公開日:2023-05-18
# 教師なし文埋め込みのためのインスタンス平滑化コントラスト学習

Instance Smoothed Contrastive Learning for Unsupervised Sentence Embedding ( http://arxiv.org/abs/2305.07424v2 )

ライセンス: Link先を確認
Hongliang He, Junlei Zhang, Zhenzhong Lan, Yue Zhang(参考訳) Unsup-SimCSEのような対照的な学習法は、教師なし文の埋め込みを学習する際に最先端(SOTA)のパフォーマンスを達成した。 しかし,従来の研究では,コントラスト学習に用いられた組込みは1文のインスタンスからのみ派生しており,これらの組込みをインスタンスレベルの組込みと呼ぶ。 言い換えれば、各埋め込みは独自の独自のクラスと見なされ、一般化性能を損なう可能性がある。 本研究では,特徴空間における埋め込みの境界を平滑化するために,is-cse(instance smoothing contrastive sentence embedded)を提案する。 具体的には、動的メモリバッファからセマンティックな類似性に応じて埋め込みを検索し、正の埋め込みグループを得る。 次に、グループ内の埋め込みを自己注意操作で集約し、スムーズなインスタンス埋め込みを生成し、さらなる分析を行う。 我々は,標準意味テキスト類似度(STS)タスクについて,平均78.30%,79.47%,77.73%,および79.42%のSpearmanのBERTベース,BERTベース,RoBERTaベース,RoBERTa-largeに対する相関を,Unsup-SimCSEと比較して2.05%,1.06%,1.16%,0.52%改善した。

Contrastive learning-based methods, such as unsup-SimCSE, have achieved state-of-the-art (SOTA) performances in learning unsupervised sentence embeddings. However, in previous studies, each embedding used for contrastive learning only derived from one sentence instance, and we call these embeddings instance-level embeddings. In other words, each embedding is regarded as a unique class of its own, whichmay hurt the generalization performance. In this study, we propose IS-CSE (instance smoothing contrastive sentence embedding) to smooth the boundaries of embeddings in the feature space. Specifically, we retrieve embeddings from a dynamic memory buffer according to the semantic similarity to get a positive embedding group. Then embeddings in the group are aggregated by a self-attention operation to produce a smoothed instance embedding for further analysis. We evaluate our method on standard semantic text similarity (STS) tasks and achieve an average of 78.30%, 79.47%, 77.73%, and 79.42% Spearman's correlation on the base of BERT-base, BERT-large, RoBERTa-base, and RoBERTa-large respectively, a 2.05%, 1.06%, 1.16% and 0.52% improvement compared to unsup-SimCSE.
翻訳日:2023-05-19 19:06:11 公開日:2023-05-18
# 相対的事実の一貫性について

On the consistency of relative facts ( http://arxiv.org/abs/2305.07343v2 )

ライセンス: Link先を確認
Eric G. Cavalcanti, Andrea Di Biagio, Carlo Rovelli(参考訳) ローレンスらは「相対的な事実は存在しない」ことを示し、「関係量子力学は量子力学とは相容れない」という議論を提示した。 この議論は、拡張されたウィグナーの友人シナリオにおける測定結果によって満足される制約間のGHZのような矛盾に基づいている。 ここでは議論の強化版を示し、ローレンスらの主張とは対照的に、これらの主張が相対的事実の理論の一貫性に矛盾しない理由を示す。 むしろ、この議論を考えることは、RQMのような相対的な事実の理論をどう考えるべきかを明確にする助けとなる。

Lawrence et al. have presented an argument purporting to show that "relative facts do not exist" and, consequently, "Relational Quantum Mechanics is incompatible with quantum mechanics". The argument is based on a GHZ-like contradiction between constraints satisfied by measurement outcomes in an extended Wigner's friend scenario. Here we present a strengthened version of the argument, and show why, contrary to the claim by Lawrence et al., these arguments do not contradict the consistency of a theory of relative facts. Rather, considering this argument helps clarify how one should not think about a theory of relative facts, like RQM.
翻訳日:2023-05-19 19:05:44 公開日:2023-05-18
# 制御微分方程式に基づくホークス過程

Hawkes Process Based on Controlled Differential Equations ( http://arxiv.org/abs/2305.07031v2 )

ライセンス: Link先を確認
Minju Jo, Seungji Kook, Noseong Park(参考訳) hawkesプロセスは、社会的拡散のようないくつかの分野におけるシーケンシャルな事象、すなわち発生ダイナミクスの発生をモデル化するための一般的なフレームワークである。 現実のシナリオでは、イベント間の地域間時間は不規則である。 しかし、既存のニューラルネットワークベースのホークスプロセスモデルだけでなく、 i) 複雑な不規則な力学を捉えることができず 二 主に通常の離散入力用に設計されたニューラルネットワークに基づいており、イベントのログライクな状態を計算するためにヒューリスティックスを利用すること。 そこで本研究では,連続RNNに類似した神経制御微分方程式(Neural Control differential equation,neural CDE)技術を用いて,制御微分方程式(HP-CDE)に基づくホークス過程の概念を提案する。 HP-CDEはデータを読み続ける。 一 不規則な時系列データセットは、その不均一な時間空間を適切に保存することができ、 二 ログライクフッドを正確に計算することができること。 さらに、複雑な人間の行動ダイナミクスをモデル化するために、ホークス過程とニューラルcdの両方がまず開発されるので、ニューラルcdeベースのホークス過程はそのような発生ダイナミクスのモデリングに成功している。 実世界の4つのデータセットを用いた実験では,提案手法は既存の手法を非自明なマージンで上回っている。

Hawkes processes are a popular framework to model the occurrence of sequential events, i.e., occurrence dynamics, in several fields such as social diffusion. In real-world scenarios, the inter-arrival time among events is irregular. However, existing neural network-based Hawkes process models not only i) fail to capture such complicated irregular dynamics, but also ii) resort to heuristics to calculate the log-likelihood of events since they are mostly based on neural networks designed for regular discrete inputs. To this end, we present the concept of Hawkes process based on controlled differential equations (HP-CDE), by adopting the neural controlled differential equation (neural CDE) technology which is an analogue to continuous RNNs. Since HP-CDE continuously reads data, i) irregular time-series datasets can be properly treated preserving their uneven temporal spaces, and ii) the log-likelihood can be exactly computed. Moreover, as both Hawkes processes and neural CDEs are first developed to model complicated human behavioral dynamics, neural CDE-based Hawkes processes are successful in modeling such occurrence dynamics. In our experiments with 4 real-world datasets, our method outperforms existing methods by non-trivial margins.
翻訳日:2023-05-19 19:05:34 公開日:2023-05-18
# 基礎モデルに基づくシステム設計のためのフレームワーク

A Framework for Designing Foundation Model based Systems ( http://arxiv.org/abs/2305.05352v2 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな注目を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についてはほとんど理解されていない。 そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。 我々の分類学は、基礎モデル事前訓練と微調整、基礎モデルベースシステムのアーキテクチャ設計、責任AI設計の3つのカテゴリから構成される。 この分類は、基礎モデルに基づくシステムを設計する際に重要な設計決定を行うための具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted significant attention on foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is little understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: foundation model pretraining and fine-tuning, architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy provides concrete guidance for making major design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2023-05-19 19:05:15 公開日:2023-05-18
# 雑音下における改良ガウスニュートンアルゴリズム

Modified Gauss-Newton Algorithms under Noise ( http://arxiv.org/abs/2305.10634v1 )

ライセンス: Link先を確認
Krishna Pillutla, Vincent Roulet, Sham Kakade, Zaid Harchaoui(参考訳) Gauss-Newton法とその確率的バージョンは機械学習や信号処理に広く使われている。 それらの非滑らかなアルゴリズムである修正ガウスニュートンあるいはプロキシ線形アルゴリズムは、大規模統計設定における勾配降下と比較して、対照的な結果をもたらす可能性がある。 これら2つのアルゴリズムの対比性能を定型化された統計例で理論的に検討し,構造化予測を含む学習問題を実験的に検討した。 理論的には、修正ガウス・ニュートン法の二次収束が統計的雑音下で活発である状態について述べる。 実験では,非滑らかな複合目的を最小化するために,確率的 (sub) 勾配降下の汎用性を示す。

Gauss-Newton methods and their stochastic version have been widely used in machine learning and signal processing. Their nonsmooth counterparts, modified Gauss-Newton or prox-linear algorithms, can lead to contrasting outcomes when compared to gradient descent in large-scale statistical settings. We explore the contrasting performance of these two classes of algorithms in theory on a stylized statistical example, and experimentally on learning problems including structured prediction. In theory, we delineate the regime where the quadratic convergence of the modified Gauss-Newton method is active under statistical noise. In the experiments, we underline the versatility of stochastic (sub)-gradient descent to minimize nonsmooth composite objectives.
翻訳日:2023-05-19 17:40:42 公開日:2023-05-18
# 景観の平滑化がSGDのシグナルを高める: 単一指標モデル学習のための最適サンプル複雑度

Smoothing the Landscape Boosts the Signal for SGD: Optimal Sample Complexity for Learning Single Index Models ( http://arxiv.org/abs/2305.10633v1 )

ライセンス: Link先を確認
Alex Damian, Eshaan Nichani, Rong Ge, Jason D. Lee(参考訳) 我々は、d$次元における等方ガウス分布に関して、1つの指数モデル$\sigma(w^\star \cdot x)$を学習するタスクに焦点を当てる。 先行研究により、$w^\star$ の学習のサンプル複雑性は、リンク関数 $\sigma$ の情報指数 $k^\star$ によって制御されていることが示され、これは最初の非零ヘルマイト係数 $\sigma$ の指標として定義される。 Ben Arousら (2021) は、$n \gtrsim d^{k^\star-1}$サンプルが$w^\star$を学習するのに十分であることを示した。 しかし、勾配に基づく手法のcsq下限は、$n \gtrsim d^{k^\star/2}$ のサンプルのみを示す。 本研究では,平滑化損失に対するオンラインsgdが$n \gtrsim d^{k^\star/2}$サンプルで$w^\star$を学習することを示すことにより,上界と下界のギャップを閉じる。 また、テンソルPCAの統計的解析と、ミニバッチSGDの暗黙の正規化効果を経験的損失に関連付ける。

We focus on the task of learning a single index model $\sigma(w^\star \cdot x)$ with respect to the isotropic Gaussian distribution in $d$ dimensions. Prior work has shown that the sample complexity of learning $w^\star$ is governed by the information exponent $k^\star$ of the link function $\sigma$, which is defined as the index of the first nonzero Hermite coefficient of $\sigma$. Ben Arous et al. (2021) showed that $n \gtrsim d^{k^\star-1}$ samples suffice for learning $w^\star$ and that this is tight for online SGD. However, the CSQ lower bound for gradient based methods only shows that $n \gtrsim d^{k^\star/2}$ samples are necessary. In this work, we close the gap between the upper and lower bounds by showing that online SGD on a smoothed loss learns $w^\star$ with $n \gtrsim d^{k^\star/2}$ samples. We also draw connections to statistical analyses of tensor PCA and to the implicit regularization effects of minibatch SGD on empirical losses.
翻訳日:2023-05-19 17:40:29 公開日:2023-05-18
# マルチスケール特徴ピラミッドネットワークと2重注意機構を用いた腹部mri画像分割アルゴリズム

A Subabdominal MRI Image Segmentation Algorithm Based on Multi-Scale Feature Pyramid Network and Dual Attention Mechanism ( http://arxiv.org/abs/2305.10631v1 )

ライセンス: Link先を確認
Yu Xiao, Xin Yang, Sijuan Huang, Yongkai Liu, Lihua Guo(参考訳) 本研究の目的は, 直腸癌治療における腹部下MRI像の分割において, U-Netの複数の畳み込み操作とプール操作により, 符号化と復号のセマンティックギャップと不一致を解消することであった。 マルチスケール特徴ピラミッドネットワークとデュアルアテンション機構に基づき,mri画像分割を提案する。 私たちの革新は2つのモジュールの設計です 1)エンコーディングには拡張畳み込みとマルチスケール特徴ピラミッドネットワークを用い,セマンティックギャップを回避する。 2) u-netの空間情報を維持し,誤用を減らすために,二重注意機構が設計されている。 腹腔下MRI画像データセットを用いた実験では,提案手法は他の方法よりも優れた性能を示す。 結論として,マルチスケール機能ピラミッドネットワークは意味的ギャップを低減し,デュアルアテンション機構はエンコーディングとデコードの間の特徴をアライメントすることができる。

This study aimed to solve the semantic gap and misalignment issue between encoding and decoding because of multiple convolutional and pooling operations in U-Net when segmenting subabdominal MRI images during rectal cancer treatment. A MRI Image Segmentation is proposed based on a multi-scale feature pyramid network and dual attention mechanism. Our innovation is the design of two modules: 1) a dilated convolution and multi-scale feature pyramid network are used in the encoding to avoid the semantic gap. 2) a dual attention mechanism is designed to maintain spatial information of U-Net and reduce misalignment. Experiments on a subabdominal MRI image dataset show the proposed method achieves better performance than others methods. In conclusion, a multi-scale feature pyramid network can reduce the semantic gap, and the dual attention mechanism can make an alignment of features between encoding and decoding.
翻訳日:2023-05-19 17:40:04 公開日:2023-05-18
# 言語モデルと世界モデル: 身体的経験と言語モデル

Language Models Meet World Models: Embodied Experiences Enhance Language Models ( http://arxiv.org/abs/2305.10626v1 )

ライセンス: Link先を確認
Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu(参考訳) 大規模言語モデル(lms)は多くのタスクにおいて顕著な能力を示したが、オブジェクトの永続性理解や家事活動の計画など、物理的な環境での単純な推論や計画に苦しむことが多い。 この制限は、LMが書かれたテキストのみに基づいて訓練され、必須の具体的知識とスキルを欠いているという事実から生じる。 本稿では,lmsを世界モデルで微調整し,汎用言語能力を維持しつつ多様な具体的知識を得るための新しいパラダイムを提案する。 提案手法は,世界モデル,特に物理世界のシミュレータ(VirtualHome)に具現化エージェントを配置し,目標指向計画とランダム探索の両方を通じて,多種多様な具現化体験を取得する。 これらの経験は、lmsを微調整して、物理的世界での推論と行動のさまざまな能力、例えば、計画と完了目標、オブジェクトの永続性と追跡などを教えるために使用される。 さらに、特定のシミュレーションに縛られるのではなく、タスク間での具体的知識の一般化を容易にする微調整中のLMの一般性を維持することが望ましい。 そこで我々は,選択的な重み更新のための古典的弾性重み強化(EWC)と,学習効率向上のためのローランクアダプタ(LoRA)を併用する。 広範な実験により、18のダウンストリームタスクにおけるベースlmsを平均64.28%向上させた。 特に、我々のアプローチによって強化された小さな lms (1.3b と 6b) は、はるかに大きな lms (例えば chatgpt) よりも優れています。

While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical elastic weight consolidation (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B and 6B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
翻訳日:2023-05-19 17:39:49 公開日:2023-05-18
# ディープニューラルネットワークにおける局所不安定の測定と緩和

Measuring and Mitigating Local Instability in Deep Neural Networks ( http://arxiv.org/abs/2305.10625v1 )

ライセンス: Link先を確認
Arghya Datta, Subhrangshu Nandi, Jingcheng Xu, Greg Ver Steeg, He Xie, Anoop Kumar, Aram Galstyan(参考訳) Deep Neural Networks(DNN)は、数百万のユーザが依存する現実世界のサービスの不可欠なコンポーネントになりつつある。 残念なことに、これらのシステムのアーキテクトは、ランダム初期化のような無関係な詳細が予期せぬほどトレーニングされたシステムのアウトプットを変え、潜在的に悲惨な結果をもたらす可能性があるため、信頼性の高いパフォーマンスを保証することが困難である。 トレーニング過程における確率性の結果,モデルが同一データ上で再トレーニングされた場合でも,モデルの予測がどのように変化するかを調べることで,モデル安定性の問題を定式化する。 自然言語理解(NLU)タスクでは,クエリのかなりの部分の予測が不安定であることがわかった。 この現象を定量化するために、トレーニング実行中やトレーニング実行中の各サンプル毎の ‘label entropy'' のような原則付きメトリクスを定式化します。 興味深いことに、不安定な予測はランダムに現れず、むしろデータ固有の方法でクラスタ化されているように見える。 安定性を向上させるためにデータ非依存正規化法を研究し,局所安定性推定を活用できる新しいデータ中心法を提案する。 我々の局所化されたデータ固有の緩和戦略は、データ非依存の手法を劇的に上回っており、計算コストのごく一部で、センシングによって達成されたゴールド標準の90%以下である。

Deep Neural Networks (DNNs) are becoming integral components of real world services relied upon by millions of users. Unfortunately, architects of these systems can find it difficult to ensure reliable performance as irrelevant details like random initialization can unexpectedly change the outputs of a trained system with potentially disastrous consequences. We formulate the model stability problem by studying how the predictions of a model change, even when it is retrained on the same data, as a consequence of stochasticity in the training process. For Natural Language Understanding (NLU) tasks, we find instability in predictions for a significant fraction of queries. We formulate principled metrics, like per-sample ``label entropy'' across training runs or within a single training run, to quantify this phenomenon. Intriguingly, we find that unstable predictions do not appear at random, but rather appear to be clustered in data-specific ways. We study data-agnostic regularization methods to improve stability and propose new data-centric methods that exploit our local stability estimates. We find that our localized data-specific mitigation strategy dramatically outperforms data-agnostic methods, and comes within 90% of the gold standard, achieved by ensembling, at a fraction of the computational cost
翻訳日:2023-05-19 17:39:21 公開日:2023-05-18
# 球面負のパーセプトロンの解の星形の空間

The star-shaped space of solutions of the spherical negative perceptron ( http://arxiv.org/abs/2305.10623v1 )

ライセンス: Link先を確認
Brandon Livio Annesi, Clarissa Lauditi, Carlo Lucibello, Enrico M. Malatesta, Gabriele Perugini, Fabrizio Pittorino and Luca Saglietti(参考訳) ニューラルネットワークのランドスケープに関する実証研究により、低エネルギーの配置は、遠方解のペア間のゼロエネルギー経路を構成できる複雑な連結構造でしばしば見られることが示されている。 ここでは,非凸型ニューラルネットワークモデルである球面負パーセプトロンを連続的制約満足度問題として考察する。 本稿では,平衡からサンプリングされた頂点構成を持つ単純系におけるエネルギー障壁の一般解析法を提案する。 過パラメータ化状態において、解多様体は単純な接続性を示す。 広い範囲の最適化ダイナミクスに魅力的な大きな測地線凸成分が存在する。 この領域内では、他のほとんどの解と測地的に接続された非定型的ロバストな解のサブセットが同定され、星形の幾何学が生まれる。 我々は、接続された解空間の組織を解析的に特徴付け、上述した単純な測地接続が断ち切れる大きな制約密度で遷移の数値的な証拠を示す。

Empirical studies on the landscape of neural networks have shown that low-energy configurations are often found in complex connected structures, where zero-energy paths between pairs of distant solutions can be constructed. Here we consider the spherical negative perceptron, a prototypical non-convex neural network model framed as a continuous constraint satisfaction problem. We introduce a general analytical method for computing energy barriers in the simplex with vertex configurations sampled from the equilibrium. We find that in the over-parameterized regime the solution manifold displays simple connectivity properties. There exists a large geodesically convex component that is attractive for a wide range of optimization dynamics. Inside this region we identify a subset of atypically robust solutions that are geodesically connected with most other solutions, giving rise to a star-shaped geometry. We analytically characterize the organization of the connected space of solutions and show numerical evidence of a transition, at larger constraint densities, where the aforementioned simple geodesic connectivity breaks down.
翻訳日:2023-05-19 17:38:58 公開日:2023-05-18
# 非マルコフ進化が量子熱力学のキャラクタリゼーションに及ぼす影響

Impact of non-Markovian evolution on characterizations of quantum thermodynamics ( http://arxiv.org/abs/2305.10622v1 )

ライセンス: Link先を確認
Devvrat Tiwari and Subhashish Banerjee(参考訳) 本研究では,非マルコフ進化がエルゴトロピーやパワーといった量子熱力学の顕著な特性に与える影響について考察する。 これらは量子速度制限時間の挙動によってベンチマークされる。 本稿では,幾何学的,特に量子フィッシャーとウィグナー・ヤナゼ情報量測定と物性に基づく測定,特に相対純度測度とコヒーレンス測度の相対エントロピーを用いて,量子速度制限時間を計算する。 非マルコフ振幅減衰進化を示すボソニック浴中の量子ビットの単純な非マルコフ模型は、有限な初期エルゴトロピーを持つ量子熱力学の観点から量子バッテリーとして観察することができる。 この目的のために,量子速度制限時間の物理特性に基づく測定値とエルゴトロピーのコヒーレント成分との関係を考察する。 非マルコフ進化は量子電池の充電過程に影響を与えることが示されている。 さらに、量子電池の放電充電サイクルと、量子速度制限時間の幾何学的測定との接続を観測する。

Here we study the impact of non-Markovian evolution on prominent characteristics of quantum thermodynamics, such as ergotropy and power. These are benchmarked by the behavior of the quantum speed limit time. We make use of both geometric-based, particularly quantum Fisher and Wigner-Yanase information metric, and physical properties based-measures, particularly relative purity measure and relative entropy of coherence measure, to compute the quantum speed limit time. A simple non-Markovian model of a qubit in a bosonic bath exhibiting non-Markovian amplitude damping evolution is considered, which, from the quantum thermodynamic perspective with finite initial ergotropy, can be envisaged as a quantum battery. To this end, we explore the connections between the physical properties-based measures of quantum speed limit time and the coherent component of ergotropy. The non-Markovian evolution is shown to impact the recharging process of the quantum battery. Further, a connection between the discharging-charging cycle of the quantum battery and the geometric measures of quantum speed limit time is observed.
翻訳日:2023-05-19 17:38:42 公開日:2023-05-18
# CNN圧縮の評価基準

Evaluation Metrics for CNNs Compression ( http://arxiv.org/abs/2305.10616v1 )

ライセンス: Link先を確認
Abanoub Ghobrial, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワークの圧縮に関するさまざまな技術を開発する研究は数多く行われているが、コミュニティでは、異なる圧縮技術の評価と比較の標準化された方法が欠落しているようだ。 本稿では,評価指標のレビューを提供することで,ニューラルネットワーク圧縮の標準化に寄与する。 これらのメトリクスは、標準化されたニューラルネットワーク圧縮ベンチであるNetZIPに実装されている。 対象分類,オブジェクト検出,エッジデバイスに着目した3つのケーススタディを用いてレビューした指標をいくつか紹介する。

There is a lot of research effort devoted by researcher into developing different techniques for neural networks compression, yet the community seems to lack standardised ways of evaluating and comparing between different compression techniques, which is key to identifying the most suitable compression technique for different applications. In this paper we contribute towards standardisation of neural network compression by providing a review of evaluation metrics. These metrics have been implemented into NetZIP, a standardised neural network compression bench. We showcase some of the metrics reviewed using three case studies focusing on object classification, object detection, and edge devices.
翻訳日:2023-05-19 17:38:22 公開日:2023-05-18
# ML-SUPERB:多言語音声ユニバーサルパフォーマンスベンチマーク

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark ( http://arxiv.org/abs/2305.10615v1 )

ライセンス: Link先を確認
Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, En-Pei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe(参考訳) 音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。 しかし、SUPERBはその評価において主に英語を話す。 本稿では,143言語をカバーする多言語スーパーブ(ml-superb)について述べる。 SUPERBのコンセプトに従って、ML-SUPERBは凍結SSL機能を使用し、浅い下流モデルを学ぶことで、多言語タスクのためのシンプルなフレームワークを使用する。 superbベンチマークと同様に、音声sslモデルはfbankの機能よりもパフォーマンスが大幅に向上する。 さらに,多言語モデルが必ずしも単言語モデルよりも優れた性能を発揮するとは限らない。 ML-SUPERBは、将来の多言語表現研究のための組織化されたデータセットと再現可能なトレーニングスクリプトの課題としてリリースする。

Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
翻訳日:2023-05-19 17:38:14 公開日:2023-05-18
# 長期視覚認識のためのガウス形式のロジット調整

Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2305.10648v1 )

ライセンス: Link先を確認
Mengke Li, Yiu-ming Cheung, Yang Lu, Zhikai Hu, Weichao Lan, Hui Huang(参考訳) 現実世界のデータが長い尾で分散されることは珍しくない。 このようなデータでは、テールクラスを正しく分類することが難しいため、ディープニューラルネットワークの学習が困難になる。 文献では,ロングテールデータを用いて得られた特徴が十分に代表的であることから,分類子バイアスを低減し,この問題にいくつかの既存手法が取り組まれている。 しかし、長い尾を持つデータを直接トレーニングすることで、不均一な埋め込みスペースが生まれる。 すなわち、ヘッドクラスの埋め込み空間は、後続の分類器学習とは無関係な尾クラスの埋め込み空間を強く圧縮する。 %以上改善した。 そこで本稿では,機能レベルの観点から,長い目視認識の問題について検討する。 組込み分布のバランスをとるために機能拡張を導入する。 異なるクラスの特徴はガウス形式の様々な振幅で摂動される。 これらの摂動特性に基づいて,計算オーバーヘッドの少ないモデル性能向上のために,2つの新しいロジット調整法を提案する。 その後、すべてのクラスの歪んだ埋め込み空間を校正することができる。 このような平衡分散埋め込み空間において、偏り付き分類器は、分類器をクラスバランスなサンプリングデータで再訓練するだけで取り除くことができる。 ベンチマークデータセットを用いた大規模な実験により,提案手法の最先端手法よりも優れた性能を示した。

It is not uncommon that real-world data are distributed with a long tail. For such data, the learning of deep neural networks becomes challenging because it is hard to classify tail classes correctly. In the literature, several existing methods have addressed this problem by reducing classifier bias provided that the features obtained with long-tailed data are representative enough. However, we find that training directly on long-tailed data leads to uneven embedding space. That is, the embedding space of head classes severely compresses that of tail classes, which is not conducive to subsequent classifier learning. %further improving model performance. This paper therefore studies the problem of long-tailed visual recognition from the perspective of feature level. We introduce feature augmentation to balance the embedding distribution. The features of different classes are perturbed with varying amplitudes in Gaussian form. Based on these perturbed features, two novel logit adjustment methods are proposed to improve model performance at a modest computational overhead. Subsequently, the distorted embedding spaces of all classes can be calibrated. In such balanced-distributed embedding spaces, the biased classifier can be eliminated by simply retraining the classifier with class-balanced sampling data. Extensive experiments conducted on benchmark datasets demonstrate the superior performance of the proposed method over the state-of-the-art ones.
翻訳日:2023-05-19 17:31:54 公開日:2023-05-18
# BioAug:低リソースバイオメディカルNERのための条件生成に基づくデータ拡張

BioAug: Conditional Generation based Data Augmentation for Low-Resource Biomedical NER ( http://arxiv.org/abs/2305.10647v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Utkarsh Tyagi and Sonal Kumar and Dinesh Manocha(参考訳) biomedical named entity recognition (bioner) は、生物医学的なテキストから名前付きエンティティを識別する基本的なタスクである。 しかし、bionerは厳しいデータ不足に苦しんでおり、アノテーションに必要な高度に専門的で専門的な知識があるため、高品質のラベル付きデータを欠いている。 データの増大は、低リソースのNERに対して一般的に非常に効果的であることが示されているが、既存のデータ拡張技術では、BioNERの事実的かつ多様な拡張は得られない。 本稿では,低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを提案する。 BART上に構築されたBioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解くために訓練されている。 訓練後,条件生成を行い,訓練段階と同様の選択的に破損したテキストに対して多彩な拡張条件付けバイオaugを生成する。 5つのベンチマークBioNERデータセットでBioAugの有効性を実証し、BioAugがすべてのベースラインを大幅なマージン(1.5%~21.5%の絶対改善)で上回り、より現実的で多様な拡張を生成することができることを示した。 コード: https://github.com/sreyan88/bioaug。

Biomedical Named Entity Recognition (BioNER) is the fundamental task of identifying named entities from biomedical text. However, BioNER suffers from severe data scarcity and lacks high-quality labeled data due to the highly specialized and expert knowledge required for annotation. Though data augmentation has shown to be highly effective for low-resource NER in general, existing data augmentation techniques fail to produce factual and diverse augmentations for BioNER. In this paper, we present BioAug, a novel data augmentation framework for low-resource BioNER. BioAug, built on BART, is trained to solve a novel text reconstruction task based on selective masking and knowledge augmentation. Post training, we perform conditional generation and generate diverse augmentations conditioning BioAug on selectively corrupted text similar to the training stage. We demonstrate the effectiveness of BioAug on 5 benchmark BioNER datasets and show that BioAug outperforms all our baselines by a significant margin (1.5%-21.5% absolute improvement) and is able to generate augmentations that are both more factual and diverse. Code: https://github.com/Sreyan88/BioAug.
翻訳日:2023-05-19 17:31:38 公開日:2023-05-18
# Ethical ChatGPT: 懸念、挑戦、命令

Ethical ChatGPT: Concerns, Challenges, and Commandments ( http://arxiv.org/abs/2305.10646v1 )

ライセンス: Link先を確認
Jianlong Zhou, Heimo M\"uller, Andreas Holzinger and Fang Chen(参考訳) chatgptのような大規模な言語モデルは現在、人工知能をさらに普及させるために多大な貢献をしている。 しかし、このようなチャットボットモデルは、人間同士の自然言語コミュニケーションを支援するツールとして開発された。 問題的に言えば、それは「統計的相関マシン」(因果関係ではなく相関関係)であり、実際にバイアス、プライバシ、アミューズといったChatGPTのようなAI言語モデルの使用に関する倫理的な懸念がある。 本稿では、ChatGPTに関する特定の倫理的懸念を強調し、ChatGPTを様々なアプリケーションで使用する際の重要な課題を明らかにする。 ChatGPTの異なるステークホルダに対する実践的な命令も提案されており、アプリケーションにChatGPTを適用する人のチェックリストガイドラインとして機能する。 これらの命令例は、ChatGPTの倫理的利用を動機付けることが期待されている。

Large language models, e.g. ChatGPT are currently contributing enormously to make artificial intelligence even more popular, especially among the general population. However, such chatbot models were developed as tools to support natural language communication between humans. Problematically, it is very much a ``statistical correlation machine" (correlation instead of causality) and there are indeed ethical concerns associated with the use of AI language models such as ChatGPT, such as Bias, Privacy, and Abuse. This paper highlights specific ethical concerns on ChatGPT and articulates key challenges when ChatGPT is used in various applications. Practical commandments for different stakeholders of ChatGPT are also proposed that can serve as checklist guidelines for those applying ChatGPT in their applications. These commandment examples are expected to motivate the ethical use of ChatGPT.
翻訳日:2023-05-19 17:31:19 公開日:2023-05-18
# 大規模言語モデルは読み書きに適したのか?

Are Large Language Models Fit For Guided Reading? ( http://arxiv.org/abs/2305.10645v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。 具体的には、入力テキストから有意義な質問を生成する能力を評価し、内容のカバレッジと質問の難易度の両方から多様な質問を生成し、質問に対する学生の回答に基づいて学生が再読みすべきテキストの一部を推薦する能力を評価する。 chatgpt と bard の評価に基づいて,1) 大きな言語モデルでは,入力テキストと高い相関関係を持つ高品質な有意義な質問を生成できる,と報告した。 2) この能力は入力テキストの増加に伴って著しく低下するが,入力テキストのほとんどのトピックをカバーする多様な質問を生成する。3)大きな言語モデルは,低認知的質問に対して著しく偏りがあるにもかかわらず,低認知的質問と高認知的質問の両方を生成することができる。4) 応答を効果的に要約し,読み直すべきテキストの一部を抽出することができる。

This paper looks at the ability of large language models to participate in educational guided reading. We specifically, evaluate their ability to generate meaningful questions from the input text, generate diverse questions both in terms of content coverage and difficulty of the questions and evaluate their ability to recommend part of the text that a student should re-read based on the student's responses to the questions. Based on our evaluation of ChatGPT and Bard, we report that, 1) Large language models are able to generate high quality meaningful questions that have high correlation with the input text, 2) They generate diverse question that cover most topics in the input text even though this ability is significantly degraded as the input text increases, 3)The large language models are able to generate both low and high cognitive questions even though they are significantly biased toward low cognitive question, 4) They are able to effectively summarize responses and extract a portion of text that should be re-read.
翻訳日:2023-05-19 17:31:05 公開日:2023-05-18
# BEEMA:アローキーを用いた点字適応PIN導入機構

BEEMA: Braille Adapted Enhanced PIN Entry Mechanism using Arrow keys ( http://arxiv.org/abs/2305.10644v1 )

ライセンス: Link先を確認
Balayogi G and Kuppusamy K S(参考訳) 視覚障害のある人は、しばしばサイバー犯罪者のソフトターゲットであり、デジタル環境におけるサイバー攻撃の影響を受けやすい。 前述したように、この攻撃は、他の視覚障害者に視覚・聴覚的に露出しているためである。 視覚障害者のコンピュータユーザーは、デジタルプラットフォームの機密性やプライバシーの問題に悩まされる。 本稿では,視覚障害者のためのBEEMA(Braille adapt Enhanced PIN Entry Mechanism using Arrow key)を提案する。 我々は,視覚障害者に対する様々なセキュリティ攻撃を研究し,視覚障害者に対して点字対応テキスト入力を提供するbeemaというメカニズムを提案した。 このメカニズムにより、ユーザーはPIN番号を必要とするウェブサイトでPIN番号を入力できる。 提案モデルはブラウザプラグインとして実装されており,アクセスが容易である。 我々は,視覚障害者を対象に,そのメカニズムについて検討した。 提案したBEEMAモデルは,ユーザスタディにおいて有望な結果を示した。 本稿では,様々な攻撃に対するBEEMAの抵抗性についても考察する。

Persons with visual impairments have often been a soft target for cybercriminals, and they are more susceptible to cyber attacks in the digital environment. The attacks, as mentioned above, are because they are visually/aurally exposed to the other sighted users. Visually impaired computer users suffer from secrecy and privacy issues on digital platforms. This paper proposes a mechanism termed BEEMA(Braille adapted Enhanced PIN Entry Mechanism using Arrow keys) to help people with visual impairments. We have studied various security attacks on visually impaired users and proposed a mechanism named BEEMA that provides a rigid braille-adapted text input for people with visual impairments. This mechanism allows users to enter a PIN number on any website that requires a PIN number. The proposed model is implemented as a browser plugin which can be accessed easily. We have conducted sessions with visually impaired users to study the mechanism's performance. The proposed BEEMA model has shown encouraging results in the user study. Resilience of BEEMA against various attacks is also explored in this paper.
翻訳日:2023-05-19 17:30:47 公開日:2023-05-18
# STREAMLINE: リアルなマルチ分散設定のためのストリーミングアクティブラーニング

STREAMLINE: Streaming Active Learning for Realistic Multi-Distributional Settings ( http://arxiv.org/abs/2305.10643v1 )

ライセンス: Link先を確認
Nathan Beck, Suraj Kothawade, Pradeep Shenoy, Rishabh Iyer(参考訳) ディープニューラルネットワークは、自動運転車や衛星画像など、現実世界のいくつかのユースケースにおいて一貫して優れたパフォーマンスを示しており、大量のラベル付きトレーニングデータを効果的に活用している。 しかしながら、偏りのないモデルを学ぶには、与えられたタスクのさまざまな現実的なシナリオを表現するデータセットを構築する必要がある。 これは、データが大量のストリームから来る多くの環境では困難であり、各シナリオは様々な周波数でランダムにインターリーブされたエピソードで発生する。 データインスタンスが到着し、エピソディックなマルチ分散データストリームからサンプリングされる、現実的なストリーミング設定について検討する。 そこで本研究では,slice identification,slice-aware budgeting,およびdata selectionという3段階の手順によって,作業ラベルデータのシナリオ駆動スライス不均衡を緩和する,新たなストリーミングアクティブラーニングフレームワークであるstreamlineを提案する。 画像分類やオブジェクト検出タスクのリアルタイムストリーミングシナリオにおいて,STREAMLINEを広範囲に評価する。 ストリームラインは、現在のベースラインよりも低頻度で重要なデータスライスのパフォーマンスを、画像分類タスクの精度で最大$5\%$、オブジェクト検出タスクで最大$8\%$で改善します。

Deep neural networks have consistently shown great performance in several real-world use cases like autonomous vehicles, satellite imaging, etc., effectively leveraging large corpora of labeled training data. However, learning unbiased models depends on building a dataset that is representative of a diverse range of realistic scenarios for a given task. This is challenging in many settings where data comes from high-volume streams, with each scenario occurring in random interleaved episodes at varying frequencies. We study realistic streaming settings where data instances arrive in and are sampled from an episodic multi-distributional data stream. Using submodular information measures, we propose STREAMLINE, a novel streaming active learning framework that mitigates scenario-driven slice imbalance in the working labeled data via a three-step procedure of slice identification, slice-aware budgeting, and data selection. We extensively evaluate STREAMLINE on real-world streaming scenarios for image classification and object detection tasks. We observe that STREAMLINE improves the performance on infrequent yet critical slices of the data over current baselines by up to $5\%$ in terms of accuracy on our image classification tasks and by up to $8\%$ in terms of mAP on our object detection tasks.
翻訳日:2023-05-19 17:30:33 公開日:2023-05-18
# 学習再建は不十分: 単画像シャドウ除去のための Identical Mapping の転送

Learning Restoration is Not Enough: Transfering Identical Mapping for Single-Image Shadow Removal ( http://arxiv.org/abs/2305.10640v1 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Pingping Cai, Wei Feng, Ivor Tsang, Song Wang(参考訳) シャドウ除去は、シャドウのない領域をそのまま残しながらシャドウのない領域に復元することである。 最先端のシャドウ除去方法は、収集されたシャドウとシャドウのないイメージペアでディープニューラルネットワークを訓練するが、これは共有ウェイト、すなわちシャドウ領域のデータ復元と非シャドウ領域の同一マッピングによって、2つの異なるタスクを完了させることが望まれる。 これらの2つのタスクは互換性が低く、これらの2つのタスクの共有重み付けを使用することで、トレーニングプロセス中に両方ではなく1つのタスクに最適化される可能性がある。 このような重要な問題は、既存のディープラーニングベースのシャドウ除去手法では特定されていない。 この問題に対処するために,これら2つのタスクを別々に処理し,同一のマッピング結果を利用して影の復元を反復的に導くことを提案する。 具体的には,非陰影領域処理のための同一マッピングブランチ (IMB) と,同一結果に基づく影領域復元のための反復デシャドウブランチ (IDB) と,スマートアグリゲーションブロック (SAB) の3つのコンポーネントからなる。 IMBは、シャドウ領域と非シャドウ領域を明確に区別することなく、非シャドウ領域の復元に役立つ入力画像と同一の画像の再構成を目指している。 IMBが抽出したマルチスケール機能を利用することで、IDBは非シャドウ領域からシャドウ領域へ情報を効果的に転送し、シャドウ除去のプロセスを容易にする。 SAB は IMB と IDB の両方の機能を適応的に統合するように設計されている。 さらに、微調整されたソフトシャドウマスクを生成し、シャドウを除去するプロセスを導く。 広範な実験により,本手法は広く使用されているシャドウ除去データセットにおける最先端シャドウ除去手法に勝ることを示した。

Shadow removal is to restore shadow regions to their shadow-free counterparts while leaving non-shadow regions unchanged. State-of-the-art shadow removal methods train deep neural networks on collected shadow & shadow-free image pairs, which are desired to complete two distinct tasks via shared weights, i.e., data restoration for shadow regions and identical mapping for non-shadow regions. We find that these two tasks exhibit poor compatibility, and using shared weights for these two tasks could lead to the model being optimized towards only one task instead of both during the training process. Note that such a key issue is not identified by existing deep learning-based shadow removal methods. To address this problem, we propose to handle these two tasks separately and leverage the identical mapping results to guide the shadow restoration in an iterative manner. Specifically, our method consists of three components: an identical mapping branch (IMB) for non-shadow regions processing, an iterative de-shadow branch (IDB) for shadow regions restoration based on identical results, and a smart aggregation block (SAB). The IMB aims to reconstruct an image that is identical to the input one, which can benefit the restoration of the non-shadow regions without explicitly distinguishing between shadow and non-shadow regions. Utilizing the multi-scale features extracted by the IMB, the IDB can effectively transfer information from non-shadow regions to shadow regions progressively, facilitating the process of shadow removal. The SAB is designed to adaptive integrate features from both IMB and IDB. Moreover, it generates a finely tuned soft shadow mask that guides the process of removing shadows. Extensive experiments demonstrate our method outperforms all the state-of-the-art shadow removal approaches on the widely used shadow removal datasets.
翻訳日:2023-05-19 17:30:08 公開日:2023-05-18
# オンライン根本原因解析のためのインクリメンタル因果グラフ学習

Incremental Causal Graph Learning for Online Unsupervised Root Cause Analysis ( http://arxiv.org/abs/2305.10638v1 )

ライセンス: Link先を確認
Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen(参考訳) 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。 効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。 しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。 本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。 Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。 これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。 RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。 その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。 オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。 ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。

The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-05-19 17:29:36 公開日:2023-05-18
# 拡張メッセージパッシングstein変分勾配降下

Augmented Message Passing Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.10636v1 )

ライセンス: Link先を確認
Jiankui Zhou and Yue Qiu(参考訳) 定常変分勾配Descent (SVGD) はベイズ推論の一般的な粒子法である。 しかし、その収束は分散崩壊に苦しむため、推定の精度と多様性が低下する。 本稿では, 有限粒子の収束過程における等方性特性について検討し, 有限粒子のSVGDが試料空間全体に分散できないことを示す。 代わりに、全ての粒子は一定の範囲で粒子中心の周りに集まり、このクラスターに対して解析的境界を与える。 高次元問題に対するSVGDの有効性をさらに向上するため,MP-SVGD法とは異なり,目標分布の空間性を必要としない2段階最適化手法であるAUMP-SVGD法を提案する。 本アルゴリズムは,様々なベンチマーク問題の分散崩壊問題を克服し,良好な精度を実現する。

Stein Variational Gradient Descent (SVGD) is a popular particle-based method for Bayesian inference. However, its convergence suffers from the variance collapse, which reduces the accuracy and diversity of the estimation. In this paper, we study the isotropy property of finite particles during the convergence process and show that SVGD of finite particles cannot spread across the entire sample space. Instead, all particles tend to cluster around the particle center within a certain range and we provide an analytical bound for this cluster. To further improve the effectiveness of SVGD for high-dimensional problems, we propose the Augmented Message Passing SVGD (AUMP-SVGD) method, which is a two-stage optimization procedure that does not require sparsity of the target distribution, unlike the MP-SVGD method. Our algorithm achieves satisfactory accuracy and overcomes the variance collapse problem in various benchmark problems.
翻訳日:2023-05-19 17:29:09 公開日:2023-05-18
# 量子力学における量子重力と測定問題

Quantum gravity and the measurement problem in quantum mechanics ( http://arxiv.org/abs/2305.10635v1 )

ライセンス: Link先を確認
Edgar Shaghoulian(参考訳) 量子力学における測定問題は、重力が無視される状況においてのみ議論される。 我々は、量子重力の理解における最近の進展について議論し、それらが問題を大きく変えると論じた。 量子重力は、宇宙全体の波動関数を誰が崩壊させるのかという、測定問題の議論で最も難しい問題の1つを解決できるかもしれない。

The measurement problem in quantum mechanics is almost exclusively discussed in situations where gravity is ignored. We discuss some recent developments in our understanding of quantum gravity and argue that they significantly alter the problem. Quantum gravity may even resolve one of the thorniest questions in discussions of the measurement problem: who collapses the wavefunction of the entire universe?
翻訳日:2023-05-19 17:28:53 公開日:2023-05-18
# 無限大ベイズ型ニューラルネットワークの非有界分散重みによる後方推定

Posterior Inference on Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance ( http://arxiv.org/abs/2305.10664v1 )

ライセンス: Link先を確認
Jorge Lor\'ia and Anindya Bhadra(参考訳) neal (1996) の古典的かつ影響力のある著作から、1つの隠れた層を持つベイズ型ニューラルネットワークの無限幅のスケーリング限界はガウス過程であり、ネットワークの重みが有界な事前分散を持つとき \emph{when the network weights have bounded prior variance} であることが知られている。 Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。 ガウス過程のトラクタブルな性質は、単純後部推論と不確かさの定量化を可能にし、有限幅のネットワークと比較して極限過程の研究を著しく単純化する。 しかし、境界のない分散を持つニューラルネットワークの重み付けは、ユニークな課題をもたらす。 この場合、古典的な中心極限定理は崩壊し、スケーリング極限が適切な条件下での$\alpha$-stableプロセスであることはよく知られている。 しかし、現在の文献は主にこれらの過程における前方シミュレーションに限られており、そのような拡大限界の下での後方推論の問題はほとんど解決されていない。 この目的のために、我々の貢献は後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブル後部推論と不確実性定量化のためのガウス過程機構をフル活用することができる。

From the classical and influential works of Neal (1996), it is known that the infinite width scaling limit of a Bayesian neural network with one hidden layer is a Gaussian process, \emph{when the network weights have bounded prior variance}. Neal's result has been extended to networks with multiple hidden layers and to convolutional neural networks, also with Gaussian process scaling limits. The tractable properties of Gaussian processes then allow straightforward posterior inference and uncertainty quantification, considerably simplifying the study of the limit process compared to a network of finite width. Neural network weights with unbounded variance, however, pose unique challenges. In this case, the classical central limit theorem breaks down and it is well known that the scaling limit is an $\alpha$-stable process under suitable conditions. However, current literature is primarily limited to forward simulations under these processes and the problem of posterior inference under such a scaling limit remains largely unaddressed, unlike in the Gaussian process case. To this end, our contribution is an interpretable and computationally efficient procedure for posterior inference, using a \emph{conditionally Gaussian} representation, that then allows full use of the Gaussian process machinery for tractable posterior inference and uncertainty quantification in the non-Gaussian regime.
翻訳日:2023-05-19 17:22:16 公開日:2023-05-18
# プライバシー保護画像生成のための微分プライベート確率モデル学習

Learning Differentially Private Probabilistic Models for Privacy-Preserving Image Generation ( http://arxiv.org/abs/2305.10662v1 )

ライセンス: Link先を確認
Bochao Liu, Shiming Ge, Pengju Wang, Liansheng Zhuang and Tongliang Liu(参考訳) 高品質で貴重なイメージでトレーニングされた多くの深層モデルが実用的なアプリケーションにデプロイされているため、データのプライバシの漏洩リスクが発生する可能性がある。 微分的にプライベートな生成モデルを学ぶことは、間接データアクセスを通じてこの課題を回避できる。 しかし、既存の手法によって学習されたそのような微分プライベートな生成モデルは、128x128未満の低解像度の画像しか生成できないため、下流トレーニングにおいて生成された画像が広く使用されるのを妨げている。 本研究では、差分プライバシー保証付き高解像度画像を生成するために、差分プライベート確率モデル(DPPM)の学習を提案する。 特に,トレーニング中にランダム化された応答機構を実行して,トレーニングデータの分布に適合するようにモデルをトレーニングし,差分プライバシを満足させる。 次に,訓練された確率モデルによって予測される微分プライベート移動方向とともに,ハミルトニアンダイナミクスサンプリングを行い,プライバシー保存画像を得る。 このようにして、プライベート情報を保護しながら、異なる下流タスクにこれらの画像を適用することができる。 特に、他の最先端の微分プライベートな生成アプローチと比較して、我々のアプローチは、目立った視覚的品質とデータユーティリティを持つ256x256の画像を生成することができる。 広範な実験が我々のアプローチの有効性を示している。

A number of deep models trained on high-quality and valuable images have been deployed in practical applications, which may pose a leakage risk of data privacy. Learning differentially private generative models can sidestep this challenge through indirect data access. However, such differentially private generative models learned by existing approaches can only generate images with a low-resolution of less than 128x128, hindering the widespread usage of generated images in downstream training. In this work, we propose learning differentially private probabilistic models (DPPM) to generate high-resolution images with differential privacy guarantee. In particular, we first train a model to fit the distribution of the training data and make it satisfy differential privacy by performing a randomized response mechanism during training process. Then we perform Hamiltonian dynamics sampling along with the differentially private movement direction predicted by the trained probabilistic model to obtain the privacy-preserving images. In this way, it is possible to apply these images to different downstream tasks while protecting private information. Notably, compared to other state-of-the-art differentially private generative approaches, our approach can generate images up to 256x256 with remarkable visual quality and data utility. Extensive experiments show the effectiveness of our approach.
翻訳日:2023-05-19 17:21:46 公開日:2023-05-18
# リモートセンシング画像のための内部構造制約に基づくクリブル教師付きターゲット抽出法

Scribble-Supervised Target Extraction Method Based on Inner Structure-Constraint for Remote Sensing Images ( http://arxiv.org/abs/2305.10661v1 )

ライセンス: Link先を確認
Yitong Li, Chang Liu, Jie Ma(参考訳) リモートセンシング画像のターゲット抽出におけるスクリブルアノテーションに基づく弱い教師付き学習は、巻物を示すためのスクリブルの柔軟性と手動ラベリングの低コストのために多くの関心を集めている。 しかし、スクリブルはオブジェクトの構造や詳細な情報を特定するには小さすぎるため、ターゲットのローカライゼーションや境界記述に大きな課題が生じる。 これらの問題を緩和するために,本研究では,2つの内部構造制約,変形整合損失とトレーニング可能なアクティブな輪郭損失と,エンコーダデコーダネットワークの最適化を事前のキューに基づく補助モジュールや余分な操作を導入することなく監視するスクリブル制約とを併用して構成する。 包括的実験により,本手法は5つの最先端アルゴリズムよりも優れていることを示した。 ソースコードはhttps://github.com/yitongli123/ISC-TEで入手できる。

Weakly supervised learning based on scribble annotations in target extraction of remote sensing images has drawn much interest due to scribbles' flexibility in denoting winding objects and low cost of manually labeling. However, scribbles are too sparse to identify object structure and detailed information, bringing great challenges in target localization and boundary description. To alleviate these problems, in this paper, we construct two inner structure-constraints, a deformation consistency loss and a trainable active contour loss, together with a scribble-constraint to supervise the optimization of the encoder-decoder network without introducing any auxiliary module or extra operation based on prior cues. Comprehensive experiments demonstrate our method's superiority over five state-of-the-art algorithms in this field. Source code is available at https://github.com/yitongli123/ISC-TE.
翻訳日:2023-05-19 17:21:25 公開日:2023-05-18
# 構音障害による構音障害の認識への応用

Use of Speech Impairment Severity for Dysarthric Speech Recognition ( http://arxiv.org/abs/2305.10659v1 )

ライセンス: Link先を確認
Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu(参考訳) dysorthric speech recognitionにおける重要な課題は、話者レベルの多様性が、性別や言語障害などの話者同一性に関連する要因によって引き起こされるものである。 この問題に対処する以前の研究は、話者識別のみの使用に焦点を当てていた。 そこで本研究では,重大度と話者識別の両立を両立させる新しい手法を提案する。 a)重大性予測誤差を取り入れたマルチタスクトレーニング b) 話者性を考慮した補助的特徴適応 c) 構造的LHUC変換は、話者同一性及び重度を別々に条件付ける。 UASpeechでの実験では、最先端のハイブリッドDNN、E2E Conformer、および事前訓練されたWav2vec 2.0 ASRシステムに追加の音声障害の重症度を組み込むことで、統計的に有意なWER削減が4.78%(14.03%)まで達成された。 最も優れたシステムを用いて、UASpeech上で17.82% (51.25%) の最も低い WER が得られた。

A key challenge in dysarthric speech recognition is the speaker-level diversity attributed to both speaker-identity associated factors such as gender, and speech impairment severity. Most prior researches on addressing this issue focused on using speaker-identity only. To this end, this paper proposes a novel set of techniques to use both severity and speaker-identity in dysarthric speech recognition: a) multitask training incorporating severity prediction error; b) speaker-severity aware auxiliary feature adaptation; and c) structured LHUC transforms separately conditioned on speaker-identity and severity. Experiments conducted on UASpeech suggest incorporating additional speech impairment severity into state-of-the-art hybrid DNN, E2E Conformer and pre-trained Wav2vec 2.0 ASR systems produced statistically significant WER reductions up to 4.78% (14.03% relative). Using the best system the lowest published WER of 17.82% (51.25% on very low intelligibility) was obtained on UASpeech.
翻訳日:2023-05-19 17:21:08 公開日:2023-05-18
# PTQD:拡散モデルのための正確な後処理量子化

PTQD: Accurate Post-Training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.10657v1 )

ライセンス: Link先を確認
Yefei He, Luping Liu, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは最近、画像合成やその他の関連する生成タスクを支配している。 しかし、反復的復調処理は推論時の計算に高価であり、低レイテンシでスケーラブルな実世界のアプリケーションでは拡散モデルが実用的でない。 拡散モデルのトレーニング後の量子化は、モデルサイズを大幅に削減し、再トレーニングを必要とせずにサンプリングプロセスを高速化することができる。 それでも、既存の学習後量子化法を低ビット拡散モデルに直接適用することは、生成したサンプルの品質を著しく損なう可能性がある。 具体的には、分別ステップ毎に、量子化ノイズが推定平均の偏差を生じさせ、所定の分散スケジュールとミスマッチする。 さらに、サンプリングプロセスが進むにつれて、量子化ノイズが蓄積され、遅延復調ステップにおいて信号対雑音比(SNR)が低くなる。 そこで本研究では, 量子化雑音と拡散摂動雑音を統一的に定式化する手法を提案する。 まず, 量子化雑音を, 相関部分と残差部分に分けて, その全精度部分について検討する。 相関係数を推定することにより、相関部を容易に補正することができる。 非相関部分については、偏極分散スケジュールを校正し、量子化による過剰な分散を吸収する。 さらに,高ビットが高snrを後期ステップに維持している間,低ビットを早期のデノージングステップの高速化に好むデノージングステップ毎に最適なビット幅を選択するための混合精度スキームを提案する。 広範な実験により,imagenet 256x256 のフル精度 ldm-4 と比較して,高品質のサンプル生成において,前回のトレーニング後の量子化拡散モデルよりも優れており,fid スコアは 0.06 % 向上し,19.9 倍の演算を節約できることを示した。

Diffusion models have recently dominated image synthesis and other related generative tasks. However, the iterative denoising process is expensive in computations at inference time, making diffusion models less practical for low-latency and scalable real-world applications. Post-training quantization of diffusion models can significantly reduce the model size and accelerate the sampling process without requiring any re-training. Nonetheless, applying existing post-training quantization methods directly to low-bit diffusion models can significantly impair the quality of generated samples. Specifically, for each denoising step, quantization noise leads to deviations in the estimated mean and mismatches with the predetermined variance schedule. Moreover, as the sampling process proceeds, the quantization noise may accumulate, resulting in a low signal-to-noise ratio (SNR) in late denoising steps. To address these challenges, we propose a unified formulation for the quantization noise and diffusion perturbed noise in the quantized denoising process. We first disentangle the quantization noise into its correlated and residual uncorrelated parts regarding its full-precision counterpart. The correlated part can be easily corrected by estimating the correlation coefficient. For the uncorrelated part, we calibrate the denoising variance schedule to absorb the excess variance resulting from quantization. Moreover, we propose a mixed-precision scheme to choose the optimal bitwidth for each denoising step, which prefers low bits to accelerate the early denoising steps while high bits maintain the high SNR for the late steps. Extensive experiments demonstrate that our method outperforms previous post-training quantized diffusion models in generating high-quality samples, with only a 0.06 increase in FID score compared to full-precision LDM-4 on ImageNet 256x256, while saving 19.9x bit operations.
翻訳日:2023-05-19 17:20:48 公開日:2023-05-18
# DeepEdit:3次元医用画像のインタラクティブセグメンテーションのためのディープラーニング学習

DeepEdit: Deep Editable Learning for Interactive Segmentation of 3D Medical Images ( http://arxiv.org/abs/2305.10655v1 )

ライセンス: Link先を確認
Andres Diaz-Pinto and Pritesh Mehta and Sachidanand Alle and Muhammad Asad and Richard Brown and Vishwesh Nath and Alvin Ihsani and Michela Antonelli and Daniel Palkovics and Csaba Pinter and Ron Alkalay and Steve Pieper and Holger R. Roth and Daguang Xu and Prerna Dogra and Tom Vercauteren and Andrew Feng and Abood Quraini and Sebastien Ourselin and M. Jorge Cardoso(参考訳) 医療画像の自動セグメンテーションは、診断および介入作業の重要なステップである。 しかし、これを達成するには大量の注釈付きボリュームが必要であり、専門家の注釈家にとっては退屈で時間のかかる作業である。 本稿では,自動および半自動セグメンテーションとクリックベースのリファインメントを可能にする,ボリュームカルメディカル画像アノテーションのためのディープラーニングベースの深層学習手法であるdeepeditを提案する。 DeepEditは、非インタラクティブ(nnU-Net、UNET、UNETRを使った自動セグメンテーション)とインタラクティブセグメンテーション(DeepGrow)の2つの方法のパワーを1つのディープラーニングモデルに統合する。 不確実性に基づくランキング戦略(アレエータ的および認識的不確実性計算)とアクティブラーニングの容易な統合を可能にする。 本稿では,ユーザインタラクションシミュレーションと組み合わせた標準トレーニングを用いてDeepEditの学習方法を提案する。 deepeditを訓練すると、臨床医はアルゴリズムを自動セグメンテーションモードで使用したり、ユーザーインターフェース(つまり3dスライサ、ohif)経由でクリックを提供することで、データセットを迅速にセグメント化できる。 本稿では,前立腺・前立腺病変に対する PROSTATEx データセットと腹部CTセグメント化のための Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) データセットを用いて,最新のネットワークアーキテクチャをベースラインとして,DeepEdit の価値を示す。 DeepEditは、DeepGrowだけで3D画像に注釈をつける時間と労力を減らすことができる。 ソースコードはhttps://github.com/Project-MONAI/MONAILabelで入手できる。

Automatic segmentation of medical images is a key step for diagnostic and interventional tasks. However, achieving this requires large amounts of annotated volumes, which can be tedious and time-consuming task for expert annotators. In this paper, we introduce DeepEdit, a deep learning-based method for volumetric medical image annotation, that allows automatic and semi-automatic segmentation, and click-based refinement. DeepEdit combines the power of two methods: a non-interactive (i.e. automatic segmentation using nnU-Net, UNET or UNETR) and an interactive segmentation method (i.e. DeepGrow), into a single deep learning model. It allows easy integration of uncertainty-based ranking strategies (i.e. aleatoric and epistemic uncertainty computation) and active learning. We propose and implement a method for training DeepEdit by using standard training combined with user interaction simulation. Once trained, DeepEdit allows clinicians to quickly segment their datasets by using the algorithm in auto segmentation mode or by providing clicks via a user interface (i.e. 3D Slicer, OHIF). We show the value of DeepEdit through evaluation on the PROSTATEx dataset for prostate/prostatic lesions and the Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) dataset for abdominal CT segmentation, using state-of-the-art network architectures as baseline for comparison. DeepEdit could reduce the time and effort annotating 3D medical images compared to DeepGrow alone. Source code is available at https://github.com/Project-MONAI/MONAILabel
翻訳日:2023-05-19 17:20:19 公開日:2023-05-18
# 認知の共通モデルによるシステム1と2の明確化

Clarifying System 1 & 2 through the Common Model of Cognition ( http://arxiv.org/abs/2305.10654v1 )

ライセンス: Link先を確認
Brendan Conway-Smith and Robert L. West(参考訳) System-1 と System-2 の二重システム記述には不正確さと誤解の促進が問題となっている。 我々はこれらの問題を、計算思考を分析ツールとして使うというdennettの魅力、特に共通認知モデルを用いて解決する。 その結果, System-1 と System-2 の特徴が認知特性のスペクトルを形成することがわかった。 システム1とシステム2を共通モデルで基礎づけることで,その基盤となるメカニズム,誤解の持続,メタ認知への示唆を明らかにする。

There have been increasing challenges to dual-system descriptions of System-1 and System-2, critiquing them as imprecise and fostering misconceptions. We address these issues here by way of Dennett's appeal to use computational thinking as an analytical tool, specifically we employ the Common Model of Cognition. Results show that the characteristics thought to be distinctive of System-1 and System-2 instead form a spectrum of cognitive properties. By grounding System-1 and System-2 in the Common Model we aim to clarify their underlying mechanisms, persisting misconceptions, and implications for metacognition.
翻訳日:2023-05-19 17:19:48 公開日:2023-05-18
# 2トン変調空洞電磁石

Two-tone modulated cavity electromagnonics ( http://arxiv.org/abs/2305.10653v1 )

ライセンス: Link先を確認
Nianqi Hu and Huatang Tan(参考訳) キャビティ・エレクトロマグノニクスは、量子力学と量子技術の基礎研究のための新しいプラットフォームとして発展しつつある。 現在の実験におけるマイクロ波場とマグノンキトルモードの結合は共鳴周波数よりもかなり弱いため、マグノン-マイクロ波-光子相互作用における反回転項は無視でき、ビームスプリッター状部分のみが効果を発揮する。 この状況では、フォノン、励起光子、超伝導量子ビットなどの他のサブシステムが組み込まれない限り、マグノン非古典状態の直接生成は不可能である。 本稿では,2音変調キャビティ電磁気学を,非自明な反回転項を保ち,波長可変位相因子を得ることで,汎用線形キャビティ光学系と全く同じ有効ハミルトニアンが得られることを考察する。 したがって、これは、安定で強い圧縮と絡み合った状態の生成によって詳細に実証されたマクロなマグノン量子状態を直接生成し、マグノンと光子の工学的バックアクション回避相互作用による超感度マグノンベースのセンシングを実現し、スピントロニクス関連の量子情報処理装置を開発するために利用することができる。

Cavity electromagnonics has increasingly emerged as a new platform for the fundamental study of quantum mechanics and quantum technologies. Since the coupling between the microwave field and magnon Kittle modes in current experiments is much weaker than their resonant frequencies, the anti-rotating terms in magnon-microwave-photon interaction can be neglected and only the beam-splitter-like part takes effect. In this situation, the direct generation of magnonic nonclassical states is impossible, unless other subsystems e.g. phonons, squeezed photons or superconducting qubits are incorporated. In this paper, we consider two-tone modulated cavity electromagnonics to keep the nontrivial anti-rotating terms and obtain tunable phase factors, resulting in an effective Hamiltonian exactly the same as that of generic linearized cavity optomechanics. This can therefore be exploited to directly prepare macroscopic magnonic quantum states, as detailedly exemplified by the generation of steady and strongly squeezed and entangled states, realize ultra-sensitive magnon-based sensing by engineering backaction-evading interaction of magnons and photons, and develop spintronics-related quantum information processing devices.
翻訳日:2023-05-19 17:19:36 公開日:2023-05-18
# コントラスト学習と深いモジュール化に基づく音声分離

Speech Separation based on Contrastive Learning and Deep Modularization ( http://arxiv.org/abs/2305.10652v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 音声分離のための技術ツールの現況は教師付き学習に依存している。 これは、置換問題に対処する必要があることを意味しており、トレーニングや推論で使用する話者数にミスマッチの影響を受けている。 さらに、その性能は高品質なラベル付きデータの存在に大きく依存している。 これらの問題は、完全に教師なしの音声分離技術を用いることで効果的に解決できる。 本稿では,コントラスト学習を用いてフレームの表現を確立し,下流のディープモジュール化タスクで学習表現を使用する。 具体的には、音声分離において、話者の異なるフレームを、その話者の隠れた標準フレームの強化と見なすことができることを実験的に示す。 話者のフレームは、音声分離の鍵となる十分な韻律情報の重複を含む。 そこで本研究では,与えられた話者に属するフレーム間の距離を最小化するために,自己教師付き学習を実現する。 学習された表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。 WSJ0-2mix と WSJ0-3mix において, SI-SNRi と SDRi を 20.8 と 21.0 でそれぞれ達成した。 WSJ0-3mix では、SI-SNRi と SDRi はそれぞれ 20.7 と 20.7 を WSJ0-2mix で得る。 最大の強みは、話者数が増えるにつれて、その性能が著しく低下しないことである。

The current monaural state of the art tools for speech separation relies on supervised learning. This means that they must deal with permutation problem, they are impacted by the mismatch on the number of speakers used in training and inference. Moreover, their performance heavily relies on the presence of high-quality labelled data. These problems can be effectively addressed by employing a fully unsupervised technique for speech separation. In this paper, we use contrastive learning to establish the representations of frames then use the learned representations in the downstream deep modularization task. Concretely, we demonstrate experimentally that in speech separation, different frames of a speaker can be viewed as augmentations of a given hidden standard frame of that speaker. The frames of a speaker contain enough prosodic information overlap which is key in speech separation. Based on this, we implement a self-supervised learning to learn to minimize the distance between frames belonging to a given speaker. The learned representations are used in a downstream deep modularization task to cluster frames based on speaker identity. Evaluation of the developed technique on WSJ0-2mix and WSJ0-3mix shows that the technique attains SI-SNRi and SDRi of 20.8 and 21.0 respectively in WSJ0-2mix. In WSJ0-3mix, it attains SI-SNRi and SDRi of 20.7 and 20.7 respectively in WSJ0-2mix. Its greatest strength being that as the number of speakers increase, its performance does not degrade significantly.
翻訳日:2023-05-19 17:19:14 公開日:2023-05-18
# zeroprompt:ストリーミング音響エンコーダはゼロショットマスクlms

ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs ( http://arxiv.org/abs/2305.10649v1 )

ライセンス: Link先を確認
Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu(参考訳) 本稿では,ストリーミングasrモデルのトークン表示時間(tdt)を減少させるために,0prompt(図1-(a))と対応するprompt-and-refine strategy(図3)を提案する。 ZeroPromptの中核となる考え方は、推論中に各チャンクにゼロコンテンツを追加することである。 我々は,ストリーミング音響エンコーダは自然にマスキング言語モデルのモデリング能力を有しており,実験によりzeropromptは工学的に安価であり,精度を損なうことなく任意のデータセット上のストリーミング音響エンコーダに適用できることが示されている。 具体的には, ベースラインモデルと比較して, Aishell-1 と Librispeech のデータセットに対して, 350$\sim$700ms, 100$\sim$400ms, Last Token Display Time (TDT-L) で350$400ms, 理論上および実験的に等しいWERを実現した。

In this paper, we present ZeroPrompt (Figure 1-(a)) and the corresponding Prompt-and-Refine strategy (Figure 3), two simple but effective \textbf{training-free} methods to decrease the Token Display Time (TDT) of streaming ASR models \textbf{without any accuracy loss}. The core idea of ZeroPrompt is to append zeroed content to each chunk during inference, which acts like a prompt to encourage the model to predict future tokens even before they were spoken. We argue that streaming acoustic encoders naturally have the modeling ability of Masked Language Models and our experiments demonstrate that ZeroPrompt is engineering cheap and can be applied to streaming acoustic encoders on any dataset without any accuracy loss. Specifically, compared with our baseline models, we achieve 350 $\sim$ 700ms reduction on First Token Display Time (TDT-F) and 100 $\sim$ 400ms reduction on Last Token Display Time (TDT-L), with theoretically and experimentally equal WER on both Aishell-1 and Librispeech datasets.
翻訳日:2023-05-19 17:18:53 公開日:2023-05-18
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks.
翻訳日:2023-05-19 17:13:51 公開日:2023-05-18
# ブラックボックスをターゲットとしたオンライン深層強化学習攻撃

Black-Box Targeted Reward Poisoning Attack Against Online Deep Reinforcement Learning ( http://arxiv.org/abs/2305.10681v1 )

ライセンス: Link先を確認
Yinglun Xu, Gagandeep Singh(参考訳) トレーニング期間中の報酬中毒によるオンライン深層学習に対する最初のブラックボックス攻撃を提案する。 この攻撃は未知のアルゴリズムによって学習される未知のダイナミクスを持つ一般的な環境に適用でき、攻撃予算と計算資源が限られている。 一般的なフレームワークを活用し,学習アルゴリズムの一般的な仮定の下で効率的な攻撃を確実にするための条件を求める。 この条件下での攻撃が我々のフレームワークで最適であることを示す。 限られた予算で、我々は学習エージェントが様々なdrl環境や最先端の学習者の下で、効率的に様々なターゲットポリシーに導くことを実験的に検証する。

We propose the first black-box targeted attack against online deep reinforcement learning through reward poisoning during training time. Our attack is applicable to general environments with unknown dynamics learned by unknown algorithms and requires limited attack budgets and computational resources. We leverage a general framework and find conditions to ensure efficient attack under a general assumption of the learning algorithms. We show that our attack is optimal in our framework under the conditions. We experimentally verify that with limited budgets, our attack efficiently leads the learning agent to various target policies under a diverse set of popular DRL environments and state-of-the-art learners.
翻訳日:2023-05-19 17:13:22 公開日:2023-05-18
# 非自己回帰型エンドツーエンド音声認識システムによる信頼度推定

Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System ( http://arxiv.org/abs/2305.10680v1 )

ライセンス: Link先を確認
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan(参考訳) 認識結果の信頼度を推定することは、ASR分野における古典的な課題であり、下流のタスクやトレーニング戦略にとって重要な課題である。 前回のエンドツーエンド~(e2e)ベースの信頼度推定モデル(cem)は、入力された書き起こしと等しい長さのスコアシーケンスを予測する。 本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するためのCIF-Aligned confidence Estimation Model (CA-CEM) を提案する。 CA-CEMは、CIF(Continuous Integration-and-fire)メカニズムのモデリング特性を利用してトークン同期音響埋め込みを生成し、上記の推定失敗問題を解く。 本稿では,トークンレベルにおけるAUCとRMSEによる推定精度と,発話レベルにおけるECE-Uの指標を提案する。 CA-CEMはECE-UとAUCとRMSEの2つのテストセットで24%と19%の相対的な減少率を得た。 さらに、我々は、異なるASR関連用途におけるCEMの可能性を探るために分析を行う。

Estimating confidence scores for recognition results is a classic task in ASR field and of vital importance for kinds of downstream tasks and training strategies. Previous end-to-end~(E2E) based confidence estimation models (CEM) predict score sequences of equal length with input transcriptions, leading to unreliable estimation when deletion and insertion errors occur. In this paper we proposed CIF-Aligned confidence estimation model (CA-CEM) to achieve accurate and reliable confidence estimation based on novel non-autoregressive E2E ASR model - Paraformer. CA-CEM utilizes the modeling character of continuous integrate-and-fire (CIF) mechanism to generate token-synchronous acoustic embedding, which solves the estimation failure issue above. We measure the quality of estimation with AUC and RMSE in token level and ECE-U - a proposed metrics in utterance level. CA-CEM gains 24% and 19% relative reduction on ECE-U and also better AUC and RMSE on two test sets. Furthermore, we conduct analysis to explore the potential of CEM for different ASR related usage.
翻訳日:2023-05-19 17:13:12 公開日:2023-05-18
# コードの外で考える:ブレインストーミングはコード生成において大きな言語モデルを増やす

Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation ( http://arxiv.org/abs/2305.10679v1 )

ライセンス: Link先を確認
Xin-Ye Li, Jiang-Tian Xue, Zheng Xie and Ming Li(参考訳) コード生成は、高レベルのタスク仕様からソースコードを自動的に生成することを目的としている。 近年、大規模言語モデル(llms)に基づくアプローチは、単純なタスクで素晴らしいコード生成能力を示している。 しかし、競争レベルの問題など、より複雑なタスクのためのコードを生成することは依然として困難である。 本稿では,コード生成のためのBrainstormフレームワークを紹介する。 ブレインストーミングのステップを利用して、問題に関するさまざまな思考を生成し、選択し、アルゴリズムによる推論を促進する。 我々は、brainstormが競合レベルのプログラミング問題を解決するためのllmの能力を大幅に向上させ、codecontestsベンチマークでchatgptのpass@$k$メトリックを50%以上増加させ、最先端のパフォーマンスを達成することを実証した。 さらに、LeetCodeコンテストで実施した実験により、我々のフレームワークは、ChatGPTの能力を人間のプログラマに匹敵するレベルまで引き上げることを示した。

Code generation aims to automatically generate source code from high-level task specifications, which can significantly increase productivity of software engineering. Recently, approaches based on large language models (LLMs) have shown remarkable code generation abilities on simple tasks. However, generate code for more complex tasks, such as competition-level problems, remains challenging. In this paper, we introduce Brainstorm framework for code generation. It leverages a brainstorming step that generates and selects diverse thoughts on the problem to facilitate algorithmic reasoning, where the thoughts are possible blueprint of solving the problem. We demonstrate that Brainstorm significantly enhances the ability of LLMs to solve competition-level programming problems, resulting in a more than 50% increase in the pass@$k$ metrics for ChatGPT on the CodeContests benchmark, achieving state-of-the-art performance. Furthermore, our experiments conducted on LeetCode contests show that our framework boosts the ability of ChatGPT to a level comparable to that of human programmers.
翻訳日:2023-05-19 17:12:38 公開日:2023-05-18
# 分数量子スターリング熱エンジンの性能改善

Performance improvement of a fractional quantum Stirling heat engine ( http://arxiv.org/abs/2305.10676v1 )

ライセンス: Link先を確認
Shihao Xia, Youlin Wang, Minglong Lv, Jincan Chen, and Shanhe Su(参考訳) 量子系の熱力学的挙動に及ぼす分数パラメータの影響を調べるため,量子スターリング熱エンジンのサイクルに分数量子力学を取り入れ,分数パラメータが再生と効率に及ぼす影響を検討する。 分数パラメータ構造を利用して熱力学サイクルを制御し,その有効性を評価する新しい手法を提案する。 その結果, 分数パラメータを調整することにより, サイクルの領域を完全再生とCarnot効率を拡張できることが判明した。

To investigate the impact of fractional parameter on the thermodynamic behaviors of quantum systems, we incorporate fractional quantum mechanics into the cycle of a quantum Stirling heat engine and examine the influence of fractional parameter on the regeneration and efficiency. We propose a novel approach to control the thermodynamic cycle that leverages the fractional parameter structure and evaluates its effectiveness. Our findings reveal that by tuning the fractional parameter, the region of the cycle with the perfect regeneration and the Carnot efficiency can be expanded.
翻訳日:2023-05-19 17:11:58 公開日:2023-05-18
# 教師付きコントラスト学習

Tuned Contrastive Learning ( http://arxiv.org/abs/2305.10675v1 )

ライセンス: Link先を確認
Chaitanya Animesh, Manmohan Chandraker(参考訳) 近年,SOTA(State-of-the-art)のパフォーマンスにより,視覚的自己指導型表現学習において,コントラスト学習に基づく損失関数が普及している。 simclrのような現代のコントラスト学習損失関数のほとんどは情報ベースであり、アンカーごとに1つの正と複数の負のみに一般化している。 最近の最先端の教師付きコントラスト学習(SupCon)は、バッチ内の複数の正と複数の負に一般化し、自己教師付きコントラスト学習を教師付きセッティングに拡張し、クロスエントロピー損失を改善する。 本稿では,TCL(Tuned Contrastive Learning)損失を,バッチ内で複数の正と複数の負に一般化し,ハードポジトリとハードポジトリから勾配応答を調整・改善するためのパラメータを提供する,新しいコントラスト型損失関数を提案する。 本研究では,損失関数の勾配応答の理論解析を行い,SupCon損失よりも数学的に優れていることを示す。 複数の分類タスクデータセット上の教師あり環境における損失関数とSupCon損失とクロスエントロピー損失を比較した。 また,種々のハイパーパラメータ設定に対する損失関数の安定性を示す。 最後に、TCLと様々なSOTA自己教師付き学習手法を比較し、その損失関数が教師付きと自己教師付きの両方の設定におけるSOTA手法と同等の性能を発揮することを示す。

In recent times, contrastive learning based loss functions have become increasingly popular for visual self-supervised representation learning owing to their state-of-the-art (SOTA) performance. Most of the modern contrastive learning loss functions like SimCLR are Info-NCE based and generalize only to one positive and multiple negatives per anchor. A recent state-of-the-art, supervised contrastive (SupCon) loss, extends self-supervised contrastive learning to supervised setting by generalizing to multiple positives and multiple negatives in a batch and improves upon the cross-entropy loss. In this paper, we propose a novel contrastive loss function - Tuned Contrastive Learning (TCL) loss, that generalizes to multiple positives and multiple negatives within a batch and offers parameters to tune and improve the gradient responses from hard positives and hard negatives. We provide theoretical analysis of our loss function's gradient response and show mathematically how it is better than that of SupCon loss. Empirically, we compare our loss function with SupCon loss and cross-entropy loss in a supervised setting on multiple classification-task datasets. We also show the stability of our loss function to various hyper-parameter settings. Finally, we compare TCL with various SOTA self-supervised learning methods and show that our loss function achieves performance on par with SOTA methods in both supervised and self-supervised settings.
翻訳日:2023-05-19 17:11:41 公開日:2023-05-18
# lessはもっとあり得る:大規模動的グラフのための教師なしグラフプラニング

Less Can Be More: Unsupervised Graph Pruning for Large-scale Dynamic Graphs ( http://arxiv.org/abs/2305.10673v1 )

ライセンス: Link先を確認
Jintang Li, Sheng Tian, Ruofan Wu, Liang Zhu, Welong Zhao, Changhua Meng, Liang Chen, Zibin Zheng, Hongzhi Yin(参考訳) 大規模グラフの普及は、グラフニューラルネットワーク(gnn)のトレーニングとデプロイのための時間とストレージにおいて大きな課題となる。 いくつかの最近の研究は、大きな原グラフを小さく、高インフォーマルなグラフにプルーニングするソリューションを探しており、プルーニングされたグラフと大きなグラフのトレーニングと推論は同等のパフォーマンスを持つ。 経験的効果はあるものの、現在の研究は静的グラフや非時間グラフに重点を置いている。 さらに、情報構造を学ぶためには、ラベルを基礎的真理として求め、ラベルが入手困難な新しい問題領域に適用性を制限する。 このジレンマを解決するために,動的グラフ上で教師なしグラフプルーニングの問題を提案し,検討する。 我々は,入力動的グラフから潜在的に冗長なエッジを取り除くことを学習する自己教師付き時間的プルーニングフレームワークSTEPにより,この問題にアプローチする。 技術的・産業的な観点から,本手法は性能と時間・メモリオーバーヘッドのトレードオフを克服する。 実世界の3つのデータセットを用いて、動的ノード分類タスクにおけるGNNの有効性、堅牢性、効率性を改善する利点を実証した。 最も注目すべきは、stepは、100万の産業用グラフalipay(7mノード、21mエッジ)のエッジの50%以上をプルーピングできると同時に、元のパフォーマンスの98%近くを占めることだ。 コードはhttps://github.com/EdisonLeeeee/STEPで入手できる。

The prevalence of large-scale graphs poses great challenges in time and storage for training and deploying graph neural networks (GNNs). Several recent works have explored solutions for pruning the large original graph into a small and highly-informative one, such that training and inference on the pruned and large graphs have comparable performance. Although empirically effective, current researches focus on static or non-temporal graphs, which are not directly applicable to dynamic scenarios. In addition, they require labels as ground truth to learn the informative structure, limiting their applicability to new problem domains where labels are hard to obtain. To solve the dilemma, we propose and study the problem of unsupervised graph pruning on dynamic graphs. We approach the problem by our proposed STEP, a self-supervised temporal pruning framework that learns to remove potentially redundant edges from input dynamic graphs. From a technical and industrial viewpoint, our method overcomes the trade-offs between the performance and the time & memory overheads. Our results on three real-world datasets demonstrate the advantages on improving the efficacy, robustness, and efficiency of GNNs on dynamic node classification tasks. Most notably, STEP is able to prune more than 50% of edges on a million-scale industrial graph Alipay (7M nodes, 21M edges) while approximating up to 98% of the original performance. Code is available at https://github.com/EdisonLeeeee/STEP.
翻訳日:2023-05-19 17:11:05 公開日:2023-05-18
# MetaGAD:Few-shot Graph Anomaly Detectionのためのメタトランスファー学習

MetaGAD: Learning to Meta Transfer for Few-shot Graph Anomaly Detection ( http://arxiv.org/abs/2305.10668v1 )

ライセンス: Link先を確認
Xiongxiao Xu, Kaize Ding, Canyu Chen, Kai Shu(参考訳) グラフ異常検出は, 金融詐欺, ソーシャルスパム, ネットワーク侵入など, 情報セキュリティに関する諸分野において, 長年にわたり重要な問題であった。 既存の手法の大部分は教師なしの方法で行われ、大規模にラベル付けされた異常はしばしば取得するには高価である。 しかし、識別された異常は、異常に関する事前の知識がないため、データノイズや興味のないデータインスタンスとなる可能性がある。 現実的なシナリオでは、ラベル付き異常を限定的に得ることがしばしば可能であり、グラフ異常検出を前進させる可能性がある。 しかし、グラフ内のラベル付き異常や大量の未ラベルノードを探索して異常を検出する作業は限られている。 そこで本稿では,少数ショットグラフ異常検出の新たな問題について検討する。 本稿では,グラフ異常検出のためのラベル付きノードとラベル付きノードの知識をメタトランスファーするMetaGADを提案する。 合成異常を伴う実世界の6つのデータセットと「有機」異常(データセットで利用可能)の実験結果から,ラベル付き異常を限定した異常を検出する手法の有効性が示された。

Graph anomaly detection has long been an important problem in various domains pertaining to information security such as financial fraud, social spam, network intrusion, etc. The majority of existing methods are performed in an unsupervised manner, as labeled anomalies in a large scale are often too expensive to acquire. However, the identified anomalies may turn out to be data noises or uninteresting data instances due to the lack of prior knowledge on the anomalies. In realistic scenarios, it is often feasible to obtain limited labeled anomalies, which have great potential to advance graph anomaly detection. However, the work exploring limited labeled anomalies and a large amount of unlabeled nodes in graphs to detect anomalies is rather limited. Therefore, in this paper, we study a novel problem of few-shot graph anomaly detection. We propose a new framework MetaGAD to learn to meta-transfer the knowledge between unlabeled and labeled nodes for graph anomaly detection. Experimental results on six real-world datasets with synthetic anomalies and "organic" anomalies (available in the dataset) demonstrate the effectiveness of the proposed approach in detecting anomalies with limited labeled anomalies.
翻訳日:2023-05-19 17:10:39 公開日:2023-05-18
# 英語テキストから音声への合成のための統一フロントエンドフレームワーク

a unified front-end framework for english text-to-speech synthesis ( http://arxiv.org/abs/2305.10666v1 )

ライセンス: Link先を確認
Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, YuanYuan Huo, Yuping Wang, Yuxuan Wang(参考訳) フロントエンドは、英語のテキスト音声合成システム(TTS)の重要な構成要素であり、韻律や音素などの音声を合成するテキスト音声合成モデルに不可欠な言語的特徴を抽出する役割を担っている。 英語のTSフロントエンドは、典型的にはテキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、グラフ音素対音素(G2P)モジュールからなる。 しかし、現在のTTSフロントエンドの研究は、個々のモジュールにのみ焦点をあて、それらの相互依存を無視し、各モジュールに対して準最適性能をもたらす。 そこで本稿では,英語ttsフロントエンドモジュール間の依存関係をキャプチャするフロントエンドフレームワークを提案する。 実験により, 提案手法は全モジュールのSOTA性能を実現することを示した。

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.
翻訳日:2023-05-19 17:10:23 公開日:2023-05-18
# コンテンツに基づく非制限的攻撃

Content-based Unrestricted Adversarial Attack ( http://arxiv.org/abs/2305.10665v1 )

ライセンス: Link先を確認
Zhaoyu Chen and Bo Li and Shuang Wu and Kaixun Jiang and Shouhong Ding and Wenqiang Zhang(参考訳) 制限のない敵対的攻撃は、通常、画像(例えば色やテクスチャ)のセマンティックな内容を操作して、効果的でフォトリアリスティックな例を作成し、人間の知覚とディープニューラルネットワークを、ステルスと成功で騙す能力を示す。 しかし、現在の作品は通常、制限のない程度を犠牲にして、その攻撃性能を制限する制限のない敵対的な例のフォトリアリズムを保証するために、いくつかの画像コンテンツを主観的に選択する。 敵のサンプルのフォトリアリズムを確保し,攻撃性能を高めるために,コンテンツベース非拘束攻撃と呼ばれる新しい非制限攻撃フレームワークを提案する。 自然像を表す低次元多様体を利用することで、像を多様体上に写像し、その逆方向に沿って最適化する。 そこで,本フレームワークでは,安定拡散に基づく逆コンテンツアタックを実装し,様々な逆コンテンツを用いた高い転送性を持つ非制限逆の例を生成する。 大規模な実験と可視化は、通常訓練されたモデルと防御手法でそれぞれ平均13.3-50.4%と16.8-48.0%の最先端攻撃を克服するACAの有効性を示す。

Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic, demonstrating their ability to deceive human perception and deep neural networks with stealth and success. However, current works usually sacrifice unrestricted degrees and subjectively select some image content to guarantee the photorealism of unrestricted adversarial examples, which limits its attack performance. To ensure the photorealism of adversarial examples and boost attack performance, we propose a novel unrestricted attack framework called Content-based Unrestricted Adversarial Attack. By leveraging a low-dimensional manifold that represents natural images, we map the images onto the manifold and optimize them along its adversarial direction. Therefore, within this framework, we implement Adversarial Content Attack based on Stable Diffusion and can generate high transferable unrestricted adversarial examples with various adversarial contents. Extensive experimentation and visualization demonstrate the efficacy of ACA, particularly in surpassing state-of-the-art attacks by an average of 13.3-50.4% and 16.8-48.0% in normally trained models and defense methods, respectively.
翻訳日:2023-05-19 17:10:04 公開日:2023-05-18
# パーソナライゼーションによるテキスト・画像拡散モデルに対するゼロデイバックドア攻撃

Zero-Day Backdoor Attack against Text-to-Image Diffusion Models via Personalization ( http://arxiv.org/abs/2305.10701v1 )

ライセンス: Link先を確認
Yihao Huang, Qing Guo, Felix Juefei-Xu(参考訳) 最近のパーソナライズ手法は、最小限の例と軽量な計算で迅速な概念獲得を可能にすることで、高解像度画像合成を民主化してきたが、高アクセス性バックドアアタックのための悪用可能な手段も提示している。 本稿では,テキスト・ツー・イメージ(t2i)拡散モデルの批判的かつ未検討な側面について検討する。 従来のバックドアアタックと比較して,提案手法はより正確で効率的で容易にアクセス可能な攻撃が容易であり,参入障壁が低く,テキストインバージョンとドリームブートによって認識される2つのパーソナライゼーション手法に共通するゼロデイバックドア脆弱性に着目した。 我々は,t2i拡散モデルにおけるパーソナライゼーションの包括的レビューを行い,このバックドア脆弱性の操作と悪用の可能性を強調した。 具体的には,テキストインバージョンとドリームブートの迅速な処理について検討し,未知のトークンの扱い方に応じて専用のバックドアアタックを考案し,攻撃効果に対するトリガーとコンセプトイメージの影響を分析した。 実験の結果,nouveau-tokenバックドア攻撃は攻撃性能が向上し,レガシ-tokenバックドア攻撃は防御が困難になる可能性が示唆された。

Although recent personalization methods have democratized high-resolution image synthesis by enabling swift concept acquisition with minimal examples and lightweight computation, they also present an exploitable avenue for high accessible backdoor attacks. This paper investigates a critical and unexplored aspect of text-to-image (T2I) diffusion models - their potential vulnerability to backdoor attacks via personalization. Our study focuses on a zero-day backdoor vulnerability prevalent in two families of personalization methods, epitomized by Textual Inversion and DreamBooth.Compared to traditional backdoor attacks, our proposed method can facilitate more precise, efficient, and easily accessible attacks with a lower barrier to entry. We provide a comprehensive review of personalization in T2I diffusion models, highlighting the operation and exploitation potential of this backdoor vulnerability. To be specific, by studying the prompt processing of Textual Inversion and DreamBooth, we have devised dedicated backdoor attacks according to the different ways of dealing with unseen tokens and analyzed the influence of triggers and concept images on the attack effect. Our empirical study has shown that the nouveau-token backdoor attack has better attack performance while legacy-token backdoor attack is potentially harder to defend.
翻訳日:2023-05-19 17:02:44 公開日:2023-05-18
# 生物配列生成のためのディリクレ拡散スコアモデル

Dirichlet Diffusion Score Model for Biological Sequence Generation ( http://arxiv.org/abs/2305.10699v1 )

ライセンス: Link先を確認
Pavel Avdeyev, Chenlai Shi, Yuhao Tan, Kseniia Dudnyk, Jian Zhou(参考訳) 生物配列を設計することは、複雑な制約を満たす必要がある重要な課題であり、そのため、深層生成モデルに対処する自然問題である。 拡散生成モデルは多くの応用でかなりの成功を収めている。 スコアに基づく生成的確率微分方程式(sde)モデルは、多くの利点を享受する連続時間拡散モデルフレームワークであるが、当初提案されたsdeは、離散データモデリングのために自然に設計されたものではない。 生物配列などの離散データに対する生成SDEモデルを開発するために, 定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。 これにより、連続空間における拡散は離散データのモデリングに自然である。 このアプローチをdirchlet diffusion score modelと呼んでいる。 本手法は,sudoku生成タスクを用いてハード制約を満たすサンプルを生成できることを実証する。 この生成モデルは、追加の訓練なしにハードパズルを含む数独を解くこともできる。 最後に,ヒトプロモーターDNA配列設計モデルの開発に本手法を適用し,設計した配列が自然プロモーター配列と類似した性質を持つことを示した。

Designing biological sequences is an important challenge that requires satisfying complex constraints and thus is a natural problem to address with deep generative modeling. Diffusion generative models have achieved considerable success in many applications. Score-based generative stochastic differential equations (SDE) model is a continuous-time diffusion model framework that enjoys many benefits, but the originally proposed SDEs are not naturally designed for modeling discrete data. To develop generative SDE models for discrete data such as biological sequences, here we introduce a diffusion process defined in the probability simplex space with stationary distribution being the Dirichlet distribution. This makes diffusion in continuous space natural for modeling discrete data. We refer to this approach as Dirchlet diffusion score model. We demonstrate that this technique can generate samples that satisfy hard constraints using a Sudoku generation task. This generative model can also solve Sudoku, including hard puzzles, without additional training. Finally, we applied this approach to develop the first human promoter DNA sequence design model and showed that designed sequences share similar properties with natural promoter sequences.
翻訳日:2023-05-19 17:02:22 公開日:2023-05-18
# 様々なバングラ・オンライン新聞のニュース検索による位置のランク付けと今後の犯罪発生予測

Ranking the locations and predicting future crime occurrence by retrieving news from different Bangla online newspapers ( http://arxiv.org/abs/2305.10698v1 )

ライセンス: Link先を確認
Jumman Hossain, Rajib Chandra Das, Md. Ruhul Amin, Md. Saiful Islam(参考訳) 毎日何千もの犯罪が起こっています。 しかし、統計は少ないため、犯罪率は日に日に増えている。 背景にある理由は、以前の犯罪の統計がより少ないか少ないかである。 一般人が退去決定を下す前の犯罪統計を観察することがより重要であり、犯人を捕まえた警察は、犯罪を抑止する措置を取っており、観光客は旅の判断を下すことが重要である。 国立司法研究所は国内の犯罪調査データを公表しているが、ユニオンレベルやタナレベルまでの犯罪統計は提供していない。 これらすべての事例を考慮すると、我々は、将来の犯罪発生予測機構を含む地図上の犯罪の所在を示す異なる領域の犯罪ランキングを持つ特定の場所の安全性について、人々に近似するアプローチを考案した。 我々のアプローチは、様々なオンラインバングラの新聞に、犯罪データをクロール、ステーミングとキーワード抽出、位置探索アルゴリズム、コサイン類似性、ナイーブベイズ分類器、カスタム犯罪予測モデルに頼っている。

There have thousands of crimes are happening daily all around. But people keep statistics only few of them, therefore crime rates are increasing day by day. The reason behind can be less concern or less statistics of previous crimes. It is much more important to observe the previous crime statistics for general people to make their outing decision and police for catching the criminals are taking steps to restrain the crimes and tourists to make their travelling decision. National institute of justice releases crime survey data for the country, but does not offer crime statistics up to Union or Thana level. Considering all of these cases we have come up with an approach which can give an approximation to people about the safety of a specific location with crime ranking of different areas locating the crimes on a map including a future crime occurrence prediction mechanism. Our approach relies on different online Bangla newspapers for crawling the crime data, stemming and keyword extraction, location finding algorithm, cosine similarity, naive Bayes classifier, and a custom crime prediction model
翻訳日:2023-05-19 17:02:05 公開日:2023-05-18
# フェデレーションq学習における不均一性の祝福--線形スピードアップとbeyond

The Blessing of Heterogeneity in Federated Q-learning: Linear Speedup and Beyond ( http://arxiv.org/abs/2305.10697v1 )

ライセンス: Link先を確認
Jiin Woo, Gauri Joshi, Yuejie Chi(参考訳) 強化学習(RL)に使用されるデータが分散的に複数のエージェントによって収集される場合、RLアルゴリズムのフェデレーションされたバージョンは、ローカルデータを共有せずに協調学習を可能にする。 本稿では,ローカルデータだけで訓練されたローカルQ推定値を定期的に集約することで,最適なQ関数を学習することを目的とした,連合型Q-ラーニングについて考察する。 無限ホライゾン表型マルコフ決定プロセスに着目し,同期型および非同期型q-learningの両方に対して,サンプル複雑性の保証を行う。 いずれの場合においても,エージェント数や他の有意な問題パラメータに対する依存関係のシャープ化に関して,境界は線形速度アップを示す。 さらに、フェデレートされたq-learningに対する既存のアプローチでは、局所的なq-estimatesの平均値が等しく重み付けされている。 既存のサンプル複雑性は、すべてのエージェントに対する定常状態アクション占有分布の最小入力に比例してスケールし、すべてのエージェントが状態アクション空間全体をカバーする必要がある。 代わりに、より頻繁に訪れる状態-行動ペアにより大きな重みを与える、新しい重要性平均化アルゴリズムを提案する。 改良されたサンプル複雑性は、全てのエージェントの平均定常状態-作用占有分布の最小エントリーに比例してスケールし、従って、エージェントが一括して状態-作用空間全体をカバーし、不均一性の祝福を明らかにする。

When the data used for reinforcement learning (RL) are collected by multiple agents in a distributed manner, federated versions of RL algorithms allow collaborative learning without the need of sharing local data. In this paper, we consider federated Q-learning, which aims to learn an optimal Q-function by periodically aggregating local Q-estimates trained on local data alone. Focusing on infinite-horizon tabular Markov decision processes, we provide sample complexity guarantees for both the synchronous and asynchronous variants of federated Q-learning. In both cases, our bounds exhibit a linear speedup with respect to the number of agents and sharper dependencies on other salient problem parameters. Moreover, existing approaches to federated Q-learning adopt an equally-weighted averaging of local Q-estimates, which can be highly sub-optimal in the asynchronous setting since the local trajectories can be highly heterogeneous due to different local behavior policies. Existing sample complexity scales inverse proportionally to the minimum entry of the stationary state-action occupancy distributions over all agents, requiring that every agent covers the entire state-action space. Instead, we propose a novel importance averaging algorithm, giving larger weights to more frequently visited state-action pairs. The improved sample complexity scales inverse proportionally to the minimum entry of the average stationary state-action occupancy distribution of all agents, thus only requiring the agents collectively cover the entire state-action space, unveiling the blessing of heterogeneity.
翻訳日:2023-05-19 17:01:48 公開日:2023-05-18
# 無バイアスな特徴重要度を持つ無バイアス勾配昇降決定木

Unbiased Gradient Boosting Decision Tree with Unbiased Feature Importance ( http://arxiv.org/abs/2305.10696v1 )

ライセンス: Link先を確認
Zheyu Zhang, Tianping Zhang, Jian Li(参考訳) Gradient Boosting Decision Tree (GBDT)は、様々なアプリケーションで大きな成功を収めています。 木構築過程を決定する分割探索アルゴリズムはGBDTの最も重要な構成要素の1つである。 しかし、分割探索アルゴリズムは、多くの潜在的な分割を持つ特徴に対する偏見として、長い間批判されてきた。 このバイアスは、GBDTの厳しい解釈可能性と過剰適合の問題をもたらす。 この目的のために,我々はgbdtにおけるバイアスのきめ細かな解析を行い,バイアスの起源を実証する。 1)各分割の利得推定における系統的バイアス 2) 分割探索アルゴリズムのバイアスは同一データを用いて分割改善を評価し, 最良の分割を決定する。 そこで本研究では,バッグ外試料を用いた利得の非偏り測定手法であるunbiased gainを提案する。 さらに, 分割探索アルゴリズムに非バイアス特性を組み込んで, GBDTの過適合問題を解決するためにUnbiasedGBMを開発した。 60個のデータセットからなる大規模実験研究において、UnbiasedGBMとunbiased gainの性能を評価し、以下の結果を示す。 1) UnbiasedGBMは、60データセットで平均して、LightGBM、XGBoost、Catboostのような人気のあるGBDT実装よりも優れたパフォーマンスを示している。 2)unbiased gainは,一般的な特徴重要手法よりも機能選択における平均性能が向上する。 コードはhttps://github.com/ZheyuAqaZhang/UnbiasedGBMで入手できる。

Gradient Boosting Decision Tree (GBDT) has achieved remarkable success in a wide variety of applications. The split finding algorithm, which determines the tree construction process, is one of the most crucial components of GBDT. However, the split finding algorithm has long been criticized for its bias towards features with a large number of potential splits. This bias introduces severe interpretability and overfitting issues in GBDT. To this end, we provide a fine-grained analysis of bias in GBDT and demonstrate that the bias originates from 1) the systematic bias in the gain estimation of each split and 2) the bias in the split finding algorithm resulting from the use of the same data to evaluate the split improvement and determine the best split. Based on the analysis, we propose unbiased gain, a new unbiased measurement of gain importance using out-of-bag samples. Moreover, we incorporate the unbiased property into the split finding algorithm and develop UnbiasedGBM to solve the overfitting issue of GBDT. We assess the performance of UnbiasedGBM and unbiased gain in a large-scale empirical study comprising 60 datasets and show that: 1) UnbiasedGBM exhibits better performance than popular GBDT implementations such as LightGBM, XGBoost, and Catboost on average on the 60 datasets and 2) unbiased gain achieves better average performance in feature selection than popular feature importance methods. The codes are available at https://github.com/ZheyuAqaZhang/UnbiasedGBM.
翻訳日:2023-05-19 17:01:19 公開日:2023-05-18
# Gated Deep Modelsは効果的なファクター学習者である

Gated Deeper Models are Effective Factor Learners ( http://arxiv.org/abs/2305.10693v1 )

ライセンス: Link先を確認
Jingjing Guo(参考訳) 資産(例えばtesla株)の過剰リターンを正確に予測することは、すべての投資家にとって有益である。 しかし、人間の行動に影響された市場ダイナミクスの予測不可能性は、これは困難な課題である。 これまでの研究で、研究者は投資プロセスの指針となる要因を手作業で作り上げてきた。 これとは対照的に,本研究では,この問題を異なる視点で考察し,過剰リターンの傾向を予測するために,人間の設計した要因を組み合わせるためにディープラーニングモデルを整合させる。 この目的のために,2048次元空間においてより有意義な要素を生成する5層深層ニューラルネットワークを提案する。 現代のネットワーク設計技術は、堅牢性トレーニングを強化し、オーバーフィッティングを減らすために利用される。 さらに,ノイズ学習機能を動的にフィルタリングするゲートネットワークを提案し,性能を向上した。 我々は、最近の3年間の記録で、中国市場から2000種以上の株を評価。 実験の結果,提案するゲート活性化層とディープニューラルネットワークは,この問題を効果的に克服できることがわかった。 具体的には,提案するゲート活性化層とディープニューラルネットワークが,モデルの性能向上に寄与する。 要約すると、提案モデルは有望な結果を示し、投資戦略を最適化しようとする投資家に利益をもたらす可能性がある。

Precisely forecasting the excess returns of an asset (e.g., Tesla stock) is beneficial to all investors. However, the unpredictability of market dynamics, influenced by human behaviors, makes this a challenging task. In prior research, researcher have manually crafted among of factors as signals to guide their investing process. In contrast, this paper view this problem in a different perspective that we align deep learning model to combine those human designed factors to predict the trend of excess returns. To this end, we present a 5-layer deep neural network that generates more meaningful factors in a 2048-dimensional space. Modern network design techniques are utilized to enhance robustness training and reduce overfitting. Additionally, we propose a gated network that dynamically filters out noise-learned features, resulting in improved performance. We evaluate our model over 2,000 stocks from the China market with their recent three years records. The experimental results show that the proposed gated activation layer and the deep neural network could effectively overcome the problem. Specifically, the proposed gated activation layer and deep neural network contribute to the superior performance of our model. In summary, the proposed model exhibits promising results and could potentially benefit investors seeking to optimize their investment strategies.
翻訳日:2023-05-19 17:00:56 公開日:2023-05-18
# ディープニューラルネットワークに対するデータアベイラビリティ攻撃の再検討

Re-thinking Data Availablity Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2305.10691v1 )

ライセンス: Link先を確認
Bin Fang and Bo Li and Shuang Wu and Ran Yi and Shouhong Ding and Lizhuang Ma(参考訳) 商用目的の個人データの不正使用や、機械学習モデルのトレーニングのための個人データの秘密取得は、引き続き懸念を呼んでいる。 これらの問題に対応するために、研究者はデータの公開不能化を目的としたアベイラビリティ攻撃を提案した。 しかし、現在の攻撃方法は敵の訓練では効果がない。 本稿では,既知例の概念を再検討し,既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。 これらの観測に基づいて,計算時間要件の低減による保護結果の改善を実現する新しい最適化パラダイムを導入する。 我々は我々のアプローチの音質を裏付ける広範な実験を行った。 また,本手法は将来研究のための強固な基礎を築いている。

The unauthorized use of personal data for commercial purposes and the clandestine acquisition of private data for training machine learning models continue to raise concerns. In response to these issues, researchers have proposed availability attacks that aim to render data unexploitable. However, many current attack methods are rendered ineffective by adversarial training. In this paper, we re-examine the concept of unlearnable examples and discern that the existing robust error-minimizing noise presents an inaccurate optimization objective. Building on these observations, we introduce a novel optimization paradigm that yields improved protection results with reduced computational time requirements. We have conducted extensive experiments to substantiate the soundness of our approach. Moreover, our method establishes a robust foundation for future research in this area.
翻訳日:2023-05-19 17:00:38 公開日:2023-05-18
# サンプリング,拡散,確率的局在化

Sampling, Diffusions, and Stochastic Localization ( http://arxiv.org/abs/2305.10690v1 )

ライセンス: Link先を確認
Andrea Montanari(参考訳) 拡散は、高次元分布からサンプルを明示的に与えたり、サンプルの集合から学習したりする手法である。 彼らは、エンドポイントがターゲット分布からのサンプルであり、一般的にはニューラルネットワークとして表現される拡散プロセスを実装する。 確率的ローカライゼーションはマルコフ連鎖と高次元における他の機能的不等式を混合する手法として成功している。 確率的ローカライゼーションのアルゴリズム版が[EAMS2022]に導入され,特定の統計力学モデルから抽出するアルゴリズムが得られた。 このノートには3つの目的がある。 一 建設[EAMS2022]を他の確率的ローカライゼーションプロセスに一般化すること。 (ii)拡散と確率的局在の関係を明らかにする。 特に,標準分母拡散は確率的局所化であるが,提案する観点から自然に示唆される他の例であることを示す。 (iii)この観点からの考察について述べる。

Diffusions are a successful technique to sample from high-dimensional distributions can be either explicitly given or learnt from a collection of samples. They implement a diffusion process whose endpoint is a sample from the target distribution and whose drift is typically represented as a neural network. Stochastic localization is a successful technique to prove mixing of Markov Chains and other functional inequalities in high dimension. An algorithmic version of stochastic localization was introduced in [EAMS2022], to obtain an algorithm that samples from certain statistical mechanics models. This notes have three objectives: (i) Generalize the construction [EAMS2022] to other stochastic localization processes; (ii) Clarify the connection between diffusions and stochastic localization. In particular we show that standard denoising diffusions are stochastic localizations but other examples that are naturally suggested by the proposed viewpoint; (iii) Describe some insights that follow from this viewpoint.
翻訳日:2023-05-19 17:00:29 公開日:2023-05-18
# MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング

MolXPT: Wrapping Molecules with Text for Generative Pre-training ( http://arxiv.org/abs/2305.10688v1 )

ライセンス: Link先を確認
Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming Zhang and Tie-Yan Liu(参考訳) GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。 本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。 簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。 このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。 上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。 実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。

Generative pre-trained Transformer (GPT) has demonstrates its great success in natural language processing and related techniques have been adapted into molecular modeling. Considering that text is the most important record for scientific discovery, in this paper, we propose MolXPT, a unified language model of text and molecules pre-trained on SMILES (a sequence representation of molecules) wrapped by text. Briefly, we detect the molecule names in each sequence and replace them to the corresponding SMILES. In this way, the SMILES could leverage the information from surrounding text, and vice versa. The above wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem are all fed into a language model for pre-training. Experimental results demonstrate that MolXPT outperforms strong baselines of molecular property prediction on MoleculeNet, performs comparably to the best model in text-molecule translation while using less than half of its parameters, and enables zero-shot molecular generation without finetuning.
翻訳日:2023-05-19 17:00:13 公開日:2023-05-18
# RMSSinger: リアル音楽スコアに基づく歌声合成

RMSSinger: Realistic-Music-Score based Singing Voice Synthesis ( http://arxiv.org/abs/2305.10686v1 )

ライセンス: Link先を確認
Jinzheng He, Jinglin Liu, Zhenhui Ye, Rongjie Huang, Chenye Cui, Huadai Liu, Zhou Zhao(参考訳) 我々は,RMS-SVS(Realistic-Music-Score based Singing Voice Synthesis)という課題に興味を持っている。 RMS-SVSは、異なる音符タイプ(グレース、スラー、レストなど)でリアルな楽譜を与えられた高品質な歌声を生成することを目的としている。 近年の歌唱音声合成(SVS)法は大きな進歩を遂げているが, 音素と音素を一致させるためには, 複雑なデータ収集パイプラインと手作業による注釈が必要とされる。 さらに、これらの手書きアノテーションは、楽譜の音符持続時間の規則性を損なうため、作曲に不都合な微粒な楽譜を生成する。 これらの課題に対処するため, RMSSingerを提案する。RMSSingerは, RMS-SVS方式で, リアルな楽譜を入力として取り出し, 退屈な手書きアノテーションのほとんどを排除し, 上記の不便さを回避する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。 さらに,既存のピッチモデリング手法の自然性を改善する最初の拡散ベースピッチモデリング手法を提案する。 これらを実現するために,プロ歌手の現実的な音楽スコアに基づいて,現実的な音楽スコアと歌声を含む新たなデータセットを収集した。 データセットの大規模な実験により,本手法の有効性が示された。 オーディオサンプルはhttps://rmssinger.github.io/で入手できる。

We are interested in a challenging task, Realistic-Music-Score based Singing Voice Synthesis (RMS-SVS). RMS-SVS aims to generate high-quality singing voices given realistic music scores with different note types (grace, slur, rest, etc.). Though significant progress has been achieved, recent singing voice synthesis (SVS) methods are limited to fine-grained music scores, which require a complicated data collection pipeline with time-consuming manual annotation to align music notes with phonemes. Furthermore, these manual annotation destroys the regularity of note durations in music scores, making fine-grained music scores inconvenient for composing. To tackle these challenges, we propose RMSSinger, the first RMS-SVS method, which takes realistic music scores as input, eliminating most of the tedious manual annotation and avoiding the aforementioned inconvenience. Note that music scores are based on words rather than phonemes, in RMSSinger, we introduce word-level modeling to avoid the time-consuming phoneme duration annotation and the complicated phoneme-level mel-note alignment. Furthermore, we propose the first diffusion-based pitch modeling method, which ameliorates the naturalness of existing pitch-modeling methods. To achieve these, we collect a new dataset containing realistic music scores and singing voices according to these realistic music scores from professional singers. Extensive experiments on the dataset demonstrate the effectiveness of our methods. Audio samples are available at https://rmssinger.github.io/.
翻訳日:2023-05-19 16:59:56 公開日:2023-05-18
# 数発視覚と言語学習者の識別拡散モデル

Discriminative Diffusion Models as Few-shot Vision and Language Learners ( http://arxiv.org/abs/2305.10722v1 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang(参考訳) 安定拡散のような拡散モデルは、テキスト・画像生成において素晴らしい性能を示している。 テキストから画像への生成には,詳細な詳細情報や属性をテキストプロンプトで指定した視覚概念を生成するモデルが必要となることが多いため,画像・テキストマッチングなどの識別タスクにおいて,事前学習した拡散モデルで学習した強力な表現を活用できるか? そこで本研究では,事前学習したテキストと画像の拡散モデルを,数ショットの識別学習者に変換する新たなアプローチ,DSDを提案する。 提案手法では,安定拡散モデルの相互注意スコアを用いて,視覚情報とテキスト情報の相互影響を捉え,注意に基づくプロンプト学習を用いて微調整を行い,画像テキストマッチングを行う。 本稿では,いくつかのベンチマークデータセットにおけるdsdと最先端手法を比較することで,事前学習された拡散モデルを用いた識別処理の可能性を示す。

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.
翻訳日:2023-05-19 16:53:58 公開日:2023-05-18
# 時系列予測の再検討:線形マッピングの検討

Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping ( http://arxiv.org/abs/2305.10721v1 )

ライセンス: Link先を確認
Zhe Li, Shiyi Qi, Yiduo Li, Zenglin Xu(参考訳) 近年,長期の時系列予測が注目されている。 時間依存を捉えるための特別な設計はいくつかあるが、以前の研究では、1つの線形層が他の複雑なアーキテクチャと比較して競合予測性能を達成できることが示されている。 本稿では,近年のアプローチの本質的効果を徹底的に検討し,3つの重要な観察を行った。 1) 線形マッピングは,事前の長期時系列予測に不可欠である。 2)RevIN(可逆正規化)とCI(チャンネル独立)は、全体的な予測性能を改善する上で重要な役割を果たす。 3) 線形写像は, 時系列の周期的特徴を効果的に捉え, 入力地平線を増大させる際に, チャネル間の異なる周期の堅牢性を有する。 本研究の成果を裏付ける理論的・実験的説明と,その限界と今後の課題について論じる。 私たちのフレームワークのコードは \url{https://github.com/plumprc/RTSF} で利用可能です。

Long-term time series forecasting has gained significant attention in recent years. While there are various specialized designs for capturing temporal dependency, previous studies have demonstrated that a single linear layer can achieve competitive forecasting performance compared to other complex architectures. In this paper, we thoroughly investigate the intrinsic effectiveness of recent approaches and make three key observations: 1) linear mapping is critical to prior long-term time series forecasting efforts; 2) RevIN (reversible normalization) and CI (Channel Independent) play a vital role in improving overall forecasting performance; and 3) linear mapping can effectively capture periodic features in time series and has robustness for different periods across channels when increasing the input horizon. We provide theoretical and experimental explanations to support our findings and also discuss the limitations and future works. Our framework's code is available at \url{https://github.com/plumprc/RTSF}.
翻訳日:2023-05-19 16:53:38 公開日:2023-05-18
# 非定常バンディット問題に対する安価トンプソンサンプリング

Discounted Thompson Sampling for Non-Stationary Bandit Problems ( http://arxiv.org/abs/2305.10718v1 )

ライセンス: Link先を確認
Han Qi, Yue Wang, Li Zhu(参考訳) NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。 NS-MABは通常、ある期間の報酬分布が一定であり、未知の時間ステップで変化し、滑らかに変化し、未知のダイナミクスに基づいて報酬分布がスムーズに進化する、という2つのシナリオでモデル化される。 本稿では,非定常条件の両方に対処するため,ガウシアン前駆体を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。 このアルゴリズムは、トンプソンサンプリングにディスカウント係数を組み込むことで、変化に受動的に適応する。 DS-TS法は実験的に検証されているが,現在,遺残上界の解析は不十分である。 穏やかな仮定では、ガウス先行のDS-TSは、突然変化する$\tilde{O}(\sqrt{TB_T})$と滑らかに変化する$\tilde{O}(T^{\beta})$の順序でほぼ最適な後悔を達成できることを示し、そこでは、$T$は時間ステップの数、$B_T$はブレークポイントの数、$\beta$は滑らかに変化する環境と関連付けられ、$\tilde{O}$は、$T$と対数的な用語から独立にパラメータを隠している。 さらに、ds-tsと他の非定常バンディットアルゴリズムとの実証的な比較は、その競合性能を示している。 具体的には、最大報酬の事前知識が利用可能であれば、ds-tsは最先端のアルゴリズムを上回る可能性がある。

Non-stationary multi-armed bandit (NS-MAB) problems have recently received significant attention. NS-MAB are typically modelled in two scenarios: abruptly changing, where reward distributions remain constant for a certain period and change at unknown time steps, and smoothly changing, where reward distributions evolve smoothly based on unknown dynamics. In this paper, we propose Discounted Thompson Sampling (DS-TS) with Gaussian priors to address both non-stationary settings. Our algorithm passively adapts to changes by incorporating a discounted factor into Thompson Sampling. DS-TS method has been experimentally validated, but analysis of the regret upper bound is currently lacking. Under mild assumptions, we show that DS-TS with Gaussian priors can achieve nearly optimal regret bound on the order of $\tilde{O}(\sqrt{TB_T})$ for abruptly changing and $\tilde{O}(T^{\beta})$ for smoothly changing, where $T$ is the number of time steps, $B_T$ is the number of breakpoints, $\beta$ is associated with the smoothly changing environment and $\tilde{O}$ hides the parameters independent of $T$ as well as logarithmic terms. Furthermore, empirical comparisons between DS-TS and other non-stationary bandit algorithms demonstrate its competitive performance. Specifically, when prior knowledge of the maximum expected reward is available, DS-TS has the potential to outperform state-of-the-art algorithms.
翻訳日:2023-05-19 16:53:25 公開日:2023-05-18
# 時系列事前学習モデルの検討

A Survey on Time-Series Pre-Trained Models ( http://arxiv.org/abs/2305.10716v1 )

ライセンス: Link先を確認
Qianli Ma, Zhen Liu, Zhenjing Zheng, Ziyang Huang, Siying Zhu, Zhongzhong Yu, and James T. Kwok(参考訳) 時系列マイニング (TSM) は, 実用化に大きな可能性を示す重要な研究分野である。 大量のラベル付きデータに依存するディープラーニングモデルは、tsmをうまく利用しています。 しかし、データアノテーションコストのため、大規模にラベル付きデータセットの構築は困難である。 近年,コンピュータビジョンと自然言語処理の性能が著しく向上し,事前学習モデルが時系列領域で徐々に注目を集めている。 本稿では,TS-PTMの理解,適用,研究の指導を目的とした時系列事前学習モデル(TS-PTM)の総合的なレビューを行う。 具体的には,tsmで使用される典型的なディープラーニングモデルについて紹介する。 次に,事前学習手法によるTS-PTMの概要を示す。 私たちが調査する主なカテゴリは、教師なし、教師なし、および自己監督型のTS-PTMである。 さらに,トランスファーラーニング戦略,トランスフォーマーモデル,代表的TS-PTMの利点と欠点を分析するために,広範な実験を行った。 最後に,将来に向けたTS-PTMの可能性について述べる。

Time-Series Mining (TSM) is an important research area since it shows great potential in practical applications. Deep learning models that rely on massive labeled data have been utilized for TSM successfully. However, constructing a large-scale well-labeled dataset is difficult due to data annotation costs. Recently, Pre-Trained Models have gradually attracted attention in the time series domain due to their remarkable performance in computer vision and natural language processing. In this survey, we provide a comprehensive review of Time-Series Pre-Trained Models (TS-PTMs), aiming to guide the understanding, applying, and studying TS-PTMs. Specifically, we first briefly introduce the typical deep learning models employed in TSM. Then, we give an overview of TS-PTMs according to the pre-training techniques. The main categories we explore include supervised, unsupervised, and self-supervised TS-PTMs. Further, extensive experiments are conducted to analyze the advantages and disadvantages of transfer learning strategies, Transformer-based models, and representative TS-PTMs. Finally, we point out some potential directions of TS-PTMs for future work.
翻訳日:2023-05-19 16:52:50 公開日:2023-05-18
# 3次元シーン理解のためのオブジェクトコントラスト学習による視覚言語事前学習

Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding ( http://arxiv.org/abs/2305.10714v1 )

ライセンス: Link先を確認
Taolin Zhang, Sunan He, Dai Tao, Bin Chen, Zhi Wang, Shu-Tao Xia(参考訳) 近年、視覚言語事前学習フレームワークは自然言語処理やコンピュータビジョンにおいて大きな進歩を遂げており、様々な下流タスクの性能向上を実現している。 しかし、ポイントクラウドデータに拡張する場合、既存の作業は主にタスク固有のモデルの構築に重点を置いており、汎用的な3dビジョン言語埋め込みの抽出に失敗した。 セマンティック3Dシーン理解における3つの共通課題を慎重に検討し,事前学習モデルの開発に関する重要な知見を導き出す。 そこで本研究では,視覚言語前学習フレームワーク3dvlp (3d vision language pre-training with object contrastive learning)を提案する。 3DVLPは、視覚的グラウンドをプロキシタスクとして取り、オブジェクトレベルのIoU誘導検出(OID)損失を導入して、現場で高品質な提案を得る。 さらに,オブジェクトを記述にアライメントし,シーン内の異なるオブジェクトを識別するために,オブジェクトレベルのクロスコントラストアライメント(occ)タスクとオブジェクトレベルの自己コントラスト学習(osc)タスクを設計する。 3次元視覚言語タスクにおける3次元VLPの優れた性能を検証する実験は、セマンティック3次元シーン理解における優位性を反映している。

In recent years, vision language pre-training frameworks have made significant progress in natural language processing and computer vision, achieving remarkable performance improvement on various downstream tasks. However, when extended to point cloud data, existing works mainly focus on building task-specific models, and fail to extract universal 3D vision-language embedding that generalize well. We carefully investigate three common tasks in semantic 3D scene understanding, and derive key insights into the development of a pre-training model. Motivated by these observations, we propose a vision-language pre-training framework 3DVLP (3D vision-language pre-training with object contrastive learning), which transfers flexibly on 3D vision-language downstream tasks. 3DVLP takes visual grounding as the proxy task and introduces Object-level IoU-guided Detection (OID) loss to obtain high-quality proposals in the scene. Moreover, we design Object-level Cross-Contrastive alignment (OCC) task and Object-level Self-Contrastive learning (OSC) task to align the objects with descriptions and distinguish different objects in the scene, respectively. Extensive experiments verify the excellent performance of 3DVLP on three 3D vision-language tasks, reflecting its superiority in semantic 3D scene understanding.
翻訳日:2023-05-19 16:52:37 公開日:2023-05-18
# フラットネスアウェアプロンプト選択による精度向上とサンプル効率向上

Flatness-Aware Prompt Selection Improves Accuracy and Sample Efficiency ( http://arxiv.org/abs/2305.10713v1 )

ライセンス: Link先を確認
Lingfeng Shen, Weiting Tan, Boyuan Zheng, Daniel Khashabi(参考訳) 大規模言語モデルの能力が増大するにつれ、それらにアクセスするための主要な方法となっている。 これにより、効果的な言語プロンプトを自動選択する戦略の開発が動機となった。 本稿では,言語プロンプトの期待される有用性を定量化するための新しい指標であるプロンプト平坦性を導入する。 この計量は統計学習における平坦性正規化にインスパイアされ、モデルの頑健さをパラメータ摂動に向けて定量化する。 我々は,この指標の理論的基礎と他の素早い選択指標との関係を提供し,既存の手法の包括的理解を提供する。 実験により,既存の指標と即時平坦性を組み合わせることで,性能と試料効率が向上することを示した。 我々の測定値は,6つの分類ベンチマークにおいて,5%の精度向上と10%のピアソン相関で,前回のプロンプト選択指標を上回った。

With growing capabilities of large language models, prompting them has become the dominant way to access them. This has motivated the development of strategies for automatically selecting effective language prompts. In this paper, we introduce prompt flatness, a new metric to quantify the expected utility of a language prompt. This metric is inspired by flatness regularization in statistical learning that quantifies the robustness of the model towards its parameter perturbations. We provide theoretical foundations for this metric and its relationship with other prompt selection metrics, providing a comprehensive understanding of existing methods. Empirically, we show that combining prompt flatness with existing metrics improves both performance and sample efficiency. Our metric outperforms the previous prompt selection metrics with an average increase of 5% in accuracy and 10% in Pearson correlation across 6 classification benchmarks.
翻訳日:2023-05-19 16:52:15 公開日:2023-05-18
# NoisywikiHow: 自然言語処理における実世界のノイズラベルを用いた学習ベンチマーク

NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in Natural Language Processing ( http://arxiv.org/abs/2305.10709v1 )

ライセンス: Link先を確認
Tingting Wu, Xiao Ding, Minji Tang, Hao Zhang, Bing Qin, Ting Liu(参考訳) 現実世界の大規模データセットは、必然的にラベルノイズを伴う。 ディープモデルはノイズラベルに徐々に適合し、モデル一般化を劣化させる。 ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)を用いて学習することで,より優れた一般化性能を実現する。 適切なデータセットがないため、従来の研究では実世界のラベルノイズを模倣する合成ラベルノイズが頻繁に用いられてきた。 しかし、合成ノイズはインスタンス依存ではないため、この近似は実際は必ずしも有効ではない。 近年,実世界の雑音ラベルを用いた学習のためのベンチマークが提案されている。 しかし、内部のノイズ源は単一またはファジィであり、実世界の異質なラベルノイズを持つデータとベンチマークが異なる。 これらの問題に対処するため、最小限の監視で構築された最大のNLPベンチマークであるNoisywikiHowをコントリビュートする。 具体的には、人間の認識に触発されて、アノテーション全体を通してヒューマンエラーを模倣するためにラベルノイズの複数のソースを明示的に構築し、実際のノイズを再現する。 さらに、ノイズデータに対する制御実験を支援するため、様々なノイズレベルを提供し、LNL法を系統的かつ包括的に評価することができる。 その後,広範囲のlnl法について多次元実験を行い,新たな興味をそそる知見を得た。

Large-scale datasets in the real world inevitably involve label noise. Deep models can gradually overfit noisy labels and thus degrade model generalization. To mitigate the effects of label noise, learning with noisy labels (LNL) methods are designed to achieve better generalization performance. Due to the lack of suitable datasets, previous studies have frequently employed synthetic label noise to mimic real-world label noise. However, synthetic noise is not instance-dependent, making this approximation not always effective in practice. Recent research has proposed benchmarks for learning with real-world noisy labels. However, the noise sources within may be single or fuzzy, making benchmarks different from data with heterogeneous label noises in the real world. To tackle these issues, we contribute NoisywikiHow, the largest NLP benchmark built with minimal supervision. Specifically, inspired by human cognition, we explicitly construct multiple sources of label noise to imitate human errors throughout the annotation, replicating real-world noise, whose corruption is affected by both ground-truth labels and instances. Moreover, we provide a variety of noise levels to support controlled experiments on noisy data, enabling us to evaluate LNL methods systematically and comprehensively. After that, we conduct extensive multi-dimensional experiments on a broad range of LNL methods, obtaining new and intriguing findings.
翻訳日:2023-05-19 16:52:00 公開日:2023-05-18
# ナイジェリアにおける健康保険意思決定のための機械学習推薦システム

Machine Learning Recommendation System For Health Insurance Decision Making In Nigeria ( http://arxiv.org/abs/2305.10708v1 )

ライセンス: Link先を確認
Ayomide Owoyemi, Emmanuel Nnaemeka, Temitope O. Benson, Ronald Ikpe, Blessing Nwachukwu, Temitope Isedowo(参考訳) ナイジェリアでは医療保険の取得が不十分であり、認識の向上、意思決定を支援するための情報やツールへのアクセスなど、改善の重要なステップとなっている。 人工知能(ai)ベースのレコメンダシステムは、個人がインターネット上で映画、本、音楽、さまざまな種類の製品を見つけるのを助けることで、医療における多様な応用を含む人気を高めている。 推薦システムではコンテンツベース手法(itemベースアプローチ)が採用されている。 我々はK-Nearest Neighbor(KNN)とCosine類似性アルゴリズムを適用した。 結果とドメイン知識を比較して,いくつかの評価を行った結果,コサイン類似性が選択された。 推薦システムは、ユーザが入力した選択を考慮し、位置情報と選択した価格で健康管理組織(HMO)データをフィルタリングする。 そして、提供されるサービスに最も近い類似性を持つ上位3つのHMOを推奨する。 最善の健康保険プランを見つけて選択するためのレコメンデーションツールは、健康保険へのアクセス障壁を減らすのに役立ちます。 ユーザーは、利用可能な計画に関する適切な情報を簡単に見つけることができ、市場で利用可能な100以上のオプションを扱う際の認知的過負荷を減らし、財務能力にマッチするものを簡単に知ることができる。

The uptake of health insurance has been poor in Nigeria, a significant step to improving this includes improved awareness, access to information and tools to support decision making. Artificial intelligence (AI) based recommender systems have gained popularity in helping individuals find movies, books, music, and different types of products on the internet including diverse applications in healthcare. The content-based methodology (item-based approach) was employed in the recommender system. We applied both the K-Nearest Neighbor (KNN) and Cosine similarity algorithm. We chose the Cosine similarity as our chosen algorithm after several evaluations based of their outcomes in comparison with domain knowledge. The recommender system takes into consideration the choices entered by the user, filters the health management organization (HMO) data by location and chosen prices. It then recommends the top 3 HMOs with closest similarity in services offered. A recommendation tool to help people find and select the best health insurance plan for them is useful in reducing the barrier of accessing health insurance. Users are empowered to easily find appropriate information on available plans, reduce cognitive overload in dealing with over 100 options available in the market and easily see what matches their financial capacity.
翻訳日:2023-05-19 16:51:39 公開日:2023-05-18
# eXtended Physics-Informed Neural Networks と結合したシンボリック回帰に基づくデータからの運動方程式のグレイボックス学習

A Framework Based on Symbolic Regression Coupled with eXtended Physics-Informed Neural Networks for Gray-Box Learning of Equations of Motion from Data ( http://arxiv.org/abs/2305.10706v1 )

ライセンス: Link先を確認
Elham Kiyani, Khemraj Shukla, George Em Karniadakis and Mikko Karttunen(参考訳) 本研究では非線形方程式の未知部分を直接データから解く枠組みとアルゴリズムを提案する。 このフレームワークは、時空の領域分解であるeXtended Physics-Informed Neural Networks (X-PINNs) に基づいているが、ドメインインターフェース間のフラックス連続性を付与することにより、元のX-PINN法を拡張する。 有名なアレン・カーン方程式は、このアプローチを実証するために用いられる。 フロベニウス行列ノルムはxピン予測の精度を評価するために用いられ、結果は優れた性能を示す。 さらに、このデータから未知部分の閉形式を決定するために記号回帰を用い、X-PINNsに基づくアプローチの精度を確認した。 現実世界のデータに類似した状況でフレームワークをテストするために、データセットにランダムノイズを追加して、熱ノイズや機器エラーなどのシナリオを模倣する。 その結果,フレームワークは大量のノイズに対して安定であることがわかった。 最後に、ニューラルネットワークのトレーニングに必要な最小限のデータ量を決定する。 このフレームワークは、トレーニングに少なくとも50\%のデータを使用する場合、基礎となる力学方程式の正しい形と係数を予測できる。

We propose a framework and an algorithm to uncover the unknown parts of nonlinear equations directly from data. The framework is based on eXtended Physics-Informed Neural Networks (X-PINNs), domain decomposition in space-time, but we augment the original X-PINN method by imposing flux continuity across the domain interfaces. The well-known Allen-Cahn equation is used to demonstrate the approach. The Frobenius matrix norm is used to evaluate the accuracy of the X-PINN predictions and the results show excellent performance. In addition, symbolic regression is employed to determine the closed form of the unknown part of the equation from the data, and the results confirm the accuracy of the X-PINNs based approach. To test the framework in a situation resembling real-world data, random noise is added to the datasets to mimic scenarios such as the presence of thermal noise or instrument errors. The results show that the framework is stable against significant amount of noise. As the final part, we determine the minimal amount of data required for training the neural network. The framework is able to predict the correct form and coefficients of the underlying dynamical equation when at least 50\% data is used for training.
翻訳日:2023-05-19 16:51:21 公開日:2023-05-18
# ReGen: プログレッシブ・センス検索による学習データ生成によるゼロショットテキスト分類

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval ( http://arxiv.org/abs/2305.10703v1 )

ライセンス: Link先を確認
Yue Yu, Yuchen Zhuang, Rongzhi Zhang, Yu Meng, Jiaming Shen, Chao Zhang(参考訳) 大規模言語モデル(LLM)の開発により、ゼロショット学習は様々なNLPタスクに多くの注目を集めている。 10億規模の自然言語生成(nlg)モデルでトレーニングデータを生成する以前の作業とは違って,一般ドメインのラベルなしコーパスからトレーニングデータを生成するための検索エンハンシングフレームワークを提案する。 これを実現するために、私たちはまず、クラス記述型文読解器を用いて最も関連性の高い文書を抽出する教師なし密集検索器を学習するために、対照的な事前学習を行う。 さらに,実演による動詞化の強化と自己一貫性に基づくフィルタリングの2つの単純な戦略を提案し,ノイズの多い例を取り除きながら,データセットのトピックカバレッジを向上させる。 9つのデータセットの実験では、REGENは最強のベースラインよりも4.3%向上し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。 さらに、REGENは、最近提案された大規模言語モデルと自然に統合してパフォーマンスを向上させることができる。

With the development of large language models (LLMs), zero-shot learning has attracted much attention for various NLP tasks. Different from prior works that generate training data with billion-scale natural language generation (NLG) models, we propose a retrieval-enhanced framework to create training data from a general-domain unlabeled corpus. To realize this, we first conduct contrastive pretraining to learn an unsupervised dense retriever for extracting the most relevant documents using class-descriptive verbalizers. We then further propose two simple strategies, namely Verbalizer Augmentation with Demonstrations and Self-consistency Guided Filtering to improve the topic coverage of the dataset while removing noisy examples. Experiments on nine datasets demonstrate that REGEN achieves 4.3% gain over the strongest baselines and saves around 70% of the time compared to baselines using large NLG models. Besides, REGEN can be naturally integrated with recently proposed large language models to boost performance.
翻訳日:2023-05-19 16:51:00 公開日:2023-05-18
# 深部時間グラフクラスタリング

Deep Temporal Graph Clustering ( http://arxiv.org/abs/2305.10738v1 )

ライセンス: Link先を確認
Meng Liu, Yue Liu, Ke Liang, Siwei Wang, Sihang Zhou, Xinwang Liu(参考訳) ディープグラフクラスタリングは、教師なしシナリオにおけるモデルの表現学習能力を向上させる能力によって、最近大きな注目を集めている。 それでも、重要な動的相互作用情報を捉えることのできる時間グラフの深いクラスタリングは、完全には研究されていない。 多くのクラスタリング指向の現実シナリオでは、時間グラフは静的グラフとしてのみ処理できる。 これは動的情報の損失を引き起こすだけでなく、膨大な計算消費を引き起こす。 そこで本研究では,時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合させるために,深部クラスタリング技術(クラスタリング代入分布と隣接行列再構成)を調整したTGCと呼ばれる深部クラスタリングフレームワークを提案する。 さらに,時間的グラフクラスタリングと既存の静的グラフクラスタリングの違いについても検討した。 提案するフレームワーク TGC の優位性を検証するため,我々は広範囲な実験を行った。 実験の結果,時間と空間のバランスを求める場合,時間グラフクラスタリングにより柔軟性が向上し,既存の時間グラフ学習手法の性能を効果的に向上できることがわかった。 私たちのコードと補足資料は出版後公開されるでしょう。

Deep graph clustering has recently received significant attention due to its ability to enhance the representation learning capabilities of models in unsupervised scenarios. Nevertheless, deep clustering for temporal graphs, which could capture crucial dynamic interaction information, has not been fully explored. It means that in many clustering-oriented real-world scenarios, temporal graphs can only be processed as static graphs. This not only causes the loss of dynamic information but also triggers huge computational consumption. To solve the problem, we propose a general framework for deep Temporal Graph Clustering called TGC, which adjusts deep clustering techniques (clustering assignment distribution and adjacency matrix reconstruction) to suit the interaction sequence-based batch-processing pattern of temporal graphs. In addition, we discuss differences between temporal graph clustering and existing static graph clustering from several levels. To verify the superiority of the proposed framework TGC, we conduct extensive experiments. The experimental results show that temporal graph clustering enables more flexibility in finding a balance between time and space requirements, and our framework can effectively improve the performance of existing temporal graph learning methods. Our code and supplementary material will be released after publication.
翻訳日:2023-05-19 16:43:48 公開日:2023-05-18
# 事実的一貫性のあるテキスト要約を生成するための反事実的デバイアス

Counterfactual Debiasing for Generating Factually Consistent Text Summaries ( http://arxiv.org/abs/2305.10736v1 )

ライセンス: Link先を確認
Chenhe Dong, Yuexiang Xie, Yaliang Li, Ying Shen(参考訳) 流動的で情報的なテキストを生成するための抽象的テキスト要約の大幅な進歩にもかかわらず、生成した要約の事実的矛盾は、解決すべき重要な課題である。 本稿では,抽象的テキスト要約のための因果グラフを構築し,事実的不整合,すなわち言語バイアスと無関係バイアスの本質的原因を同定し,さらに,これらバイアスの因果効果を反事実的推定によって軽減するためのデバイアスフレームワークcofactsumを提案する。 特に,提案手法は,明示的な動的マスキング戦略による明示的偽マスキングと,暗黙的な識別的クロスコンタクト機構を用いた暗黙的偽マスキングの2つの反事実推定戦略を提供する。 一方、デコードステップ毎にデバイアス度を動的に適応させるデバイアス度調整機構を設計する。 広く使われている2つの要約データセットに関する広範囲な実験は、複数のベースラインと比較して生成した要約の事実整合性を高めるコファクサムの有効性を示している。

Despite substantial progress in abstractive text summarization to generate fluent and informative texts, the factual inconsistency in the generated summaries remains an important yet challenging problem to be solved. In this paper, we construct causal graphs for abstractive text summarization and identify the intrinsic causes of the factual inconsistency, i.e., the language bias and irrelevancy bias, and further propose a debiasing framework, named CoFactSum, to alleviate the causal effects of these biases by counterfactual estimation. Specifically, the proposed CoFactSum provides two counterfactual estimation strategies, i.e., Explicit Counterfactual Masking with an explicit dynamic masking strategy, and Implicit Counterfactual Training with an implicit discriminative cross-attention mechanism. Meanwhile, we design a Debiasing Degree Adjustment mechanism to dynamically adapt the debiasing degree at each decoding step. Extensive experiments on two widely-used summarization datasets demonstrate the effectiveness of CoFactSum in enhancing the factual consistency of generated summaries compared with several baselines.
翻訳日:2023-05-19 16:43:30 公開日:2023-05-18
# 共同生成型および予測型デコーダを用いた拡散型音声強調

Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders ( http://arxiv.org/abs/2305.10734v1 )

ライセンス: Link先を確認
Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji(参考訳) 拡散に基づく音声強調(SE)は近年研究されているが,その復号は非常に時間がかかる。 1つの解決策は、予測SEシステムによって推定される機能拡張でデコードプロセスを初期化することである。 しかし、この2段階法は予測と拡散SEの相補性を無視する。 本稿では,これら2つのSEモジュールを統合する統一システムを提案する。 このシステムは生成情報と予測情報をエンコードし、生成情報と予測デコーダの両方を適用して出力を融合させる。 具体的には、2つのSEモジュールを第1及び最終拡散ステップで融合する:第1ステップ融合は、収束を改善するために予測SEと拡散プロセスを初期化し、最終ステップ融合は、2つの相補SE出力を結合してSE性能を向上させる。 Voice-Bankデータセットの実験では、拡散スコア推定は予測情報から恩恵を受け、デコーディングを高速化することができる。

Diffusion-based speech enhancement (SE) has been investigated recently, but its decoding is very time-consuming. One solution is to initialize the decoding process with the enhanced feature estimated by a predictive SE system. However, this two-stage method ignores the complementarity between predictive and diffusion SE. In this paper, we propose a unified system that integrates these two SE modules. The system encodes both generative and predictive information, and then applies both generative and predictive decoders, whose outputs are fused. Specifically, the two SE modules are fused in the first and final diffusion steps: the first step fusion initializes the diffusion process with the predictive SE for improving the convergence, and the final step fusion combines the two complementary SE outputs to improve the SE performance. Experiments on the Voice-Bank dataset show that the diffusion score estimation can benefit from the predictive information and speed up the decoding.
翻訳日:2023-05-19 16:43:07 公開日:2023-05-18
# BlindHarmony:フローモデルによるMR画像の"Blind"高調波化

BlindHarmony: "Blind" Harmonization for MR Images via Flow model ( http://arxiv.org/abs/2305.10732v1 )

ライセンス: Link先を確認
Hwihun Jeong, Heejoon Byun, Dong un Kang, and Jongho Lee(参考訳) MRIでは、同じ対象のコントラスト(例えば、T1)の画像は、異なるハードウェア、シーケンス、スキャンパラメータを使用して取得した場合、顕著な違いを示すことができる。 これらの画像の違いは、従来のあるいは深層学習に基づく画像解析(セグメンテーションなど)を用いて画像の処理を成功させるために、画像調和と呼ばれるステップによってブリッジする必要がある領域ギャップを生み出す。 画像調和を実現するために,ディープラーニングに基づくアプローチを含むいくつかの手法が提案されている。 しかし、深層学習訓練には複数の特徴のデータセットを必要とすることが多く、目に見えない領域の画像に適用しても失敗する可能性がある。 この制限に対処するために,我々は,対象領域データのみをトレーニングに利用するが,未認識のドメインイメージを調和させる能力を持つ「blind harmonization」という新しい概念を提案する。 Blind Harmonizationの実装のために、ターゲットドメインデータに基づいて訓練された非条件フローモデルを用いてBlindHarmonyを開発した。 調和画像は、フローモデルの潜在ベクトルがガウスの中心に近いことを保証しつつ、入力源領域画像と相関を持つように最適化される。 BlindHarmonyをシミュレーションおよび実データを用いて評価し,従来の手法と比較した。 blindharmonyは両方のデータセットで注目すべきパフォーマンスを達成し、将来臨床での使用の可能性を強調した。

In MRI, images of the same contrast (e.g., T1) from the same subject can show noticeable differences when acquired using different hardware, sequences, or scan parameters. These differences in images create a domain gap that needs to be bridged by a step called image harmonization, in order to process the images successfully using conventional or deep learning-based image analysis (e.g., segmentation). Several methods, including deep learning-based approaches, have been proposed to achieve image harmonization. However, they often require datasets of multiple characteristics for deep learning training and may still be unsuccessful when applied to images of an unseen domain. To address this limitation, we propose a novel concept called "Blind Harmonization," which utilizes only target domain data for training but still has the capability of harmonizing unseen domain images. For the implementation of Blind Harmonization, we developed BlindHarmony using an unconditional flow model trained on target domain data. The harmonized image is optimized to have a correlation with the input source domain image while ensuring that the latent vector of the flow model is close to the center of the Gaussian. BlindHarmony was evaluated using simulated and real datasets and compared with conventional methods. BlindHarmony achieved a noticeable performance in both datasets, highlighting its potential for future use in clinical settings.
翻訳日:2023-05-19 16:42:53 公開日:2023-05-18
# ライブストリームチャットにおける規範違反の分析

Analyzing Norm Violations in Live-Stream Chat ( http://arxiv.org/abs/2305.10731v1 )

ライセンス: Link先を確認
Jihyung Moon, Dong-Ho Lee, Hyundong Cho, Woojeong Jin, Chan Young Park, Minwoo Kim, Jonathan May, Jay Pujara, Sungjoon Park(参考訳) ヘイトスピーチのような有害言語は、ユーザーがオンラインコミュニティに参加し、人気のあるプラットフォームを楽しむことを妨げます。 有害な言語や規範違反を検出する以前のアプローチは、主にredditやtwitterなどのオンラインフォーラムやソーシャルメディアからの会話に関係していた。 これらのアプローチはtwitchやyoutube liveといったライブストリーミングプラットフォームでの会話に適用すると効果が低く、各コメントは限られた時間しか見えず、他のコメントとの関係を確立するスレッド構造が欠如している。 本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。 ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。 我々は、他のフォーラムと異なるライブストリームデータのいくつかの側面を具体化し、既存のモデルがこの環境では不十分であることを示す。 ユーザの調査を行うことで、人間がライブストリームモデレーションで使用する情報コンテキストを特定し、コンテキストを活用したトレーニングモデルを使用して規範違反を識別する。 その結果,適切な文脈情報によってモデレーション性能が35\%向上することがわかった。

Toxic language, such as hate speech, can deter users from participating in online communities and enjoying popular platforms. Previous approaches to detecting toxic language and norm violations have been primarily concerned with conversations from online forums and social media, such as Reddit and Twitter. These approaches are less effective when applied to conversations on live-streaming platforms, such as Twitch and YouTube Live, as each comment is only visible for a limited time and lacks a thread structure that establishes its relationship with other comments. In this work, we share the first NLP study dedicated to detecting norm violations in conversations on live-streaming platforms. We define norm violation categories in live-stream chats and annotate 4,583 moderated comments from Twitch. We articulate several facets of live-stream data that differ from other forums, and demonstrate that existing models perform poorly in this setting. By conducting a user study, we identify the informational context humans use in live-stream moderation, and train models leveraging context to identify norm violations. Our results show that appropriate contextual information can boost moderation performance by 35\%.
翻訳日:2023-05-19 16:42:31 公開日:2023-05-18
# fedmr:モデル再結合による連合学習

FedMR: Federated Learning via Model Recombination ( http://arxiv.org/abs/2305.10730v1 )

ライセンス: Link先を確認
Ming Hu and Zhihao Yue and Zhiwei Ling and Yihao Huang and Cheng Chen and Xian Wei and Yang Liu and Mingsong Chen(参考訳) Federated Learning(FL)は、クライアント間でのグローバルモデルトレーニングを、生データを妥協することなく実現しているが、既存のFederated Averaging(FedAvg)ベースのメソッドは、特にクライアント間の不均一な分散データに対して、低い推論性能の問題に悩まされている。 これは主に 一)FedAvgは、同じグローバルモデルでクライアントモデルを初期化することにより、ローカルな学習を最適解の探索から逃れるのを困難にする。 二 モデルパラメータを粗い方法で平均化することにより、FedAvgは局所モデルの個々の特性を上回ります。 本稿では,FLの推論能力を強く制限する問題に対処するため,FedMR(Federated Model Recombination)という新しいFLパラダイムを提案する。 従来のFedAvgベースの方法とは異なり、FedMRのクラウドサーバは、収集されたローカルモデルの各レイヤをシャッフルし、それらを再結合して、クライアントでのローカルトレーニングのための新しいモデルを達成する。 細粒度のモデル組換えと結合したクライアントの初期化モデルにより、FedMRはすべてのクライアントに対して十分に一般化されたグローバルモデルに収束し、推論性能が向上する。 実験の結果,最新のFL法と比較して,FedMRはクライアントのプライバシを公開することなく,推論精度を大幅に向上させることができることがわかった。

Although Federated Learning (FL) enables global model training across clients without compromising their raw data, existing Federated Averaging (FedAvg)-based methods suffer from the problem of low inference performance, especially for unevenly distributed data among clients. This is mainly because i) FedAvg initializes client models with the same global models, which makes the local training hard to escape from the local search for optimal solutions; and ii) by averaging model parameters in a coarse manner, FedAvg eclipses the individual characteristics of local models. To address such issues that strongly limit the inference capability of FL, we propose a novel and effective FL paradigm named FedMR (Federated Model Recombination). Unlike conventional FedAvg-based methods, the cloud server of FedMR shuffles each layer of collected local models and recombines them to achieve new models for local training on clients. Due to the diversified initialization models for clients coupled with fine-grained model recombination, FedMR can converge to a well-generalized global model for all the clients, leading to a superior inference performance. Experimental results show that, compared with state-of-the-art FL methods, FedMR can significantly improve inference accuracy in a quicker manner without exposing client privacy.
翻訳日:2023-05-19 16:42:14 公開日:2023-05-18
# GPUフレンドリなスポーシティと量子化を備えたBoost Vision Transformer

Boost Vision Transformer with GPU-Friendly Sparsity and Quantization ( http://arxiv.org/abs/2305.10727v1 )

ライセンス: Link先を確認
Chong Yu, Tao Chen, Zhongxue Gan, Jiayuan Fan(参考訳) トランスフォーマーは、その成功を言語からビジョンドメインに拡張する。 スタック化されたセルフアテンションブロックとクロスアテンションブロックのため、gpuハードウェアへのビジョントランスフォーマーのアクセラレーションの展開は困難であり、研究もまれである。 本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。 特に、密度重みパラメータを持つ元々の大型モデルは、まず2:4構造化プルーニングによりスパースに、GPUの2:4構造化スパースパターンとFP16データ型を考慮し、浮動小数点スパースモデルは、スパース蒸留を意識した量子化トレーニングにより固定点に量子化され、GPUは整数テンソルで2:4スパース計算を余分に高速化できると考えている。 プルーニングと量子化の過程で混合ストラテジー知識蒸留が用いられる。 提案する圧縮方式は教師なしおよび教師なしの学習スタイルをサポートするために柔軟である。 実験結果によると、GPUSQ-ViT方式は、画像ネット分類、COCO検出、ADE20Kセグメンテーションベンチマークタスクにおいて、モデルサイズ6.4~12.7倍、FLOP30.3~62倍の精度劣化を許容できる精度で低減し、最先端の圧縮を実現する。 さらに、GPUSQ-ViTはA100 GPUの1.39-1.79倍、3.22-3.43倍のレイテンシとスループット、AGX Orinの1.57-1.69倍と2.11-2.51倍のレイテンシとスループット向上を実現している。

The transformer extends its success from the language to the vision domain. Because of the stacked self-attention and cross-attention blocks, the acceleration deployment of vision transformer on GPU hardware is challenging and also rarely studied. This paper thoroughly designs a compression scheme to maximally utilize the GPU-friendly 2:4 fine-grained structured sparsity and quantization. Specially, an original large model with dense weight parameters is first pruned into a sparse one by 2:4 structured pruning, which considers the GPU's acceleration of 2:4 structured sparse pattern with FP16 data type, then the floating-point sparse model is further quantized into a fixed-point one by sparse-distillation-aware quantization aware training, which considers GPU can provide an extra speedup of 2:4 sparse calculation with integer tensors. A mixed-strategy knowledge distillation is used during the pruning and quantization process. The proposed compression scheme is flexible to support supervised and unsupervised learning styles. Experiment results show GPUSQ-ViT scheme achieves state-of-the-art compression by reducing vision transformer models 6.4-12.7 times on model size and 30.3-62 times on FLOPs with negligible accuracy degradation on ImageNet classification, COCO detection and ADE20K segmentation benchmarking tasks. Moreover, GPUSQ-ViT can boost actual deployment performance by 1.39-1.79 times and 3.22-3.43 times of latency and throughput on A100 GPU, and 1.57-1.69 times and 2.11-2.51 times improvement of latency and throughput on AGX Orin.
翻訳日:2023-05-19 16:41:47 公開日:2023-05-18
# 環境技術とインテリジェンス

Ambient Technology & Intelligence ( http://arxiv.org/abs/2305.10726v1 )

ライセンス: Link先を確認
Amos Okomayin, Tosin Ige(参考訳) 今日では、若者と高齢者、特別なニーズを持つ人々、自分自身を気遣うことができる人々が混在しています。 この数字は世界の人口の約15%に相当するが、15歳以上の人口は3.8%(約1億9000万人)である(2011年組織)。 慢性的な健康状態の悪化などにより、障害者の数は増加傾向にある。 これらその他の要因により、今日の社会では適切な医療施設の必要性が高まっている。 障害者が日常生活を営むのを手伝うためにいくつかの医療施設が建設され、地域社会から離れてはならない。

Today, we have a mixture of young and older individuals, people with special needs, and people who can care for themselves. Over 1 billion people are estimated to be disabled; this figure corresponds to about 15% of the world's population, with 3.8% (approximately 190 million people) accounting for people aged 15 and up (Organization, 2011). The number of people with disabilities is upward due to the increase in chronic health conditions and many other things. These and other factors have made the need for proper care facilities urgent in today's society. Several care facilities are built to help people with disabilities live their everyday lives and not be left out of the community.
翻訳日:2023-05-19 16:41:11 公開日:2023-05-18
# ハイブリッドプロンプト規則化によるトレーニング不要のセグメント

Segment Any Anomaly without Training via Hybrid Prompt Regularization ( http://arxiv.org/abs/2305.10724v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Zongwei Du, Liang Gao, Weiming Shen(参考訳) 現代基礎モデルの適応性を向上させるために,ハイブリッドプロンプト正規化によるゼロショット異常分割のための新しいフレームワーク,すなわちセグメンツ・アノマリー+(SAA+)を提案する。 既存の異常セグメンテーションモデルは通常、ドメイン固有の微調整に依存し、無数の異常パターンの一般化を制限する。 本研究は,segment anythingのような基礎モデルの大きなゼロショット一般化能力に着想を得て,まずそれらの集合を探索し,異常局在に多様なマルチモーダル事前知識を活用した。 異常セグメンテーションへの非パラメータ基礎モデルの適用については、ドメインエキスパートの知識とターゲット画像コンテキストを正規化したハイブリッドプロンプトを導入する。 提案したSAA+モデルは,ゼロショット設定において,VasA,MVTec-AD,MTD,KSDD2を含むいくつかの異常セグメンテーションベンチマークの最先端性能を実現する。 コードは \href{https://github.com/caoyunkang/segment-any-anomaly}{https://github.com/caoyunkang/segment-any-anomaly} でリリースします。

We present a novel framework, i.e., Segment Any Anomaly + (SAA+), for zero-shot anomaly segmentation with hybrid prompt regularization to improve the adaptability of modern foundation models. Existing anomaly segmentation models typically rely on domain-specific fine-tuning, limiting their generalization across countless anomaly patterns. In this work, inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly to leverage diverse multi-modal prior knowledge for anomaly localization. For non-parameter foundation model adaptation to anomaly segmentation, we further introduce hybrid prompts derived from domain expert knowledge and target image context as regularization. Our proposed SAA+ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA, MVTec-AD, MTD, and KSDD2, in the zero-shot setting. We will release the code at \href{https://github.com/caoyunkang/Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly}.
翻訳日:2023-05-19 16:40:59 公開日:2023-05-18
# 局所交絡測定に基づく古典的影

Classical shadows based on locally-entangled measurements ( http://arxiv.org/abs/2305.10723v1 )

ライセンス: Link先を確認
Matteo Ippoliti(参考訳) 我々は,n$-qubit エンタングルベースにおけるランダム化測定に基づく古典的なシャドウプロトコルを研究し,ランダムな pauli 測定プロトコル (n = 1$) を一般化した。 絡み合った測定(n\geq 2$)は、パウリ予想値の学習のサンプル複雑さにおいて、非自明で潜在的に有利なトレードオフを可能にすることを示す。 Pauli 重み $k$ によるサンプル複雑性のスケーリングは、多くの演算子に対して二次的に($\sim 3^k$ から $\sim 3^{k/2}$ まで)改善するが、他の演算子では学習できない。 測定ベースにおける絡み合いの量を調整することは、ポーリとベルシャドウの間を補間する一連のプロトコルを定義し、両者の利点の一部を保っている。 大きなn$の場合、n$-qubit ghz のベースでランダム化された測定値が、ますます制限されるオペレーターのセットではあるものの、$\sim (3/2)^k$ のスケーリングをさらに改善することを示している。 単純さとハードウェア要件の低さにもかかわらず、これらのプロトコルは、実際に関係のあるpauli推定タスクで最近導入された ``shallow shadows''' にマッチするか、または上回ることができる。

We study classical shadows protocols based on randomized measurements in $n$-qubit entangled bases, generalizing the random Pauli measurement protocol ($n = 1$). We show that entangled measurements ($n\geq 2$) enable nontrivial and potentially advantageous trade-offs in the sample complexity of learning Pauli expectation values. This is sharply illustrated by shadows based on two-qubit Bell measurements: the scaling of sample complexity with Pauli weight $k$ improves quadratically (from $\sim 3^k$ down to $\sim 3^{k/2}$) for many operators, while others become impossible to learn. Tuning the amount of entanglement in the measurement bases defines a family of protocols that interpolate between Pauli and Bell shadows, retaining some of the benefits of both. For large $n$, we show that randomized measurements in $n$-qubit GHZ bases further improve the best scaling to $\sim (3/2)^k$, albeit on an increasingly restricted set of operators. Despite their simplicity and lower hardware requirements, these protocols can match or outperform recently-introduced ``shallow shadows'' in some practically-relevant Pauli estimation tasks.
翻訳日:2023-05-19 16:40:36 公開日:2023-05-18
# 敵を友人に変えることのできる 唯一の力は敵の修正だ

Adversarial Amendment is the Only Force Capable of Transforming an Enemy into a Friend ( http://arxiv.org/abs/2305.10766v1 )

ライセンス: Link先を確認
Chong Yu, Tao Chen, Zhongxue Gan(参考訳) 敵の攻撃は通常、誤解を招く行動のためにニューラルネットワークに対する大きな脅威と見なされる。 敵の攻撃は、正しく修正すれば、ニューラルモデルを改善するために利用することができる。 従来の対人防御法や対人訓練法とは異なり、提案法は、良性サンプルに対するニューラルモデルの元の精度レベルを改善することを目的としている。 良性試料と逆性試料の分布ミスマッチを網羅的に解析した。 この分布ミスマッチと、先行技術防衛戦略に適用される学習比率が同じである相互学習機構が、良性サンプルの精度劣化を導く主な原因である。 提案するadvamdは、精度の低下を着実に改善し、良性分類、オブジェクト検出、セグメンテーションタスクにおける一般的な神経モデルの一定の精度向上につながる。 AdvAmdの有効性は、サンプルの仲介(微調整による分布ミスマッチの影響を低減するため)、補助バッチノルム(相互学習機構とスムーズな判断面を解決するため)、AdvAmd損失(異なる攻撃脆弱性に応じて学習比率を調整するために)の定量的およびアブレーション実験による3つの重要な構成要素によって提供される。

Adversarial attack is commonly regarded as a huge threat to neural networks because of misleading behavior. This paper presents an opposite perspective: adversarial attacks can be harnessed to improve neural models if amended correctly. Unlike traditional adversarial defense or adversarial training schemes that aim to improve the adversarial robustness, the proposed adversarial amendment (AdvAmd) method aims to improve the original accuracy level of neural models on benign samples. We thoroughly analyze the distribution mismatch between the benign and adversarial samples. This distribution mismatch and the mutual learning mechanism with the same learning ratio applied in prior art defense strategies is the main cause leading the accuracy degradation for benign samples. The proposed AdvAmd is demonstrated to steadily heal the accuracy degradation and even leads to a certain accuracy boost of common neural models on benign classification, object detection, and segmentation tasks. The efficacy of the AdvAmd is contributed by three key components: mediate samples (to reduce the influence of distribution mismatch with a fine-grained amendment), auxiliary batch norm (to solve the mutual learning mechanism and the smoother judgment surface), and AdvAmd loss (to adjust the learning ratios according to different attack vulnerabilities) through quantitative and ablation experiments.
翻訳日:2023-05-19 16:34:40 公開日:2023-05-18
# OpenShape: オープンワールド理解に向けた3D形状表現のスケールアップ

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding ( http://arxiv.org/abs/2305.10764v1 )

ライセンス: Link先を確認
Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su(参考訳) 本稿では,テキスト,画像,ポイントクラウドのマルチモーダルジョイント表現を学習する手法であるopenshapeを提案する。 表現アライメントによく使われるマルチモーダルコントラスト学習フレームワークを採用するが,オープンワールドの3d形状理解を実現するために,特に3d表現のスケールアップに重点を置いている。 これを実現するために,複数の3dデータセットをセンセンシングしてトレーニングデータをスケールアップし,ノイズの多いテキスト記述を自動的にフィルタリングし,強化するためのいくつかの戦略を提案する。 また、3Dバックボーンネットワークのスケーリング戦略を探求し比較し、より効率的なトレーニングのための新しいハードネガティブマイニングモジュールを導入する。 ゼロショット3d分類ベンチマークでopenshapeを評価し,その優れたオープンワールド認識能力を示す。 具体的には、OpenShapeは既存の手法に比べて1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成した。 OpenShapeはまた、ModelNet40で85.3%の精度を達成し、以前のゼロショットベースラインメソッドを20%上回り、完全に教師されたメソッドと同等に実行する。 さらに、学習した埋め込みは、視覚的および意味的概念(例えば、サブカテゴリ、色、形状、スタイル)をエンコードし、きめ細かいテキスト3dおよび画像3dインタラクションを容易にする。 CLIP埋め込みとの整合性のため、学習した形状表現は、ポイントクラウドキャプションやポイントクラウド条件の画像生成など、さまざまなアプリケーションのための既製のCLIPベースのモデルと統合することもできる。

We introduce OpenShape, a method for learning multi-modal joint representations of text, image, and point clouds. We adopt the commonly used multi-modal contrastive learning framework for representation alignment, but with a specific focus on scaling up 3D representations to enable open-world 3D shape understanding. To achieve this, we scale up training data by ensembling multiple 3D datasets and propose several strategies to automatically filter and enrich noisy text descriptions. We also explore and compare strategies for scaling 3D backbone networks and introduce a novel hard negative mining module for more efficient training. We evaluate OpenShape on zero-shot 3D classification benchmarks and demonstrate its superior capabilities for open-world recognition. Specifically, OpenShape achieves a zero-shot accuracy of 46.8% on the 1,156-category Objaverse-LVIS benchmark, compared to less than 10% for existing methods. OpenShape also achieves an accuracy of 85.3% on ModelNet40, outperforming previous zero-shot baseline methods by 20% and performing on par with some fully-supervised methods. Furthermore, we show that our learned embeddings encode a wide range of visual and semantic concepts (e.g., subcategories, color, shape, style) and facilitate fine-grained text-3D and image-3D interactions. Due to their alignment with CLIP embeddings, our learned shape representations can also be integrated with off-the-shelf CLIP-based models for various applications, such as point cloud captioning and point cloud-conditioned image generation.
翻訳日:2023-05-19 16:34:16 公開日:2023-05-18
# 深部強化学習に基づく建物パイプラインレイアウトの自動設計法

Automatic Design Method of Building Pipeline Layout Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2305.10760v1 )

ライセンス: Link先を確認
Chen Yang, Zhe Zheng, Jia-Rui Lin(参考訳) パイプラインのレイアウト設計は建設業界において重要な課題である。 現在、パイプラインのレイアウトはエンジニアによって手作業で設計されている。 このプロセスの自動化と合理化は、エンジニアの負担を軽減し、時間を節約できる。 本稿では,深部強化学習(DRL)に基づくパイプラインの3次元レイアウト生成手法を提案する。 まず,空間の幾何学的特徴を抽象化してトレーニング環境を確立し,パイプライン長,肘,設置距離という3つの制約に基づいて報酬関数を定義する。 次に,エージェントと環境間のインタラクションを通じてデータを収集し,DRLモデルを訓練する。 最後に、よく訓練されたDRLモデルを使用して、1つのパイプラインを自動的に設計する。 その結果、DRLモデルは従来のアルゴリズムよりもはるかに短い時間でパイプラインレイアウトタスクを完了し、高品質なレイアウト結果を確保することができることを示した。

The layout design of pipelines is a critical task in the construction industry. Currently, pipeline layout is designed manually by engineers, which is time-consuming and laborious. Automating and streamlining this process can reduce the burden on engineers and save time. In this paper, we propose a method for generating three-dimensional layout of pipelines based on deep reinforcement learning (DRL). Firstly, we abstract the geometric features of space to establish a training environment and define reward functions based on three constraints: pipeline length, elbow, and installation distance. Next, we collect data through interactions between the agent and the environment and train the DRL model. Finally, we use the well-trained DRL model to automatically design a single pipeline. Our results demonstrate that DRL models can complete the pipeline layout task in space in a much shorter time than traditional algorithms while ensuring high-quality layout outcomes.
翻訳日:2023-05-19 16:33:47 公開日:2023-05-18
# グラフニューラルネットワークからの低周波・高周波知識の抽出とMLPへの注入:効率的なGNN-to-MLP蒸留フレームワーク

Extracting Low-/High- Frequency Knowledge from Graph Neural Networks and Injecting it into MLPs: An Effective GNN-to-MLP Distillation Framework ( http://arxiv.org/abs/2305.10758v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Yufei Huang, Tianyu Fan, and Stan Z. Li(参考訳) 近年、グラフ関連タスクの処理においてグラフニューラルネットワーク(GNN)が大きな成功を収めているのを目撃している。 しかし、MLPは推論効率とスケーラビリティが望ましいため、実用的な産業アプリケーションの主要な作業場である。 ギャップを減らすために、よく設計された教師GNNから、GNN-to-MLP蒸留と呼ばれる学生MLPへの知識を直接蒸留することができる。 しかし、蒸留の過程は通常、情報の喪失を伴い、「GNNのどの知識パターンが残され、MLPに蒸留されるか」は重要な問題となっている。 本稿では,まず,gnnが学習した知識をスペクトル領域の低周波成分と高周波成分に分解し,その空間領域における対応関係を導出する。 さらに,既存のgnn-to-mlp蒸留における潜在的な情報ドローイング問題,すなわち,事前訓練されたgnnの高周波知識は,蒸留中の低周波知識に圧倒される可能性があることを明らかにした。 本稿では,GNNから低周波および高周波の知識を抽出し,MPPに注入する全周波数GNN-to-MLP(FF-G2M)蒸留フレームワークを提案する。 大規模な実験により、FF-G2MはバニラMLPを12.6%改善し、対応する教師GNNを6つのグラフデータセットと3つの共通GNNアーキテクチャで平均2.6%上回った。

Recent years have witnessed the great success of Graph Neural Networks (GNNs) in handling graph-related tasks. However, MLPs remain the primary workhorse for practical industrial applications due to their desirable inference efficiency and scalability. To reduce their gaps, one can directly distill knowledge from a well-designed teacher GNN to a student MLP, which is termed as GNN-to-MLP distillation. However, the process of distillation usually entails a loss of information, and ``which knowledge patterns of GNNs are more likely to be left and distilled into MLPs?" becomes an important question. In this paper, we first factorize the knowledge learned by GNNs into low- and high-frequency components in the spectral domain and then derive their correspondence in the spatial domain. Furthermore, we identified a potential information drowning problem for existing GNN-to-MLP distillation, i.e., the high-frequency knowledge of the pre-trained GNNs may be overwhelmed by the low-frequency knowledge during distillation; we have described in detail what it represents, how it arises, what impact it has, and how to deal with it. In this paper, we propose an efficient Full-Frequency GNN-to-MLP (FF-G2M) distillation framework, which extracts both low-frequency and high-frequency knowledge from GNNs and injects it into MLPs. Extensive experiments show that FF-G2M improves over the vanilla MLPs by 12.6% and outperforms its corresponding teacher GNNs by 2.6% averaged over six graph datasets and three common GNN architectures.
翻訳日:2023-05-19 16:33:36 公開日:2023-05-18
# 測定デバイスに依存しない量子秘密共有

Measurement-Device-Independent Quantum Secret Sharing ( http://arxiv.org/abs/2305.10755v1 )

ライセンス: Link先を確認
Xiao-Qiu Cai and Zi-Fan Liu and Tian-Yin Wang(参考訳) 量子秘密共有は、量子通信とセキュアなマルチパーティ計算において重要な役割を果たす。 本稿では,前作に比べて,ディーラーと各シェアラー間の空間距離を2倍にすることができる,測定デバイス非依存の量子秘密共有プロトコルを提案する。 さらに, 3粒子グリーンバーガー・ホーン・サイレンジャー状態とベル状態測定のみを必要とする現在の技術で実験的に実現可能である。

Quantum secret sharing plays an important role in quantum communications and secure multiparty computation. In this paper, we present a new measurement-device-independent quantum secret sharing protocol, which can double the space distance between the dealer and each sharer for quantum transmission compared with prior works. Furthermore, it is experimentally feasible with current technology for requiring just three-particle Greenberger-Horne-Zeilinger states and Bell state measurements.
翻訳日:2023-05-19 16:33:07 公開日:2023-05-18
# 関数拡散ガンを用いたマルチレゾリューション時空間強化変圧器による脳のmci解析

Multi-resolution Spatiotemporal Enhanced Transformer Denoising with Functional Diffusive GANs for Constructing Brain Effective Connectivity in MCI analysis ( http://arxiv.org/abs/2305.10754v1 )

ライセンス: Link先を確認
Qiankun Zuo, Chi-Man Pun, Yudong Zhang, Hongfei Wang, Jin Hong(参考訳) 効果的なコネクティビティは、脳領域間の因果パターンを記述できる。 これらのパターンは、病態のメカニズムを明らかにし、認知疾患の早期診断と効果的な薬物開発を促進する可能性を秘めている。 しかし,本研究は,脳領域間の複雑な因果関係を包括的に捉えない効果的な接続関係の計算に,経験的関数時系列を用いることに重点を置いている。 本稿では,機能的磁気共鳴画像(fMRI)を軽度認知機能障害(MCI)解析に有効な接続性にマッピングするために,逆機能拡散モデルを用いたマルチレゾリューション時空間変換器デノイング(MSETD)ネットワークを提案する。 具体的には、ノイズやコンディショニングfmriをエンドツーエンドで効果的な接続に段階的に変換する条件付き拡散プロセスを利用する。 逆拡散品質と多様性を確保するため、多分解能強化トランスジェネレータは局所的および大域的時空間的特徴を抽出するように設計されている。 さらに,複数スケールの拡散型変圧器判別器を考案し,その時間パターンを異なるスケールで捉えて生成安定性を図る。 ADNIデータセットの評価は,提案モデルの有効性と有効性を示す。 提案モデルは他の競合法と比較して優れた予測性能を実現するだけでなく,臨床研究と一致するmci関連因果関係を同定する。

Effective connectivity can describe the causal patterns among brain regions. These patterns have the potential to reveal the pathological mechanism and promote early diagnosis and effective drug development for cognitive disease. However, the current studies mainly focus on using empirical functional time series to calculate effective connections, which may not comprehensively capture the complex causal relationships between brain regions. In this paper, a novel Multi-resolution Spatiotemporal Enhanced Transformer Denoising (MSETD) network with an adversarially functional diffusion model is proposed to map functional magnetic resonance imaging (fMRI) into effective connectivity for mild cognitive impairment (MCI) analysis. To be specific, the denoising framework leverages a conditional diffusion process that progressively translates the noise and conditioning fMRI to effective connectivity in an end-to-end manner. To ensure reverse diffusion quality and diversity, the multi-resolution enhanced transformer generator is designed to extract local and global spatiotemporal features. Furthermore, a multi-scale diffusive transformer discriminator is devised to capture the temporal patterns at different scales for generation stability. Evaluations of the ADNI datasets demonstrate the feasibility and efficacy of the proposed model. The proposed model not only achieves superior prediction performance compared with other competing methods but also identifies MCI-related causal connections that are consistent with clinical studies.
翻訳日:2023-05-19 16:32:59 公開日:2023-05-18
# ガウス過程を理解するための物理学的アプローチ

Physics Inspired Approaches Towards Understanding Gaussian Processes ( http://arxiv.org/abs/2305.10748v1 )

ライセンス: Link先を確認
Maximilian P. Niroomand and Luke Dicks and Edward O. Pyzer-Knapp and David J. Wales(参考訳) 誘導バイアスを形成する潜在関数に関する以前の信念は、カーネルを介してガウス過程(GP)に組み込むことができる。 しかし、カーネル選択以外にもgpモデルの意思決定過程はよく分かっていない。 本研究では,GPモデルにおける損失状況の解析に物理手法を用いて貢献する。 我々は,母子核に対する$\nu$-continuityを実証し,損失景観の臨界点におけるカタストロフィー理論の概要を示す。 Maternカーネルのハイパーパラメータ最適化に$\nu$を直接組み込むことで、$\nu$の典型的な値は性能面では最適ではないが、計算速度の増大により文献で広く用いられている。 また、GPアンサンブルの効果を評価するための事前手法を提案し、損失景観の物理的特性に基づく様々な投票手法について議論する。 これらのアプローチの有用性は、様々な合成および実データに対して実証される。 本研究は,GPの背後にある意思決定プロセスの理解を深め,様々なアプリケーションの性能向上と解釈可能性向上のための実践的なガイダンスを提供する。

Prior beliefs about the latent function to shape inductive biases can be incorporated into a Gaussian Process (GP) via the kernel. However, beyond kernel choices, the decision-making process of GP models remains poorly understood. In this work, we contribute an analysis of the loss landscape for GP models using methods from physics. We demonstrate $\nu$-continuity for Matern kernels and outline aspects of catastrophe theory at critical points in the loss landscape. By directly including $\nu$ in the hyperparameter optimisation for Matern kernels, we find that typical values of $\nu$ are far from optimal in terms of performance, yet prevail in the literature due to the increased computational speed. We also provide an a priori method for evaluating the effect of GP ensembles and discuss various voting approaches based on physical properties of the loss landscape. The utility of these approaches is demonstrated for various synthetic and real datasets. Our findings provide an enhanced understanding of the decision-making process behind GPs and offer practical guidance for improving their performance and interpretability in a range of applications.
翻訳日:2023-05-19 16:32:36 公開日:2023-05-18
# マルコフ決定過程におけるオンライン資源配分

Online Resource Allocation in Episodic Markov Decision Processes ( http://arxiv.org/abs/2305.10744v1 )

ライセンス: Link先を確認
Duksang Lee, Dabeen Lee(参考訳) 本稿では,多段階意思決定プロセスを必要とする複数期間にわたる長期資源配分問題について検討する。 未知の非定常遷移と確率的非定常報酬と資源消費関数を有するエピソディック有限ホリゾンマルコフ決定過程において、オンライン資源配分問題として問題を定式化する。 我々は,オンラインミラー降下アルゴリズムを開発するための占有測度に基づく等価なオンラインリニアプログラミング再構成を提供する。 資源割当のためのオンライン二重ミラー降下アルゴリズムは、真の実現可能集合の推定における不確実性と誤りを扱う。 確率的報酬と資源消費関数の下では、オンラインミラー降下アルゴリズムの期待された後悔は$O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$で束縛され、$\rho\in(0,1)$は予算パラメータ、$H$は地平線の長さ、$S$と$A$は状態と行動の数、$T$はエピソード数である。

This paper studies a long-term resource allocation problem over multiple periods where each period requires a multi-stage decision-making process. We formulate the problem as an online resource allocation problem in an episodic finite-horizon Markov decision process with unknown non-stationary transitions and stochastic non-stationary reward and resource consumption functions for each episode. We provide an equivalent online linear programming reformulation based on occupancy measures, for which we develop an online mirror descent algorithm. Our online dual mirror descent algorithm for resource allocation deals with uncertainties and errors in estimating the true feasible set, which is of independent interest. We prove that under stochastic reward and resource consumption functions, the expected regret of the online mirror descent algorithm is bounded by $O(\rho^{-1}{H^{3/2}}S\sqrt{AT})$ where $\rho\in(0,1)$ is the budget parameter, $H$ is the length of the horizon, $S$ and $A$ are the numbers of states and actions, and $T$ is the number of episodes.
翻訳日:2023-05-19 16:32:20 公開日:2023-05-18
# 計測に基づく量子計算のロバストで効率的な検証

Robust and efficient verification of measurement-based quantum computation ( http://arxiv.org/abs/2305.10742v1 )

ライセンス: Link先を確認
Zihao Li, Huangjun Zhu, Masahito Hayashi(参考訳) 計測に基づく量子計算は、盲目およびクラウド量子計算を実現するための有望なアプローチである。 このモデルで信頼性の高い結果を得るには,リソースグラフの状態が敵のシナリオで正確に準備されているかどうかを検証することが重要である。 しかし、このタスクの以前の検証プロトコルはリソース消費やノイズの影響を受けやすく、実際には適用できない。 そこで本稿では,任意のグラフ状態が逆数シナリオの任意の主局所次元で検証可能な,頑健で効率的なプロトコルを提案し,ブラインド計測に基づく量子計算を検証するための頑健で効率的なプロトコルを提案する。 我々のプロトコルは局所的なpauli測定のみを必要とするため、現在の技術で容易に実現できる。 それにもかかわらず、システムサイズと目標精度に関して、これまで達成されたことのない不確かさと重要性のレベルによって定量化された最適なスケーリング動作を達成することができる。 特に,本プロトコルは,重要度レベルでのスケーリング動作を指数関数的に向上させることができる。

Measurement-based quantum computation is a promising approach for realizing blind and cloud quantum computation. To obtain reliable results in this model, it is crucial to verify whether the resource graph states are accurately prepared in the adversarial scenario. However, previous verification protocols for this task are too resource consuming or noise susceptible to be applied in practice. Here, we propose a robust and efficient protocol for verifying arbitrary graph states with any prime local dimension in the adversarial scenario, which leads to a robust and efficient protocol for verifying blind measurement-based quantum computation. Our protocol requires only local Pauli measurements and is thus easy to realize with current technologies. Nevertheless, it can achieve the optimal scaling behaviors with respect to the system size and the target precision as quantified by the infidelity and significance level, which has never been achieved before. Notably, our protocol can exponentially enhance the scaling behavior with the significance level.
翻訳日:2023-05-19 16:31:53 公開日:2023-05-18
# 動物由来タグを用いた動物行動の計算分析のためのベンチマーク

A benchmark for computational analysis of animal behavior, using animal-borne tags ( http://arxiv.org/abs/2305.10740v1 )

ライセンス: Link先を確認
Benjamin Hoffman, Maddie Cusimano, Vittorio Baglione, Daniela Canestrari, Damien Chevallier, Dominic L. DeSantis, Lor\`ene Jeantet, Monique A. Ladds, Takuya Maekawa, Vicente Mata-Silva, V\'ictor Moreno-Gonz\'alez, Eva Trapote, Outi Vainio, Antti Vehkaoja, Ken Yoda, Katherine Zacarian, Ari Friedlaender, Christian Rutz(参考訳) 動物を媒介とするセンサー(バイオログ)は、動物生態学を解明し、保護活動を改善するための運動と環境のデータ群を記録できる。 機械学習技術は、バイオロガーが記録する大量のデータを解釈するのに有用であるが、この分野の異なる機械学習技術を比較する基準は存在しない。 そこで本研究では,bilogger ethogram benchmark (bebe),行動アノテーション付きデータセットの集合,標準化されたモデリングタスク,評価メトリクスを提案する。 BEBEは現在、このタイプの最も大きく、最も多様で、一般に公開されているベンチマークであり、9つの分類群で149人の個人から収集された1654時間のデータを含んでいる。 我々は,bebeにおける10種類の機械学習手法の性能を評価し,今後の課題を明らかにする。 データセット、モデル、評価コードはhttps://github.com/earthspecies/BEBEで公開されている。

Animal-borne sensors ('bio-loggers') can record a suite of kinematic and environmental data, which can elucidate animal ecophysiology and improve conservation efforts. Machine learning techniques are useful for interpreting the large amounts of data recorded by bio-loggers, but there exists no standard for comparing the different machine learning techniques in this domain. To address this, we present the Bio-logger Ethogram Benchmark (BEBE), a collection of datasets with behavioral annotations, standardized modeling tasks, and evaluation metrics. BEBE is to date the largest, most taxonomically diverse, publicly available benchmark of this type, and includes 1654 hours of data collected from 149 individuals across nine taxa. We evaluate the performance of ten different machine learning methods on BEBE, and identify key challenges to be addressed in future work. Datasets, models, and evaluation code are made publicly available at https://github.com/earthspecies/BEBE, to enable community use of BEBE as a point of comparison in methods development.
翻訳日:2023-05-19 16:31:40 公開日:2023-05-18
# ditto: 文埋め込みを改善するためのシンプルで効率的なアプローチ

Ditto: A Simple and Efficient Approach to Improve Sentence Embeddings ( http://arxiv.org/abs/2305.10786v1 )

ライセンス: Link先を確認
Qian Chen, Wen Wang, Qinglin Zhang, Siqi Zheng, Chong Deng, Hai Yu, Jiaqing Liu, Yukun Ma, Chong Zhang(参考訳) 先行研究は、未学習言語モデル(例えばBERT)の文表現における異方性問題を微調整なしで診断する。 解析の結果,BERTの埋め込み文は非形式的単語に対する偏りに悩まされ,意味的テキスト類似性(STS)タスクのパフォーマンスが制限されることがわかった。 このバイアスに対処するために、モデルに基づく重要度推定で単語を重み付けし、文埋め込みとして事前学習されたモデルからの単語表現の重み付け平均を計算する、シンプルで効率的な非教師付きアプローチであるDiagonal Attention Pooling (Ditto)を提案する。 Dittoは、任意のトレーニング済み言語モデルに対して、後処理操作として簡単に適用できる。 先行文埋め込みアプローチと比較して、dittoはパラメータを追加せず、学習も必要としない。 実験により,提案したDittoは異方性問題を緩和し,STSタスクにおける各種事前学習モデルを改善することができることが示された。

Prior studies diagnose the anisotropy problem in sentence representations from pre-trained language models, e.g., BERT, without fine-tuning. Our analysis reveals that the sentence embeddings from BERT suffer from a bias towards uninformative words, limiting the performance in semantic textual similarity (STS) tasks. To address this bias, we propose a simple and efficient unsupervised approach, Diagonal Attention Pooling (Ditto), which weights words with model-based importance estimations and computes the weighted average of word representations from pre-trained models as sentence embeddings. Ditto can be easily applied to any pre-trained language model as a postprocessing operation. Compared to prior sentence embedding approaches, Ditto does not add parameters nor requires any learning. Empirical evaluations demonstrate that our proposed Ditto can alleviate the anisotropy problem and improve various pre-trained models on STS tasks.
翻訳日:2023-05-19 16:25:06 公開日:2023-05-18
# 量子インスパイアテンソルトレイン有限要素法による化学ミキサーの非圧縮ナビエ・ストークス方程式の数値解法

Numerical solution of the incompressible Navier-Stokes equations for chemical mixers via quantum-inspired Tensor Train Finite Element Method ( http://arxiv.org/abs/2305.10784v1 )

ライセンス: Link先を確認
Egor Kornev, Sergey Dolgov, Karan Pinto, Markus Pflitsch, Michael Perelshtein, and Artem Melnikov(参考訳) 計算流体力学問題の解は最も計算が難しいタスクの一つであり、特に複雑なジオメトリや乱流のレジームの場合である。 本稿では,問題サイズの対数複雑性を持ち,データ表現の構造において量子アルゴリズムと非常に類似したテンソルトレイン(tt)法を提案する。 テンソル列有限要素法(テトラフェム法)と、テンソル列による非圧縮ナビエ-ストークス方程式の解に対する明示的な数値スキームを開発した。 我々は,T字型ミキサーの液体混合シミュレーションにおいて,このような非自明な測地におけるテンソル法を用いて本手法を初めて行った。 期待されたように、全てのFEM行列のメモリにおける指数的圧縮を実現し、高密度メッシュ上の従来のFEM実装と比較して指数的高速化を示す。 さらに,この手法を量子コンピュータに拡張してより複雑な問題を解く可能性についても検討する。 本論文は, evonik industries ag で実施した研究に基づくものである。

The solution of computational fluid dynamics problems is one of the most computationally hard tasks, especially in the case of complex geometries and turbulent flow regimes. We propose to use Tensor Train (TT) methods, which possess logarithmic complexity in problem size and have great similarities with quantum algorithms in the structure of data representation. We develop the Tensor train Finite Element Method -- TetraFEM -- and the explicit numerical scheme for the solution of the incompressible Navier-Stokes equation via Tensor Trains. We test this approach on the simulation of liquids mixing in a T-shape mixer, which, to our knowledge, was done for the first time using tensor methods in such non-trivial geometries. As expected, we achieve exponential compression in memory of all FEM matrices and demonstrate an exponential speed-up compared to the conventional FEM implementation on dense meshes. In addition, we discuss the possibility of extending this method to a quantum computer to solve more complex problems. This paper is based on work we conducted for Evonik Industries AG.
翻訳日:2023-05-19 16:24:48 公開日:2023-05-18
# 人間中心のAIコラボレーションを変革する - 対話型接地言語指導による身体的エージェントの能力の再定義

Transforming Human-Centered AI Collaboration: Redefining Embodied Agents Capabilities through Interactive Grounded Language Instructions ( http://arxiv.org/abs/2305.10783v1 )

ライセンス: Link先を確認
Shrestha Mohanty and Negar Arabzadeh and Julia Kiseleva and Artem Zholus and Milagro Teruel and Ahmed Awadallah and Yuxuan Sun and Kavya Srinet and Arthur Szlam(参考訳) 人間の知能の適応性は目覚ましいもので、新しいタスクやマルチモーダル環境に迅速に適応することができる。 このスキルは、新しい能力を身につけ、他人を真似たり、自然言語命令に従うことで問題を解決する若い世代から明らかです。 研究コミュニティは、人間と自然な会話を行い、現実世界のタスクで支援できる対話型「身体的エージェント」の開発を積極的に進めている。 これらのエージェントは、コミュニケーションがダウンしたり指示が明確でない場合、フィードバックを迅速に要求する能力を持つ必要がある。 さらに、特定のドメインに固有の新しい語彙を学ぶ能力を示す必要がある。 本稿では,(1)接地言語命令を収集するためのクラウドソーシングツール,(2)接地言語命令の最大のデータセット,(3)最先端のベースラインについて述べる。 これらの貢献はさらなる研究の基盤として適している。

Human intelligence's adaptability is remarkable, allowing us to adjust to new tasks and multi-modal environments swiftly. This skill is evident from a young age as we acquire new abilities and solve problems by imitating others or following natural language instructions. The research community is actively pursuing the development of interactive "embodied agents" that can engage in natural conversations with humans and assist them with real-world tasks. These agents must possess the ability to promptly request feedback in case communication breaks down or instructions are unclear. Additionally, they must demonstrate proficiency in learning new vocabulary specific to a given domain. In this paper, we made the following contributions: (1) a crowd-sourcing tool for collecting grounded language instructions; (2) the largest dataset of grounded language instructions; and (3) several state-of-the-art baselines. These contributions are suitable as a foundation for further research.
翻訳日:2023-05-19 16:24:28 公開日:2023-05-18
# 大規模言語モデルにおける数値マグニチュード比較効果

Numeric Magnitude Comparison Effects in Large Language Models ( http://arxiv.org/abs/2305.10782v1 )

ライセンス: Link先を確認
Raj Sanjay Shah, Vijay Marupudi, Reba Koenen, Khushi Bhardwaj, Sashank Varma(参考訳) 大規模言語モデル(llm)は、テキストに浸透する数を微分的に表現しない。 対照的に、神経科学研究は数と単語の異なる神経表現を同定した。 本研究では,LLMが行動レンズから数の大きさ(例えば,その4 < 5$)をどれだけよく捉えているかを検討する。 LLMの表現能力に関する先行研究は、人間レベルの性能、例えば標準ベンチマークで高い総合的精度を示すかどうかを評価する。 LLMの数値表現は、一般的に距離、サイズ、比例効果を示す人間の言語利用者の数値表現とどの程度近いのか? 我々は、数語と数字の埋め込みモデル間の類似性を人間の応答時間にマップするためにリンク仮説に依存する。 結果は、人間の脳でこれらの表現を直接サポートする神経回路がないにもかかわらず、異なるアーキテクチャの言語モデルにまたがる驚くほど人間らしい表現を明らかにした。 本研究は、行動ベンチマークを用いたLCMの理解の有用性を示し、LCMの表現数とその認知的妥当性に関する今後の研究方法を示す。

Large Language Models (LLMs) do not differentially represent numbers, which are pervasive in text. In contrast, neuroscience research has identified distinct neural representations for numbers and words. In this work, we investigate how well popular LLMs capture the magnitudes of numbers (e.g., that $4 < 5$) from a behavioral lens. Prior research on the representational capabilities of LLMs evaluates whether they show human-level performance, for instance, high overall accuracy on standard benchmarks. Here, we ask a different question, one inspired by cognitive science: How closely do the number representations of LLMscorrespond to those of human language users, who typically demonstrate the distance, size, and ratio effects? We depend on a linking hypothesis to map the similarities among the model embeddings of number words and digits to human response times. The results reveal surprisingly human-like representations across language models of different architectures, despite the absence of the neural circuitry that directly supports these representations in the human brain. This research shows the utility of understanding LLMs using behavioral benchmarks and points the way to future work on the number of representations of LLMs and their cognitive plausibility.
翻訳日:2023-05-19 16:24:12 公開日:2023-05-18
# セレスタルホログラフィーとウェッジ様ホログラフィーにおける混合境界条件と二重トラス様変形

Mixed boundary conditions and Double-trace like deformations in Celestial holography and Wedge-like holography ( http://arxiv.org/abs/2305.10779v1 )

ライセンス: Link先を確認
Machiko Fukada and Akihiro Miyata(参考訳) AdS/CFT辞書によると、ホログラフィック CFT アクションに関連するダブルトレース変形 $f\int O^2$ を加えることは、場が AdS において$O$ になるような混合ノイマン/ディリクレ境界条件を課すことと二重である。 我々は,2次元平らな空間ホログラフィーで同様の挙動を観察した。 平面空間における境界条件の変形を, 平面空間共次元2ホログラフィ, 天体ホログラフィ, くさび状ホログラフィで検討する。 従来の天体ホログラフィー法では散乱の初期および最終バルク状態に境界条件を課した。 バルク内におけるこれらの非自明な境界条件はセレスタルCFT側の「二重変形」を誘導し、通常のAdS/CFTにおける二重トレース変形のアナロジーとして理解することができる。 非自明な変形境界条件下で2点バルク散乱振幅を計算する。 後者のwedge-like holographyアプローチでは、光円錐のヌル無限大上の混合ノイマン/ディリクレ境界条件を考える。 この混合は、通常のAdS/CFTのように、ウェッジホログラフィーの下で二重ウェッジCFT側の再正規化フローを引き起こす。 ウェッジ2点関数とセレスタル2点関数の相違は、バルク質量場からの正則化パラメータへの感度に起因し、通常のAdS/CFT技術を使用する。

According to the AdS/CFT dictionary, adding a relevant double-trace deformation $f\int O^2$ to a holographic CFT action is dual to imposing mixed Neumann/Dirichlet boundary conditions for the field dual to $O$ in AdS. We observed similar behaviour in codimension-two flat space holographies. We consider deformations of boundary conditions in flat spacetimes under flat space co-dimension-two holographies, celestial holography and Wedge-like holography. In the former celestial-holographic approach, we imposed boundary conditions on initial and final bulk states in the scattering. We find that these non-trivial boundary conditions in the bulk induce ``double deformations" on the Celestial CFT side, which can be understood as an analogy of double trace deformations in the usual AdS/CFT. We compute two-point bulk scattering amplitudes under the non-trivial deformed boundary conditions. In the latter Wedge-like holography approach, we consider mixed Neumann/Dirichlet boundary conditions on the null infinity of the light-cone. We find that this mixing induces a renormalization flow in the dual Wedge CFT side under the Wedge holography, as in the usual AdS/CFT. We argue that the discrepancy between the Wedge two-point function and the Celestial two-point function originates from a sensitivity of bulk massless fields to a regularization parameter to use the usual AdS/CFT techniques.
翻訳日:2023-05-19 16:23:53 公開日:2023-05-18
# X線マイクロビームデータセットの幾何学的変換を用いた音声調音解析の強化

Enhancing Speech Articulation Analysis using a Geometric Transformation of the X-ray Microbeam Dataset ( http://arxiv.org/abs/2305.10775v1 )

ライセンス: Link先を確認
Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson(参考訳) 音声明瞭度の分析は音声分析に不可欠である。 しかし、調音器のx-y座標は話者の解剖学とペレット配置の変動に大きく依存しており、x-ray microbeamデータセット(xrmb)の解剖学的ランドマークをマッピングする方法は声道全体の解剖学を捉えることができない。 本稿では,これらの測定精度を向上させる新しい幾何学変換を提案する。 我々の変換は, 解剖学的ランドマークのX-Y座標を中矢状面に沿って, 唇開口(LA), 唇隆起(LP), 舌体収縮位置(TTCL), デグリー(TBCD), 舌先端収縮位置(TTCL) およびデグリー(TTCD)の6つの相対的尺度にマッピングした。 本研究は, 舌体収縮の計測精度を向上させる前咽頭線への口蓋裂の進展について検討した。

Accurate analysis of speech articulation is crucial for speech analysis. However, X-Y coordinates of articulators strongly depend on the anatomy of the speakers and the variability of pellet placements, and existing methods for mapping anatomical landmarks in the X-ray Microbeam Dataset (XRMB) fail to capture the entire anatomy of the vocal tract. In this paper, we propose a new geometric transformation that improves the accuracy of these measurements. Our transformation maps anatomical landmarks' X-Y coordinates along the midsagittal plane onto six relative measures: Lip Aperture (LA), Lip Protusion (LP), Tongue Body Constriction Location (TTCL), Degree (TBCD), Tongue Tip Constriction Location (TTCL) and Degree (TTCD). Our novel contribution is the extension of the palate trace towards the inferred anterior pharyngeal line, which improves measurements of tongue body constriction.
翻訳日:2023-05-19 16:23:25 公開日:2023-05-18
# マルチモーダルデータを用いた意味コミュニケーションのためのレート適応符号化機構

Rate-Adaptive Coding Mechanism for Semantic Communications With Multi-Modal Data ( http://arxiv.org/abs/2305.10773v1 )

ライセンス: Link先を確認
Yangshuo He, Guanding Yu, Yunlong Cai(参考訳) 近年,マルチモーダル通信システムにおける帯域幅需要の増大には,パラダイムシフトが必要である。 深層学習によるセマンティックコミュニケーションは,コミュニケーション効率の向上と通信資源の節約のために,マルチモーダルシナリオに適用される。 しかし、チャネルエンコーダ/デコーダのない既存のエンドツーエンドニューラルネットワーク(NN)ベースのフレームワークは、現代のデジタル通信システムと互換性がない。 さらに、エンド・ツー・エンドの設計のほとんどはタスク固有であり、アプリケーションを制限する新しいタスクのために再設計と再トレーニングが必要となる。 本稿では,従来のチャネルエンコーダ/デコーダを組み込んだ分散マルチモーダル意味コミュニケーションフレームワークを提案する。 nnベースのセマンティックエンコーダとデコーダを採用し,音声,テキスト,画像など,異なるモーダリティに含まれる相関した意味情報を抽出する。 提案手法に基づき,様々なマルチモーダル意味的タスクに対する一般的なレート適応型符号化機構をさらに確立する。 特に,各モダリティの歪み境界を評価することによって導かれる意味的重要性に基づく不等な誤り保護を利用する。 さらに,意味的タスクの推論精度を維持しつつ,推論遅延を最小限に抑える最適化問題を定式化し,解決する。 数値計算の結果,提案手法は従来のコミュニケーションシステムと既存のセマンティック通信システムの両方よりも,タスク性能,推論遅延,デプロイメントの複雑さの点で優れていることがわかった。

Recently, the ever-increasing demand for bandwidth in multi-modal communication systems requires a paradigm shift. Powered by deep learning, semantic communications are applied to multi-modal scenarios to boost communication efficiency and save communication resources. However, the existing end-to-end neural network (NN) based framework without the channel encoder/decoder is incompatible with modern digital communication systems. Moreover, most end-to-end designs are task-specific and require re-design and re-training for new tasks, which limits their applications. In this paper, we propose a distributed multi-modal semantic communication framework incorporating the conventional channel encoder/decoder. We adopt NN-based semantic encoder and decoder to extract correlated semantic information contained in different modalities, including speech, text, and image. Based on the proposed framework, we further establish a general rate-adaptive coding mechanism for various types of multi-modal semantic tasks. In particular, we utilize unequal error protection based on semantic importance, which is derived by evaluating the distortion bound of each modality. We further formulate and solve an optimization problem that aims at minimizing inference delay while maintaining inference accuracy for semantic tasks. Numerical results show that the proposed mechanism fares better than both conventional communication and existing semantic communication systems in terms of task performance, inference delay, and deployment complexity.
翻訳日:2023-05-19 16:23:03 公開日:2023-05-18
# 長尾視覚認識における特徴バランス損失

Feature-Balanced Loss for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2305.10772v1 )

ライセンス: Link先を確認
Mengke Li, Yiu-ming Cheung, Juyong Jiang(参考訳) 深層ニューラルネットワークは、トレーニングデータがロングテールの場合、多くのクラスがトレーニングを支配し、偏りのあるモデルになるため、しばしばパフォーマンス低下に苦しむ。 近年の研究では、データ空間から良好な表現を得ることでこの問題の解決に尽力しているが、予測結果に対する特徴規範の影響に注意を払う人は少ない。 そこで本稿では,特徴空間からの長期化問題に対処し,特徴バランス損失を提案する。 具体的には、比較的強い刺激を与えることで、テールクラスのより大きな特徴規範を奨励する。 さらに,本科の成績を保ちながら,学級の一般化を向上させるカリキュラム学習の過程で,刺激強度が徐々に高まっていく。 複数の一般的なlong-tailed recognitionベンチマークでの広範な実験は、機能バランスの損失が最先端の手法よりも優れたパフォーマンス向上を達成していることを示している。

Deep neural networks frequently suffer from performance degradation when the training data is long-tailed because several majority classes dominate the training, resulting in a biased model. Recent studies have made a great effort in solving this issue by obtaining good representations from data space, but few of them pay attention to the influence of feature norm on the predicted results. In this paper, we therefore address the long-tailed problem from feature space and thereby propose the feature-balanced loss. Specifically, we encourage larger feature norms of tail classes by giving them relatively stronger stimuli. Moreover, the stimuli intensity is gradually increased in the way of curriculum learning, which improves the generalization of the tail classes, meanwhile maintaining the performance of the head classes. Extensive experiments on multiple popular long-tailed recognition benchmarks demonstrate that the feature-balanced loss achieves superior performance gains compared with the state-of-the-art methods.
翻訳日:2023-05-19 16:22:27 公開日:2023-05-18
# Seq-HGNN:不均一グラフを用いた逐次ノード表現学習

Seq-HGNN: Learning Sequential Node Representation on Heterogeneous Graph ( http://arxiv.org/abs/2305.10771v1 )

ライセンス: Link先を確認
Chenguang Du, Kaichun Yao, Hengshu Zhu, Deqing Wang, Fuzhen Zhuang and Hui Xiong(参考訳) 近年、情報検索(IR)アプリケーションにおけるヘテロジニアスグラフニューラルネットワーク(HGNN)の急速な発展が見られた。 多くの既存のhgnnは、構造的および意味的情報をヘテロジニアスグラフで捉えるために、様々なテーラーメイドグラフ畳み込みを設計する。 しかし、既存のhgnnは通常、各ノードを多層グラフ畳み込み計算において単一のベクターとして表現するので、高レベルグラフ畳み込み層は異なる関係と異なる順序の情報を区別できず、メッセージパスにおける情報損失が発生する。 % 情報マイニングが不十分。 そこで本研究では,逐次ノード表現を持つ新しいヘテロジニアスグラフニューラルネットワーク,seq-hgnnを提案する。 単一ベクトルノード表現による情報損失を回避するため,まず,各ノードをノードメッセージパッシング中のメタパス表現列として表現する逐次ノード表現学習機構を設計する。 次に,seq-hgnnに重要なメタパスを同定し,それらの表現をコンパクトに集約する不均一表現融合モジュールを提案する。 Heterogeneous Graph Benchmark (HGB) と Open Graph Benchmark (OGB) の4つの広く使われているデータセットについて広範な実験を行った。 実験の結果,提案手法は精度と効率の両方において最先端のベースラインを上回ることがわかった。 ソースコードはhttps://github.com/nobrowning/seq_hgnnで入手できる。

Recent years have witnessed the rapid development of heterogeneous graph neural networks (HGNNs) in information retrieval (IR) applications. Many existing HGNNs design a variety of tailor-made graph convolutions to capture structural and semantic information in heterogeneous graphs. However, existing HGNNs usually represent each node as a single vector in the multi-layer graph convolution calculation, which makes the high-level graph convolution layer fail to distinguish information from different relations and different orders, resulting in the information loss in the message passing. %insufficient mining of information. To this end, we propose a novel heterogeneous graph neural network with sequential node representation, namely Seq-HGNN. To avoid the information loss caused by the single vector node representation, we first design a sequential node representation learning mechanism to represent each node as a sequence of meta-path representations during the node message passing. Then we propose a heterogeneous representation fusion module, empowering Seq-HGNN to identify important meta-paths and aggregate their representations into a compact one. We conduct extensive experiments on four widely used datasets from Heterogeneous Graph Benchmark (HGB) and Open Graph Benchmark (OGB). Experimental results show that our proposed method outperforms state-of-the-art baselines in both accuracy and efficiency. The source code is available at https://github.com/nobrowning/SEQ_HGNN.
翻訳日:2023-05-19 16:22:01 公開日:2023-05-18
# Catch-Up Distillation: サンプリングの高速化のために一度だけトレーニングする

Catch-Up Distillation: You Only Need to Train Once for Accelerating Sampling ( http://arxiv.org/abs/2305.10769v1 )

ライセンス: Link先を確認
Shitong Shao, Xu Dai, Shouyi Yin, Lujun Li, Huanran Chen, Yang Hu(参考訳) Diffusion Probability Models (DPM) は、さまざまな機械学習領域で目覚ましい進歩を遂げている。 しかし、高品質な合成サンプルを達成するには、通常、多数のサンプリングステップを実行する必要がある。 知識蒸留による従来の高速化サンプリングアルゴリズムは、事前訓練されたモデル重量と離散的な時間ステップシナリオに依存し、目標を達成するために追加のトレーニングセッションを必要とする。 これらの問題に対処するため、我々は、速度推定モデル ``catch up' の現在のモーメント出力を前回のモーメント出力で促進するCatch-Up Distillation (CUD)を提案する。 具体的には、元の常微分方程式(ode)トレーニング目的を調整して、現在のモーメント出力をグランド・真実ラベルと前回のモーメント出力の両方に調整し、ランゲ・クッタベースの多段階アライメント蒸留を用いて、非同期更新を防止しつつ正確なode推定を行う。 さらに,連続時間ステップシナリオにおけるcudの設計空間を調査し,適切な戦略を決定する方法について分析する。 cudの有効性を示すために,cifar-10,mnist,imagenet-64の比較実験を行った。 CIFAR-10では、ワンセッショントレーニングの15ステップでサンプリングした2.80のFIDと、追加トレーニングの1ステップでサンプリングした3.37の新たな最先端FIDを得る。 後者の結果は128のバッチサイズで62wのイテレーションしか必要としなかったが、Consistency Distillationは256のバッチサイズで210wのイテレーションを必要とした。

Diffusion Probability Models (DPMs) have made impressive advancements in various machine learning domains. However, achieving high-quality synthetic samples typically involves performing a large number of sampling steps, which impedes the possibility of real-time sample synthesis. Traditional accelerated sampling algorithms via knowledge distillation rely on pre-trained model weights and discrete time step scenarios, necessitating additional training sessions to achieve their goals. To address these issues, we propose the Catch-Up Distillation (CUD), which encourages the current moment output of the velocity estimation model ``catch up'' with its previous moment output. Specifically, CUD adjusts the original Ordinary Differential Equation (ODE) training objective to align the current moment output with both the ground truth label and the previous moment output, utilizing Runge-Kutta-based multi-step alignment distillation for precise ODE estimation while preventing asynchronous updates. Furthermore, we investigate the design space for CUDs under continuous time-step scenarios and analyze how to determine the suitable strategies. To demonstrate CUD's effectiveness, we conduct thorough ablation and comparison experiments on CIFAR-10, MNIST, and ImageNet-64. On CIFAR-10, we obtain a FID of 2.80 by sampling in 15 steps under one-session training and the new state-of-the-art FID of 3.37 by sampling in one step with additional training. This latter result necessitated only 62w iterations with a batch size of 128, in contrast to Consistency Distillation, which demanded 210w iterations with a larger batch size of 256.
翻訳日:2023-05-19 16:21:32 公開日:2023-05-18
# CLEME:文法的誤り訂正のためのマルチ参照評価

CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction ( http://arxiv.org/abs/2305.10819v1 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Qingyu Zhou, Yangning Li, Shirong Ma, Hai-Tao Zheng, Ying Shen(参考訳) GECは非常に主観的なタスクであるため,文法誤り訂正(GEC)システムの性能を評価することは困難である。 GECタスクの開発には、可能な限り客観的な評価基準を設計することが不可欠である。 従来の主流評価指標、すなわち参照ベースのメトリクスは、複数の参照の存在を考慮せずに編集を抽出するため、マルチ参照評価にバイアスをもたらす。 この問題を解決するために,マルチ参照環境下でのGECシステム評価を目的としたチャンクレベルマルチ参照評価(CLEME)を提案する。 まず、CLEMEはソース、仮説、およびすべての参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによるバイアスを取り除く。 そして、異なる文法的誤りの境界が存在するという発見に基づいて、文法的誤り境界を自動的に決定し、新しい方法でF$_{0.5}$スコアを計算する。 提案手法は,コーパスレベルの設定と文レベルの設定の両方において,複数の参照セット上で,既存の参照ベースGCC指標を一貫して,実質的に上回っている。 広範な実験と詳細な分析により,発見の正確性と,設計した評価指標の有効性が実証された。

It is intractable to evaluate the performance of Grammatical Error Correction (GEC) systems since GEC is a highly subjective task. Designing an evaluation metric that is as objective as possible is crucial to the development of GEC task. Previous mainstream evaluation metrics, i.e., reference-based metrics, introduce bias into the multi-reference evaluation because they extract edits without considering the presence of multiple references. To overcome the problem, we propose Chunk-LEvel Multi-reference Evaluation (CLEME) designed to evaluate GEC systems in multi-reference settings. First, CLEME builds chunk sequences with consistent boundaries for the source, the hypothesis and all the references, thus eliminating the bias caused by inconsistent edit boundaries. Then, based on the discovery that there exist boundaries between different grammatical errors, we automatically determine the grammatical error boundaries and compute F$_{0.5}$ scores in a novel way. Our proposed CLEME approach consistently and substantially outperforms existing reference-based GEC metrics on multiple reference sets in both corpus-level and sentence-level settings. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of our designed evaluation metric.
翻訳日:2023-05-19 16:15:44 公開日:2023-05-18
# 民主化拡散言語モデル

Democratized Diffusion Language Model ( http://arxiv.org/abs/2305.10818v1 )

ライセンス: Link先を確認
Nikita Balagansky, Daniil Gavrilov(参考訳) NLPアプリケーションに対する拡散モデル(Diffusion Models)の潜在的なメリットにもかかわらず、公開実装、トレーニングされたモデル、あるいは再現可能なトレーニング手順は、現在公開する必要がある。 本稿では、これらの課題に対処するため、CDCD(Continuous Diffusion for Categorical Data)フレームワークに基づくDDLM(Retinuous Diffusion Language Model)を提案する。 C4データセットを用いたDDLMの簡易なトレーニング手順を提案し、訓練されたモデルの振る舞いを詳細に分析する。 さらに,スコア補間を訓練したモデルを用いて,高速サンプリングのための新しい早期抽出手法を提案する。 従来のDiffusion LM(例えば分類タスク)を用いた下流タスクの解決を目的とした研究は行われていなかったため、私たちはGLUE Benchmarkを用いてDDLMの知識伝達能力について実験した。 本稿では,Diffusion LMを用いた将来の研究に使用できる,他の研究者や事前学習型DDLMモデルに対して,トレーニングと評価パイプラインを提案する。

Despite the potential benefits of Diffusion Models for NLP applications, publicly available implementations, trained models, or reproducible training procedures currently need to be publicly available. We present the Democratized Diffusion Language Model (DDLM), based on the Continuous Diffusion for Categorical Data (CDCD) framework, to address these challenges. We propose a simplified training procedure for DDLM using the C4 dataset and perform an in-depth analysis of the trained model's behavior. Furthermore, we introduce a novel early-exiting strategy for faster sampling with models trained with score interpolation. Since no previous works aimed at solving downstream tasks with pre-trained Diffusion LM (e.g., classification tasks), we experimented with GLUE Benchmark to study the ability of DDLM to transfer knowledge. With this paper, we propose available training and evaluation pipelines to other researchers and pre-trained DDLM models, which could be used in future research with Diffusion LMs.
翻訳日:2023-05-19 16:15:25 公開日:2023-05-18
# 純状態トモグラフィにおける一意な決定性に対する変分的アプローチ

A Variational Approach to Unique Determinedness in Pure-state Tomography ( http://arxiv.org/abs/2305.10811v1 )

ライセンス: Link先を確認
Chao Zhang, Xuanran Zhu, Bei Zeng(参考訳) 量子状態トモグラフィー、特に純粋状態では、一意決定性(UD)が重要である。 本研究は,UD測定方式の構築と検証に関わる課題に対して,頑健な解決策を提供するための新しい変分手法を提案する。 我々は、特殊に定義された損失関数を最小化し、udと非udの区別を可能にする効果的なアルゴリズムを提案する。 これにより、様々な次元にわたる多数の最適純状態パウリ計測スキームが発見される。 さらに,純状態 (UDP) と純状態 (UDA) の整合性について, パウリ測度を用いた場合, 純状態 (UDP) と全状態 (UDA) の整合性について検討した。 我々は, 損失関数と状態回復の安定性とのギャップを, 理論的枠組みによってさらに橋渡しする。 本研究は、量子状態トモグラフィにおけるudの理解を促進するだけでなく、実験応用に有用な実用的な洞察を与え、数学的最適性と実験的実用性とのバランスのとれたアプローチの必要性を浮き彫りにした。

In quantum state tomography, particularly with pure states, unique determinedness (UD) holds significant importance. This study presents a new variational approach to examining UD, offering a robust solution to the challenges associated with the construction and validation of UD measurement schemes. We put forward an effective algorithm that minimizes a specially defined loss function, enabling the differentiation between UD and non-UD measurement schemes. This leads to the discovery of numerous optimal pure-state Pauli measurement schemes across a variety of dimensions. Additionally, we discern an alignment between uniquely determined among pure states (UDP) and uniquely determined among all states (UDA) in qubit systems when utilizing Pauli measurements, underscoring its unique characteristics. We further bridge the gap between our loss function and the stability of state recovery, bolstered by a theoretical framework. Our study not only propels the understanding of UD in quantum state tomography forward, but also delivers valuable practical insights for experimental applications, highlighting the need for a balanced approach between mathematical optimality and experimental pragmatism.
翻訳日:2023-05-19 16:15:08 公開日:2023-05-18
# CS-TRD:クロスセクションツリーリング検出方法

CS-TRD: a Cross Sections Tree Ring Detection method ( http://arxiv.org/abs/2305.10809v1 )

ライセンス: Link先を確認
Henry Marichal, Diego Passarella and Gregory Randall(参考訳) 本研究は,全木断面(CS-TRD)に対するツリーリング検出法について述べる。 この方法は、木の成長環に対応するエッジの検出、処理、接続に基づいている。 この方法は、Canny Devernayエッジ検出器(\sigma$と2つのしきい値)、リサイズ係数、光線数、およびピット位置のパラメータに依存する。 最初の5つのパラメータはデフォルトで固定される。 ピス位置は手動でマークしたり、自動ピス検出アルゴリズムを用いてマークすることができる。 ピットローカライゼーションの他に、CS-TRD法は完全に自動化され、UruDendroデータセット(Pinus Taeda)の平均実行時間は17秒で、平均実行時間11秒でKennelデータセット(Abeies Alba)の99%のFスコアを達成する。

This work describes a Tree Ring Detection method for complete Cross-Sections of trees (CS-TRD). The method is based on the detection, processing, and connection of edges corresponding to the tree's growth rings. The method depends on the parameters for the Canny Devernay edge detector ($\sigma$ and two thresholds), a resize factor, the number of rays, and the pith location. The first five parameters are fixed by default. The pith location can be marked manually or using an automatic pith detection algorithm. Besides the pith localization, the CS-TRD method is fully automated and achieves an F-Score of 89\% in the UruDendro dataset (of Pinus Taeda) with a mean execution time of 17 seconds and of 97\% in the Kennel dataset (of Abies Alba) with an average execution time 11 seconds.
翻訳日:2023-05-19 16:14:45 公開日:2023-05-18
# 6次元オブジェクトの回帰に対する教師なしドメイン適応のためのマニフォールド対応自己学習

Manifold-Aware Self-Training for Unsupervised Domain Adaptation on Regressing 6D Object Pose ( http://arxiv.org/abs/2305.10808v1 )

ライセンス: Link先を確認
Yichen Zhang, Jiehong Lin, Ke Chen, Zelin Xu, Yaowei Wang and Kui Jia(参考訳) 視覚回帰における合成データと実データの間の領域ギャップ(\eg 6d pose estimation)は、対象空間における離散アンカークラスの粗い分類に関する大域的特徴アライメントと局所的細分化によって橋渡しされる。 具体的には,各領域間の一貫した累積的対象依存性を明らかにする明示的な自己教師付き多様体正規化を自己学習スキームに組み込み,より識別可能な回帰タスクの表現を促進する。 さらに、目標の相対的方向と最寄りのクラスビンまでの距離を推定するために、統一的な暗黙的な神経関数を学習することは、ターゲット分類予測を洗練することを目的としている。 課題6次元ポーズ推定タスクの3つの公開ベンチマークにおける実験結果から,提案手法の有効性を検証し,6次元ポーズ推定におけるudaの最先端性能を一貫して達成した。

Domain gap between synthetic and real data in visual regression (\eg 6D pose estimation) is bridged in this paper via global feature alignment and local refinement on the coarse classification of discretized anchor classes in target space, which imposes a piece-wise target manifold regularization into domain-invariant representation learning. Specifically, our method incorporates an explicit self-supervised manifold regularization, revealing consistent cumulative target dependency across domains, to a self-training scheme (\eg the popular Self-Paced Self-Training) to encourage more discriminative transferable representations of regression tasks. Moreover, learning unified implicit neural functions to estimate relative direction and distance of targets to their nearest class bins aims to refine target classification predictions, which can gain robust performance against inconsistent feature scaling sensitive to UDA regressors. Experiment results on three public benchmarks of the challenging 6D pose estimation task can verify the effectiveness of our method, consistently achieving superior performance to the state-of-the-art for UDA on 6D pose estimation.
翻訳日:2023-05-19 16:14:29 公開日:2023-05-18
# 関心領域制御による変圧器による可変レート画像圧縮

Transformer-based Variable-rate Image Compression with Region-of-interest Control ( http://arxiv.org/abs/2305.10807v1 )

ライセンス: Link先を確認
Chia-Hao Kao, Ying-Chieh Weng, Yi-Hsin Chen, Wei-Chen Chiu, Wen-Hsiao Peng(参考訳) 本稿では,トランスベース学習画像圧縮システムを提案する。 関心の領域(ROI)機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。 即時チューニングにインスパイアされ、圧縮のトランスフォーマーベースのオートエンコーダを条件に、プロンプト生成ネットワークを導入する。 プロンプト生成ネットワークは、入力画像、roiマスク、レートパラメータに応じてコンテンツ適応トークンを生成する。 ROIマスクとレートパラメータの分離により、可変レートとROIのコーディングを同時に行う直感的な方法が可能になる。 提案手法の有効性を検証し,他の競合手法よりも優れていることを確認する。

This paper proposes a transformer-based learned image compression system. It is capable of achieving variable-rate compression with a single model while supporting the region-of-interest (ROI) functionality. Inspired by prompt tuning, we introduce prompt generation networks to condition the transformer-based autoencoder of compression. Our prompt generation networks generate content-adaptive tokens according to the input image, an ROI mask, and a rate parameter. The separation of the ROI mask and the rate parameter allows an intuitive way to achieve variable-rate and ROI coding simultaneously. Extensive experiments validate the effectiveness of our proposed method and confirm its superiority over the other competing methods.
翻訳日:2023-05-19 16:14:06 公開日:2023-05-18
# 混み合った歩行者検出には学習可能なトレーニングサンプルがすべて必要

Selecting Learnable Training Samples is All DETRs Need in Crowded Pedestrian Detection ( http://arxiv.org/abs/2305.10801v1 )

ライセンス: Link先を確認
Feng Gao, Jiaxu Leng, Gan Ji, Xinbo Gao(参考訳) 検出TRansformer(DETR)とその変種(DETR)は、一般的な物体検出において優れた性能を発揮した。 しかし,混雑した歩行者検出においては,より偽陽性となる不適切なサンプル選択法のため,DETRの性能は依然として満足できない。 そこで本研究では,detrの簡易かつ効果的なサンプル選択法と,制約案内ラベル割当て方式(cgla)と利用可能性対応焦点損失(uafl)からなる混雑した歩行者のサンプル選択手法を提案する。 detrの学習可能なサンプルを選択し,その活用性に基づいてサンプルの損失重みを適応的に調整する。 具体的には,学習可能な正のトレーニングサンプルのみが保持され,残りが負のトレーニングサンプルであることを保証するための新しいコスト関数を提案する。 さらに, サンプルの有効性を考慮して, 勾配比とIoUに応じて, 学習可能な正試料に異なる損失重みを適応的に割り当てるようにUAFLを設計した。 実験の結果,提案するsscpは推論のオーバーヘッドを伴わずにベースラインを効果的に改善できることがわかった。 特に、Iter Deformable DETRは、クラウドヒューマンでは39.7(-2.0)%MR、シティパーソンでは31.8(-0.4)%MRに改善されている。

DEtection TRansformer (DETR) and its variants (DETRs) achieved impressive performance in general object detection. However, in crowded pedestrian detection, the performance of DETRs is still unsatisfactory due to the inappropriate sample selection method which results in more false positives. To settle the issue, we propose a simple but effective sample selection method for DETRs, Sample Selection for Crowded Pedestrians (SSCP), which consists of the constraint-guided label assignment scheme (CGLA) and the utilizability-aware focal loss (UAFL). Our core idea is to select learnable samples for DETRs and adaptively regulate the loss weights of samples based on their utilizability. Specifically, in CGLA, we proposed a new cost function to ensure that only learnable positive training samples are retained and the rest are negative training samples. Further, considering the utilizability of samples, we designed UAFL to adaptively assign different loss weights to learnable positive samples depending on their gradient ratio and IoU. Experimental results show that the proposed SSCP effectively improves the baselines without introducing any overhead in inference. Especially, Iter Deformable DETR is improved to 39.7(-2.0)% MR on Crowdhuman and 31.8(-0.4)% MR on Citypersons.
翻訳日:2023-05-19 16:13:56 公開日:2023-05-18
# MedBLIP:3次元医用画像とテキストからのブートストラップ言語画像事前学習

MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts ( http://arxiv.org/abs/2305.10799v1 )

ライセンス: Link先を確認
Qiuhui Chen, Xinyue Hu, Zirui Wang, Yi Hong(参考訳) 視覚言語事前学習(VLP)モデルは、多くのコンピュータビジョンアプリケーションで有効であることが示されている。 本稿では,医療領域における画像スキャンと電子健康記録のテキスト記述に基づくコンピュータ支援診断(CAD)作成のためのVLPモデルの開発について検討する。 我々の目標を達成するために,本研究では,市販のフリートイメージエンコーダと大規模言語モデルからVLPをブートストラップする,軽量CADシステムMedBLIPを提案する。 我々は、3次元医用画像と2次元事前学習画像エンコーダと言語モデルとのギャップを埋めるためのMedQFormerモジュールを設計する。 MedBLIPの有効性を評価するため,ADNI,NACC,OASIS,AIBL,MIRIADの5つの公的アルツハイマー病(AD)データセットから3万枚以上の画像データを収集した。 私たちが知っているこの最大のADデータセットでは、健常者、軽度認知障害(MCI)、AD患者のゼロショット分類におけるSOTA性能を達成し、医療的視覚的質問応答(VQA)の能力を示す。 コードと事前訓練されたモデルはオンラインで入手できる。

Vision-language pre-training (VLP) models have been demonstrated to be effective in many computer vision applications. In this paper, we consider developing a VLP model in the medical domain for making computer-aided diagnoses (CAD) based on image scans and text descriptions in electronic health records, as done in practice. To achieve our goal, we present a lightweight CAD system MedBLIP, a new paradigm for bootstrapping VLP from off-the-shelf frozen pre-trained image encoders and frozen large language models. We design a MedQFormer module to bridge the gap between 3D medical images and 2D pre-trained image encoders and language models as well. To evaluate the effectiveness of our MedBLIP, we collect more than 30,000 image volumes from five public Alzheimer's disease (AD) datasets, i.e., ADNI, NACC, OASIS, AIBL, and MIRIAD. On this largest AD dataset we know, our model achieves the SOTA performance on the zero-shot classification of healthy, mild cognitive impairment (MCI), and AD subjects, and shows its capability of making medical visual question answering (VQA). The code and pre-trained models is available online: https://github.com/Qybc/MedBLIP.
翻訳日:2023-05-19 16:13:30 公開日:2023-05-18
# 顔操作検出・位置検出のためのマルチスペクトルクラスセンターネットワーク

Multi-spectral Class Center Network for Face Manipulation Detection and Localization ( http://arxiv.org/abs/2305.10794v1 )

ライセンス: Link先を確認
Changtao Miao, Qi Chu, Zhentao Tan, Zhenchao Jin, Wanyi Zhuang, Yue Wu, Bin Liu, Honggang Hu, Nenghai Yu(参考訳) ディープフェイクのコンテンツはインターネット上で増え続けており、顔操作の法医学の進歩が迫っている。 この新たな脅威に対処するために、従来の手法は主に、本物で操作された顔画像の識別方法の研究に重点を置いている。 印象的ではあるが、イメージレベルの分類には説明性がなく、特定のアプリケーションシナリオに限定されている。 既存の偽造ローカライズ手法は不正確で一貫性のないピクセルレベルのアノテーションに苦しむ。 これらの問題を緩和するため,本稿ではまず,ピクセルレベルのアノテーションを導入することでfaceforensics++データセットを再構成し,その後,改ざんされた領域をローカライズするための広範なベンチマークを構築した。 次に, 顔操作検出と局所化のために, 新たなマルチスペクトルクラスセンタネットワーク (msccnet) を提案する。 具体的には、周波数関連フォージェリートレースのパワーに触発されて、より汎用的で意味不明な特徴を学習するためのマルチスペクトルクラスセンター(MSCC)モジュールを設計する。 周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。 マルチスペクトルクラスレベルの表現の適用は、操作に敏感な視覚概念の意味情報を抑圧する。 さらに,より低レベルの偽造品や構造テクスチャを利用するマルチレベル特徴集合(MFA)モジュールを提案する。 実験結果は,MSCCNetの総合的局所化ベンチマークにおける有効性と優位性を示す。 この研究が、ピクセルレベルの顔操作のローカライゼーションの研究を刺激することを期待している。 アノテーションとコードは利用可能になる。

As Deepfake contents continue to proliferate on the internet, advancing face manipulation forensics has become a pressing issue. To combat this emerging threat, previous methods mainly focus on studying how to distinguish authentic and manipulated face images. Despite impressive, image-level classification lacks explainability and is limited to some specific application scenarios. Existing forgery localization methods suffer from imprecise and inconsistent pixel-level annotations. To alleviate these problems, this paper first re-constructs the FaceForensics++ dataset by introducing pixel-level annotations, then builds an extensive benchmark for localizing tampered regions. Next, a novel Multi-Spectral Class Center Network (MSCCNet) is proposed for face manipulation detection and localization. Specifically, inspired by the power of frequency-related forgery traces, we design Multi-Spectral Class Center (MSCC) module to learn more generalizable and semantic-agnostic features. Based on the features of different frequency bands, the MSCC module collects multispectral class centers and computes pixel-to-class relations. Applying multi-spectral class-level representations suppresses the semantic information of the visual concepts, which is insensitive to manipulations. Furthermore, we propose a Multi-level Features Aggregation (MFA) module to employ more low-level forgery artifacts and structure textures. Experimental results quantitatively and qualitatively indicate the effectiveness and superiority of the proposed MSCCNet on comprehensive localization benchmarks. We expect this work to inspire more studies on pixel-level face manipulation localization. The annotations and code will be available.
翻訳日:2023-05-19 16:13:09 公開日:2023-05-18
# Whisper-KDQ:効率的なASRのためのガイド付き知識蒸留と量子化による軽量Whisper

Whisper-KDQ: A Lightweight Whisper via Guided Knowledge Distillation and Quantization for Efficient ASR ( http://arxiv.org/abs/2305.10788v1 )

ライセンス: Link先を確認
Hang Shao, Wei Wang, Bei Liu, Xun Gong, Haoyu Wang, Yanmin Qian(参考訳) ハードウェア資源の急速な発展とデータの劇的な成長により、whisperのような音声認識における事前学習されたモデルは音声認識タスクの性能を大幅に向上させた。 しかしながら、これらのモデルは通常高い計算オーバーヘッドを持ち、リソース制約されたデバイス上で効果的に実行することは困難である。 予測を高速化し,性能を維持しながらモデルサイズを削減するため,大規模な事前学習モデルWhisperのための新しい知識蒸留と定量化を提案する。 学生モデルは,それぞれ定量化損失と蒸留損失に基づいて蒸留層と量子化層を選択する。 我々は$\text{Whisper}_\text{small}$を$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$レベルに圧縮し、$\text{Whisper}_\text{small}$ 5.18x/10.48x小さくした。 さらに、オリジナルの$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$と比較して、新しい圧縮モデルでは、それぞれ11.3%と14.0%の相対的な文字エラー率~(CER)削減がある。

Due to the rapid development of computing hardware resources and the dramatic growth of data, pre-trained models in speech recognition, such as Whisper, have significantly improved the performance of speech recognition tasks. However, these models usually have a high computational overhead, making it difficult to execute effectively on resource-constrained devices. To speed up inference and reduce model size while maintaining performance, we propose a novel guided knowledge distillation and quantization for large pre-trained model Whisper. The student model selects distillation and quantization layers based on quantization loss and distillation loss, respectively. We compressed $\text{Whisper}_\text{small}$ to $\text{Whisper}_\text{base}$ and $\text{Whisper}_\text{tiny}$ levels, making $\text{Whisper}_\text{small}$ 5.18x/10.48x smaller, respectively. Moreover, compared to the original $\text{Whisper}_\text{base}$ and $\text{Whisper}_\text{tiny}$, there is also a relative character error rate~(CER) reduction of 11.3% and 14.0% for the new compressed model respectively.
翻訳日:2023-05-19 16:12:44 公開日:2023-05-18
# progsg:電子設計自動化プログラムのためのクロスモダリティ表現学習

ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation ( http://arxiv.org/abs/2305.10838v1 )

ライセンス: Link先を確認
Yunsheng Bai, Atefeh Sohrabizadeh, Zongyue Qin, Ziniu Hu, Yizhou Sun, Jason Cong(参考訳) 近年、googleのtpusのようなドメイン固有アクセラレータ(dsas)が、ディープラーニングや検索、自動運転など、さまざまなアプリケーションを加速するための人気が高まっている。 DSA設計を容易にするために、HLS(High-level synthesis)が使用され、開発者はCとC++のソフトウェアコード形式で高レベルな記述を低レベルなハードウェア記述言語(VHDLやVerilogなど)にコンパイルし、ASIC(アプリケーション固有の集積回路)やFPGA(フィールドプログラマブルゲートアレイ)でDSAに合成することができる。 しかし、既存のHLSツールは相変わらず、プラグマ(並列化やパイプライン化のディレクティブなど)で表されるマイクロアーキテクチャの決定を必要とする。 より多くの人がDSAを設計できるように、HLS設計の品質を予測するためのディープラーニングの助けを借りて、このような意思決定を自動化することが望ましい。 これは、元のコードとプラグマの組み合わせであるプログラムをより深く理解する必要があります。 自然に、これらのプログラムは、大きな言語モデル(llm)が役立つシーケンスデータと見なすことができる。 さらに、これらのプログラムはCDFG(制御データフローグラフ)にコンパイルおよび変換することができ、コンパイラはまた、コードトークンとCDFGノード間の微粒なアライメントも提供する。 しかし、既存の作品は両方のモダリティを活用できないか、その2つを浅いあるいは粗い方法で組み合わせることができない。 本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。 ラベル付き設計の不足を軽減するために,コンパイラのデータフロー解析タスクのスイートに基づいて,事前学習手法を提案する。 2つのベンチマークデータセットによる実験結果から,1つのモダリティのみを考慮したり,アライメント情報を使わずに2つを組み合わせるベースライン法よりもProgSGの方が優れていることが示された。

Recent years have witnessed the growing popularity of domain-specific accelerators (DSAs), such as Google's TPUs, for accelerating various applications such as deep learning, search, autonomous driving, etc. To facilitate DSA designs, high-level synthesis (HLS) is used, which allows a developer to compile a high-level description in the form of software code in C and C++ into a design in low-level hardware description languages (such as VHDL or Verilog) and eventually synthesized into a DSA on an ASIC (application-specific integrated circuit) or FPGA (field-programmable gate arrays). However, existing HLS tools still require microarchitecture decisions, expressed in terms of pragmas (such as directives for parallelization and pipelining). To enable more people to design DSAs, it is desirable to automate such decisions with the help of deep learning for predicting the quality of HLS designs. This requires us a deeper understanding of the program, which is a combination of original code and pragmas. Naturally, these programs can be considered as sequence data, for which large language models (LLM) can help. In addition, these programs can be compiled and converted into a control data flow graph (CDFG), and the compiler also provides fine-grained alignment between the code tokens and the CDFG nodes. However, existing works either fail to leverage both modalities or combine the two in shallow or coarse ways. We propose ProgSG allowing the source code sequence modality and the graph modalities to interact with each other in a deep and fine-grained way. To alleviate the scarcity of labeled designs, a pre-training method is proposed based on a suite of compiler's data flow analysis tasks. Experimental results on two benchmark datasets show the superiority of ProgSG over baseline methods that either only consider one modality or combine the two without utilizing the alignment information.
翻訳日:2023-05-19 16:05:15 公開日:2023-05-18
# Ahead-of-Time P-Tuning

Ahead-of-Time P-Tuning ( http://arxiv.org/abs/2305.10835v1 )

ライセンス: Link先を確認
Daniil Gavrilov, Nikita Balagansky(参考訳) 本稿では,事前学習型言語モデル(lms)において,トランスフォーマー層に先立って入力依存バイアスを付加する新しいパラメータ効率の微調整手法であるaot p-tuningを提案する。 我々は,RoBERTaモデルとDeBERTaモデルを用いて,GLUEおよびSuperGLUEベンチマークデータセットのAoT P-Tuningを評価し,BitFitよりも優れた性能を示し,効率的な微調整を行うための他のベースライン手法と同等か優れていることを示した。 さらに、aot p-tuningの推論オーバーヘッドを評価し、確立されたベースラインメソッドと比較して無視できるオーバーヘッドをもたらすことを実証する。 提案手法は, 1 つのバックボーン LM を用いてマルチタスクの推論を可能にする。

In this paper, we propose Ahead-of-Time (AoT) P-Tuning, a novel parameter-efficient fine-tuning method for pre-trained Language Models (LMs) that adds input-dependent bias before each Transformer layer. We evaluate AoT P-Tuning on GLUE and SuperGLUE benchmarking datasets using RoBERTa and DeBERTa models, showing that it outperforms BitFit and is comparable or better than other baseline methods for efficient fine-tuning. Additionally, we assess the inference overhead of AoT P-Tuning and demonstrate that it introduces negligible overhead compared to established baseline methods. Our method enables multi-task inference with a single backbone LM, making it a practical solution for real-world applications.
翻訳日:2023-05-19 16:04:39 公開日:2023-05-18
# AIライティング:画像生成とデジタルライティングの関係

AIwriting: Relations Between Image Generation and Digital Writing ( http://arxiv.org/abs/2305.10834v1 )

ライセンス: Link先を確認
Scott Rettberg, Talan Memmott, Jill Walker Rettberg, Jason Nelson and Patrick Lichty(参考訳) 2022年、GPT-3のようなトランスフォーマーベースのAIテキスト生成と、DALL-E 2やStable DiffusionのようなAIテキストから画像への生成システムの両方が飛躍的な飛躍を遂げた。 このパネルでは、電子文学の著者や理論家の集団が、これらのシステムによって提示される人間の創造性のための新しいオプポー・ツニティを考察し、これらのシステムを反復的対話的プロセスを通して視覚的表現に変換される文学表現の環境として特に扱う新しい作品が過去1年間に作成されている。 これらのプレゼンテーションを結びつける前提は、これらのシステムと生成した作品が、人間の文章に起源を持つように、文学的な観点から考慮されなければならないことである。 健康危機の個人的な経験の視覚的な回想録から、相互関係性のあるウェブ漫画、抽象的な詩的言語に基づく建築、政治的風刺まで、4人のアーティストがこれらの執筆環境の新たなジャンルの文学的芸術家の実践を探求する一方で、デジタル文化理論家は、人間の言語の特定の訓練データセットとこれらの新しいハイブリッド形式がベースとなるイメージの起源と効果を考察する。

During 2022, both transformer-based AI text generation sys-tems such as GPT-3 and AI text-to-image generation systems such as DALL-E 2 and Stable Diffusion made exponential leaps forward and are unquestionably altering the fields of digital art and electronic literature. In this panel a group of electronic literature authors and theorists consider new oppor-tunities for human creativity presented by these systems and present new works have produced during the past year that specifically address these systems as environments for literary expressions that are translated through iterative interlocutive processes into visual representations. The premise that binds these presentations is that these systems and the works gener-ated must be considered from a literary perspective, as they originate in human writing. In works ranging from a visual memoir of the personal experience of a health crisis, to interac-tive web comics, to architectures based on abstract poetic language, to political satire, four artists explore the capabili-ties of these writing environments for new genres of literary artist practice, while a digital culture theorist considers the origins and effects of the particular training datasets of human language and images on which these new hybrid forms are based.
翻訳日:2023-05-19 16:04:23 公開日:2023-05-18
# 花や植物の隠語名抽出のための深層学習法

Deep Learning Methods for Extracting Metaphorical Names of Flowers and Plants ( http://arxiv.org/abs/2305.10833v1 )

ライセンス: Link先を確認
Amal Haddad Haddad, Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov(参考訳) 植物学の領域はメタファー用語が豊富である。 これらの用語は、花や植物の記述と識別に重要な役割を果たしている。 しかし、言論におけるそのような用語の識別は困難な作業である。 これにより、翻訳プロセスや辞書作業中にエラーを犯すケースもある。 このプロセスは、シングルワード語とマルチワード語の両方の場合において、機械翻訳に関してさらに難しい。 自然言語処理 (NLP) アプリケーションと機械翻訳 (MT) 技術に関する最近の懸念の1つは、ディープラーニング (DL) による会話におけるメタファーベースの単語の自動識別である。 本研究では,このギャップをChatGPTとともに13種類の人気トランスフォーマーモデルを用いて補うことを目的としており,識別モデルはGPT-3.5モデルよりも優れた性能を示し,最も優れたパフォーマーは92.2349%のF1スコアをメタファーや植物名識別タスクで報告している。

The domain of Botany is rich with metaphorical terms. Those terms play an important role in the description and identification of flowers and plants. However, the identification of such terms in discourse is an arduous task. This leads in some cases to committing errors during translation processes and lexicographic tasks. The process is even more challenging when it comes to machine translation, both in the cases of single-word terms and multi-word terms. One of the recent concerns of Natural Language Processing (NLP) applications and Machine Translation (MT) technologies is the automatic identification of metaphor-based words in discourse through Deep Learning (DL). In this study, we seek to fill this gap through the use of thirteen popular transformer based models, as well as ChatGPT, and we show that discriminative models perform better than GPT-3.5 model with our best performer reporting 92.2349% F1 score in metaphoric flower and plant names identification task.
翻訳日:2023-05-19 16:03:55 公開日:2023-05-18
# 安定拡散を用いたせん断壁レイアウトのためのパーソナライズされたAIアシスタントの構築

Constructing a personalized AI assistant for shear wall layout using Stable Diffusion ( http://arxiv.org/abs/2305.10830v1 )

ライセンス: Link先を確認
Lufeng Wang, Jiepeng Liu, Guozhong Cheng, En Liu, Wei Chen(参考訳) せん断壁構造は高層住宅で広く利用されており、せん断壁のレイアウトは長年の設計経験と反復的な試行錯誤を必要とする。 現在、ヒューリスティックなアルゴリズムに基づく方法があるが、結果を生成するのが遅すぎる。 Generative Adversarial Networks (GANs) や Graph Neural Networks (GNNs) をベースとするものは、単一の配列しか生成できず、大量のトレーニングデータを必要とする。 現在、安定した拡散が広く使われており、ローランク適応法(lora)を用いて少量のデータで大きなモデルを微調整することで、良好な生成結果が得られる。 そこで本稿では, 安定拡散に基づくせん断壁レイアウトのためのパーソナライズされたAIアシスタントを提案する。

Shear wall structures are widely used in high-rise residential buildings, and the layout of shear walls requires many years of design experience and iterative trial and error. Currently, there are methods based on heuristic algorithms, but they generate results too slowly. Those based on Generative Adversarial Networks (GANs) or Graph Neural Networks (GNNs) can only generate single arrangements and require large amounts of training data. At present, Stable Diffusion is being widely used, and by using the Low-Rank Adaptation (LoRA) method to fine-tune large models with small amounts of data, good generative results can be achieved. Therefore, this paper proposes a personalized AI assistant for shear wall layout based on Stable Diffusion, which has been proven to produce good generative results through testing.
翻訳日:2023-05-19 16:03:39 公開日:2023-05-18
# マルチモーダルインタラクション研究における影響現象の役割の拡大

Expanding the Role of Affective Phenomena in Multimodal Interaction Research ( http://arxiv.org/abs/2305.10827v1 )

ライセンス: Link先を確認
Leena Mathur and Maja J Matari\'c and Louis-Philippe Morency(参考訳) 近年、感情コンピューティングの分野は、人間と人間と機械の相互作用において、感情や感情などの感情現象を認識し、表現するAIシステムの能力を進歩させてきた。 本稿では,マルチモーダルインタラクションと感情コンピューティングの交点における研究について,傾向を観察し,未検討領域を特定することを目的として検討する。 ACM International Conference on Multimodal Interaction, AAAC International Conference on Affective Computing and Intelligent Interaction, the Annual Meeting of the Association for Computational Linguistics, and Conference on Empirical Methods in Natural Language Processing。 情動関連論文910点を特定し, 情動現象の役割の分析を行った。 この研究の主体は、機械が感情や感情を認識し、表現できるようにすることに集中している。 しかし、人間の社会的行動や認知状態の機械的理解を高めるために、AIシステムによって感情や感情の予測がどのように使われるか、という研究は限られている。 本稿では,マルチモーダルインタラクション研究における感情現象の役割を拡大する方向性について論じる。

In recent decades, the field of affective computing has made substantial progress in advancing the ability of AI systems to recognize and express affective phenomena, such as affect and emotions, during human-human and human-machine interactions. This paper describes our examination of research at the intersection of multimodal interaction and affective computing, with the objective of observing trends and identifying understudied areas. We examined over 16,000 papers from selected conferences in multimodal interaction, affective computing, and natural language processing: ACM International Conference on Multimodal Interaction, AAAC International Conference on Affective Computing and Intelligent Interaction, Annual Meeting of the Association for Computational Linguistics, and Conference on Empirical Methods in Natural Language Processing. We identified 910 affect-related papers and present our analysis of the role of affective phenomena in these papers. We find that this body of research has primarily focused on enabling machines to recognize and express affect and emotion. However, we find limited research on how affect and emotion predictions might be used by AI systems to enhance machine understanding of human social behaviors and cognitive states. Based on our analysis, we discuss directions to expand the role of affective phenomena in multimodal interaction research.
翻訳日:2023-05-19 16:03:23 公開日:2023-05-18
# DiffUTE: ユニバーサルテキスト編集拡散モデル

DiffUTE: Universal Text Editing Diffusion Model ( http://arxiv.org/abs/2305.10825v1 )

ライセンス: Link先を確認
Chen, Haoxing and Xu, Zhuoer and Gu, Zhangxuan and Lan, Jun and Zheng, Xing and Li, Yaohui and Meng, Changhua and Zhu, Huijia and Wang, Weiqiang(参考訳) 拡散モデルに基づく言語誘導画像編集は近年大きな成功を収めている。 しかし、既存の最先端拡散モデルは、生成中に正しいテキストとテキストスタイルをレンダリングするのに苦労している。 この問題に対処するために,テキスト編集拡散モデル(DiffUTE)を提案する。 具体的には,拡散モデルに基づいてモデルを構築し,ネットワーク構造を慎重に修正し,グリフと位置情報を用いて多言語文字の描画を可能にする。 さらに,多量の web データを活用し,モデルの表現能力を向上させるために,自己教師付き学習フレームワークを設計した。 実験結果から,本手法は優れた性能を実現し,高忠実度画像の編集を制御可能であることがわかった。 我々のコードは \url{https://github.com/chenhaoxing/DiffUTE} で無効にされます。

Diffusion model based language-guided image editing has achieved great success recently. However, existing state-of-the-art diffusion models struggle with rendering correct text and text style during generation. To tackle this problem, we propose a universal self-supervised text editing diffusion model (DiffUTE), which aims to replace or modify words in the source image with another one while maintaining its realistic appearance. Specifically, we build our model on a diffusion model and carefully modify the network structure to enable the model for drawing multilingual characters with the help of glyph and position information. Moreover, we design a self-supervised learning framework to leverage large amounts of web data to improve the representation ability of the model. Experimental results show that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity. Our code will be avaliable in \url{https://github.com/chenhaoxing/DiffUTE}.
翻訳日:2023-05-19 16:03:00 公開日:2023-05-18
# シーケンスレコメンダシステムのトレーニング損失における項目関連性の統合

Integrating Item Relevance in Training Loss for Sequential Recommender Systems ( http://arxiv.org/abs/2305.10824v1 )

ライセンス: Link先を確認
Andrea Bacciu, Federico Siciliano, Nicola Tonellotto, Fabrizio Silvestri(参考訳) 逐次レコメンダシステム(sequential recommender systems, srss)は、ユーザの履歴から学び、対話する可能性のある次の項目を予測する、一般的なレコメンダシステムである。 しかし、ユーザインタラクションは、アカウント共有、一貫性のない好み、偶然クリックに起因するノイズに影響される可能性がある。 この問題に対処するために (i)複数の将来の項目を考慮した新しい評価プロトコルの提案と提案 (II)複数項目のSRSを訓練し,騒音に対する耐性を高めるための新しい関連認識損失関数を導入する。 我々の関連性認識モデルは従来の評価プロトコルでは1.2%、従来の評価プロトコルでは0.88%、新しい評価プロトコルでは1.63%、hr w.r.tでは1.5%の改善を得た。

Sequential Recommender Systems (SRSs) are a popular type of recommender system that learns from a user's history to predict the next item they are likely to interact with. However, user interactions can be affected by noise stemming from account sharing, inconsistent preferences, or accidental clicks. To address this issue, we (i) propose a new evaluation protocol that takes multiple future items into account and (ii) introduce a novel relevance-aware loss function to train a SRS with multiple future items to make it more robust to noise. Our relevance-aware models obtain an improvement of ~1.2% of NDCG@10 and 0.88% in the traditional evaluation protocol, while in the new evaluation protocol, the improvement is ~1.63% of NDCG@10 and ~1.5% of HR w.r.t the best performing models.
翻訳日:2023-05-19 16:02:46 公開日:2023-05-18
# FastFit: 複数のSTFTでU-Netエンコーダを置き換えたリアルタイム反復型ニューラルヴォコーダ

FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs ( http://arxiv.org/abs/2305.10823v1 )

ライセンス: Link先を確認
Won Jang, Dan Lim, Heayoung Park(参考訳) 本稿では,u-netエンコーダを複数の短時間フーリエ変換(stft)に置き換え,サンプル品質を犠牲にすることなく高速な生成速度を実現する,新しいニューラルボコーダアーキテクチャであるfastfitを提案する。 各エンコーダブロックをstftに置き換え,各デコーダブロックの時間分解能と等価なパラメータを用いてスキップ接続を行った。 FastFitは、高い忠実性を維持しながら、パラメータの数とモデルの生成時間をほぼ半分削減する。 主観的および主観的評価により,提案モデルは高音質を維持しつつ,ベースライン反復型ボコーダの生成速度を約2倍に向上することを示した。 さらに、FastFitは、マルチスピーカやゼロショット音声を含むテキスト音声評価シナリオにおいて、他のベースラインと同様の音質を生成することを示した。

This paper presents FastFit, a novel neural vocoder architecture that replaces the U-Net encoder with multiple short-time Fourier transforms (STFTs) to achieve faster generation rates without sacrificing sample quality. We replaced each encoder block with an STFT, with parameters equal to the temporal resolution of each decoder block, leading to the skip connection. FastFit reduces the number of parameters and the generation time of the model by almost half while maintaining high fidelity. Through objective and subjective evaluations, we demonstrated that the proposed model achieves nearly twice the generation speed of baseline iteration-based vocoders while maintaining high sound quality. We further showed that FastFit produces sound qualities similar to those of other baselines in text-to-speech evaluation scenarios, including multi-speaker and zero-shot text-to-speech.
翻訳日:2023-05-19 16:02:29 公開日:2023-05-18
# 検索がレコメンデーションに合致する場合: 検索レコメンデーションに絡み合った検索表現を学ぶ

When Search Meets Recommendation: Learning Disentangled Search Representation for Recommendation ( http://arxiv.org/abs/2305.10822v1 )

ライセンス: Link先を確認
Zihua Si, Zhongxiang Sun, Xiao Zhang, Jun Xu, Xiaoxue Zang, Yang Song, Kun Gai, Ji-Rong Wen(参考訳) オンラインショッピングプラットフォームのような現代のオンラインサービスプロバイダは、異なるユーザニーズを満たすために、検索とレコメンデーションの両方を提供することが多い。 両方のS&Rサービスからユーザ行動データを組み込む効果的な手段は、まれである。 既存のアプローチのほとんどは、単にS&Rの動作を別々に扱うか、あるいはS&Rのユーザ意図が異なる可能性があるという事実を無視して、両方のサービスからデータを集約することでそれらを共同で最適化する。 本稿では,S&R行動における類似表現と相似表現を分離し,ユーザの検索関心をレコメンデーションとして活用する,シークエンシャルレコメンデーション(SESRec)の検索強化フレームワークを提案する。 具体的には、SESRecはまず、ユーザーの類似性の計算のためのクエリ-イムインタラクションに基づいて、クエリとアイテムの埋め込みを整列する。 2つのトランスエンコーダを用いて、S&Rの振る舞いの文脈表現を独立に学習する。 比較学習タスクは、s&rの動作シーケンスから類似および異種表現の不連続を監督するように設計される。 最後に,注意機構によってユーザの興味を3つの視点,すなわち文脈表現から抽出する。 産業と公共両方のデータセットに関する大規模な実験は、SESRecが一貫して最先端のモデルを上回っていることを示している。 実証的な研究により、SESRecはS&Rの行動と類似した、また異なるユーザーの興味を解き放つことに成功した。

Modern online service providers such as online shopping platforms often provide both search and recommendation (S&R) services to meet different user needs. Rarely has there been any effective means of incorporating user behavior data from both S&R services. Most existing approaches either simply treat S&R behaviors separately, or jointly optimize them by aggregating data from both services, ignoring the fact that user intents in S&R can be distinctively different. In our paper, we propose a Search-Enhanced framework for the Sequential Recommendation (SESRec) that leverages users' search interests for recommendation, by disentangling similar and dissimilar representations within S&R behaviors. Specifically, SESRec first aligns query and item embeddings based on users' query-item interactions for the computations of their similarities. Two transformer encoders are used to learn the contextual representations of S&R behaviors independently. Then a contrastive learning task is designed to supervise the disentanglement of similar and dissimilar representations from behavior sequences of S&R. Finally, we extract user interests by the attention mechanism from three perspectives, i.e., the contextual representations, the two separated behaviors containing similar and dissimilar interests. Extensive experiments on both industrial and public datasets demonstrate that SESRec consistently outperforms state-of-the-art models. Empirical studies further validate that SESRec successfully disentangle similar and dissimilar user interests from their S&R behaviors.
翻訳日:2023-05-19 16:02:12 公開日:2023-05-18
# LDM3D:3次元の潜在拡散モデル

LDM3D: Latent Diffusion Model for 3D ( http://arxiv.org/abs/2305.10853v1 )

ライセンス: Link先を確認
Gabriela Ben Melech Stan, Diana Wofk, Scottie Fox, Alex Redden, Will Saxton, Jean Yu, Estelle Aflalo, Shao-Yen Tseng, Fabio Nonato, Matthias Muller, Vasudev Lal(参考訳) 本稿では,テキストプロンプトから画像と深度マップデータの両方を生成する3d (ldm3d) のための潜在拡散モデルを提案し,テキストプロンプトからrgbd画像を生成する。 LDM3Dモデルは、RGB画像、深さマップ、キャプションを含むタプルのデータセット上で微調整され、広範な実験によって検証される。 また、生成したRGB画像と深度マップを用いて、TouchDesignerを使って没入型でインタラクティブな360度ビューエクスペリエンスを作成するDepthFusionというアプリケーションを開発した。 このテクノロジーは、エンターテイメントやゲームからアーキテクチャやデザインまで、幅広い産業を変革する可能性がある。 本稿では、生成AIとコンピュータビジョンの分野における重要な貢献を示し、コンテンツ制作とデジタル体験に革命をもたらすLDM3DとDepthFusionの可能性を示す。 このアプローチを要約した短いビデオは、https://t.ly/tdi2で見ることができる。

This research paper proposes a Latent Diffusion Model for 3D (LDM3D) that generates both image and depth map data from a given text prompt, allowing users to generate RGBD images from text prompts. The LDM3D model is fine-tuned on a dataset of tuples containing an RGB image, depth map and caption, and validated through extensive experiments. We also develop an application called DepthFusion, which uses the generated RGB images and depth maps to create immersive and interactive 360-degree-view experiences using TouchDesigner. This technology has the potential to transform a wide range of industries, from entertainment and gaming to architecture and design. Overall, this paper presents a significant contribution to the field of generative AI and computer vision, and showcases the potential of LDM3D and DepthFusion to revolutionize content creation and digital experiences. A short video summarizing the approach can be found at https://t.ly/tdi2.
翻訳日:2023-05-19 15:56:06 公開日:2023-05-18
# Q-SHED: Hessian Eigenvectors Quantizationによるエッジでの分散最適化

Q-SHED: Distributed Optimization at the Edge via Hessian Eigenvectors Quantization ( http://arxiv.org/abs/2305.10852v1 )

ライセンス: Link先を確認
Nicol\`o Dal Fabbro, Michele Rossi, Luca Schenato, Subhrakanti Dey(参考訳) エッジネットワークは通信効率(低オーバーヘッド)とロバスト分散最適化(DO)アルゴリズムを要求する。 実際、これらは、フェデレートされたエッジ学習技術、データとシステムの不均一性の存在、およびノード間通信が主要なボトルネックとなるシナリオにおけるDOフレームワークにとって望ましい品質です。 計算的に要求されるが、最近ニュートン型(NT)法は、エッジデバイスが十分な計算能力を持つDO問題において、堅牢な収束率の実現手段として提唱されている。 そこで,本研究では,インクリメンタル・ヘッシアン固有ベクトル量子化に基づく新しいビット割当スキームを特徴とする,doのためのオリジナルntアルゴリズムであるq-shedを提案する。 提案手法は,最近のshedアルゴリズムと統合されており,ビット解像度レベルで帯域幅の可逆性を維持しつつ,少数のヘシアン計算のような魅力的な特徴を継承している。 競合するアプローチに対する経験的評価から,q-shedはコンバージェンスに必要な通信ラウンド数を最大60%削減できることがわかった。

Edge networks call for communication efficient (low overhead) and robust distributed optimization (DO) algorithms. These are, in fact, desirable qualities for DO frameworks, such as federated edge learning techniques, in the presence of data and system heterogeneity, and in scenarios where internode communication is the main bottleneck. Although computationally demanding, Newton-type (NT) methods have been recently advocated as enablers of robust convergence rates in challenging DO problems where edge devices have sufficient computational power. Along these lines, in this work we propose Q-SHED, an original NT algorithm for DO featuring a novel bit-allocation scheme based on incremental Hessian eigenvectors quantization. The proposed technique is integrated with the recent SHED algorithm, from which it inherits appealing features like the small number of required Hessian computations, while being bandwidth-versatile at a bit-resolution level. Our empirical evaluation against competing approaches shows that Q-SHED can reduce by up to 60% the number of communication rounds required for convergence.
翻訳日:2023-05-19 15:55:46 公開日:2023-05-18
# OpenCorporaによるパラダイム検索による全文検索書式化手法の改良

Advancing Full-Text Search Lemmatization Techniques with Paradigm Retrieval from OpenCorpora ( http://arxiv.org/abs/2305.10848v1 )

ライセンス: Link先を確認
Dmitriy Kalugin-Balashov(参考訳) 本稿では,opencorporaデータセットとbespokeパラダイム検索アルゴリズムを用いて,全文検索の補間を増幅する画期的な手法を提案する。 我々の主な目的は、単語の主形や補題の抽出を合理化することであり、全文検索において重要な要素である。 さらに,レマ検索の速度と精度を大幅に向上させるコンパクト辞書保存戦略を提案する。

In this paper, we unveil a groundbreaking method to amplify full-text search lemmatization, utilizing the OpenCorpora dataset and a bespoke paradigm retrieval algorithm. Our primary aim is to streamline the extraction of a word's primary form or lemma - a crucial factor in full-text search. Additionally, we propose a compact dictionary storage strategy, significantly boosting the speed and precision of lemma retrieval.
翻訳日:2023-05-19 15:55:29 公開日:2023-05-18
# 大規模言語モデルによるAI生成テキスト検出の回避

Large Language Models can be Guided to Evade AI-Generated Text Detection ( http://arxiv.org/abs/2305.10847v1 )

ライセンス: Link先を確認
Ning Lu, Shengcai Liu, Rui He, Ke Tang(参考訳) 大規模言語モデル(llm)は,エッセイ執筆や質問応答など,さまざまなタスクにおいて例外的なパフォーマンスを示している。 しかし、これらのモデルの潜在的な誤用に対処することが重要であるため、盗作やスパムなどの有害な結果につながる可能性がある。 近年、微調整分類器や様々な統計手法を含むいくつかの検出器が提案されている。 本研究では,注意深いプロンプトの支援により,これらの検出システムを効果的に回避できることを示す。 このようなプロンプトを自動的に生成する新しい置換型in-context example optimization method(sico)を提案する。 LLMを誤用できる3つの現実世界のタスクにおいて、SICOはChatGPTを6つの既存の検出器から回避することができ、平均して0.54AUCの低下を引き起こした。 驚くべきことに、ほとんどの場合、これらの検出器はランダムな分類器よりもさらに悪い性能を発揮する。 これらの結果は、既存の検出器の脆弱性を明確に示している。 最後に、SICOの強い性能は、この分野の新しい検出器に対する信頼性の高い評価プロトコルであることを示唆している。

Large Language Models (LLMs) have demonstrated exceptional performance in a variety of tasks, including essay writing and question answering. However, it is crucial to address the potential misuse of these models, which can lead to detrimental outcomes such as plagiarism and spamming. Recently, several detectors have been proposed, including fine-tuned classifiers and various statistical methods. In this study, we reveal that with the aid of carefully crafted prompts, LLMs can effectively evade these detection systems. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically generate such prompts. On three real-world tasks where LLMs can be misused, SICO successfully enables ChatGPT to evade six existing detectors, causing a significant 0.54 AUC drop on average. Surprisingly, in most cases these detectors perform even worse than random classifiers. These results firmly reveal the vulnerability of existing detectors. Finally, the strong performance of SICO suggests itself as a reliable evaluation protocol for any new detector in this field.
翻訳日:2023-05-19 15:55:20 公開日:2023-05-18
# 非決定論的近似作用素:究極作用素、半平衡意味論、集合(フルバージョン)

Non-deterministic approximation operators: ultimate operators, semi-equilibrium semantics and aggregates (full version) ( http://arxiv.org/abs/2305.10846v1 )

ライセンス: Link先を確認
Jesse Heyninck and Bart Bogaerts(参考訳) 近似不動点理論(英: Approximation Fixpoint theory、AFT)は、非単調論理のセマンティクスを研究するための抽象的で一般的な代数的フレームワークである。 最近の研究で、AFTは非決定論的作用素、すなわち、単一の要素ではなく要素の集合である範囲を持つ作用素に一般化された。 本稿では,(1)非決定論的作用素の究極近似を定義し,研究し,(2)アマンドーラ等による半平衡意味論の代数的定式化を行い,(3) 解法論理プログラムの特性を集約を伴う解法論理プログラムに一般化する。

Approximation fixpoint theory (AFT) is an abstract and general algebraic framework for studying the semantics of non-monotonic logics. In recent work, AFT was generalized to non-deterministic operators, i.e.\ operators whose range are sets of elements rather than single elements. In this paper, we make three further contributions to non-deterministic AFT: (1) we define and study ultimate approximations of non-deterministic operators, (2) we give an algebraic formulation of the semi-equilibrium semantics by Amendola, et al., and (3) we generalize the characterisations of disjunctive logic programs to disjunctive logic programs with aggregates.
翻訳日:2023-05-19 15:55:03 公開日:2023-05-18
# TAPIR:2パスモデルによるインクリメンタル自然言語理解のための適応的修正

TAPIR: Learning Adaptive Revision for Incremental Natural Language Understanding with a Two-Pass Model ( http://arxiv.org/abs/2305.10845v1 )

ライセンス: Link先を確認
Patrick Kahardipraja, Brielen Madureira, David Schlangen(参考訳) 言語は、生成や処理の仕方において、本質的にインクリメンタルです。 この特性はNLPシステムによって高速応答を生成するために利用することができ、リアルタイム対話型アプリケーションに有用であることが示されている。 インクリメンタル処理のための最近のニューラルネットワークベースのアプローチは、主にRNNまたはTransformerを使用する。 RNNは高速だが単調である(インクリメンタル処理で必要となる以前の出力は正しくない)。 一方、トランスフォーマーは全シーケンスを消費するので、本質的に非インクリメンタルである。 繰り返し入力プレフィックスを渡すリスタート・インクリメンタルインタフェースは、部分的な出力を得ると同時に、修正する機能を提供する。 しかし、この方法は文が長くなるにつれてコストがかかる。 本研究では,AdaPtIve Revision(TAPIR)の2パスモデルを提案し,適応的な修正ポリシーを学習するためのインクリメンタルな監視信号を得る方法を提案する。 シーケンシャルラベリング実験の結果,本モデルでは,本モデルの方がリスタート・インクリメンタルトランスよりもインクリメンタル性能が向上し,推算速度も速く,全シーケンスの劣化はほとんどみられなかった。

Language is by its very nature incremental in how it is produced and processed. This property can be exploited by NLP systems to produce fast responses, which has been shown to be beneficial for real-time interactive applications. Recent neural network-based approaches for incremental processing mainly use RNNs or Transformers. RNNs are fast but monotonic (cannot correct earlier output, which can be necessary in incremental processing). Transformers, on the other hand, consume whole sequences, and hence are by nature non-incremental. A restart-incremental interface that repeatedly passes longer input prefixes can be used to obtain partial outputs, while providing the ability to revise. However, this method becomes costly as the sentence grows longer. In this work, we propose the Two-pass model for AdaPtIve Revision (TAPIR) and introduce a method to obtain an incremental supervision signal for learning an adaptive revision policy. Experimental results on sequence labelling show that our model has better incremental performance and faster inference speed compared to restart-incremental Transformers, while showing little degradation on full sequences.
翻訳日:2023-05-19 15:54:50 公開日:2023-05-18
# X-IQE:視覚的大言語モデルを用いたテキスト・画像生成のためのeXplainable Image Quality Evaluation

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models ( http://arxiv.org/abs/2305.10843v1 )

ライセンス: Link先を確認
Yixiong Chen(参考訳) 本稿では,視覚的大言語モデル(LLM)を活用し,テキスト・画像生成手法の評価を行う,X-IQEと呼ばれる新しい画像品質評価手法を提案する。 X-IQEは、Thoughtの階層的連鎖(CoT)を利用して、MiniGPT-4が人間の評価と非常に相関した、一貫性のない、偏見のないテキストを生成する。 実画像と生成された画像の区別、テキストと画像のアライメントの評価、モデルのトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。 x-iqeは人間の評価よりもコスト効率が高く効率が良いが、深部画像の品質評価モデルの透明性と説明性は著しく向上している。 拡散モデルにより生成された画像を用いて,提案手法の有効性を検証する。 X-IQEはCOCOキャプションにおける最先端(SOTA)評価手法に類似した性能を示し、特に生成画像における曖昧な生成プロンプトやテキスト認識を扱うDrawBenchにおける以前の評価モデルの限界を克服する。 プロジェクトwebサイト: https://github.com/schuture/benchmarking-awesome-diffusion-models

This paper introduces a novel explainable image quality evaluation approach called X-IQE, which leverages visual large language models (LLMs) to evaluate text-to-image generation methods by generating textual explanations. X-IQE utilizes a hierarchical Chain of Thought (CoT) to enable MiniGPT-4 to produce self-consistent, unbiased texts that are highly correlated with human evaluation. It offers several advantages, including the ability to distinguish between real and generated images, evaluate text-image alignment, and assess image aesthetics without requiring model training or fine-tuning. X-IQE is more cost-effective and efficient compared to human evaluation, while significantly enhancing the transparency and explainability of deep image quality evaluation models. We validate the effectiveness of our method as a benchmark using images generated by prevalent diffusion models. X-IQE demonstrates similar performance to state-of-the-art (SOTA) evaluation methods on COCO Caption, while overcoming the limitations of previous evaluation models on DrawBench, particularly in handling ambiguous generation prompts and text recognition in generated images. Project website: https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models
翻訳日:2023-05-19 15:54:32 公開日:2023-05-18
# GETMusic: 統一表現と拡散フレームワークで任意の音楽トラックを生成する

GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework ( http://arxiv.org/abs/2305.10841v1 )

ライセンス: Link先を確認
Ang Lv and Xu Tan and Peiling Lu and Wei Ye and Shikun Zhang and Jiang Bian and Rui Yan(参考訳) シンボリック・ミュージック・ジェネレーションは、ユーザがスクラッチからターゲット楽器のトラックを生成する、あるいはユーザが提供するソースのトラックに基づいて、ユーザが作曲するのに役立つ音楽ノートを作成することを目的としている。 ソーストラックとターゲットトラックの多様で柔軟な組み合わせを考えると、任意のトラックを生成することができる統一モデルが不可欠である。 以前の作品は、音楽表現やモデルアーキテクチャに固有の制約があるため、このニーズに対処できなかった。 このニーズに対処するため,新しい音楽表現であるGETScoreやGETDiffという拡散モデルを含むGETMusic(「GET」はGEnerate Music Tracksの略)という統一表現・拡散フレームワークを提案する。 GETScoreはトークンとしてメモを表現し、2D構造でそれらを整理する。 トレーニング中、トラックはターゲットまたはソースとしてランダムに選択される。 フォワードプロセスでは、ターゲットトラックはトークンを隠蔽することで破損するが、ソーストラックは土台として残る。 Denoisingプロセスでは、GETDiffは、ターゲットトークンがマスクされていることを予測し、ソーストラックに条件付けする。 GETScoreの別々のトラックとモデルの非自己回帰的な振る舞いにより、GETMusicはソーストラックのスクラッチや条件付けから、任意のターゲットトラックの生成を明示的に制御できる。 6曲のインストゥルメンタル・トラックを用いた音楽生成実験を行い,合計665曲のコンビネーションを行った。 getmusicはさまざまなコンビネーションで高品質な結果を提供し、特定のコンビネーションで提案された先行作品を上回っています。

Symbolic music generation aims to create musical notes, which can help users compose music, such as generating target instrumental tracks from scratch, or based on user-provided source tracks. Considering the diverse and flexible combination between source and target tracks, a unified model capable of generating any arbitrary tracks is of crucial necessity. Previous works fail to address this need due to inherent constraints in music representations and model architectures. To address this need, we propose a unified representation and diffusion framework named GETMusic (`GET' stands for GEnerate music Tracks), which includes a novel music representation named GETScore, and a diffusion model named GETDiff. GETScore represents notes as tokens and organizes them in a 2D structure, with tracks stacked vertically and progressing horizontally over time. During training, tracks are randomly selected as either the target or source. In the forward process, target tracks are corrupted by masking their tokens, while source tracks remain as ground truth. In the denoising process, GETDiff learns to predict the masked target tokens, conditioning on the source tracks. With separate tracks in GETScore and the non-autoregressive behavior of the model, GETMusic can explicitly control the generation of any target tracks from scratch or conditioning on source tracks. We conduct experiments on music generation involving six instrumental tracks, resulting in a total of 665 combinations. GETMusic provides high-quality results across diverse combinations and surpasses prior works proposed for some specific combinations.
翻訳日:2023-05-19 15:54:08 公開日:2023-05-18
# 潜時空間の統計的推測による深部ニューラルネットワークの不確かさの定量化

Uncertainty Quantification in Deep Neural Networks through Statistical Inference on Latent Space ( http://arxiv.org/abs/2305.10840v1 )

ライセンス: Link先を確認
Luigi Sbail\`o and Luca M. Ghiringhelli(参考訳) 深部神経ネットワーク分類器の信頼性を推定するために不確実性定量法を適用した。 しかし、最も広く使われている方法は過信であることが知られている。 ネットワークに供給されたデータポイントの潜在空間表現を利用して予測精度を評価するアルゴリズムを開発することにより,この問題に対処する。 ネットワークが正しく分類するトレーニングセットの分数によって生成される潜在空間表現を用いて、与えられた予測の可能性を捉えることができる統計モデルを構築する。 一般に使用される手法が大半は自信過剰である合成データセットを提示する。 過剰信頼は、トレーニングデータを生成するディストリビューションの外にあるデータポイント上での予測にも発生する。 これとは対照的に, 分布外データポイントを不正確な予測値として検出することで, 異常値の自動検出を支援する。

Uncertainty-quantification methods are applied to estimate the confidence of deep-neural-networks classifiers over their predictions. However, most widely used methods are known to be overconfident. We address this problem by developing an algorithm that exploits the latent-space representation of data points fed into the network, to assess the accuracy of their prediction. Using the latent-space representation generated by the fraction of training set that the network classifies correctly, we build a statistical model that is able to capture the likelihood of a given prediction. We show on a synthetic dataset that commonly used methods are mostly overconfident. Overconfidence occurs also for predictions made on data points that are outside the distribution that generated the training data. In contrast, our method can detect such out-of-distribution data points as inaccurately predicted, thus aiding in the automatic detection of outliers.
翻訳日:2023-05-19 15:53:39 公開日:2023-05-18
# 語彙認識型非自己回帰変圧器に基づくasrモデル

A Lexical-aware Non-autoregressive Transformer-based ASR Model ( http://arxiv.org/abs/2305.10839v1 )

ライセンス: Link先を確認
Chong-En Lin, Kuan-Yu Chen(参考訳) 非自己回帰型自動音声認識(asr)はその高速な復号化速度と良好な結果のため、asrモデリングの主流となっている。 さらに性能を高めるため、条件付き独立仮定を緩和し、大規模事前訓練モデルのカスケードは2つの研究方向である。 これらの戦略に加えて,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダからなる,語彙認識型非自己回帰トランスフォーマベース(la-nat)asrフレームワークを提案する。 入力音声の特徴を通常通り処理するために音響エンコーダを使用し、音声テキスト共有エンコーダとデコーダは、音声とテキストデータを同時に訓練するように設計されている。 LA-NATは、語彙情報をASRモデルに認識させることを目的としており、学習した言語知識を活用することにより、より良い結果が得られることが期待されている。 AISHELL-1、CSJ、TEDLium 2のデータセットで一連の実験が行われた。 実験によると、提案したLA-NATは、最近提案された非自己回帰型ASRモデルよりも優れた結果が得られる。 加えて、LA-NATは非自己回帰型ASRモデルよりも比較的コンパクトなモデルであり、従来の自己回帰型モデルより約58倍高速である。

Non-autoregressive automatic speech recognition (ASR) has become a mainstream of ASR modeling because of its fast decoding speed and satisfactory result. To further boost the performance, relaxing the conditional independence assumption and cascading large-scaled pre-trained models are two active research directions. In addition to these strategies, we propose a lexical-aware non-autoregressive Transformer-based (LA-NAT) ASR framework, which consists of an acoustic encoder, a speech-text shared encoder, and a speech-text shared decoder. The acoustic encoder is used to process the input speech features as usual, and the speech-text shared encoder and decoder are designed to train speech and text data simultaneously. By doing so, LA-NAT aims to make the ASR model aware of lexical information, so the resulting model is expected to achieve better results by leveraging the learned linguistic knowledge. A series of experiments are conducted on the AISHELL-1, CSJ, and TEDLIUM 2 datasets. According to the experiments, the proposed LA-NAT can provide superior results than other recently proposed non-autoregressive ASR models. In addition, LA-NAT is a relatively compact model than most non-autoregressive ASR models, and it is about 58 times faster than the classic autoregressive model.
翻訳日:2023-05-19 15:53:25 公開日:2023-05-18
# VideoFactory:テキスト対ビデオ生成のための時空間拡散におけるスワップアテンション

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation ( http://arxiv.org/abs/2305.10874v1 )

ライセンス: Link先を確認
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu(参考訳) 我々は,高品質なオープンドメインビデオを生成するための革新的なフレームワークであるvideofactoryを提案する。 VideoFactoryは、ハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作し、魅力的なユーザー体験を生み出している。 テキスト指示によるビデオの生成は、空間と時間の間の複雑な関係のモデル化や、大規模なテキストビデオ対データの欠如など、大きな課題を提起する。 前回のアプローチでは、ビデオ生成に時間的1次元畳み込み/アテンションモジュールを追加することで、事前学習されたテキストから画像への生成モデルを拡張する。 しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致につながる。 本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。 特に,空間ブロックと時間ブロック間の"クエリ"ロールを交換し,相互強化を可能にする3dウィンドウのクロスアテンション機構を利用する。 高品質のビデオ生成のためのモデル機能を完全にアンロックするために,HD-VG-130Mと呼ばれる大規模ビデオデータセットをキュレートする。 このデータセットはオープンドメインから1億3000万のテキストビデオペアで構成され、高解像度、ワイドスクリーン、透かしのない文字を保証する。 客観的指標とユーザスタディは,フレーム毎の品質,時間相関,テキスト・ビデオのアライメントにおいて,明確なマージンで,このアプローチが優れていることを示している。

We present VideoFactory, an innovative framework for generating high-quality open-domain videos. VideoFactory excels in producing high-definition (1376x768), widescreen (16:9) videos without watermarks, creating an engaging user experience. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. To fully unlock model capabilities for high-quality video generation, we curate a large-scale video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. Objective metrics and user studies demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
翻訳日:2023-05-19 15:46:34 公開日:2023-05-18
# プライバシを保護した分散グラフ学習のための無料ランチ

Free Lunch for Privacy Preserving Distributed Graph Learning ( http://arxiv.org/abs/2305.10869v1 )

ライセンス: Link先を確認
Nimesh Agrawal, Nikita Malik, Sandeep Kumar(参考訳) グラフでの学習は、ソーシャルネットワーク、ロボティクス、コミュニケーション、医療など、幅広いアプリケーションで広く普及しています。 これらのデータセットは、しばしば重要なプライベート情報を含む。 グラフ学習アプリケーションにおけるデータの利用は、データ共有に関するユーザのプライバシー上の懸念が高まり、妨げられている。 既存のプライバシ保存手法は、データを前処理してユーザ側の特徴を抽出する。 残念ながら、これらのメソッドはプライベート属性を推論する敵の攻撃に対して脆弱である。 分散グラフ学習とグラフベース機械学習のための新しいプライバシー監視フレームワークを提案する。 本フレームワークは,サーバ側でグラフ学習やその他の下流タスクを行うために,生データの本来の構造特性を保ちながら,実際の特徴を必要とせずに,特徴や距離を学習することを目的としている。 提案されたフレームワークは非常に汎用的で適応性が高い。 ユークリッド空間の有用性を実証するが、既存の距離近似法や関連する空間のグラフ学習に適用できる。 合成データと実データの両方について広範な実験を行い、ベンチマークとしてデータ共有で得られたものとデータ共有せずに得られた結果を比較して、フレームワークの有効性を実証する。 これは私たちの知る限り、最初のプライバシ保護分散グラフ学習フレームワークです。

Learning on graphs is becoming prevalent in a wide range of applications including social networks, robotics, communication, medicine, etc. These datasets belonging to entities often contain critical private information. The utilization of data for graph learning applications is hampered by the growing privacy concerns from users on data sharing. Existing privacy-preserving methods pre-process the data to extract user-side features, and only these features are used for subsequent learning. Unfortunately, these methods are vulnerable to adversarial attacks to infer private attributes. We present a novel privacy-respecting framework for distributed graph learning and graph-based machine learning. In order to perform graph learning and other downstream tasks on the server side, this framework aims to learn features as well as distances without requiring actual features while preserving the original structural properties of the raw data. The proposed framework is quite generic and highly adaptable. We demonstrate the utility of the Euclidean space, but it can be applied with any existing method of distance approximation and graph learning for the relevant spaces. Through extensive experimentation on both synthetic and real datasets, we demonstrate the efficacy of the framework in terms of comparing the results obtained without data sharing to those obtained with data sharing as a benchmark. This is, to our knowledge, the first privacy-preserving distributed graph learning framework.
翻訳日:2023-05-19 15:46:06 公開日:2023-05-18
# 意味的誘導関係のアライメントと適応による漸進的マイラルショット意味セグメンテーションの進歩

Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided Relation Alignment and Adaptation ( http://arxiv.org/abs/2305.10868v1 )

ライセンス: Link先を確認
Yuan Zhou, Xin Chen, Yanrong Guo, Shijie Hao, Richang Hong, Qi Tian(参考訳) Incremental few-shot semantic segmentation (IFSS)は、いくつかのピクセルレベルの注釈付きデータに基づいて、セマンティックセマンティックセマンティックモデルを新しいクラスに漸進的に拡張することを目的としている。 このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。 この問題を軽減するために,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法(SRAA)を提案する。 具体的には,まずセマンティックリレーショナルアライメント(SRA)を基本ステップで実行し,ベースクラス表現をセマンティックにアライメントする。 結果として、基底クラスの埋め込みは、それらとは異なるカテゴリと比較的低い意味的相関を持つように制約される。 その後、セマンティックガイド適応(SGA)は、意味的に整合した基本カテゴリに基づいて、漸進的な学習段階に採用される。 これは、遭遇した新しいカテゴリの視覚的な埋め込みと意味的な埋め込みの間の親和性を確保することを目的としている。 このようにセマンティック・エイリアス化の問題を抑制することができる。 PASCAL VOC 2012とCOCOデータセットを用いて本モデルの評価を行った。 これら2つのデータセットの実験結果は、その競合性能を示し、本手法の優位性を示す。

Incremental few-shot semantic segmentation (IFSS) aims to incrementally extend a semantic segmentation model to novel classes according to only a few pixel-level annotated data, while preserving its segmentation capability on previously learned base categories. This task faces a severe semantic-aliasing issue between base and novel classes due to data imbalance, which makes segmentation results unsatisfactory. To alleviate this issue, we propose the Semantic-guided Relation Alignment and Adaptation (SRAA) method that fully considers the guidance of prior semantic information. Specifically, we first conduct Semantic Relation Alignment (SRA) in the base step, so as to semantically align base class representations to their semantics. As a result, the embeddings of base classes are constrained to have relatively low semantic correlations to categories that are different from them. Afterwards, based on the semantically aligned base categories, Semantic-Guided Adaptation (SGA) is employed during the incremental learning stage. It aims to ensure affinities between visual and semantic embeddings of encountered novel categories, thereby making the feature representations be consistent with their semantic information. In this way, the semantic-aliasing issue can be suppressed. We evaluate our model on the PASCAL VOC 2012 and the COCO dataset. The experimental results on both these two datasets exhibit its competitive performance, which demonstrates the superiority of our method.
翻訳日:2023-05-19 15:45:46 公開日:2023-05-18
# TEPrompt: 暗黙の会話関係認識のためのタスク啓蒙プロンプト学習

TEPrompt: Task Enlightenment Prompt Learning for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2305.10866v1 )

ライセンス: Link先を確認
Wei Xiang and Chao Liang and Bang Wang(参考訳) Implicit Discourse Relation Recognition (IDRR) は、明示的な接続性を持たない2つの引数間の関係感覚を分類することを目的としている。 最近、ConnPrompt~\cite{Wei.X:et.al:2022:COling}は、3つの異なる類似した接続予測テンプレートからのマルチプロンプト決定の融合に基づいて、IDRRの強力なプロンプト学習を活用している。 マルチプロンプト・アンサンブルの代わりに,IDRRタスクの即時学習を啓発した補助タスクの設計を提案する。 補助的なタスクは最終予測を直接出力するためには使用されないが、共同トレーニング中に学習した特徴のいくつかは、メインタスクの強化に有用である、と論じる。 このようなモチベーションを考慮したTEPromptと呼ばれるタスク啓蒙促進学習モデルを提案する。 特に、tepromptには、viz.、discourse relation recognition (drr)、sense semantics classification (ssc)、annotated connective prediction (acp)の3つのタスクが含まれており、それぞれに独自のプロンプトテンプレートと回答空間がある。 学習段階では,共通議論表現を用いた3つの学習課題を共同で訓練する。 テスト段階では、DRR出力と融合した特徴のみを最終IDRR決定とする。 同じ条件下での実験では、提案されたTEPromptがConnPromptより優れていることが示されている。 これは、補助的なタスクの共同トレーニングの恩恵を受けている、決定の促進と言語モデルに起因する。

Implicit Discourse Relation Recognition (IDRR) aims at classifying the relation sense between two arguments without an explicit connective. Recently, the ConnPrompt~\cite{Wei.X:et.al:2022:COLING} has leveraged the powerful prompt learning for IDRR based on the fusion of multi-prompt decisions from three different yet much similar connective prediction templates. Instead of multi-prompt ensembling, we propose to design auxiliary tasks with enlightened prompt learning for the IDRR task. Although an auxiliary task is not used to directly output final prediction, we argue that during the joint training some of its learned features can be useful to boost the main task. In light of such motivations, we propose a task enlightenment prompt learning model, called TEPrompt, to fuse learned features from three related tasks for IDRR. In particular, the TEPrompt contains three tasks, viz., Discourse Relation Recognition (DRR), Sense Semantics Classification (SSC) and Annotated Connective Prediction (ACP), each with a unique prompt template and an answer space. In the training phase, we jointly train three prompt learning tasks with shared argument representation. In the testing phase, we only take the DRR output with fused features as the final IDRR decision. Experiments with the same conditions have shown that the proposed TEPrompt outperforms the ConnPrompt. This can be attributed to the promoted decision features and language models benefited from joint-training of auxiliary tasks.
翻訳日:2023-05-19 15:45:13 公開日:2023-05-18
# マルチエージェント強化学習における意味的に整列したタスク分解

Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.10865v1 )

ライセンス: Link先を確認
Wenhao Li, Dan Qiao, Baoxiang Wang, Xiangfeng Wang, Bo Jin and Hongyuan Zha(参考訳) クレジットを適切に割り当てることの難しさは、時間と構造的スケールが伴うため、より少ない報酬で協調的なMARLにおいて特に高められる。 自動サブゴール生成(ASG)は近年,本質的動機付け強化学習におけるサブゴールの利用にインスパイアされた,実行可能なMARLアプローチとして登場した。 しかし、複雑なタスク計画のエンド・ツー・エンドの学習は、明らかに大量のトレーニングサンプルを必要とする。 さらに、既存のASG手法の多様性を促進させる性質は、サブゴールの「過剰表現」につながり、実際のタスク報酬に限定した多くのスプリアスサブゴールを生成し、アルゴリズムのサンプル効率を低下させる。 そこで本研究では,この課題に対処し,不連続表現学習に着想を得て,marl (sama) におけるタスク分解(semantically aligned task decomposition in marl, 意味的にアレンジされたタスク分解)法を提案する。 さらに、SAMAは言語基底RLを導入し、各エージェントのサブゴール条件のポリシーを訓練する。 SAMAは、OvercookedとMiniRTSという2つの挑戦的なスパースリワードタスクの性能から証明されているように、最先端のASG手法と比較してサンプル効率にかなりの利点がある。

The difficulty of appropriately assigning credit is particularly heightened in cooperative MARL with sparse reward, due to the concurrent time and structural scales involved. Automatic subgoal generation (ASG) has recently emerged as a viable MARL approach inspired by utilizing subgoals in intrinsically motivated reinforcement learning. However, end-to-end learning of complex task planning from sparse rewards without prior knowledge, undoubtedly requires massive training samples. Moreover, the diversity-promoting nature of existing ASG methods can lead to the "over-representation" of subgoals, generating numerous spurious subgoals of limited relevance to the actual task reward and thus decreasing the sample efficiency of the algorithm. To address this problem and inspired by the disentangled representation learning, we propose a novel "disentangled" decision-making method, Semantically Aligned task decomposition in MARL (SAMA), that prompts pretrained language models with chain-of-thought that can suggest potential goals, provide suitable goal decomposition and subgoal allocation as well as self-reflection-based replanning. Additionally, SAMA incorporates language-grounded RL to train each agent's subgoal-conditioned policy. SAMA demonstrates considerable advantages in sample efficiency compared to state-of-the-art ASG methods, as evidenced by its performance on two challenging sparse-reward tasks, Overcooked and MiniRTS.
翻訳日:2023-05-19 15:44:48 公開日:2023-05-18
# quiver: ワークロードを意識した低レイテンシ、高スループットgnn用gpuのサポート

Quiver: Supporting GPUs for Low-Latency, High-Throughput GNN Serving with Workload Awareness ( http://arxiv.org/abs/2305.10863v1 )

ライセンス: Link先を確認
Zeyuan Tan, Xiulong Yuan, Congjie He, Man-Kit Sit, Guo Li, Xiaoze Liu, Baole Ai, Kai Zeng, Peter Pietzuch, Luo Mai(参考訳) グラフニューラルネットワーク(GNN)に推論要求を提供するシステムでは,低レイテンシと高レイテンシを全体で組み合わせなければならないが,サンプルノードの数や集約されたGNN機能の増加による不規則な計算に直面する。 gpuを使用して少数のグラフノードのみをサンプリングすると、cpuベースのサンプリングよりもパフォーマンスが低下し、多くの機能を集約することで、gpuとcpu間のデータ移動コストが高くなる。 そのため、現在のGNNサービスシステムは、グラフサンプリングと機能集約にCPUを使用し、スループットを制限している。 低レイテンシかつ高スループットの分散GPUベースGNNサービスシステムであるQuiverについて説明する。 Quiverのキーとなるアイデアは、GNN要求の不規則な計算を予測し、グラフサンプリングと特徴集約にGPUを使うことを管理するためにワークロードメトリクスを利用することである。 Quiverはこのメトリックを使用してサンプリングタスクをGPUに割り当て、パフォーマンスがCPUベースのサンプリングを上回った場合にのみ、(2)機能アグリゲーションのために、Quiverは機能アクセス確率に依存して、分散GPU NUMAトポロジに分割して複製する機能を決定する。 最新のGNNアプローチ(DGLとPyG)と比較して,Quiverは8倍のスループットで最大35倍のレイテンシを実現している。

Systems for serving inference requests on graph neural networks (GNN) must combine low latency with high throughout, but they face irregular computation due to skew in the number of sampled graph nodes and aggregated GNN features. This makes it challenging to exploit GPUs effectively: using GPUs to sample only a few graph nodes yields lower performance than CPU-based sampling; and aggregating many features exhibits high data movement costs between GPUs and CPUs. Therefore, current GNN serving systems use CPUs for graph sampling and feature aggregation, limiting throughput. We describe Quiver, a distributed GPU-based GNN serving system with low-latency and high-throughput. Quiver's key idea is to exploit workload metrics for predicting the irregular computation of GNN requests, and governing the use of GPUs for graph sampling and feature aggregation: (1) for graph sampling, Quiver calculates the probabilistic sampled graph size, a metric that predicts the degree of parallelism in graph sampling. Quiver uses this metric to assign sampling tasks to GPUs only when the performance gains surpass CPU-based sampling; and (2) for feature aggregation, Quiver relies on the feature access probability to decide which features to partition and replicate across a distributed GPU NUMA topology. We show that Quiver achieves up to 35 times lower latency with an 8 times higher throughput compared to state-of-the-art GNN approaches (DGL and PyG).
翻訳日:2023-05-19 15:44:21 公開日:2023-05-18
# ディープラーニングが世界をどのように見ているか: 敵の攻撃と防御に関する調査

How Deep Learning Sees the World: A Survey on Adversarial Attacks & Defenses ( http://arxiv.org/abs/2305.10862v1 )

ライセンス: Link先を確認
Joana C. Costa and Tiago Roxo and Hugo Proen\c{c}a and Pedro R. M. In\'acio(参考訳) Deep Learningは現在、オブジェクト認識、顔認識、自然言語処理などの複数のタスクを実行するために使用されている。 しかし、ディープニューラルネットワーク(Deep Neural Networks, DNN)は、ネットワーク予測を変更する摂動に弱いため、自動運転車やマルウェア検出、医療といった重要な領域での使用に対する懸念が高まる。 本稿は,攻撃能力によってグループ化された最新の敵攻撃と,防御戦略によって集団化された現代の防御をまとめる。 また,視覚トランスフォーマーに関する新たな進歩を提示するとともに,逆境設定の文脈で使用されるデータセットとメトリクスを要約するとともに,異なる攻撃下での最先端結果の比較を行い,オープンイシューの識別を終える。

Deep Learning is currently used to perform multiple tasks, such as object recognition, face recognition, and natural language processing. However, Deep Neural Networks (DNNs) are vulnerable to perturbations that alter the network prediction (adversarial examples), raising concerns regarding its usage in critical areas, such as self-driving vehicles, malware detection, and healthcare. This paper compiles the most recent adversarial attacks, grouped by the attacker capacity, and modern defenses clustered by protection strategies. We also present the new advances regarding Vision Transformers, summarize the datasets and metrics used in the context of adversarial settings, and compare the state-of-the-art results under different attacks, finishing with the identification of open issues.
翻訳日:2023-05-19 15:43:57 公開日:2023-05-18
# 敵の摂動に対する高精度かつセキュアな検出器を目指して

Towards an Accurate and Secure Detector against Adversarial Perturbations ( http://arxiv.org/abs/2305.10856v1 )

ライセンス: Link先を確認
Chao Wang, Shuren Qi, Zhiqiu Huang, Yushu Zhang, Xiaochun Cao(参考訳) 深層ニューラルネットワークの敵対的摂動に対する脆弱性は、コンピュータビジョンコミュニティで広く認識されている。 セキュリティの観点からは、一般的なディープラーニング・アズ・ア・サービス(DLaaS)フレームワークなど、現代のビジョンシステムにとって重要なリスクとなる。 既成の深層モデルを修正せずに保護するために、現在のアルゴリズムは通常、自然・人工データの識別的分解によって敵のパターンを検出する。 しかし、これらの分解は周波数や空間的識別性に偏りがあり、微妙な敵対パターンを包括的に捉えることができない。 より真面目な話として、それらは一般的に可逆的であり、攻撃の成功(第2次攻撃)を意味する(つまり、検出器を回避し、モデルを騙す)ことは、敵が検出器を完全に認識している(すなわちケルクホフの原理)という仮定の下で実用的である。 このような事実に触発されて,秘密鍵を用いた空間周波数判別分解に頼って,高精度かつセキュアな対向検波器を提案する。 上記の作品を2つの側面で拡張しています。 1) 導入したKrawtchoukベースにより、空間周波数の識別性が向上し、共通三角法やウェーブレット法よりも対向パターンの捕捉に適している。 2) 秘密鍵を持つ擬似ランダム関数により, 分解のための広範囲なパラメータが生成され, 防御的敵攻撃を阻止する。 理論的および数値解析により、検出器の精度と安全性が向上したことを示す。

The vulnerability of deep neural networks to adversarial perturbations has been widely perceived in the computer vision community. From a security perspective, it poses a critical risk for modern vision systems, e.g., the popular Deep Learning as a Service (DLaaS) frameworks. For protecting off-the-shelf deep models while not modifying them, current algorithms typically detect adversarial patterns through discriminative decomposition of natural-artificial data. However, these decompositions are biased towards frequency or spatial discriminability, thus failing to capture subtle adversarial patterns comprehensively. More seriously, they are typically invertible, meaning successful defense-aware (secondary) adversarial attack (i.e., evading the detector as well as fooling the model) is practical under the assumption that the adversary is fully aware of the detector (i.e., the Kerckhoffs's principle). Motivated by such facts, we propose an accurate and secure adversarial example detector, relying on a spatial-frequency discriminative decomposition with secret keys. It expands the above works on two aspects: 1) the introduced Krawtchouk basis provides better spatial-frequency discriminability and thereby is more suitable for capturing adversarial patterns than the common trigonometric or wavelet basis; 2) the extensive parameters for decomposition are generated by a pseudo-random function with secret keys, hence blocking the defense-aware adversarial attack. Theoretical and numerical analysis demonstrates the increased accuracy and security of our detector w.r.t. a number of state-of-the-art algorithms.
翻訳日:2023-05-19 15:43:43 公開日:2023-05-18
# TextDiffuser: テキストペイントとしての拡散モデル

TextDiffuser: Diffusion Models as Text Painters ( http://arxiv.org/abs/2305.10855v1 )

ライセンス: Link先を確認
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei(参考訳) 拡散モデルは印象的な生成能力で注目を集めているが、現在は正確で一貫性のあるテキストのレンダリングに苦戦している。 この問題に対処するために、背景に忠実な視覚的魅力のあるテキストで画像を生成することに焦点を当てた \textbf{TextDiffuser} を導入する。 TextDiffuserは、まず、Transformerモデルがテキストプロンプトから抽出されたキーワードのレイアウトを生成し、次に拡散モデルがテキストプロンプトと生成されたレイアウトに条件付き画像を生成する。 さらに,OCRアノテーションを用いた最初の大規模テキスト画像データセットである‘textbf{MARIO-10M} に,テキスト認識,検出,文字レベルのセグメンテーションアノテーションを含む1000万のイメージテキストペアをコントリビュートする。 さらに,テキストレンダリング品質を評価するための総合ツールとして,textbf{MARIO-Eval}ベンチマークを収集する。 実験とユーザスタディにより,テキストプロンプトだけで高品質なテキスト画像を作成し,テキストテンプレート画像と併用し,不完全な画像の再構築を行う,柔軟性と制御性を示す。 コード、モデル、データセットは \url{https://aka.ms/textdiffuser} で入手できる。

Diffusion models have gained increasing attention for their impressive generation abilities but currently struggle with rendering accurate and coherent text. To address this issue, we introduce \textbf{TextDiffuser}, focusing on generating images with visually appealing text that is coherent with backgrounds. TextDiffuser consists of two stages: first, a Transformer model generates the layout of keywords extracted from text prompts, and then diffusion models generate images conditioned on the text prompt and the generated layout. Additionally, we contribute the first large-scale text images dataset with OCR annotations, \textbf{MARIO-10M}, containing 10 million image-text pairs with text recognition, detection, and character-level segmentation annotations. We further collect the \textbf{MARIO-Eval} benchmark to serve as a comprehensive tool for evaluating text rendering quality. Through experiments and user studies, we show that TextDiffuser is flexible and controllable to create high-quality text images using text prompts alone or together with text template images, and conduct text inpainting to reconstruct incomplete images with text. The code, model, and dataset will be available at \url{https://aka.ms/textdiffuser}.
翻訳日:2023-05-19 15:43:13 公開日:2023-05-18
# 最大斜め3次元レジストレーション

3D Registration with Maximal Cliques ( http://arxiv.org/abs/2305.10854v1 )

ライセンス: Link先を確認
Xiyu Zhang, Jiaqi Yang, Shikun Zhang and Yanning Zhang(参考訳) コンピュータビジョンにおける基本的な問題として、3d point cloud registration (pcr) は、ポイントクラウドペアを調整するための最適なポーズを求めることを目的としている。 本稿では,最大傾斜角(MAC)を用いた3次元登録手法を提案する。 鍵となる洞察は、以前の最大傾きの制約を緩め、より局所的なコンセンサス情報をグラフにマイニングして正確なポーズ仮説を生成することである。 1)初期対応間の親和関係を描画する互換性グラフを構築する。 2) グラフ内の最大クリケを探索し, それぞれがコンセンサス集合を表す。 そこで,各ノードが最大のグラフ重みを持つ最大傾きに対応するノード誘導傾き選択を行う。 3) SVDアルゴリズムにより選択した傾きに対して変換仮説を計算し, 最適な仮説を用いて登録を行う。 U3M, 3DMatch, 3DLoMatch, KITTIの大規模な実験により,MACは登録精度を効果的に向上し, 様々な最先端手法より優れ, 深層学習手法の性能が向上することを示した。 MACとディープラーニングを組み合わせることで、3DMatch / 3DLoMatchで95.7% / 78.9%の最先端の登録リコールを実現する。

As a fundamental problem in computer vision, 3D point cloud registration (PCR) aims to seek the optimal pose to align a point cloud pair. In this paper, we present a 3D registration method with maximal cliques (MAC). The key insight is to loosen the previous maximum clique constraint, and mine more local consensus information in a graph for accurate pose hypotheses generation: 1) A compatibility graph is constructed to render the affinity relationship between initial correspondences. 2) We search for maximal cliques in the graph, each of which represents a consensus set. We perform node-guided clique selection then, where each node corresponds to the maximal clique with the greatest graph weight. 3) Transformation hypotheses are computed for the selected cliques by the SVD algorithm and the best hypothesis is used to perform registration. Extensive experiments on U3M, 3DMatch, 3DLoMatch and KITTI demonstrate that MAC effectively increases registration accuracy, outperforms various state-of-the-art methods and boosts the performance of deep-learned methods. MAC combined with deep-learned methods achieves state-of-the-art registration recall of 95.7% / 78.9% on 3DMatch / 3DLoMatch.
翻訳日:2023-05-19 15:42:49 公開日:2023-05-18
# 超リッチコンテキストによる超高分解能セグメンテーション:新しいベンチマーク

Ultra-High Resolution Segmentation with Ultra-Rich Context: A Novel Benchmark ( http://arxiv.org/abs/2305.10899v1 )

ライセンス: Link先を確認
Deyi Ji, Feng Zhao, Hongtao Lu, Mingyuan Tao, Jieping Ye(参考訳) 超高分解能(UHR)セグメンテーションへの関心が高まり、急速に発展するにつれて、広範囲のシーンをカバーする大規模なベンチマークが緊急に必要となる。 この目的のために、URURデータセットはUltra-Richコンテキストを用いたUltra-High Resolutionデータセットの意味において導入された。 URURは、解像度が十分高い画像(サイズ5,120x5,120の3,008枚)、複雑なシーン(63の都市から)、豊富なコンテキスト(8つのカテゴリを持つ100万のインスタンス)、細かいアノテーション(約800億の注釈付きピクセル)など、DeepGlobe、Inria Aerial、UDDなど既存のUHRデータセットよりもはるかに優れている。 さらに,UHRセグメンテーションのためのより効率的かつ効果的なフレームワークであるWSDNetも提案する。 特に、マルチレベル離散ウェーブレット変換(dwt)は、より空間的な詳細を保ちながら、計算負荷を解放するために自然に統合され、元の構造化されたコンテキストとテクスチャを滑らかな制約で再構築するウェーブレット滑らかな損失(wsl)と共に構成される。 いくつかのUHRデータセットの実験は、最先端のパフォーマンスを示している。 データセットはhttps://github.com/jankyee/urur。

With the increasing interest and rapid development of methods for Ultra-High Resolution (UHR) segmentation, a large-scale benchmark covering a wide range of scenes with full fine-grained dense annotations is urgently needed to facilitate the field. To this end, the URUR dataset is introduced, in the meaning of Ultra-High Resolution dataset with Ultra-Rich Context. As the name suggests, URUR contains amounts of images with high enough resolution (3,008 images of size 5,120x5,120), a wide range of complex scenes (from 63 cities), rich-enough context (1 million instances with 8 categories) and fine-grained annotations (about 80 billion manually annotated pixels), which is far superior to all the existing UHR datasets including DeepGlobe, Inria Aerial, UDD, etc.. Moreover, we also propose WSDNet, a more efficient and effective framework for UHR segmentation especially with ultra-rich context. Specifically, multi-level Discrete Wavelet Transform (DWT) is naturally integrated to release computation burden while preserve more spatial details, along with a Wavelet Smooth Loss (WSL) to reconstruct original structured context and texture with a smooth constrain. Experiments on several UHR datasets demonstrate its state-of-the-art performance. The dataset is available at https://github.com/jankyee/URUR.
翻訳日:2023-05-19 15:36:49 公開日:2023-05-18
# データ重み付けを超えた推定:モーメントのカーネル法

Estimation Beyond Data Reweighting: Kernel Method of Moments ( http://arxiv.org/abs/2305.10898v1 )

ライセンス: Link先を確認
Heiner Kremer, Yassine Nemmour, Bernhard Sch\"olkopf, Jia-Jie Zhu(参考訳) モーメント制限とその条件付き制約は、因果推論から強化学習まで、機械学習と統計学の多くの分野に現れる。 一般にモーメントの方法と呼ばれるこれらのタスクの見積もりには、最近因果推論に注目が集まっている顕著な一般化モーメントの方法(GMM)が含まれる。 GMMは、経験的分布に$\varphi$-divergenceを最小化することで、人口分布を近似する経験的可能性推定器のより広いファミリーの特殊なケースである。 しかし、$\varphi$-divergencesの使用は、候補分布をデータサンプルの再重み付けに効果的に制限する。 この長期的制限を解除し、データ再重み付けを超えたモーメントの方法を提供します。 これは、モーメントのカーネル法(KMM)と呼ばれる最大平均誤差に基づいて、経験的確率推定器を定義することで達成される。 条件付きモーメント制約に対する推定器の変種を提供し,そのような問題に対して漸近的に最適であることを示す。 最後に,複数の条件モーメント制限タスクにおいて,本手法が競合性能を達成することを示す。

Moment restrictions and their conditional counterparts emerge in many areas of machine learning and statistics ranging from causal inference to reinforcement learning. Estimators for these tasks, generally called methods of moments, include the prominent generalized method of moments (GMM) which has recently gained attention in causal inference. GMM is a special case of the broader family of empirical likelihood estimators which are based on approximating a population distribution by means of minimizing a $\varphi$-divergence to an empirical distribution. However, the use of $\varphi$-divergences effectively limits the candidate distributions to reweightings of the data samples. We lift this long-standing limitation and provide a method of moments that goes beyond data reweighting. This is achieved by defining an empirical likelihood estimator based on maximum mean discrepancy which we term the kernel method of moments (KMM). We provide a variant of our estimator for conditional moment restrictions and show that it is asymptotically first-order optimal for such problems. Finally, we show that our method achieves competitive performance on several conditional moment restriction tasks.
翻訳日:2023-05-19 15:36:20 公開日:2023-05-18
# 学生に優しい知識蒸留

Student-friendly Knowledge Distillation ( http://arxiv.org/abs/2305.10893v1 )

ライセンス: Link先を確認
Mengyang Yuan, Bo Lang, Fengnan Quan(参考訳) 知識蒸留では、教師モデルからの知識は、学生モデルが徹底的に処理するには複雑すぎることが多い。 しかし、実生活の良き教師は生徒に教える前に常に複雑な教材を単純化する。 この事実に触発されて,教師による知識表現の簡易化を目的とした学生フレンドリーな知識蒸留(SKD)を提案し,学生モデルの学習を容易かつ効率的にする。 SKDは、軟化処理と学習簡略化器とを含む。 まず, ソフト化処理では, 温度ハイパーパラメータを用いて教師モデルの出力ロジットを軟化し, 出力をある程度単純化し, 学習者による処理を容易にする。 学習簡易化装置は、教師モデルの知識をさらに簡略化するために注意機構を利用し、蒸留損失を用いて生徒モデルと共同で訓練されるので、単純化の過程は、生徒モデルの訓練目的と相関し、簡略化された新しい教師知識表現が特定の生徒モデルに適合することを保証する。 さらに、SKDは蒸留損失の形式を変えないため、中間層のロジットや特徴に基づく他の蒸留法と容易に組み合わせて有効性を高めることができる。 したがって、SKDは広い適用性を持つ。 CIFAR-100 と ImageNet のデータセットを用いた実験結果から,本手法は高いトレーニング効率を維持しつつ,最先端の性能を実現する。

In knowledge distillation, the knowledge from the teacher model is often too complex for the student model to thoroughly process. However, good teachers in real life always simplify complex material before teaching it to students. Inspired by this fact, we propose student-friendly knowledge distillation (SKD) to simplify teacher output into new knowledge representations, which makes the learning of the student model easier and more effective. SKD contains a softening processing and a learning simplifier. First, the softening processing uses the temperature hyperparameter to soften the output logits of the teacher model, which simplifies the output to some extent and makes it easier for the learning simplifier to process. The learning simplifier utilizes the attention mechanism to further simplify the knowledge of the teacher model and is jointly trained with the student model using the distillation loss, which means that the process of simplification is correlated with the training objective of the student model and ensures that the simplified new teacher knowledge representation is more suitable for the specific student model. Furthermore, since SKD does not change the form of the distillation loss, it can be easily combined with other distillation methods that are based on the logits or features of intermediate layers to enhance its effectiveness. Therefore, SKD has wide applicability. The experimental results on the CIFAR-100 and ImageNet datasets show that our method achieves state-of-the-art performance while maintaining high training efficiency.
翻訳日:2023-05-19 15:36:03 公開日:2023-05-18
# EventNet-ITA: イベントのイタリアのフレーム解析

EventNet-ITA: Italian Frame Parsing for Events ( http://arxiv.org/abs/2305.10892v1 )

ライセンス: Link先を確認
Marco Rovera(参考訳) 本稿では,イタリア語用イベントフレームをアノテートした大規模マルチドメインコーパスであるeventnet-itaを紹介し,マルチラベルフレーム解析のための効率的なアプローチを提案する。 このアプローチはデータセット上で評価される。 EventNet-ITAの主な貢献は、テキストによるイベントマイニングのためのリソースと、イタリア語のフレームパーシングのための斬新で広範なツールを研究コミュニティに提供することである。

This paper introduces EventNet-ITA, a large, multi-domain corpus annotated with event frames for Italian, and presents an efficient approach for multi-label Frame Parsing. The approach is then evaluated on the dataset. Covering a wide range of individual, social and historical phenomena, the main contribution of EventNet-ITA is to provide the research community with a resource for textual event mining and a novel and extensive tool for Frame Parsing in Italian.
翻訳日:2023-05-19 15:35:40 公開日:2023-05-18
# FLIGHTモードオン:低光画像強調のためのフェザーライトネットワーク

FLIGHT Mode On: A Feather-Light Network for Low-Light Image Enhancement ( http://arxiv.org/abs/2305.10889v1 )

ライセンス: Link先を確認
Mustafa Ozcan, Hamza Ergezer, Mustafa Ayazaoglu(参考訳) 低照度画像強調(LLIE)は、理想照明条件下で得られる所望の画像の知識が不足しているため、不適切な逆問題である。 低照度条件は、抑制された画像ヒストグラムと信号対雑音比の低い相対色分布の2つの主要な問題を引き起こす。 これらの問題に対処するために,ニューラルネットワークブロックのシーケンスを用いたFLIGHT-Netという新しい手法を提案する。 第1ブロックは、画素単位のシーン依存照明調整により照明条件を制御する。 出力画像は、チャネルアテンションと減音サブブロックを含む第2ブロックの出力で生成される。 当社の高効率ニューラルネットワークアーキテクチャは,25Kパラメータだけで最先端のパフォーマンスを実現しています。 メソッドのコード、事前訓練されたモデル、そして結果のイメージが公開される。

Low-light image enhancement (LLIE) is an ill-posed inverse problem due to the lack of knowledge of the desired image which is obtained under ideal illumination conditions. Low-light conditions give rise to two main issues: a suppressed image histogram and inconsistent relative color distributions with low signal-to-noise ratio. In order to address these problems, we propose a novel approach named FLIGHT-Net using a sequence of neural architecture blocks. The first block regulates illumination conditions through pixel-wise scene dependent illumination adjustment. The output image is produced in the output of the second block, which includes channel attention and denoising sub-blocks. Our highly efficient neural network architecture delivers state-of-the-art performance with only 25K parameters. The method's code, pretrained models and resulting images will be publicly available.
翻訳日:2023-05-19 15:35:31 公開日:2023-05-18
# 分類器の最小リスク校正

Minimum-Risk Recalibration of Classifiers ( http://arxiv.org/abs/2305.10886v1 )

ライセンス: Link先を確認
Zeyu Sun, Dogyoon Song and Alfred Hero(参考訳) 確率的分類器の修正は予測モデルの信頼性と精度を高めるために不可欠である。 多くの再校正アルゴリズムが開発されているにもかかわらず、キャリブレーションとシャープネス(予測力を維持するのに必須)を統合する包括的理論はまだ欠如している。 本稿では,平均二乗誤差分解(MSE)の枠組みにおける最小リスク再校正の概念を紹介し,確率的分類器の評価と再校正のための原則的アプローチを提案する。 この枠組みを用いて,統一質量ビン化法 (umb) を解析し,$b$ をビン数,$n$ をサンプルサイズとする順序 $\tilde{o}(b/n + 1/b^2)$ の有限サンプルリスク上限を確立する。 キャリブレーションとシャープネスのバランスをとることで、umbの最適ビン数は$n^{1/3}$でスケールし、リスクバウンドは約$o(n^{-2/3})$となる。 さらに,対象領域からの限定ラベルデータを用いて再校正関数を調整する2段階アプローチを提案することで,ラベルシフトの課題に取り組む。 以上の結果から,分類器の移動は,スクラッチから再校正するよりもターゲットサンプルが有意に少ないことがわかった。 提案した境界の厳密性, 最適なビン数, ラベルシフト適応の有効性を数値シミュレーションにより検証した。

Recalibrating probabilistic classifiers is vital for enhancing the reliability and accuracy of predictive models. Despite the development of numerous recalibration algorithms, there is still a lack of a comprehensive theory that integrates calibration and sharpness (which is essential for maintaining predictive power). In this paper, we introduce the concept of minimum-risk recalibration within the framework of mean-squared-error (MSE) decomposition, offering a principled approach for evaluating and recalibrating probabilistic classifiers. Using this framework, we analyze the uniform-mass binning (UMB) recalibration method and establish a finite-sample risk upper bound of order $\tilde{O}(B/n + 1/B^2)$ where $B$ is the number of bins and $n$ is the sample size. By balancing calibration and sharpness, we further determine that the optimal number of bins for UMB scales with $n^{1/3}$, resulting in a risk bound of approximately $O(n^{-2/3})$. Additionally, we tackle the challenge of label shift by proposing a two-stage approach that adjusts the recalibration function using limited labeled data from the target domain. Our results show that transferring a calibrated classifier requires significantly fewer target samples compared to recalibrating from scratch. We validate our theoretical findings through numerical simulations, which confirm the tightness of the proposed bounds, the optimal number of bins, and the effectiveness of label shift adaptation.
翻訳日:2023-05-19 15:35:21 公開日:2023-05-18
# 3次元ganインバージョンのためのメタオーザリーネットワーク

Meta-Auxiliary Network for 3D GAN Inversion ( http://arxiv.org/abs/2305.10884v1 )

ライセンス: Link先を確認
Bangrui Jiang, Zhenhua Guo, Yujiu Yang(参考訳) 近年,実世界の画像操作は素晴らしい進歩を遂げている。 GANインバージョンは、実際のイメージを潜在コードに忠実にマッピングすることを目的としており、このパイプラインの最初のステップである。 しかし,既存のGANインバージョン手法では高い復元品質と高速な推論を同時に達成できない。 また,既存の手法は2D GAN上に構築されており,多視点一貫性を実現するための明確なメカニズムが欠如しているため,新たに開発された3D GANをジェネレータとして活用しながら,新しいメタ補助フレームワークを提案する。 提案手法は2段階戦略を採用する。 最初の段階では、オフザシェルフインバージョン技術を用いて、入力画像を編集可能な潜在コードに変換する。 本手法では,畳み込み層の重みとボリュームレンダリングのサンプリング位置のオフセットを予測し,入力画像で生成パラメータを洗練する補助ネットワークを提案する。 第2段階では、入力画像に補助ネットワークを高速に適応させるメタラーニングを行い、その後、メタラーニングされた補助ネットワークを介して最終再構成画像を合成する。 広範囲にわたる実験により,本手法はインバージョン処理と編集処理の両方において優れた性能を実現することが示された。

Real-world image manipulation has achieved fantastic progress in recent years. GAN inversion, which aims to map the real image to the latent code faithfully, is the first step in this pipeline. However, existing GAN inversion methods fail to achieve high reconstruction quality and fast inference at the same time. In addition, existing methods are built on 2D GANs and lack explicitly mechanisms to enforce multi-view consistency.In this work, we present a novel meta-auxiliary framework, while leveraging the newly developed 3D GANs as generator. The proposed method adopts a two-stage strategy. In the first stage, we invert the input image to an editable latent code using off-the-shelf inversion techniques. The auxiliary network is proposed to refine the generator parameters with the given image as input, which both predicts offsets for weights of convolutional layers and sampling positions of volume rendering. In the second stage, we perform meta-learning to fast adapt the auxiliary network to the input image, then the final reconstructed image is synthesized via the meta-learned auxiliary network. Extensive experiments show that our method achieves better performances on both inversion and editing tasks.
翻訳日:2023-05-19 15:34:53 公開日:2023-05-18
# 咽頭臓器のドメイン適応sim-to-real segmentation

Domain Adaptive Sim-to-Real Segmentation of Oropharyngeal Organs ( http://arxiv.org/abs/2305.10883v1 )

ライセンス: Link先を確認
Guankun Wang, Tian-Ao Ren, Jiewen Lai, Long Bai, and Hongliang Ren(参考訳) 経鼻的気管挿管術(ti)は,食道の代わりに気管管を声門に挿入する内視鏡を用いて行う。 ロボット支援型TIの流行は、教師付きディープラーニング技術を利用して模倣できる経験豊富な医師のような解剖学的特徴を識別する医療ロボットを必要としている。 しかし、咽頭臓器の実際のデータセットは、限られたオープンソースデータと患者のプライバシーのためにアクセスできないことが多い。 そこで本研究では,言語器官のイメージセグメンテーションのためのドメイン適応型Sim-to-RealフレームワークIoU-Ranking Blend-ArtFlow(IRB-AF)を提案する。 このフレームワークには、IoU-Ranking Blend(IRB)と呼ばれる画像ブレンディング戦略とスタイル転送メソッドArtFlowが含まれている。 ここで、IRBは、大きなデータセットのドメイン差に起因するセグメンテーション性能の低下を軽減しますが、ArtFlowはデータセット間の差異をさらに軽減するために導入されています。 意味的セグメンテーションの学習対象として、SOFAフレームワークによって生成された仮想咽頭画像データセットを用いて、実際の内視鏡画像の可用性の限界に対処する。 IRB-AFを最先端領域適応セグメンテーションモデルに適用した。 その結果, セグメンテーション精度とトレーニング安定性を向上する上で, 提案手法の優れた性能を示すことができた。

Video-assisted transoral tracheal intubation (TI) necessitates using an endoscope that helps the physician insert a tracheal tube into the glottis instead of the esophagus. The growing trend of robotic-assisted TI would require a medical robot to distinguish anatomical features like an experienced physician which can be imitated by utilizing supervised deep-learning techniques. However, the real datasets of oropharyngeal organs are often inaccessible due to limited open-source data and patient privacy. In this work, we propose a domain adaptive Sim-to-Real framework called IoU-Ranking Blend-ArtFlow (IRB-AF) for image segmentation of oropharyngeal organs. The framework includes an image blending strategy called IoU-Ranking Blend (IRB) and style-transfer method ArtFlow. Here, IRB alleviates the problem of poor segmentation performance caused by significant datasets domain differences; while ArtFlow is introduced to reduce the discrepancies between datasets further. A virtual oropharynx image dataset generated by the SOFA framework is used as the learning subject for semantic segmentation to deal with the limited availability of actual endoscopic images. We adapted IRB-AF with the state-of-the-art domain adaptive segmentation models. The results demonstrate the superior performance of our approach in further improving the segmentation accuracy and training stability.
翻訳日:2023-05-19 15:34:34 公開日:2023-05-18
# StawGAN:赤外画像翻訳のための構造認識型生成対向ネットワーク

StawGAN: Structural-Aware Generative Adversarial Networks for Infrared Image Translation ( http://arxiv.org/abs/2305.10882v1 )

ライセンス: Link先を確認
Luigi Sigillo, Eleonora Grassucci, Danilo Comminiello(参考訳) 本論文は,夜間の熱赤外画像(夜間のシーンを解析するための最もよく採用された画像モダリティ)を,物体の知覚を良くする日時カラー画像(NTIT2DC)に翻訳する問題に対処する。 本稿では,カラー化を伴わずに,ターゲット生成の品質向上に焦点をあてた新しいモデルを提案する。 提案した構造認識(StawGAN)は、対象領域におけるより良い形状と高解像度オブジェクトの翻訳を可能にする。 rgb-irペア画像を含むdroneveichleデータセットの航空画像でモデルをテストする。 提案手法は他の最先端画像翻訳モデルに対してより正確な翻訳を生成する。 ソースコードはhttps://github.com/LuigiSigillo/StawGANで入手できる。

This paper addresses the problem of translating night-time thermal infrared images, which are the most adopted image modalities to analyze night-time scenes, to daytime color images (NTIT2DC), which provide better perceptions of objects. We introduce a novel model that focuses on enhancing the quality of the target generation without merely colorizing it. The proposed structural aware (StawGAN) enables the translation of better-shaped and high-definition objects in the target domain. We test our model on aerial images of the DroneVeichle dataset containing RGB-IR paired images. The proposed approach produces a more accurate translation with respect to other state-of-the-art image translation models. The source code is available at https://github.com/LuigiSigillo/StawGAN
翻訳日:2023-05-19 15:34:12 公開日:2023-05-18
# 情報最大化による機能的十分な次元削減と分類への応用

Functional sufficient dimension reduction through information maximization with application to classification ( http://arxiv.org/abs/2305.10880v1 )

ライセンス: Link先を確認
Xinyu Li and Jianjun Xu and Haoyang Cheng(参考訳) 応答変数がカテゴリー変数であり、予測器がランダム関数である場合を考えると、相互情報と正方損失相互情報に基づいて2つの新しい機能的十分次元還元法(FSDR)が提案される。 関数スライスされた逆回帰法や関数スライスされた平均分散推定法などの古典的FSDR法と比較して,比較的少数のカテゴリ,特にバイナリ応答において,複数の有効次元縮小方向を推定できるため,提案手法は魅力的である。 さらに,提案手法では,制約付き線形条件付き平均仮定と定数共分散仮定は不要である。 彼らは共分散作用素の逆問題を避け、しばしば機能的十分次元の還元で遭遇する。 トランケーションを用いた機能主成分分析は正規化機構として用いられる。 穏やかな条件下では,提案手法の統計的一貫性が確立される。 この2つの手法は,シミュレーションと実データ解析による既存のFSDR法と競合することを示した。

Considering the case where the response variable is a categorical variable and the predictor is a random function, two novel functional sufficient dimensional reduction (FSDR) methods are proposed based on mutual information and square loss mutual information. Compared to the classical FSDR methods, such as functional sliced inverse regression and functional sliced average variance estimation, the proposed methods are appealing because they are capable of estimating multiple effective dimension reduction directions in the case of a relatively small number of categories, especially for the binary response. Moreover, the proposed methods do not require the restrictive linear conditional mean assumption and the constant covariance assumption. They avoid the inverse problem of the covariance operator which is often encountered in the functional sufficient dimension reduction. The functional principal component analysis with truncation be used as a regularization mechanism. Under some mild conditions, the statistical consistency of the proposed methods is established. It is demonstrated that the two methods are competitive compared with some existing FSDR methods by simulations and real data analyses.
翻訳日:2023-05-19 15:33:59 公開日:2023-05-18
# 低ランク拡散モデルによる教師なしパンシャープ化

Unsupervised Pansharpening via Low-rank Diffusion Model ( http://arxiv.org/abs/2305.10925v1 )

ライセンス: Link先を確認
Xiangyu Rui, Xiangyong Cao, Zeyu Zhu, Zongsheng Yue, and Deyu Meng(参考訳) pansharpeningは、高解像度のpanchromatic (pan) イメージと低解像度のmultispectral (lrms) イメージをマージして、単一の高解像度のmultispectral (hrms) イメージを作成するプロセスである。 既存のディープラーニングベースのパンシャープ法の多くは一般化能力に乏しく、従来のモデルベースのパンシャープ法では以前の画像構造を慎重に手動で探索する必要がある。 そこで本稿では, 拡散モデルと低ランク行列因子分解法を組み合わせることにより, 教師なしパンシャープ化法を提案する。 具体的には、HRMS像を2つの低ランクテンソル、すなわち基底テンソルと係数行列の積に分解すると仮定する。 ベーステンソルはイメージフィールド上に置かれ、スペクトル次元が低いため、トレーニング済みのリモートセンシング拡散モデルを用いて画像構造を捉えることができる。 さらに,HRMSのスペクトル情報を保存するために,観測されたLRMS画像から係数行列を推定する簡単な手法を導出する。 提案手法は従来のモデルベース手法よりも優れた性能を示し,ディープラーニング手法よりも優れた一般化能力を有する。 コードはhttps://github.com/xyrui/plrdiffでリリースされる。

Pansharpening is a process of merging a highresolution panchromatic (PAN) image and a low-resolution multispectral (LRMS) image to create a single high-resolution multispectral (HRMS) image. Most of the existing deep learningbased pansharpening methods have poor generalization ability and the traditional model-based pansharpening methods need careful manual exploration for the image structure prior. To alleviate these issues, this paper proposes an unsupervised pansharpening method by combining the diffusion model with the low-rank matrix factorization technique. Specifically, we assume that the HRMS image is decomposed into the product of two low-rank tensors, i.e., the base tensor and the coefficient matrix. The base tensor lies on the image field and has low spectral dimension, we can thus conveniently utilize a pre-trained remote sensing diffusion model to capture its image structures. Additionally, we derive a simple yet quite effective way to preestimate the coefficient matrix from the observed LRMS image, which preserves the spectral information of the HRMS. Extensive experimental results on some benchmark datasets demonstrate that our proposed method performs better than traditional model-based approaches and has better generalization ability than deep learning-based techniques. The code is released in https://github.com/xyrui/PLRDiff.
翻訳日:2023-05-19 15:26:46 公開日:2023-05-18
# 拡散モデルのための構造プルーニング

Structural Pruning for Diffusion Models ( http://arxiv.org/abs/2305.10924v1 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Xinchao Wang(参考訳) 生成モデリングは近年,拡散確率モデル (DPM) の変換的影響により,顕著な進歩を遂げている。 しかし、これらのモデルの印象的な能力は、トレーニングと推論の両方でかなりの計算オーバーヘッドを必要とすることが多い。 この課題に対処するために,既存モデルからの軽量拡散モデル学習に適した効率的な圧縮手法であるDiff-Pruningを提案する。 diff-pruningの本質は、非帰属的拡散ステップを無視し、重要な重みを識別するための情報勾配をアンサンブルするプロセスであるpruned timesteps上のtaylor展開にカプセル化されている。 4つの多様なデータセットにまたがって実施した経験的評価は、提案手法の2つの主な利点を浮き彫りにしている。 1)効率性:元々の訓練費の10%から20%程度のFLOPを約50%削減することができる。 2) 持続性: 成熟拡散モデルは, 予め訓練した前駆体と相反する生成挙動を本質的に保存する。 コードは \url{https://github.com/VainF/Diff-Pruning} で入手できる。

Generative modeling has recently undergone remarkable advancements, primarily propelled by the transformative implications of Diffusion Probabilistic Models (DPMs). The impressive capability of these models, however, often entails significant computational overhead during both training and inference. To tackle this challenge, we present Diff-Pruning, an efficient compression method tailored for learning lightweight diffusion models from pre-existing ones, without the need for extensive re-training. The essence of Diff-Pruning is encapsulated in a Taylor expansion over pruned timesteps, a process that disregards non-contributory diffusion steps and ensembles informative gradients to identify important weights. Our empirical assessment, undertaken across four diverse datasets highlights two primary benefits of our proposed method: 1) Efficiency: it enables approximately a 50% reduction in FLOPs at a mere 10% to 20% of the original training expenditure; 2) Consistency: the pruned diffusion models inherently preserve generative behavior congruent with their pre-trained progenitors. Code is available at \url{https://github.com/VainF/Diff-Pruning}.
翻訳日:2023-05-19 15:26:23 公開日:2023-05-18
# クエリのパフォーマンス予測: アドホックから対話型検索へ

Query Performance Prediction: From Ad-hoc to Conversational Search ( http://arxiv.org/abs/2305.10923v1 )

ライセンス: Link先を確認
Chuan Meng, Negar Arabzadeh, Mohammad Aliannejadi, Maarten de Rijke(参考訳) クエリパフォーマンス予測(qpp)は、情報検索におけるコアタスクである。 qppタスクは、関連性判定を行わずにクエリの検索システムの検索品質を予測することである。 アドホック検索におけるQPPの有効性と有用性について検討した。 近年,会話検索(CS)が著しく進歩している。 効果的なQPPは、CSシステムが次のターンで行う適切なアクションを決定するのに役立つ。 その可能性にもかかわらず、CSのQPPはほとんど研究されていない。 CSの文脈における既存のQPP手法の有効性を再現し研究することで、この研究ギャップに対処する。 パス検索のタスクは2つの設定で変わらないが、CSのユーザクエリは会話履歴に依存し、新しいQPP課題を導入している。 特に,アドホック探索のためのqpp法から得られた知見を3つのcs設定に一般化する。 (i)異なる問合せ書き換えに基づく検索方法の検索品質の推定 (ii)会話の密集した検索方法の検索品質の推定、及び (iii)上位ランクと上位ランクリストの検索品質の推定 私たちの発見は次のように要約できる。 i) 大規模トレーニングセットが利用可能である場合に限り、教師なしQPP法は、教師なしQPP法よりも明らかに優れている。 (ii)QPP法は、ほとんどの場合においてリストワイド法よりも優れている。 3)検索スコアに基づく教師なしQPP法は,会話高密度検索法であるConvDRの評価において高い効果を示す。

Query performance prediction (QPP) is a core task in information retrieval. The QPP task is to predict the retrieval quality of a search system for a query without relevance judgments. Research has shown the effectiveness and usefulness of QPP for ad-hoc search. Recent years have witnessed considerable progress in conversational search (CS). Effective QPP could help a CS system to decide an appropriate action to be taken at the next turn. Despite its potential, QPP for CS has been little studied. We address this research gap by reproducing and studying the effectiveness of existing QPP methods in the context of CS. While the task of passage retrieval remains the same in the two settings, a user query in CS depends on the conversational history, introducing novel QPP challenges. In particular, we seek to explore to what extent findings from QPP methods for ad-hoc search generalize to three CS settings: (i) estimating the retrieval quality of different query rewriting-based retrieval methods, (ii) estimating the retrieval quality of a conversational dense retrieval method, and (iii) estimating the retrieval quality for top ranks vs. deeper-ranked lists. Our findings can be summarized as follows: (i) supervised QPP methods distinctly outperform unsupervised counterparts only when a large-scale training set is available; (ii) point-wise supervised QPP methods outperform their list-wise counterparts in most cases; and (iii) retrieval score-based unsupervised QPP methods show high effectiveness in assessing the conversational dense retrieval method, ConvDR.
翻訳日:2023-05-19 15:26:06 公開日:2023-05-18
# 注意を伴う創発的コミュニケーション

Emergent Communication with Attention ( http://arxiv.org/abs/2305.10920v1 )

ライセンス: Link先を確認
Ryokan Ri, Ryo Ueda, Jason Naradowsky(参考訳) 創発的言語によるコミュニケーションを向上する計算エージェントを開発するために,我々はエージェントに,環境における特定の概念に注意を集中させる能力を与える。 人間はしばしば、オブジェクトやシーンを概念の合成として理解し、それらの概念は単語にさらにマッピングされる。 この直観を,話者および聞き手エージェントの対話的注意機構として,参照ゲームにおいて実装し,より構成的かつ解釈可能な創発的言語へと誘導する。 また,各メッセージシンボルに関連づけられた注意重みと,話者と聞き手エージェント間の注意重みの調整について検討することで,学習したコミュニケーションプロトコルの理解において注意がいかに役立つかを示す。 全体としては、より人間的な創発的言語を開発する上で、注意が有望なメカニズムであることを示唆している。

To develop computational agents that better communicate using their own emergent language, we endow the agents with an ability to focus their attention on particular concepts in the environment. Humans often understand an object or scene as a composite of concepts and those concepts are further mapped onto words. We implement this intuition as cross-modal attention mechanisms in Speaker and Listener agents in a referential game and show attention leads to more compositional and interpretable emergent language. We also demonstrate how attention aids in understanding the learned communication protocol by investigating the attention weights associated with each message symbol and the alignment of attention weights between Speaker and Listener agents. Overall, our results suggest that attention is a promising mechanism for developing more human-like emergent language.
翻訳日:2023-05-19 15:25:46 公開日:2023-05-18
# 研究室から野生まで:特権的情報によるモデリングに影響を及ぼす

From the Lab to the Wild: Affect Modeling via Privileged Information ( http://arxiv.org/abs/2305.10919v1 )

ライセンス: Link先を確認
Konstantinos Makantasis, Kosmas Pinitas, Antonios Liapis, Georgios N. Yannakakis(参考訳) 制御された実験条件(in-vivo)で訓練されたモデルから、制御されていない実環境(in-vivo)へ、どのように確実に移行できるか? in-vitro と in-vivo のアプリケーション間の情報ギャップは、感情コンピューティングのコアチャレンジを定義する。 このギャップは、侵入性、ハードウェアの故障、センサーの可用性を含む感覚に影響する制限によって引き起こされる。 これらの制約に応えて、実世界のシナリオ(野生)における影響モデルを操作するための特権情報の概念を導入する。 特権付き情報により、影響モデルが実験室で利用可能な複数のモダリティにわたってトレーニングされ、大幅なパフォーマンス低下なくして、ワイルドで動作しても利用できないモダリティを無視することができる。 私たちのアプローチは2つのマルチモーダルな影響データベースでテストされています。 すべてのモダリティを使用して影響モデルをトレーニングし、モデルをテストするために生の映像フレームのみを使用することによって、トレーニングとテストの両方で利用可能なモダリティを融合するモデルのパフォーマンスに到達します。 分類と回帰の両方で頑健な結果は、感情コンピューティングにおいて支配的なパラダイムであるモデリングタスクに影響を及ぼす。 我々の発見は、野生における影響の相互作用の実現に向けて決定的な一歩を踏み出した。

How can we reliably transfer affect models trained in controlled laboratory conditions (in-vitro) to uncontrolled real-world settings (in-vivo)? The information gap between in-vitro and in-vivo applications defines a core challenge of affective computing. This gap is caused by limitations related to affect sensing including intrusiveness, hardware malfunctions and availability of sensors. As a response to these limitations, we introduce the concept of privileged information for operating affect models in real-world scenarios (in the wild). Privileged information enables affect models to be trained across multiple modalities available in a lab, and ignore, without significant performance drops, those modalities that are not available when they operate in the wild. Our approach is tested in two multimodal affect databases one of which is designed for testing models of affect in the wild. By training our affect models using all modalities and then using solely raw footage frames for testing the models, we reach the performance of models that fuse all available modalities for both training and testing. The results are robust across both classification and regression affect modeling tasks which are dominant paradigms in affective computing. Our findings make a decisive step towards realizing affect interaction in the wild.
翻訳日:2023-05-19 15:25:30 公開日:2023-05-18
# 意味的事前改良を伴う弱教師付き視覚テキストグラウンド

Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement ( http://arxiv.org/abs/2305.10913v1 )

ライセンス: Link先を確認
Davide Rigoni and Luca Parolari and Luciano Serafini and Alessandro Sperduti and Lamberto Ballan(参考訳) 画像-文ペアのみを用いて、弱い教師付き視覚-テクスチャグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。 教師付きアプローチと比較して,境界ボックスや文句対応が利用できないため,学習は困難である。 そこで本研究では,2つの主モジュールの出力を組み合わせることにより予測を行う意味的事前改良モデル(sprm)を提案する。 最初の未学習モジュールは、テキスト句とバウンディングボックスの間の粗いアライメントを返すことを目的としている。 第2の訓練モジュールは、2つのサブコンポーネントで構成されており、最終的なフレーズ境界ボックスアライメントの精度を向上させるために粗いアライメントを洗練している。 本モデルは,画像と文間のマルチモーダル類似度を最大化するために訓練され,同一文のマルチモーダル類似度を最小化するとともに,トレーニング中に最も役立てるために慎重に選択された新しい非関連画像を生成する。 われわれのアプローチは、Flickr30k EntitiesとReferItという2つの人気のあるデータセットに関する最先端の結果を示している。 さらに、トレーニングされていないコンポーネントのおかげで、少数のトレーニング例だけで、競争力のあるパフォーマンスに達する。

Using only image-sentence pairs, weakly-supervised visual-textual grounding aims to learn region-phrase correspondences of the respective entity mentions. Compared to the supervised approach, learning is more difficult since bounding boxes and textual phrases correspondences are unavailable. In light of this, we propose the Semantic Prior Refinement Model (SPRM), whose predictions are obtained by combining the output of two main modules. The first untrained module aims to return a rough alignment between textual phrases and bounding boxes. The second trained module is composed of two sub-components that refine the rough alignment to improve the accuracy of the final phrase-bounding box alignments. The model is trained to maximize the multimodal similarity between an image and a sentence, while minimizing the multimodal similarity of the same sentence and a new unrelated image, carefully selected to help the most during training. Our approach shows state-of-the-art results on two popular datasets, Flickr30k Entities and ReferIt, shining especially on ReferIt with a 9.6% absolute improvement. Moreover, thanks to the untrained component, it reaches competitive performances just using a small fraction of training examples.
翻訳日:2023-05-19 15:25:10 公開日:2023-05-18
# 制御のための一般動力学モデル

A Generalist Dynamics Model for Control ( http://arxiv.org/abs/2305.10912v1 )

ライセンス: Link先を確認
Ingmar Schubert and Jingwei Zhang and Jake Bruce and Sarah Bechtle and Emilio Parisotto and Martin Riedmiller and Jost Tobias Springenberg and Arunkumar Byravan and Leonard Hasenclever and Nicolas Heess(参考訳) 制御のための動的モデル (TDM) としてのトランスフォーマーシーケンスモデルについて検討する。 DeepMindコントロールスイートにおける多くの実験において、ベースラインモデルと比較して、TDMは単一環境学習環境でうまく機能することがわかった。 第2に、tdmsは、目標環境から少量のデータでジェネラリストモデルが微調整された数ショット設定と、さらに訓練することなく未認識環境にジェネラリストモデルを適用するゼロショット設定の両方において、未発見環境に対して強力な一般化能力を示す。 さらに、システムダイナミクスの一般化は、ポリシーとして直接に最適な振る舞いを一般化するよりもずっとうまく機能することを実証する。 これにより、TDMは制御の基礎モデルとして有望な材料となる。

We investigate the use of transformer sequence models as dynamics models (TDMs) for control. In a number of experiments in the DeepMind control suite, we find that first, TDMs perform well in a single-environment learning setting when compared to baseline models. Second, TDMs exhibit strong generalization capabilities to unseen environments, both in a few-shot setting, where a generalist model is fine-tuned with small amounts of data from the target environment, and in a zero-shot setting, where a generalist model is applied to an unseen environment without any further training. We further demonstrate that generalizing system dynamics can work much better than generalizing optimal behavior directly as a policy. This makes TDMs a promising ingredient for a foundation model of control.
翻訳日:2023-05-19 15:24:47 公開日:2023-05-18
# プライバシー保護型公証可能な量子乱数生成器

A privacy-preserving publicly verifiable quantum random number generator ( http://arxiv.org/abs/2305.10909v1 )

ライセンス: Link先を確認
Tanvirul Islam, Anindya Banerji, Chin Jia Boon, Wang Rui, Ayesha Reezwana, James A. Grieve, Rodrigo Piera, and Alexander Ling(参考訳) 乱数生成器の品質を検証するには、一般にギガバイトの範囲で大規模なデータセットで計算集約的な統計テストを行う必要がある。 計算能力の制限は、エンドユーザーがそのような検証を行う能力を制限することができる。 また、ユーザが使用しているランダムビットが、ビットを公開せずに統計テストに合格することを公に示す必要があるアプリケーションもある。 本稿では,ランダムビットのプライバシを損なうことなく,第三者が統計的テストを行うことのできる絡み合いベースのプロトコルの実装について報告する。

Verifying the quality of a random number generator involves performing computationally intensive statistical tests on large data sets commonly in the range of gigabytes. Limitations on computing power can restrict an end-user's ability to perform such verification. There are also applications where the user needs to publicly demonstrate that the random bits they are using pass the statistical tests without the bits being revealed. We report the implementation of an entanglement-based protocol that allows a third party to publicly perform statistical tests without compromising the privacy of the random bits.
翻訳日:2023-05-19 15:24:32 公開日:2023-05-18
# 中間のブレークスルー:階層型スクリプト生成に向けたサブゴールの調査

Take a Break in the Middle: Investigating Subgoals towards Hierarchical Script Generation ( http://arxiv.org/abs/2305.10907v1 )

ライセンス: Link先を確認
Xinze Li, Yixin Cao, Muhao Chen, Aixin Sun(参考訳) 目標指向のスクリプト生成は、与えられた目標を達成するためのステップのリストを生成する新しいタスクである。 本稿では,認知理論の観点からタスクを拡張することを提案する。 単純なフラットな構造の代わりに、ステップは通常階層的に構成される。人間はしばしば複雑なタスクをサブゴールに分解し、各サブゴールはさらにステップに分解される。 ベンチマークの確立のために,新しいデータセットのコントリビュート,いくつかのベースラインメソッドの提案,評価メトリクスのセットアップを行った。 自動評価と人的評価は、データセットの高品質さと、サブゴールを階層的なスクリプト生成に組み込むことの有効性を検証する。 さらに、サブゴールを発見するためのモデルの設計と評価を行い、セグメント化されたステップから要約するよりもゴールを分解することがもう少し難しいことを発見した。

Goal-oriented Script Generation is a new task of generating a list of steps that can fulfill the given goal. In this paper, we propose to extend the task from the perspective of cognitive theory. Instead of a simple flat structure, the steps are typically organized hierarchically - Human often decompose a complex task into subgoals, where each subgoal can be further decomposed into steps. To establish the benchmark, we contribute a new dataset, propose several baseline methods, and set up evaluation metrics. Both automatic and human evaluation verify the high-quality of dataset, as well as the effectiveness of incorporating subgoals into hierarchical script generation. Furthermore, We also design and evaluate the model to discover subgoal, and find that it is a bit more difficult to decompose the goals than summarizing from segmented steps.
翻訳日:2023-05-19 15:24:22 公開日:2023-05-18
# robustfair:fairness confusion directedgradient searchによる敵対的評価

RobustFair: Adversarial Evaluation through Fairness Confusion Directed Gradient Search ( http://arxiv.org/abs/2305.10906v1 )

ライセンス: Link先を確認
Xuran Li, Peng Wu, Kaixiang Dong, Zhen Zhang(参考訳) DNNの信頼性は、予測精度を損なうだけでなく、類似した入力に対するバイアスのある予測(個人的公正性)を引き起こす可能性がある、小さな敵の摂動に対する脆弱性によってしばしば疑問視される。 近年、精度と個人公正の調和バランスをとるために正確な公正性が提案されている。 これは公正混乱行列の概念を誘導し、予測を真公正、真バイアス、偽公正、偽バイアスと分類する。 本稿では,fairness confusion directedgradient searchにより構築した逆摂動を用いて,dnnの正確なフェアネスのための調和評価手法であるロバストフェアを提案する。 テイラー展開を用いて、敵のインスタンスの基底的真実を近似することで、ロバストフェアは、しばしばロバスト性評価において解明され、個々のフェアネス評価において欠落する、突発的公正性のために絡み合うロバスト性欠陥を特に特定することができる。 robustfairは、ロバスト性やフェアネスの欠陥を同時に特定することで、ロバスト性と個別のフェアネス評価を促進することができる。 フェアネスベンチマークデータセットに関する実証的なケーススタディでは、最先端のホワイトボックスの堅牢性と個々のフェアネステストアプローチと比較して、ロバストフェアは1.77-11.87倍の逆の摂動を検出し、バイアスが1.83-13.12倍、偽の1.53-8.22倍となる。 敵のインスタンスを効果的に利用して、リトレーニングを通じて元のディープニューラルネットワークの正確な公正性(すなわち精度と個人の公正性)を改善することができる。 実証的なケーススタディは、ロバストフェアによって特定された敵インスタンスが、他のテストアプローチによって識別されたものよりも優れており、21%の正確さと19%の個人的公平性が、精度を損なうことなく、4%まで促進されることも示している。

The trustworthiness of DNNs is often challenged by their vulnerability to minor adversarial perturbations, which may not only undermine prediction accuracy (robustness) but also cause biased predictions for similar inputs (individual fairness). Accurate fairness has been recently proposed to enforce a harmonic balance between accuracy and individual fairness. It induces the notion of fairness confusion matrix to categorize predictions as true fair, true biased, false fair, and false biased. This paper proposes a harmonic evaluation approach, RobustFair, for the accurate fairness of DNNs, using adversarial perturbations crafted through fairness confusion directed gradient search. By using Taylor expansions to approximate the ground truths of adversarial instances, RobustFair can particularly identify the robustness defects entangled for spurious fairness, which are often elusive in robustness evaluation, and missing in individual fairness evaluation. RobustFair can boost robustness and individual fairness evaluations by identifying robustness or fairness defects simultaneously. Empirical case studies on fairness benchmark datasets show that, compared with the state-of-the-art white-box robustness and individual fairness testing approaches, RobustFair detects significantly 1.77-11.87 times adversarial perturbations, yielding 1.83-13.12 times biased and 1.53-8.22 times false instances. The adversarial instances can then be effectively exploited to improve the accurate fairness (and hence accuracy and individual fairness) of the original deep neural network through retraining. The empirical case studies further show that the adversarial instances identified by RobustFair outperform those identified by the other testing approaches, in promoting 21% accurate fairness and 19% individual fairness on multiple sensitive attributes, without losing accuracy at all or even promoting it by up to 4%.
翻訳日:2023-05-19 15:24:08 公開日:2023-05-18
# 純粋16ビット浮動小数点ニューラルネットワークの防御

In Defense of Pure 16-bit Floating-Point Neural Networks ( http://arxiv.org/abs/2305.10947v1 )

ライセンス: Link先を確認
Juyoung Yun, Byungkon Kang, Francois Rameau, Zhoulai Fu(参考訳) ニューラルネットワークの重みとアクティベーションをエンコードするために必要なビット数を減らすことは、トレーニングと推論時間を短縮しながらメモリ消費を削減し、非常に望ましい。 これらの理由から、この領域の研究は、混合精度トレーニングのような低精度コンピューティングを活用するニューラルネットワークの開発に対して大きな注目を集めている。 興味深いことに、既存のアプローチでは純粋な16ビット浮動小数点設定は調査されていない。 本稿では、純粋な16ビット浮動小数点ニューラルネットワークの効率性について考察した。 そこで本研究では,16ビットモデルと32ビットモデルとの差に寄与する要因を包括的に解析する。 浮動小数点誤差と耐性の概念を定式化し、16ビットモデルが32ビットモデルの結果を正確に近似できる条件を定量的に説明できるようにする。 この理論的探究は、低精度ニューラルネットワークの成功を正規化効果に特徴づける文献とは異なる視点を提供する。 この詳細な分析は広範な実験によって支持されている。 その結果、純粋な16ビット浮動小数点ニューラルネットワークは、混合精度および32ビットのニューラルネットワークと同等またはそれ以上のパフォーマンスを達成できることがわかった。 この論文で示された結果は、さまざまなアプリケーションで純粋な16ビットネットワークを使って再考する機会を提供する機械学習実践者に大きな影響を与えるだろう。

Reducing the number of bits needed to encode the weights and activations of neural networks is highly desirable as it speeds up their training and inference time while reducing memory consumption. For these reasons, research in this area has attracted significant attention toward developing neural networks that leverage lower-precision computing, such as mixed-precision training. Interestingly, none of the existing approaches has investigated pure 16-bit floating-point settings. In this paper, we shed light on the overlooked efficiency of pure 16-bit floating-point neural networks. As such, we provide a comprehensive theoretical analysis to investigate the factors contributing to the differences observed between 16-bit and 32-bit models. We formalize the concepts of floating-point error and tolerance, enabling us to quantitatively explain the conditions under which a 16-bit model can closely approximate the results of its 32-bit counterpart. This theoretical exploration offers perspective that is distinct from the literature which attributes the success of low-precision neural networks to its regularization effect. This in-depth analysis is supported by an extensive series of experiments. Our findings demonstrate that pure 16-bit floating-point neural networks can achieve similar or even better performance than their mixed-precision and 32-bit counterparts. We believe the results presented in this paper will have significant implications for machine learning practitioners, offering an opportunity to reconsider using pure 16-bit networks in various applications.
翻訳日:2023-05-19 15:18:34 公開日:2023-05-18
# ハミングネットを用いたボーソンサンプラーのベンチマーク

Benchmarking a boson sampler with Hamming nets ( http://arxiv.org/abs/2305.10946v1 )

ライセンス: Link先を確認
Ilia A. Iakovlev, Oleg M. Sotnikov, Ivan V. Dyakonov, Evgeniy O. Kiktenko, Aleksey K. Fedorov, Stanislav S. Straupe and Vladimir V. Mazurenko(参考訳) 複雑な量子システムの特性を分析することは、量子装置のさらなる開発に不可欠であるが、この課題は通常、必要な測定量に関して困難で要求される。 この問題に対する特別な注意は、古典的な資源を用いてそのような状態をシミュレートすることが困難であるように、特定の特性を持つ量子状態を生成するノイズのある中間スケール量子デバイスの結果を特徴づける文脈に現れる。 本研究では,入力光子の干渉を利用して,一定の条件下では古典的に得ることが困難である非自明な確率分布のサンプルを生成するボソンサンプリング装置の特性化の問題に対処する。 現実的な実験条件では、問題は衝突や繰り返しなしに少数の測定結果で多重光子干渉を調べることである。 測定結果に基づいてネットワークを構築することにより、対応するネットワークの構造を定量化することにより、区別不能なボソンと区別不能なボソンを区別できる可能性を示す。 そこで本研究では,未知の散乱行列を持つボソンサンプリング器をベンチマークする機械学習ベースのプロトコルを提案する。 特にこのプロトコルは、衝突や繰り返しを伴わない非常に限られたビットストリングを持つという最も困難な状況で機能する。 期待通り、このフレームワークは、現在実験で利用可能であるボゾンサンプリングデバイスの特徴付けに、直接適用することができます。

Analyzing the properties of complex quantum systems is crucial for further development of quantum devices, yet this task is typically challenging and demanding with respect to required amount of measurements. A special attention to this problem appears within the context of characterizing outcomes of noisy intermediate-scale quantum devices, which produce quantum states with specific properties so that it is expected to be hard to simulate such states using classical resources. In this work, we address the problem of characterization of a boson sampling device, which uses interference of input photons to produce samples of non-trivial probability distributions that at certain condition are hard to obtain classically. For realistic experimental conditions the problem is to probe multi-photon interference with a limited number of the measurement outcomes without collisions and repetitions. By constructing networks on the measurements outcomes, we demonstrate a possibility to discriminate between regimes of indistinguishable and distinguishable bosons by quantifying the structures of the corresponding networks. Based on this we propose a machine-learning-based protocol to benchmark a boson sampler with unknown scattering matrix. Notably, the protocol works in the most challenging regimes of having a very limited number of bitstrings without collisions and repetitions. As we expect, our framework can be directly applied for characterizing boson sampling devices that are currently available in experiments.
翻訳日:2023-05-19 15:18:14 公開日:2023-05-18
# 脳に触発されたAIの倫理的分析法

A method for the ethical analysis of brain-inspired AI ( http://arxiv.org/abs/2305.10938v1 )

ライセンス: Link先を確認
Michele Farisco, Gianluca Baldassarre, Emilio Cartoni, Antonia Leach, Mihai A. Petrovici, Achim Rosemann, Arleen Salles, Bernd Stahl, Sacha J. van Albada(参考訳) その成功にもかかわらず、これまでもAI(Artificial Intelligence)には、さまざまなアプリケーションドメインと目標に関して、多くの欠点がある。 これらの制限は、概念的(例えば、シンボリック対コネクショニストのような基礎となる理論モデルに関連する)と操作的(例えば、堅牢性と一般化する能力に関連する)の両方である。 生物学的にインスパイアされたAI、特に脳にインスパイアされたAIは、これまでAIに含まれていたもの以外の生物学的側面を提供することを約束している。 本稿では、脳に触発されたAIの開発と利用によって提起された概念的、技術的、倫理的問題について考察する。 この背景に対して、この論文は、脳にインスパイアされたAIに倫理的にユニークなものがあるかどうかを問う。 本研究の目的は、ヒューリスティックな性質を持ち、脳にインスパイアされたAIから生じる倫理的問題を特定し、対処する手法を導入することである。 この方法の適用による結論は、従来のAIと比較して、脳にインスパイアされたAIは、新しい基礎的倫理的問題といくつかの新しい実践的倫理的問題を提起し、従来のAIによって提起されたいくつかの問題を悪化させることである。

Despite its successes, to date Artificial Intelligence (AI) is still characterized by a number of shortcomings with regards to different application domains and goals. These limitations are arguably both conceptual (e.g., related to underlying theoretical models, such as symbolic vs. connectionist), and operational (e.g., related to robustness and ability to generalize). Biologically inspired AI, and more specifically brain-inspired AI, promises to provide further biological aspects beyond those that are already traditionally included in AI, making it possible to assess and possibly overcome some of its present shortcomings. This article examines some conceptual, technical, and ethical issues raised by the development and use of brain-inspired AI. Against this background, the paper asks whether there is anything ethically unique about brain-inspired AI. The aim of the paper is to introduce a method that has a heuristic nature and that can be applied to identify and address the ethical issues arising from brain-inspired AI. The conclusion resulting from the application of this method is that, compared to traditional AI, brain-inspired AI raises new foundational ethical issues and some new practical ethical issues, and exacerbates some of the issues raised by traditional AI.
翻訳日:2023-05-19 15:17:52 公開日:2023-05-18
# 一般化階層型ガウスフィルタ

The generalized Hierarchical Gaussian Filter ( http://arxiv.org/abs/2305.10937v1 )

ライセンス: Link先を確認
Lilian Aline Weber, Peter Thestrup Waade, Nicolas Legrand, Anna Hedvig M{\o}ller, Klaas Enno Stephan, Christoph Mathys(参考訳) 階層的ベイズモデルによる知覚と学習は、現代の認知神経科学において顕著に特徴付けられる。 これには、階層的表現の性質が異なる予測符号化と階層的ガウスフィルタリング(HGF)が含まれる。 予測符号化は、与えられた階層内の上位レベルが下位レベルの状態(値)に影響すると仮定する。 しかし、HGFでは、より高いレベルが低いレベルでの変化率を決定する。 本稿では,hgfを基盤とする生成モデルの空間を拡張し,予測符号化と一般のニューラルネットワークに類似した状態値間の非線形階層結合の形式を含む。 我々は、HGFのこの一般化に対応する更新方程式を導出し、親ノードが子ノードの状態や変化率を予測する(信じる)ノードのネットワークを接続するものとして概念化する。 これにより、(1)ネットワークの各ノードに汎用的な計算ステップを持つモジュラーアーキテクチャを作成し、(2)一般化されたHGFモデルによって示唆される階層的メッセージパッシングを開示し、これを予測符号化の下で同等のスキームと比較することができる。 一般化されたHGFによってインスタンス化されるアルゴリズムアーキテクチャは、予測符号化とほとんど互換性があるが、精度とボラティリティに関する計算から生じるいくつかのユニークな予測によって拡張されている。 我々の開発は、経験的データ分析のための階層ベイズモデルの高度に柔軟な実装を可能にし、オープンソースソフトウェアとして利用可能です。

Hierarchical Bayesian models of perception and learning feature prominently in contemporary cognitive neuroscience where, for example, they inform computational concepts of mental disorders. This includes predictive coding and hierarchical Gaussian filtering (HGF), which differ in the nature of hierarchical representations. Predictive coding assumes that higher levels in a given hierarchy influence the state (value) of lower levels. In HGF, however, higher levels determine the rate of change at lower levels. Here, we extend the space of generative models underlying HGF to include a form of nonlinear hierarchical coupling between state values akin to predictive coding and artificial neural networks in general. We derive the update equations corresponding to this generalization of HGF and conceptualize them as connecting a network of (belief) nodes where parent nodes either predict the state of child nodes or their rate of change. This enables us to (1) create modular architectures with generic computational steps in each node of the network, and (2) disclose the hierarchical message passing implied by generalized HGF models and to compare this to comparable schemes under predictive coding. We find that the algorithmic architecture instantiated by the generalized HGF is largely compatible with that of predictive coding but extends it with some unique predictions which arise from precision and volatility related computations. Our developments enable highly flexible implementations of hierarchical Bayesian models for empirical data analysis and are available as open source software.
翻訳日:2023-05-19 15:17:30 公開日:2023-05-18
# 再構成可能なインテリジェントサーフェスによるエッジ推論のためのlyapunov駆動深層強化学習

Lyapunov-Driven Deep Reinforcement Learning for Edge Inference Empowered by Reconfigurable Intelligent Surfaces ( http://arxiv.org/abs/2305.10931v1 )

ライセンス: Link先を確認
Kyriakos Stylianopoulos, Mattia Merluzzi, Paolo Di Lorenzo, George C. Alexandropoulos(参考訳) 本稿では,再構成可能なインテリジェントサーフェス(ris)を付与した6gネットワークの文脈において,無線エッジにおけるエネルギー効率,低遅延,高精度推定のための新しいアルゴリズムを提案する。 我々は,新しいデータが連続して生成/収集され,動的待ち行列システムによって処理されるシナリオを考える。 Building on the marriage between Lyapunov stochastic optimization and deep reinforcement learning (DRL), we devise a dynamic learning algorithm that jointly optimizes the data compression scheme, the allocation of radio resources (i.e., power, transmission precoding), the computation resources (i.e., CPU cycles), and the RIS reflectivity parameters (i.e., phase shifts), with the aim of performing energy-efficient edge classification with end-to-end (E2E) delay and inference accuracy constraints. 提案手法はシステムと無線伝搬環境の動的制御を可能にし,統計が不明な時間変化の無線チャネルやタスク到着を扱いながら,スロット毎の低複雑さの最適化を行う。 数値実験により, 分類タスクのエネルギー, 遅延, 精度のトレードオフの観点から, risを用いたエッジ推定手法の性能評価を行った。

In this paper, we propose a novel algorithm for energy-efficient, low-latency, accurate inference at the wireless edge, in the context of 6G networks endowed with reconfigurable intelligent surfaces (RISs). We consider a scenario where new data are continuously generated/collected by a set of devices and are handled through a dynamic queueing system. Building on the marriage between Lyapunov stochastic optimization and deep reinforcement learning (DRL), we devise a dynamic learning algorithm that jointly optimizes the data compression scheme, the allocation of radio resources (i.e., power, transmission precoding), the computation resources (i.e., CPU cycles), and the RIS reflectivity parameters (i.e., phase shifts), with the aim of performing energy-efficient edge classification with end-to-end (E2E) delay and inference accuracy constraints. The proposed strategy enables dynamic control of the system and of the wireless propagation environment, performing a low-complexity optimization on a per-slot basis while dealing with time-varying radio channels and task arrivals, whose statistics are unknown. Numerical results assess the performance of the proposed RIS-empowered edge inference strategy in terms of trade-off between energy, delay, and accuracy of a classification task.
翻訳日:2023-05-19 15:17:07 公開日:2023-05-18
# ゼロショット多言語ニューラルマシン翻訳の目標外問題について

On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation ( http://arxiv.org/abs/2305.10930v1 )

ライセンス: Link先を確認
Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang(参考訳) 多言語ニューラルマシン翻訳は大きな成功を収めているが、翻訳が間違った言語であるターゲット外の問題に苦しめられている。 この問題はゼロショット翻訳タスクでより顕著である。 本研究では,識別対象言語信号の符号化に失敗した場合,2言語の語彙間距離 (kl-divergence) がより高いオフターゲット率に関連していることを示す。 また、デコーダ内で異なる言語のボクタブを分離するだけで問題を軽減することができる。 そこで本研究では,多言語語彙構築のための単純かつ効果的なアルゴリズムであるlanguage aware vocabulary sharing (lavs)を提案する。 我々は11言語で多言語機械翻訳ベンチマーク実験を行った。 実験の結果、90の翻訳タスクのオフターゲットレートは29\%から8\%に削減され、BLEUスコアは平均1.9ポイント改善され、追加のトレーニングコストや監督方向のパフォーマンスが犠牲になる。 私たちは、再生のために \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} でコードをリリースします。

While multilingual neural machine translation has achieved great success, it suffers from the off-target issue, where the translation is in the wrong language. This problem is more pronounced on zero-shot translation tasks. In this work, we find that failing in encoding discriminative target language signal will lead to off-target and a closer lexical distance (i.e., KL-divergence) between two languages' vocabularies is related with a higher off-target rate. We also find that solely isolating the vocab of different languages in the decoder can alleviate the problem. Motivated by the findings, we propose Language Aware Vocabulary Sharing (LAVS), a simple and effective algorithm to construct the multilingual vocabulary, that greatly alleviates the off-target problem of the translation model by increasing the KL-divergence between languages. We conduct experiments on a multilingual machine translation benchmark in 11 languages. Experiments show that the off-target rate for 90 translation tasks is reduced from 29\% to 8\%, while the overall BLEU score is improved by an average of 1.9 points without extra training cost or sacrificing the supervised directions' performance. We release the code at \href{https://github.com/chenllliang/Off-Target-MNMT}{https://github.com/chenllliang/Off-Target-MNMT} for reproduction.
翻訳日:2023-05-19 15:16:50 公開日:2023-05-18
# アーキテクチャに依存しない反復的ブラックボックス認証

Architecture-agnostic Iterative Black-box Certified Defense against Adversarial Patches ( http://arxiv.org/abs/2305.10929v1 )

ライセンス: Link先を確認
Di Yang, Yihao Huang, Qing Guo, Felix Juefei-Xu, Ming Hu, Yang Liu, Geguang Pu(参考訳) 敵対的パッチ攻撃は、任意の変化の有界かつ連続した領域で画像分類器を騙すことを目的としており、物理的世界におけるコンピュータビジョンシステム(例えば、自律運転、コンテンツモデレーション、生体認証、医療画像)に脅威をもたらす。 信頼性の高い方法でこの問題に対処するために、分類モデルの堅牢性を確保し、将来のパッチ攻撃が防御を破らないよう、認定パッチ防御に関する提案がなされている。 最先端の認証防御は、どのモデルアーキテクチャとも互換性があり、高いクリーンで認定された精度を達成することができる。 これらの手法は任意のパッチ位置に適応するが、現実の攻撃シナリオでは不合理で非現実的な敵パッチのサイズに必然的にアクセスする必要がある。 ブラックボックス設定(すなわちパッチの位置とサイズが不明)におけるアーキテクチャ非依存の防御の実現性を向上させるため、icbcdと呼ばれる新しい2段階反復ブラックボックス認証防御法を提案し、第1段階ではパッチとマスクのサイズ関係をピクセルマスクで評価することにより、パッチサイズを探索ベースで推定する。 第2段階では、既存のホワイトボックス認証防御方法により、推定パッチサイズで精度が算出される。 2つの人気のあるモデルアーキテクチャと2つのデータセットを用いて、IBCDの有効性と効率を検証する実験を行った。

The adversarial patch attack aims to fool image classifiers within a bounded, contiguous region of arbitrary changes, posing a real threat to computer vision systems (e.g., autonomous driving, content moderation, biometric authentication, medical imaging) in the physical world. To address this problem in a trustworthy way, proposals have been made for certified patch defenses that ensure the robustness of classification models and prevent future patch attacks from breaching the defense. State-of-the-art certified defenses can be compatible with any model architecture, as well as achieve high clean and certified accuracy. Although the methods are adaptive to arbitrary patch positions, they inevitably need to access the size of the adversarial patch, which is unreasonable and impractical in real-world attack scenarios. To improve the feasibility of the architecture-agnostic certified defense in a black-box setting (i.e., position and size of the patch are both unknown), we propose a novel two-stage Iterative Black-box Certified Defense method, termed IBCD.In the first stage, it estimates the patch size in a search-based manner by evaluating the size relationship between the patch and mask with pixel masking. In the second stage, the accuracy results are calculated by the existing white-box certified defense methods with the estimated patch size. The experiments conducted on two popular model architectures and two datasets verify the effectiveness and efficiency of IBCD.
翻訳日:2023-05-19 15:16:10 公開日:2023-05-18
# 歴史新聞広告からの多言語イベント抽出

Multilingual Event Extraction from Historical Newspaper Adverts ( http://arxiv.org/abs/2305.10928v1 )

ライセンス: Link先を確認
Nadav Borenstein and Natalia da Silva Perez and Isabelle Augenstein(参考訳) nlp法は、歴史学者が手作業でできる以上の量のテキスト資料を分析するのに役立つ。 しかし、そのような手法の開発には大きな課題がある。 まず、大きな注釈付き歴史的データセットを取得することは、ドメインの専門家だけが確実にラベル付けできるため、難しい。 第二に、市販のNLPモデルは現代の言語テキストで訓練されており、過去のコーパスに適用した場合、かなり効果が低い。 これは、あまりよく研究されていない仕事や、英語以外の言語にとって特に問題となる。 本稿では,新しい歴史文献の領域からのイベント抽出の未熟な課題に注目しながら,これらの課題に対処する。 我々は、近代植民地時代初期の新聞広告で構成された英語、フランス語、オランダ語で新しい多言語データセットを導入し、奴隷から解放された奴隷を報告した。 私たちはそれを見つけました 1) 注釈付きデータが少ない場合でも、問題を抽出QAタスクとして定式化し、既存のデータセットやモデルを現代言語に活用することで驚くほど良い結果が得られる。 2) 歴史言語のための言語間低リソース学習は非常に困難であり, 歴史的データセットから対象言語への機械翻訳は, 多くの場合, 最善の解決法である。

NLP methods can aid historians in analyzing textual materials in greater volumes than manually feasible. Developing such methods poses substantial challenges though. First, acquiring large, annotated historical datasets is difficult, as only domain experts can reliably label them. Second, most available off-the-shelf NLP models are trained on modern language texts, rendering them significantly less effective when applied to historical corpora. This is particularly problematic for less well studied tasks, and for languages other than English. This paper addresses these challenges while focusing on the under-explored task of event extraction from a novel domain of historical texts. We introduce a new multilingual dataset in English, French, and Dutch composed of newspaper ads from the early modern colonial period reporting on enslaved people who liberated themselves from enslavement. We find that: 1) even with scarce annotated data, it is possible to achieve surprisingly good results by formulating the problem as an extractive QA task and leveraging existing datasets and models for modern languages; and 2) cross-lingual low-resource learning for historical languages is highly challenging, and machine translation of the historical datasets to the considered target languages is, in practice, often the best-performing solution.
翻訳日:2023-05-19 15:15:46 公開日:2023-05-18
# 因果文書による対話の事前学習

Causal Document-Grounded Dialogue Pre-training ( http://arxiv.org/abs/2305.10927v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Bowen Yu, Haiyang Yu, Bowen Li, Chao Wang, Fei Huang, Yongbin Li, Nevin L. Zhang(参考訳) 文書地上対話(DocGD)の目標は,その対話コンテキストに応じて,その証拠を支援文書に接地することで応答を生成することである。 このプロセスには因果関係を持つ4つの変数が含まれる。 近年,タスク固有の事前学習によって下流タスクのパフォーマンスが大幅に向上している。 しかし、既存のDocGD手法は、因果関係を明示的にキャプチャする特定の調整済み事前学習アプローチを使わずに、一般的な事前学習言語モデルに依存し続けている。 この問題に対処するために、100万レベルのDocGD事前学習コーパスを構築するための因果完全データセット構築戦略を最初に提示する。 因果関係をよりよく把握するために,変数に対する因果摂動を導入し,全体の因果効果を最適化する因果摂動前学習戦略を提案する。 3つのベンチマークデータセットの実験により、我々の因果前トレーニングは、完全な教師付き、低リソース、少数ショット、ゼロショット設定の下で、かなり、一貫した改善を達成している。

The goal of document-grounded dialogue (DocGD) is to generate a response by grounding the evidence in a supporting document in accordance with the dialogue context. This process involves four variables that are causally connected. Recently, task-specific pre-training has greatly boosted performances on many downstream tasks. Existing DocGD methods, however, continue to rely on general pre-trained language models without a specifically tailored pre-training approach that explicitly captures the causal relationships. To tackle this issue, we are the first to present a causally-complete dataset construction strategy for building million-level DocGD pre-training corpora. To better capture causality, we further propose a causally-perturbed pre-training strategy, which introduces causal perturbations on the variables and optimizes the overall causal effect. Experiments on three benchmark datasets demonstrate that our causal pre-training achieves considerable and consistent improvements under fully-supervised, low-resource, few-shot, and zero-shot settings.
翻訳日:2023-05-19 15:15:27 公開日:2023-05-18
# HMSN: 理想的プロトタイプによるクラスタリングによる双曲型自己監督学習

HMSN: Hyperbolic Self-Supervised Learning by Clustering with Ideal Prototypes ( http://arxiv.org/abs/2305.10926v1 )

ライセンス: Link先を確認
Aiden Durrant and Georgios Leontidis(参考訳) 視覚表現学習のための双曲多様体は、低次元表現空間に低歪みを持つ木のような構造を自然に埋め込み、意味クラス階層の効果的な学習を可能にする。 双曲学習によって生み出される高度に分離可能なセマンティクスクラス階層は、低ショットタスクにおいて強力であることが示されているが、自己教師付き学習におけるそれらの応用についてはまだ十分に検討されていない。 本研究では,プロトタイプクラスタリング手法の自己教師付き表現学習における双曲表現空間の利用について検討する。 まず、Masked Siamese Networks を拡張して双曲空間の Poincar\'e 球モデルで操作し、次に、プロトタイプを Poincar\'e 球の理想的な境界に配置する。 従来の方法とは異なり、エンコーダネットワークの出力で双曲空間に投影し、双曲射影ヘッドを使用して下流タスクで使われる表現が双曲的であることを保証する。 実験により,これらの手法が線形評価タスクにおいて,より低次元のユークリッド法に比較して実行可能であることを示した。

Hyperbolic manifolds for visual representation learning allow for effective learning of semantic class hierarchies by naturally embedding tree-like structures with low distortion within a low-dimensional representation space. The highly separable semantic class hierarchies produced by hyperbolic learning have shown to be powerful in low-shot tasks, however, their application in self-supervised learning is yet to be explored fully. In this work, we explore the use of hyperbolic representation space for self-supervised representation learning for prototype-based clustering approaches. First, we extend the Masked Siamese Networks to operate on the Poincar\'e ball model of hyperbolic space, secondly, we place prototypes on the ideal boundary of the Poincar\'e ball. Unlike previous methods we project to the hyperbolic space at the output of the encoder network and utilise a hyperbolic projection head to ensure that the representations used for downstream tasks remain hyperbolic. Empirically we demonstrate the ability of these methods to perform comparatively to Euclidean methods in lower dimensions for linear evaluation tasks, whilst showing improvements in extreme few-shot learning tasks.
翻訳日:2023-05-19 15:15:09 公開日:2023-05-18
# 複数のプロジェクトと幅広い承認投票による参加予算化

Participatory Budgeting With Multiple Degrees of Projects And Ranged Approval Votes ( http://arxiv.org/abs/2305.10972v1 )

ライセンス: Link先を確認
Gogulapati Sreedurga(参考訳) indivisible participatory budgeting (pb) フレームワークでは、プロジェクトに対する投票者の選好を集約することで、プロジェクトの集合に分配される予算が限られています。 indivisible pbの以前の作業はすべて、各プロジェクトが1つの可能なコストしか持たないと仮定している。 この作業では、各プロジェクトに許容可能なコストのセットを与え、それぞれがプロジェクトの高度な度合いを反映させる。 各投票者は、彼女がプロジェクトに値すると考えているコストの上限を上下にすることで、各プロジェクトに対する幅広いコストを承認する。 PBルールの結果はプロジェクトのサブセットを選択し、それに対応するコストを指定する。 異なるユーティリティの概念を研究し、プロジェクト毎に許容コストがちょうど1つある場合の既存のポジティブな結果が、プロジェクトが許容コストを持つ私たちのフレームワークにも拡張可能であることを証明します。 また,パラメータの固定的トラクタビリティも解析する。 最後に,いくつかの重要かつ直感的な公理を提案し,それらの満足度をpbの異なる規則によって分析する。 我々はいくつかの重要な発言で締めくくる。

In an indivisible participatory budgeting (PB) framework, we have a limited budget that is to be distributed among a set of projects, by aggregating the preferences of voters for the projects. All the prior work on indivisible PB assumes that each project has only one possible cost. In this work, we let each project have a set of permissible costs, each reflecting a possible degree of sophistication of the project. Each voter approves a range of costs for each project, by giving an upper and lower bound on the cost that she thinks the project deserves. The outcome of a PB rule selects a subset of projects and also specifies their corresponding costs. We study different utility notions and prove that the existing positive results when every project has exactly one permissible cost can also be extended to our framework where a project has several permissible costs. We also analyze the fixed parameter tractability of the problem. Finally, we propose some important and intuitive axioms and analyze their satisfiability by different PB rules. We conclude by making some crucial remarks.
翻訳日:2023-05-19 15:08:58 公開日:2023-05-18
# NollySenti:ナイジェリア映画感性分類における転送学習と機械翻訳の活用

NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification ( http://arxiv.org/abs/2305.10971v1 )

ライセンス: Link先を確認
Iyanuoluwa Shode, David Ifeoluwa Adelani, Jing Peng, Anna Feldman(参考訳) アフリカには2000以上の先住民族言語があるが、データセットの欠如によりnlp研究に過小評価されている。 近年、アフリカの言語のためのラベル付きコーパスの開発が進められている。 しかし、それらは単一のドメインで利用でき、他のドメインに一般化できないことがある。 本稿では,クロスドメイン適応のための感情分類の課題に焦点を当てる。 ナイジェリアで広く話されている5つの言語(英語、ハウサ、igbo、ナイジェリア・ピジン、ヨルバ)のノリウッド映画レビューに基づいて、新しいデータセット、nollysentiを作成しました。 古典的な機械学習手法と事前学習言語モデルを用いた広範な経験的評価を提供する。 転送学習を活用して、Twitterドメインからのクロスドメイン適応のパフォーマンスと、英語からのクロス言語適応を比較した。 評価の結果,同じ対象領域における英語からの転送は,同じ言語でのtwitterからの転送に比べて5%以上精度が向上することがわかった。 ドメイン差を緩和するために、英語から他のナイジェリア語への機械翻訳(MT)を活用し、言語間評価よりも7%向上した。 低リソース言語へのmtは品質が低いことが多いが、人間の評価を通して、翻訳された文の多くは原文のレビューの感情を保っていることを示している。

Africa has over 2000 indigenous languages but they are under-represented in NLP research due to lack of datasets. In recent years, there have been progress in developing labeled corpora for African languages. However, they are often available in a single domain and may not generalize to other domains. In this paper, we focus on the task of sentiment classification for cross domain adaptation. We create a new dataset, NollySenti - based on the Nollywood movie reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo, Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using classical machine learning methods and pre-trained language models. Leveraging transfer learning, we compare the performance of cross-domain adaptation from Twitter domain, and cross-lingual adaptation from English language. Our evaluation shows that transfer from English in the same target domain leads to more than 5% improvement in accuracy compared to transfer from Twitter in the same language. To further mitigate the domain difference, we leverage machine translation (MT) from English to other Nigerian languages, which leads to a further improvement of 7% over cross-lingual evaluation. While MT to low-resource languages are often of low quality, through human evaluation, we show that most of the translated sentences preserve the sentiment of the original English reviews.
翻訳日:2023-05-19 15:08:30 公開日:2023-05-18
# スパースニューラルネットワークのための学習活性化関数

Learning Activation Functions for Sparse Neural Networks ( http://arxiv.org/abs/2305.10964v1 )

ライセンス: Link先を確認
Mohammad Loni, Aditya Mohan, Mehdi Asadi, Marius Lindauer(参考訳) スパースニューラルネットワーク(SNN)は、推論時にかなりのエネルギーとメモリを節約しながら、密度の高いニューラルネットワークと同じような性能を示す可能性がある。 しかし、SNNによる精度低下、特に高い刈り込み比は、重要な配置条件において問題となる可能性がある。 最近の研究では、高度な刈り取り技術によってこの問題を緩和していますが、私たちは、ハイパーパラメータとアクティベーション関数という見過ごされた要因に焦点を移します。 分析の結果,精度低下は付加的な原因であることがわかった。 (i)全会一致でアクティベーション関数のデフォルト選択としてreluを使用すること (II)密度の強いSNNと同じハイパーパラメータを持つ微調整SNN。 そこで我々は,スパースネットワークの活性化関数を調整し,それらをスパースネットワークの分離したハイパーパラメータ最適化(HPO)システムと組み合わせることに集中する。 一般的なDNNモデル(LeNet-5, VGG-16, ResNet-18, EfficientNet-B0)をMNIST, CIFAR-10, ImageNet-16データセットでトレーニングした結果,Sparse Activation Function Searchと呼ばれる2つの手法の新たな組み合わせにより,LeNet-5, VG-16, ResNet-18の精度を最大15.53%, 8.88%, 6.33%向上した。 私たちのコードはhttps://github.com/automl/SAFSで参照できます。

Sparse Neural Networks (SNNs) can potentially demonstrate similar performance to their dense counterparts while saving significant energy and memory at inference. However, the accuracy drop incurred by SNNs, especially at high pruning ratios, can be an issue in critical deployment conditions. While recent works mitigate this issue through sophisticated pruning techniques, we shift our focus to an overlooked factor: hyperparameters and activation functions. Our analyses have shown that the accuracy drop can additionally be attributed to (i) Using ReLU as the default choice for activation functions unanimously, and (ii) Fine-tuning SNNs with the same hyperparameters as dense counterparts. Thus, we focus on learning a novel way to tune activation functions for sparse networks and combining these with a separate hyperparameter optimization (HPO) regime for sparse networks. By conducting experiments on popular DNN models (LeNet-5, VGG-16, ResNet-18, and EfficientNet-B0) trained on MNIST, CIFAR-10, and ImageNet-16 datasets, we show that the novel combination of these two approaches, dubbed Sparse Activation Function Search, short: SAFS, results in up to 15.53%, 8.88%, and 6.33% absolute improvement in the accuracy for LeNet-5, VGG-16, and ResNet-18 over the default training protocols, especially at high pruning ratios. Our code can be found at https://github.com/automl/SAFS
翻訳日:2023-05-19 15:07:21 公開日:2023-05-18
# 予防は治療より優れている:胸部異常検出の1例

Prevention is better than cure: a case study of the abnormalities detection in the chest ( http://arxiv.org/abs/2305.10961v1 )

ライセンス: Link先を確認
Weronika Hryniewska, Piotr Czarnecki, Jakub Wi\'sniewski, Przemys{\l}aw Bombi\'nski, Przemys{\l}aw Biecek(参考訳) 予防は治療よりましだ。 この古い真実は、病気の予防だけでなく、医学で使用されるAIモデルの問題の予防にも当てはまる。 予測モデルの誤動作の原因はトレーニングプロセスにあるのではなく、データ取得フェーズや実験フェーズの設計にまで達することが多い。 本稿では,x線肺画像における異常の検出に関するカグルコンペティションについて,一つのユースケースを詳細に分析した。 データ不均衡の一連の単純なテストが、データ取得およびアノテーションプロセスの欠陥を露呈する様子を実演する。 複雑なモデルはそのようなアーティファクトを学習することができ、トレーニング中や後にこのバイアスを取り除くことは困難である。 データ収集段階でのエラーは、モデルを正しく検証することを困難にします。 このユースケースに基づいて,データ取得からモデルスコアのパリティ解析まで,予測モデルのライフサイクルを通してデータとモデルバランス(フェアネス)の監視方法を示す。

Prevention is better than cure. This old truth applies not only to the prevention of diseases but also to the prevention of issues with AI models used in medicine. The source of malfunctioning of predictive models often lies not in the training process but reaches the data acquisition phase or design of the experiment phase. In this paper, we analyze in detail a single use case - a Kaggle competition related to the detection of abnormalities in X-ray lung images. We demonstrate how a series of simple tests for data imbalance exposes faults in the data acquisition and annotation process. Complex models are able to learn such artifacts and it is difficult to remove this bias during or after the training. Errors made at the data collection stage make it difficult to validate the model correctly. Based on this use case, we show how to monitor data and model balance (fairness) throughout the life cycle of a predictive model, from data acquisition to parity analysis of model scores.
翻訳日:2023-05-19 15:06:51 公開日:2023-05-18
# 産業用ロボットマニピュレータのための仮想現実遠隔操作インタフェース

A Virtual Reality Teleoperation Interface for Industrial Robot Manipulators ( http://arxiv.org/abs/2305.10960v1 )

ライセンス: Link先を確認
Eric Rosen, Devesh K. Jha(参考訳) 産業用ロボットマニピュレータを市販のvr(virtual reality)インターフェースを介して遠隔操作する問題に対処する。 ロボットマニピュレータのためのVR遠隔操作に関する以前の研究は、主に協力的または研究的なロボットプラットフォーム(産業ロボットアームとは異なるダイナミクスと制約がある)に焦点を当てたり、ロボットのダイナミクスが重要でないタスク(例えば、選択と配置タスク)に対処するだけであった。 本研究は,産業用ロボットマニピュレータを多種多様な操作タスクで効果的に遠隔操作するための市販VRインタフェースの利用について検討する。 ロボットアームのVR制御に標準的手法を適用することは、トルクや速度制御が露出せず、位置制御はブラックボックスコントローラを介して行われるため、産業プラットフォームでは困難である。 これらの問題を緩和するために,命令信号処理の簡易なフィルタリング手法を提案し,産業用ロボットアームをVRインタフェースで巧妙に操作できるようにする。 ロボットのマニピュレータのための効果的なvr遠隔操作インターフェースの実装とセットアップを支援することを期待する。 提案手法は,実行中にロボットの非常に正確な動作を伴う様々なコンタクトリッチな操作タスクで実証される(ビデオはhttps://www.youtube.com/watch?v=OhkCB9mOaBc)。

We address the problem of teleoperating an industrial robot manipulator via a commercially available Virtual Reality (VR) interface. Previous works on VR teleoperation for robot manipulators focus primarily on collaborative or research robot platforms (whose dynamics and constraints differ from industrial robot arms), or only address tasks where the robot's dynamics are not as important (e.g: pick and place tasks). We investigate the usage of commercially available VR interfaces for effectively teleoeprating industrial robot manipulators in a variety of contact-rich manipulation tasks. We find that applying standard practices for VR control of robot arms is challenging for industrial platforms because torque and velocity control is not exposed, and position control is mediated through a black-box controller. To mitigate these problems, we propose a simplified filtering approach to process command signals to enable operators to effectively teleoperate industrial robot arms with VR interfaces in dexterous manipulation tasks. We hope our findings will help robot practitioners implement and setup effective VR teleoperation interfaces for robot manipulators. The proposed method is demonstrated on a variety of contact-rich manipulation tasks which can also involve very precise movement of the robot during execution (videos can be found at https://www.youtube.com/watch?v=OhkCB9mOaBc)
翻訳日:2023-05-19 15:06:37 公開日:2023-05-18
# シリコン基板上にスパッタリングした高品質超伝導アルミナ-Ta膜

High-quality superconducting {\alpha}-Ta film sputtered on heated silicon substrate ( http://arxiv.org/abs/2305.10957v1 )

ライセンス: Link先を確認
Yanfu Wu, Zengqian Ding, Kanglin Xiong, Jiagui Feng(参考訳) 研究者らは最近、Alpha}-Ta/Al2O3をベースとしたTransmon qubitの長い寿命の発見に興味を抱き、複数の量子ビットを長いコヒーレンス時間で製造する上で有望なプラットフォームであることを発見した。 超伝導量子回路を統合するための要件を満たすため、工業製造と互換性のあるシリコン基板上に {\alpha}-Ta薄膜を成長させることが理想的な方法である。 ここでは、低損失超伝導TiNxバッファ層を有するSi(100)上にスパッタ成長した {\alpha}-Ta膜について報告する。 成長温度の大きな窓を有する純相 {\alpha}-Ta膜は結晶特性が良好である。 500 oCで成長した\alpha}-Ta膜の臨界温度(Tc)と残留抵抗率(RRR)は室温で成長した {\alpha}-Ta膜よりも高い。 これらの結果は, {\alpha}-ta膜における超伝導と材料特性の関係を解明するための重要な実験手がかりとなり,将来の産業用超伝導量子コンピュータ用シリコン基板上に高品質の {\alpha}-ta膜を作製するための新しい経路を開く。

Intrigued by the discovery of the long lifetime in the {\alpha}-Ta/Al2O3-based Transmon qubit, researchers recently found {\alpha}-Ta film is a promising platform for fabricating multi-qubits with long coherence time. To meet the requirements for integrating superconducting quantum circuits, the ideal method is to grow {\alpha}-Ta film on silicon substrate compatible with industrial manufacturing. Here we report the {\alpha}-Ta film sputter-grown on Si (100) with low-loss superconducting TiNx buffer layer. The pure-phase {\alpha}-Ta film with a large growth temperature window has good crystalline character. The critical temperature (Tc) and residual resistance ration (RRR) in the {\alpha}-Ta film grown at 500 oC are higher than that in the {\alpha}-Ta film grown at room temperature. These results provide crucial experimental clues towards understanding the connection between the superconductivity and the materials' properties in the {\alpha}-Ta film, and open a new route for producing high-quality {\alpha}-Ta film on silicon substrate for future industrial superconducting quantum computer.
翻訳日:2023-05-19 15:06:10 公開日:2023-05-18
# サファイア基板上の高均一性と安定性を有するAl/AlOx/Al接合の作製

Fabrication of Al/AlOx/Al junctions with high uniformity and stability on sapphire substrates ( http://arxiv.org/abs/2305.10956v1 )

ライセンス: Link先を確認
Yuzhen Zheng, Shuming Li, Zengqian Ding, Kanglin Xiong, Jiagui Feng, Hui Yang(参考訳) サファイアのタンタルとアルミニウムは、長いコヒーレント時間のキュービットのプラットフォームとして広く使われている。 量子チップのスケールアップに伴い、サファイア上のジョセフソン接合数は増加する。 したがって、接合の均一性と安定性は、スケーラブルな超伝導量子コンピュータ回路や量子制限増幅器など、量子デバイスにとって重要である。 電子線リソグラフィー過程における導電層の形成過程の最適化により,サファイア基板上のAl/AlOx/Al接合は0.0169から0.04 {\mu}m2となる。 これらの接合部の室温抵抗(RN)の標準偏差は15mm×15mmのチップでは1.7%以上、2インチのウエハでは2.66%以上であり、サファイア基板では最も均一である。 接合部は強固で、温度が変化すると抵抗が安定になる。 抵抗は rn に対して 9.73% の比で上昇し、温度が 4k に低下し、温度が rt に戻るにつれて、その初期値が逆のプロセスで回復する。 窒素キャビネットに100日間保管された後、接合部の抵抗は平均1.16%変化した。 大規模領域における均一かつ安定なジョセフソン接合の実証は、サファイア基板上に数百量子ビットの超伝導チップを作製する方法を舗装している。

Tantalum and aluminum on sapphire are widely used platforms for qubits of long coherent time. As quantum chips scale up, the number of Josephson junctions on Sapphire increases. Thus, both the uniformity and stability of the junctions are crucial to quantum devices, such as scalable superconducting quantum computer circuit, and quantum-limited amplifiers. By optimizing the fabrication process, especially, the conductive layer during the electron beam lithography process, Al/AlOx/Al junctions of sizes ranging from 0.0169 to 0.04 {\mu}m2 on sapphire substrates were prepared. The relative standard deviation of room temperature resistances (RN) of these junctions is better than 1.7% on 15 mmx15 mm chips, and better than 2.66% on 2 inch wafers, which is the highest uniformity on sapphire substrates has been reported. The junctions are robust and stable in resistances as temperature changes. The resistances increase by the ratio of 9.73% relative to RN as the temperature ramp down to 4K, and restore their initial values in the reverse process as the temperature ramps back to RT. After being stored in a nitrogen cabinet for 100 days, the resistance of the junctions changed by1.16% in average. The demonstration of uniform and stable Josephson junctions in large area paves the way for the fabrication of superconducting chip of hundreds of qubits on sapphire substrates.
翻訳日:2023-05-19 15:05:50 公開日:2023-05-18
# 物理インフォームドニューラルネットワークを用いたアクタ・クリティカル法:流体冷却型電池パックの1次元PDEモデルの制御

Actor-Critic Methods using Physics-Informed Neural Networks: Control of a 1D PDE Model for Fluid-Cooled Battery Packs ( http://arxiv.org/abs/2305.10952v1 )

ライセンス: Link先を確認
Amartya Mukherjee, Jun Liu(参考訳) 本稿では,冷却液を用いた電池パックの温度制御のためのアクタ・クリティカルアルゴリズムを提案する。 これは、冷却流体の速度を決定する制御された対流項を持つ1次元偏微分方程式(PDE)によってモデル化される。 Hamilton-Jacobi-Bellman (HJB) 方程式は、値関数の最適性を評価し、最適コントローラを決定するPDEである。 本稿では,離散時間ベルマン最適度方程式ではなく,連続時間hjb方程式を解くために,値ネットワークを物理に変形したニューラルネットワーク(pinn)として扱うアルゴリズムを提案する。 実験により,HJB方程式を用いて値ネットワークを更新し,PPOと同一のポリシーネットワークを更新するハイブリッド政治手法が,PDEシステムの制御において最良となることを示す。

This paper proposes an actor-critic algorithm for controlling the temperature of a battery pack using a cooling fluid. This is modeled by a coupled 1D partial differential equation (PDE) with a controlled advection term that determines the speed of the cooling fluid. The Hamilton-Jacobi-Bellman (HJB) equation is a PDE that evaluates the optimality of the value function and determines an optimal controller. We propose an algorithm that treats the value network as a Physics-Informed Neural Network (PINN) to solve for the continuous-time HJB equation rather than a discrete-time Bellman optimality equation, and we derive an optimal controller for the environment that we exploit to achieve optimal control. Our experiments show that a hybrid-policy method that updates the value network using the HJB equation and updates the policy network identically to PPO achieves the best results in the control of this PDE system.
翻訳日:2023-05-19 15:05:27 公開日:2023-05-18
# 少ないデータを増やす:データ拡張を用いた低リソース自動音声認識の改善

Making More of Little Data: Improving Low-Resource Automatic Speech Recognition Using Data Augmentation ( http://arxiv.org/abs/2305.10951v1 )

ライセンス: Link先を確認
Martijn Bartelds and Nay San and Bradley McDonnell and Dan Jurafsky and Martijn Wieling(参考訳) 音声認識システム(ASR)の性能は近年大きく進歩しており、特に大量の転写音声が利用できる言語では顕著である。 残念なことに、少数言語、地域言語、方言などの低リソース言語では、ASRのパフォーマンスは概してはるかに低いままである。 本研究では, タイポロジーに富んだ4つのマイノリティ言語や言語変種(西ゲルマン語: Gronings, West-Frisian, Malayo-Polynesian: Besemah, Nasal)に着目し, 低リソースASRの性能向上に寄与するかどうかを検討する。 これら4言語すべてに対して、利用可能な人書きデータを用いてトレーニングされたASRシステムが転写を生成する自己学習システムを用いて、元のデータと組み合わせて新しいASRシステムを訓練する方法について検討する。 また,既存のテキスト音声(TTS)システムであるGroningsに対しては,テキストのみのソースからASRトレーニングデータを生成するために,TSを用いて検討した。 自己学習アプローチを用いることで、パフォーマンスが向上する(手書き音声の24分でトレーニングされたASRシステムと比較して、相対的なWER削減率は20.5%)。 グローニングにおけるttsの強化による性能向上は、24分間の手動転写音声に基づくシステムと比較して、最大25.5%のwhr低下を示した。 その結果,asr性能を改善するために,データ可用性の限界を克服するための効率的なソリューションとして,自己学習や(可能であれば)tts生成データを使用することの利点が示された。

The performance of automatic speech recognition (ASR) systems has advanced substantially in recent years, particularly for languages for which a large amount of transcribed speech is available. Unfortunately, for low-resource languages, such as minority languages, regional languages or dialects, ASR performance generally remains much lower. In this study, we investigate whether data augmentation techniques could help improve low-resource ASR performance, focusing on four typologically diverse minority languages or language variants (West Germanic: Gronings, West-Frisian; Malayo-Polynesian: Besemah, Nasal). For all four languages, we examine the use of self-training, where an ASR system trained with the available human-transcribed data is used to generate transcriptions, which are then combined with the original data to train a new ASR system. For Gronings, for which there was a pre-existing text-to-speech (TTS) system available, we also examined the use of TTS to generate ASR training data from text-only sources. We find that using a self-training approach consistently yields improved performance (a relative WER reduction up to 20.5% compared to using an ASR system trained on 24 minutes of manually transcribed speech). The performance gain from TTS augmentation for Gronings was even stronger (up to 25.5% relative reduction in WER compared to a system based on 24 minutes of manually transcribed speech). In sum, our results show the benefit of using self-training or (if possible) TTS-generated data as an efficient solution to overcome the limitations of data availability for resource-scarce languages in order to improve ASR performance.
翻訳日:2023-05-19 15:05:09 公開日:2023-05-18
# masked pretraining objectiveのタスク複雑性は下流のパフォーマンスにどのように影響するのか?

How does the task complexity of masked pretraining objectives affect downstream performance? ( http://arxiv.org/abs/2305.10992v1 )

ライセンス: Link先を確認
Atsuki Yamaguchi, Hiroaki Ozaki, Terufumi Morishita, Gaku Morio, Yasuhiro Sogawa(参考訳) masked language modeling (mlm) は広く使用されている自己教師付き事前学習目的であり、モデルが与えられたコンテキストでマスクに置き換えられたオリジナルのトークンを予測する必要がある。 単純で計算効率の良い事前学習目標(例えば、マスクトークンの最初の文字を予測する)は、最近mlmに匹敵する結果を示しているが、マスキングスキームを持つ目的が下流タスクで実際にそれを上回ることはない。 複雑性の欠如が劣化に重要な役割を担っているという仮定により、より複雑なマスクされた目的がより良い結果が得られるかどうかを検証し、MLMと相容れないほどに複雑な処理を行う必要があるかを検討する。 GLUE,SQuAD,Universal Dependenciesのベンチマークによる結果から,より複雑な目的は,MLMと互換性のある処理を行うために必要なMLMの少なくとも半分で,より複雑な結果を示す傾向があることが示された。 最後に、タスク複雑性の観点からマスクされた目的を用いてモデルを事前トレーニングする方法について論じる。

Masked language modeling (MLM) is a widely used self-supervised pretraining objective, where a model needs to predict an original token that is replaced with a mask given contexts. Although simpler and computationally efficient pretraining objectives, e.g., predicting the first character of a masked token, have recently shown comparable results to MLM, no objectives with a masking scheme actually outperform it in downstream tasks. Motivated by the assumption that their lack of complexity plays a vital role in the degradation, we validate whether more complex masked objectives can achieve better results and investigate how much complexity they should have to perform comparably to MLM. Our results using GLUE, SQuAD, and Universal Dependencies benchmarks demonstrate that more complicated objectives tend to show better downstream results with at least half of the MLM complexity needed to perform comparably to MLM. Finally, we discuss how we should pretrain a model using a masked objective from the task complexity perspective.
翻訳日:2023-05-19 14:59:32 公開日:2023-05-18
# より少ない! 最適言語翻訳のためのスリムアーキテクチャ

Less is More! A slim architecture for optimal language translation ( http://arxiv.org/abs/2305.10991v1 )

ライセンス: Link先を確認
Luca Herranz-Celotti, Ermal Rrapaj(参考訳) ソフトマックスアテンションメカニズムは、トランスフォーマーベースのアーキテクチャの成功に基づいて、人工知能研究の分野で注目に値する発展として登場した。 しかし、そのサイズが大きくなると計算メモリが増大し、使用が制限される。 ソフトマックスアテンションと合わせて,アーキテクチャサイズを増大させることなく性能を大幅に向上させるシグモノイドゲーティング機構であるKgVを提案する。 サイズ要件の修正には、Tensor Chainsを使用して過剰なパラメータを識別およびプーンします。 このような余剰は、主に埋め込み層に存在し、出力線形層には存在しないことが分かる。 組込みをさらに改善し,パラメータを大幅に削減するために,階層型組込み層であるh-softposを導入する。 注目すべきは、WMT14の英語-ドイツ語の検証セットにおいて、我々の手法はパープレキシティを3倍に減らし、現在の最先端を越え、パラメータ数を3倍に削減する。 さらに7倍までのパラメータ数を減少させると、ベースライン変換器に関して21倍のパープレキシティの低下が達成できる。 一般化機能を理解するため,WMT17データセットの7つの言語対の実験を行った。 提案手法は,パラメータ数を半減しながら,既存手法よりもテスト損失の点で優れている。 さらに,従来の最先端技術に対する分散の70倍の減少を観測した。 その結果,提案手法は性能が大幅に向上し,メモリコストが大幅に低減した。 アーキテクチャの結果をAntheと呼びます。

The softmax attention mechanism has emerged as a noteworthy development in the field of Artificial Intelligence research, building on the successes of Transformer-based architectures. However, their ever increasing sizes necessitate ever increasing computational memory, that limits their usage. We propose KgV, a sigmoid gating mechanism that, in conjunction with softmax attention, significantly boosts performance without increasing architecture size. To amend the size requirements, we leverage Tensor Chains to identify and prune the excess parameters. We find that such excess resides primarily within the embedding layer, and not in the output linear layer. To further improve embedding and significantly reduce parameters, we introduce H-SoftPOS, a hierarchical embedding layer which simultaneously enhances performance. Remarkably, on the WMT14 English-German validation set, our approach yields a threefold reduction in perplexity, surpassing the current state-of-the-art, while reducing parameter counts also by a factor of 3. When we further reduce the number of parameters up to sevenfold, we can still achieve a 21\% decrease in perplexity with respect to the baseline Transformer. To understand generalization capabilities, we conduct experiments on the 7 language pairs of the WMT17 dataset. Our method outperforms existing techniques in terms of test loss while simultaneously halving the number of parameters. Moreover, we observe a 70 times reduction in variance with respect to the prior state-of-the-art. In conclusion, our proposed method yields significant improvements in performance and much lower memory cost. We call the resulting architecture Anthe.
翻訳日:2023-05-19 14:59:11 公開日:2023-05-18
# SPENSER:畳み込みニューラルネットワークのための神経進化的アプローチ

SPENSER: Towards a NeuroEvolutionary Approach for Convolutional Spiking Neural Networks ( http://arxiv.org/abs/2305.10987v1 )

ライセンス: Link先を確認
Henrique Branquinho, Nuno Louren\c{c}o, Ernesto Costa(参考訳) スパイキングニューラルネットワーク(SNN)は、そのエネルギー効率と生物学的妥当性から近年関心を集めている。 しかしながら、SNNのパフォーマンスは、SNNの最良の学習アルゴリズムに関するコンセンサスがないため、従来のニューラルネットワーク(ANN)よりも遅れている。 最高のパフォーマンスのSNNは、ANNからSNNへの変換や、代理勾配によるスパイクベースのバックプロパゲーションによる学習に基づいている。 近年の研究では、手作業によるアーキテクチャやパラメータチューニングなど、さまざまな学習戦略の開発とテストに焦点が当てられている。 Neuroevolution(NE)は、ANNを自動設計し、パラメータをチューニングする方法として成功したが、SNNへの応用はまだ初期段階にある。 DENSERは、遺伝的アルゴリズム(GA)と構造化文法進化(SGE)の原理に基づく、ANNの自動設計とパラメトリゼーションのためのNEフレームワークである。 本稿では、DENSERに基づくSNN生成のためのNEフレームワークであるSPENSERを提案し、MNISTデータセットとFashion-MNISTデータセットの画像分類を行う。 SPENSERは、それぞれ99.42%と91.65%の精度で競合するパフォーマンスネットワークを生成する。

Spiking Neural Networks (SNNs) have attracted recent interest due to their energy efficiency and biological plausibility. However, the performance of SNNs still lags behind traditional Artificial Neural Networks (ANNs), as there is no consensus on the best learning algorithm for SNNs. Best-performing SNNs are based on ANN to SNN conversion or learning with spike-based backpropagation through surrogate gradients. The focus of recent research has been on developing and testing different learning strategies, with hand-tailored architectures and parameter tuning. Neuroevolution (NE), has proven successful as a way to automatically design ANNs and tune parameters, but its applications to SNNs are still at an early stage. DENSER is a NE framework for the automatic design and parametrization of ANNs, based on the principles of Genetic Algorithms (GA) and Structured Grammatical Evolution (SGE). In this paper, we propose SPENSER, a NE framework for SNN generation based on DENSER, for image classification on the MNIST and Fashion-MNIST datasets. SPENSER generates competitive performing networks with a test accuracy of 99.42% and 91.65% respectively.
翻訳日:2023-05-19 14:58:46 公開日:2023-05-18
# 関係抽出のための多言語マルチドメインデータセットのマルチクロス

Multi-CrossRE A Multi-Lingual Multi-Domain Dataset for Relation Extraction ( http://arxiv.org/abs/2305.10985v1 )

ライセンス: Link先を確認
Elisa Bassignana, Filip Ginter, Sampo Pyysalo, Rob van der Goot, and Barbara Plank(参考訳) リレーショナル抽出(RE)のほとんどの研究は、主に多言語資源の欠如による英語に関するものである。 提案するMulti-CrossREは、英語に加えて26言語を含むRE用多言語データセットで、6つのテキストドメインをカバーする。 Multi-CrossRE は、CrossRE (Bassignana and Plank, 2022) の機械翻訳版で、ネイティブスピーカーがチェックした7つの多様な言語で200以上の文を含むサブポートがある。 我々は26の新しいデータセット上でベースラインモデルを実行し、26のバックトランスレーションを英語にチェックアウトします。 裏書きされたデータの結果は、元の英語のCrossREのデータと一致しており、翻訳の質の高さと結果のデータセットを示している。

Most research in Relation Extraction (RE) involves the English language, mainly due to the lack of multi-lingual resources. We propose Multi-CrossRE, the broadest multi-lingual dataset for RE, including 26 languages in addition to English, and covering six text domains. Multi-CrossRE is a machine translated version of CrossRE (Bassignana and Plank, 2022), with a sub-portion including more than 200 sentences in seven diverse languages checked by native speakers. We run a baseline model over the 26 new datasets and--as sanity check--over the 26 back-translations to English. Results on the back-translated data are consistent with the ones on the original English CrossRE, indicating high quality of the translation and the resulting dataset.
翻訳日:2023-05-19 14:58:27 公開日:2023-05-18
# Assessor360:ブラインド全方位画像品質評価のためのマルチシーケンスネットワーク

Assessor360: Multi-sequence Network for Blind Omnidirectional Image Quality Assessment ( http://arxiv.org/abs/2305.10983v1 )

ライセンス: Link先を確認
Tianhe Wu, Shuwei Shi, Haoming Cai, Mingdeng Cao, Jing Xiao, Yinqiang Zheng, Yujiu Yang(参考訳) blind omnidirectional image quality assessment (boiqa) は、人間による全方位画像(odis)の知覚的品質を客観的に評価することを目的としている。 vr(virtual reality, vr)技術の進歩とともに、ますます重要になっている。 しかし,ODIの品質評価は,既存のBOIQAパイプラインがオブザーバのブラウジングプロセスのモデリングを欠いているという事実によって著しく妨げられている。 そこで本研究では,現実的なODI品質評価手法に基づくBOIQAのマルチシーケンスネットワークAssessor360を提案する。 具体的には、BOIQAタスクに対する一般化された再帰確率サンプリング(RPS)手法を提案し、コンテンツと詳細な情報を組み合わせて、与えられた開始点から複数の擬似ビューポートシーケンスを生成する。 さらに,マルチスケール機能集約(mfa)モジュールの設計を行い,各ビューポートの歪みや意味的特徴を融合させる。 また、時間領域におけるビューポート遷移を学習するためにTMMを考案する。 大規模な実験結果から、Assessor360は複数のOIQAデータセット上で最先端の手法より優れていることが示された。

Blind Omnidirectional Image Quality Assessment (BOIQA) aims to objectively assess the human perceptual quality of omnidirectional images (ODIs) without relying on pristine-quality image information. It is becoming more significant with the increasing advancement of virtual reality (VR) technology. However, the quality assessment of ODIs is severely hampered by the fact that the existing BOIQA pipeline lacks the modeling of the observer's browsing process. To tackle this issue, we propose a novel multi-sequence network for BOIQA called Assessor360, which is derived from the realistic multi-assessor ODI quality assessment procedure. Specifically, we propose a generalized Recursive Probability Sampling (RPS) method for the BOIQA task, combining content and detailed information to generate multiple pseudo viewport sequences from a given starting point. Additionally, we design a Multi-scale Feature Aggregation (MFA) module with Distortion-aware Block (DAB) to fuse distorted and semantic features of each viewport. We also devise TMM to learn the viewport transition in the temporal domain. Extensive experimental results demonstrate that Assessor360 outperforms state-of-the-art methods on multiple OIQA datasets.
翻訳日:2023-05-19 14:58:10 公開日:2023-05-18
# 環境不均一性を考慮したフェデレーション政策最適化のためのクライアント選択

Client Selection for Federated Policy Optimization with Environment Heterogeneity ( http://arxiv.org/abs/2305.10978v1 )

ライセンス: Link先を確認
Zhijie Xie, S.H. Song(参考訳) 政策反復(PI)の開発は、様々なタスクにおいて理論的健全性と経験的成功の両方を得たいくつかの政策勾配法を含む、近年の強化学習(RL)のための多くのアルゴリズムにインスピレーションを与えている。 PIの理論は中央集権学習の文脈に富んでいるが、その研究はいまだに連邦環境下で幼児期にある。 本稿では, 環境不均一性による近似誤差を考慮して, 近似PI (API) のフェデレーションバージョンについて検討し, 誤差境界を導出する。 理論的には、適切なクライアント選択方式により、このエラー境界を低減できる。 理論的結果に基づいて,環境の不均一性に起因する追加近似誤差を緩和するクライアント選択アルゴリズムを提案する。 実験の結果,提案アルゴリズムは,人口分布から低レベルの不均一性を有するクライアントを効果的に選択することにより,他の偏りや偏りのないクライアント選択方法よりも優れていることがわかった。

The development of Policy Iteration (PI) has inspired many recent algorithms for Reinforcement Learning (RL), including several policy gradient methods, that gained both theoretical soundness and empirical success on a variety of tasks. The theory of PI is rich in the context of centralized learning, but its study is still in the infant stage under the federated setting. This paper explores the federated version of Approximate PI (API) and derives its error bound, taking into account the approximation error introduced by environment heterogeneity. We theoretically prove that a proper client selection scheme can reduce this error bound. Based on the theoretical result, we propose a client selection algorithm to alleviate the additional approximation error caused by environment heterogeneity. Experiment results show that the proposed algorithm outperforms other biased and unbiased client selection methods on the federated mountain car problem by effectively selecting clients with a lower level of heterogeneity from the population distribution.
翻訳日:2023-05-19 14:57:50 公開日:2023-05-18
# 物理ノイズレス線形増幅器を用いた長距離連続可変量子鍵分布

Long-distance continuous-variable quantum key distribution with feasible physical noiseless linear amplifiers ( http://arxiv.org/abs/2305.10976v1 )

ライセンス: Link先を確認
Michele N. Notarnicola and Stefano Olivares(参考訳) ノイズレス線形増幅器(NLA)は、非単位整合効率の現実的なセットアップの存在下で、長距離連続可変量子鍵分布(CV-QKD)を実現する強力なツールを提供する。 現実的な物理NLA、すなわち量子ハサミ(QS)と単光子触媒(SPC)を用いて実装されたNLA支援CV-QKDプロトコルに対処し、その性能を理想的NLA$g^{\hat{n}}$と比較する。 また、非効率な条件検出に対する2つのスキームの堅牢性についても検討し、NLAに関連する利得が固定または最適化される2つの代替シナリオについて考察する。

Noiseless linear amplifiers (NLAs) provide a powerful tool to achieve long-distance continuous-variable quantum key distribution (CV-QKD) in the presence of realistic setups with non unit reconciliation efficiency. We address a NLA-assisted CV-QKD protocol implemented via realistic physical NLAs, namely, quantum scissors (QS) and single-photon catalysis (SPC), and compare their performance with respect to the ideal NLA $g^{\hat{n}}$. We investigate also the robustness of two schemes against inefficient conditional detection, and discuss the two alternative scenarios in which the gain associated with the NLA is either fixed or optimized.
翻訳日:2023-05-19 14:57:32 公開日:2023-05-18
# 眼トキソプラズマ症自動診断のためのDeep Learning Frameworkのベンチマーク:分類とセグメンテーションへの包括的アプローチ

Benchmarking Deep Learning Frameworks for Automated Diagnosis of Ocular Toxoplasmosis: A Comprehensive Approach to Classification and Segmentation ( http://arxiv.org/abs/2305.10975v1 )

ライセンス: Link先を確認
Syed Samiul Alam, Samiul Based Shuvo, Shams Nafisa Ali, Fardeen Ahmed, Arbil Chakma, Yeong Min Jang(参考訳) 眼トキソプラズマ症(ocular toxoplasmosis、ot)は、t. gondiiによって引き起こされる一般的な眼感染症である。 診断は通常臨床検査と画像検査によって行われるが、これらの手法は複雑でコストがかかるため、訓練された人員を必要とする。 そこで本研究では,眼底画像からotを検出するトランスファー学習手法を用いて,既存の事前学習ネットワークの有効性を評価するベンチマーク研究を行った。 さらに,画像中の部分的病変に対するトランスファーラーニングに基づくセグメンテーションネットワークの性能も分析した。 本研究は、DL技術を活用し、安価で自動化され、使いやすく、正確な診断方法を開発しようとしている将来の研究者のためのガイドを提供する。 我々は,OT分類と病変の分節化に最適な方法を見つけるために,異なる特徴抽出手法の詳細な解析を行った。 分類タスクでは,VGG16,MobileNetV2,InceptionV3,ResNet50,DenseNet121などの事前学習モデルの評価を行った。 中でもmobilenetv2は、精度(acc)、リコール、f1スコアにおいて、第2のベストモデルであるinceptionv3を0.7%高いaccで上回った。 しかし、DenseNet121は、MobileNetv2よりも0.1%高い精度で最高の結果を得た。 セグメンテーションタスクでは、この作業はU-Netアーキテクチャを活用している。 従来のU-NetのエンコーダブロックをMobileNetV2, InceptionV3, ResNet34, VGG16に置き換えて, 2つの異なる損失関数(Dice Los, Jaccard Los)を2つに分けて評価した。 MobileNetV2/U-Netは、トレーニング中にJaccard損失関数が採用されたとき、それぞれAccとDice Scoreの2.1%でResNet34を0.5%上回った。

Ocular Toxoplasmosis (OT), is a common eye infection caused by T. gondii that can cause vision problems. Diagnosis is typically done through a clinical examination and imaging, but these methods can be complicated and costly, requiring trained personnel. To address this issue, we have created a benchmark study that evaluates the effectiveness of existing pre-trained networks using transfer learning techniques to detect OT from fundus images. Furthermore, we have also analysed the performance of transfer-learning based segmentation networks to segment lesions in the images. This research seeks to provide a guide for future researchers looking to utilise DL techniques and develop a cheap, automated, easy-to-use, and accurate diagnostic method. We have performed in-depth analysis of different feature extraction techniques in order to find the most optimal one for OT classification and segmentation of lesions. For classification tasks, we have evaluated pre-trained models such as VGG16, MobileNetV2, InceptionV3, ResNet50, and DenseNet121 models. Among them, MobileNetV2 outperformed all other models in terms of Accuracy (Acc), Recall, and F1 Score outperforming the second-best model, InceptionV3 by 0.7% higher Acc. However, DenseNet121 achieved the best result in terms of Precision, which was 0.1% higher than MobileNetv2. For the segmentation task, this work has exploited U-Net architecture. In order to utilize transfer learning the encoder block of the traditional U-Net was replaced by MobileNetV2, InceptionV3, ResNet34, and VGG16 to evaluate different architectures moreover two different two different loss functions (Dice loss and Jaccard loss) were exploited in order to find the most optimal one. The MobileNetV2/U-Net outperformed ResNet34 by 0.5% and 2.1% in terms of Acc and Dice Score, respectively when Jaccard loss function is employed during the training.
翻訳日:2023-05-19 14:57:19 公開日:2023-05-18
# MonoTDP: 逆シーンにおける単眼3次元物体検出のための双発深度知覚

MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in Adverse Scenes ( http://arxiv.org/abs/2305.10974v1 )

ライセンス: Link先を確認
Xingyuan Li and Jingyuan Liu and Yixin Lei and Long Ma and Xin Fan and Risheng Liu(参考訳) 3次元物体検出は、多数の知的視覚システムにおいて重要な役割を果たす。 開けた世界での検知は、濃霧、豪雨、低照度といった様々な有害な場面に必然的に遭遇する。 既存の取り組みは主にネットワークアーキテクチャやトレーニングスキームの多様化に重点を置いており、3Dオブジェクト検出の大幅な進歩をもたらしたが、これらの学習可能なモジュールのほとんどは、悪い場面で失敗し、検出性能を損なう。 この問題に対処するため, 各環境における検出性能の劣化を効果的に軽減するモノTDP(MonoTDP)と呼ばれる, 二重深度を知覚するモノクル3次元検出モデルを提案する。 具体的には, 種々の劣化要因による劣化に著しく抵抗し, 制御不能な気象条件の対処を支援する適応学習戦略を提案する。 そこで本研究では,シーンとオブジェクトの深さを同時に推定し,シーンレベルの特徴とオブジェクトレベルの特徴の統合を可能にする,新しいツイン深度知覚モジュールを提案する。 さらに, 降雨, 霧, 低照度条件など, 幅広い難易度場面を包含する新たな有害な3次元物体検出データセットを, 7,481画像を含む各場面で構築した。 実験結果から,提案手法は様々な環境における自動車カテゴリーのAP_R40を平均3.12%向上させることがわかった。

3D object detection plays a crucial role in numerous intelligent vision systems. Detection in the open world inevitably encounters various adverse scenes, such as dense fog, heavy rain, and low light conditions. Although existing efforts primarily focus on diversifying network architecture or training schemes, resulting in significant progress in 3D object detection, most of these learnable modules fail in adverse scenes, thereby hindering detection performance. To address this issue, this paper proposes a monocular 3D detection model designed to perceive twin depth in adverse scenes, termed MonoTDP, which effectively mitigates the degradation of detection performance in various harsh environments. Specifically, we first introduce an adaptive learning strategy to aid the model in handling uncontrollable weather conditions, significantly resisting degradation caused by various degrading factors. Then, to address the depth/content loss in adverse regions, we propose a novel twin depth perception module that simultaneously estimates scene and object depth, enabling the integration of scene-level features and object-level features. Additionally, we assemble a new adverse 3D object detection dataset encompassing a wide range of challenging scenes, including rainy, foggy, and low light weather conditions, with each type of scene containing 7,481 images. Experimental results demonstrate that our proposed method outperforms current state-of-the-art approaches by an average of 3.12% in terms of AP_R40 for car category across various adverse environments.
翻訳日:2023-05-19 14:56:44 公開日:2023-05-18
# Drag Your GAN: 生成画像上の対話的ポイントベース操作

Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold ( http://arxiv.org/abs/2305.10973v1 )

ライセンス: Link先を確認
Xingang Pan, Ayush Tewari, Thomas Leimk\"uhler, Lingjie Liu, Abhimitra Meka, Christian Theobalt(参考訳) ユーザのニーズを満たすビジュアルコンテンツを合成するには、しばしば、生成されたオブジェクトのポーズ、形状、表現、レイアウトを柔軟かつ正確に制御する必要がある。 既存のアプローチは、手動でアノテートしたトレーニングデータや、しばしば柔軟性、精度、一般化に欠ける3Dモデルを介して、GAN(Generative Adversarial Network)の制御性を得る。 本研究では,図1に示すように,画像の任意の点を正確に目標点に到達させるために,画像の任意の点を「ドラッグ」する,強力なGANの制御方法について検討する。 そこで本研究では,2つの主要コンポーネントからなるDragGANを提案する。 1)ハンドルポイントを目標位置に向かって移動させる機能ベースの運動監督装置、及び 2) 識別ジェネレータ機能を活用した新たなポイントトラッキングアプローチは,ハンドルポイントの位置の局所化を継続する。 dragganを使えば、誰でもピクセルの行き先を正確にコントロールして画像を変形できるので、動物、車、人間、風景などさまざまなカテゴリーのポーズ、形、表現、レイアウトを操作できる。 これらの操作はganの学習された生成画像多様体上で行われるため、被写体の内容の幻覚や物体の剛性に一貫して従うような変形といった困難なシナリオにおいても現実的な出力を生成する傾向がある。 定性的かつ定量的な比較は、画像操作や点追跡のタスクにおいて、以前のアプローチよりもDragGANの利点を示している。 GANインバージョンによる実画像の操作についても紹介する。

Synthesizing visual content that meets users' needs often requires flexible and precise controllability of the pose, shape, expression, and layout of the generated objects. Existing approaches gain controllability of generative adversarial networks (GANs) via manually annotated training data or a prior 3D model, which often lack flexibility, precision, and generality. In this work, we study a powerful yet much less explored way of controlling GANs, that is, to "drag" any points of the image to precisely reach target points in a user-interactive manner, as shown in Fig.1. To achieve this, we propose DragGAN, which consists of two main components: 1) a feature-based motion supervision that drives the handle point to move towards the target position, and 2) a new point tracking approach that leverages the discriminative generator features to keep localizing the position of the handle points. Through DragGAN, anyone can deform an image with precise control over where pixels go, thus manipulating the pose, shape, expression, and layout of diverse categories such as animals, cars, humans, landscapes, etc. As these manipulations are performed on the learned generative image manifold of a GAN, they tend to produce realistic outputs even for challenging scenarios such as hallucinating occluded content and deforming shapes that consistently follow the object's rigidity. Both qualitative and quantitative comparisons demonstrate the advantage of DragGAN over prior approaches in the tasks of image manipulation and point tracking. We also showcase the manipulation of real images through GAN inversion.
翻訳日:2023-05-19 14:56:19 公開日:2023-05-18
# FunASR: エンドツーエンド音声認識ツールキット

FunASR: A Fundamental End-to-End Speech Recognition Toolkit ( http://arxiv.org/abs/2305.11013v1 )

ライセンス: Link先を確認
Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Zhangyu Xiao, Shiliang Zhang(参考訳) 本稿では,学術研究と産業応用のギャップを埋めるためのオープンソースの音声認識ツールキットであるFunASRを紹介する。 funasrは大規模産業コーパスで訓練されたモデルを提供し、それらをアプリケーションにデプロイする機能を提供する。 ツールキットのフラッグシップモデルであるParaformerは、自動回帰的なエンドツーエンド音声認識モデルであり、6万時間の音声を含む手動注釈付きマンダリン音声認識データセットで訓練されている。 Paraformerの性能を改善するために、標準のParaformerバックボーンにタイムスタンプ予測とホットワードカスタマイズ機能を追加しました。 さらに,モデル展開を容易にするために,feedforward sequential memory network (fsmn-vad) に基づく音声活動検出モデルと,産業用コーパスを用いた制御可能なtime-delay transformer (ct-transformer) に基づくテキスト後処理句読点モデルをオープンソース化した。 これらの機能モジュールは、高精度の長い音声音声認識サービスを構築するための確かな基盤を提供する。 オープンデータセットでトレーニングされた他のモデルと比較して、Paraformerは優れたパフォーマンスを示している。

This paper introduces FunASR, an open-source speech recognition toolkit designed to bridge the gap between academic research and industrial applications. FunASR offers models trained on large-scale industrial corpora and the ability to deploy them in applications. The toolkit's flagship model, Paraformer, is a non-autoregressive end-to-end speech recognition model that has been trained on a manually annotated Mandarin speech recognition dataset that contains 60,000 hours of speech. To improve the performance of Paraformer, we have added timestamp prediction and hotword customization capabilities to the standard Paraformer backbone. In addition, to facilitate model deployment, we have open-sourced a voice activity detection model based on the Feedforward Sequential Memory Network (FSMN-VAD) and a text post-processing punctuation model based on the controllable time-delay Transformer (CT-Transformer), both of which were trained on industrial corpora. These functional modules provide a solid foundation for building high-precision long audio speech recognition services. Compared to other models trained on open datasets, Paraformer demonstrates superior performance.
翻訳日:2023-05-19 14:48:43 公開日:2023-05-18
# SDC-UDA: Slice-Direction Continuous Cross-Modality Medical Image Segmentationのためのボリューム非教師付きドメイン適応フレームワーク

SDC-UDA: Volumetric Unsupervised Domain Adaptation Framework for Slice-Direction Continuous Cross-Modality Medical Image Segmentation ( http://arxiv.org/abs/2305.11012v1 )

ライセンス: Link先を確認
Hyungseob Shin, Hyeongyu Kim, Sewon Kim, Yohan Jun, Taejoon Eo, Dosik Hwang(参考訳) 深層学習に基づく医用画像分割研究の最近の進歩は、ほぼ人間レベルの性能を全監督的に達成している。 しかし, 医用画像の分野では, ピクセルレベルの専門家アノテーションの取得は非常に高価であり, 手間がかかる。 教師なし領域適応(UDA)は、この問題を緩和できるため、1つの画像モダリティで注釈付きデータを使用することで、ラベルなしでターゲット画像モダリティのセグメンテーションをうまく行うことができるネットワークを訓練することができる。 本研究では,sdc-udaを提案する。sdc-udaは,スライス方向連続クロスモダリティ医療画像セグメンテーションのための,単純かつ効果的なボリュームトリビュートudaフレームワークである。 本手法は, 医用画像分割法において, スライス方向の連続セグメンテーションを達成でき, 臨床実習における精度と可能性を確保するために, 従来のUDA法と区別される。 sdc-udaを複数の医療画像セグメンテーションデータセットで検証し,先行研究よりも優れたスライス指向連続性に留意しつつ,最先端セグメンテーション性能を実現する。

Recent advances in deep learning-based medical image segmentation studies achieve nearly human-level performance in fully supervised manner. However, acquiring pixel-level expert annotations is extremely expensive and laborious in medical imaging fields. Unsupervised domain adaptation (UDA) can alleviate this problem, which makes it possible to use annotated data in one imaging modality to train a network that can successfully perform segmentation on target imaging modality with no labels. In this work, we propose SDC-UDA, a simple yet effective volumetric UDA framework for slice-direction continuous cross-modality medical image segmentation which combines intra- and inter-slice self-attentive image translation, uncertainty-constrained pseudo-label refinement, and volumetric self-training. Our method is distinguished from previous methods on UDA for medical image segmentation in that it can obtain continuous segmentation in the slice direction, thereby ensuring higher accuracy and potential in clinical practice. We validate SDC-UDA with multiple publicly available cross-modality medical image segmentation datasets and achieve state-of-the-art segmentation performance, not to mention the superior slice-direction continuity of prediction compared to previous studies.
翻訳日:2023-05-19 14:48:21 公開日:2023-05-18
# オークションデザインにおけるモード接続性

Mode Connectivity in Auction Design ( http://arxiv.org/abs/2305.11005v1 )

ライセンス: Link先を確認
Christoph Hertrich, Yixin Tao, L\'aszl\'o A. V\'egh(参考訳) 最適オークション設計はアルゴリズムゲーム理論の基本的な問題である。 この問題は、非常に単純な設定ですでに難しいことで知られている。 微分経済学における最近の研究は、ニューラルネットワークが既知の最適なオークションメカニズムを効率的に学習し、興味深い新しいものを発見することができることを示した。 理論的に彼らの経験的成功を正当化するために、最初のネットワークであるRochetNetとアフィン最大値オークションの一般化バージョンに焦点を当てる。 すなわち、局所最適解は、その経路上のすべての解が2つの局所最適解のうちの1つとほぼ等しくなるような、単純かつ断片的な線形経路で連結される。 近年、予測問題に用いられるニューラルネットワークの興味深い経験的・理論的正当性として、モード接続が研究されている。 本研究は,非凸最適化問題を解くためにニューラルネットワークを直接使用する,微分可能経済学の文脈において,このような解析を初めて行った。

Optimal auction design is a fundamental problem in algorithmic game theory. This problem is notoriously difficult already in very simple settings. Recent work in differentiable economics showed that neural networks can efficiently learn known optimal auction mechanisms and discover interesting new ones. In an attempt to theoretically justify their empirical success, we focus on one of the first such networks, RochetNet, and a generalized version for affine maximizer auctions. We prove that they satisfy mode connectivity, i.e., locally optimal solutions are connected by a simple, piecewise linear path such that every solution on the path is almost as good as one of the two local optima. Mode connectivity has been recently investigated as an intriguing empirical and theoretically justifiable property of neural networks used for prediction problems. Our results give the first such analysis in the context of differentiable economics, where neural networks are used directly for solving non-convex optimization problems.
翻訳日:2023-05-19 14:47:54 公開日:2023-05-18
# 確率スコアを用いたボックス埋め込みによる分類補完

Taxonomy Completion with Probabilistic Scorer via Box Embedding ( http://arxiv.org/abs/2305.11004v1 )

ライセンス: Link先を確認
Wei Xue, Yongliang Shen, Wenqi Ren, Jietian Guo, Siliang Pu, Weiming Lu(参考訳) 既存の分類を新しい概念で自動的に強化するタスクである分類完成は、近年、大きな関心を集めている。 以前は複雑なモジュール、外部情報、擬似リーブを導入し、表現を充実させ、アタッチメントと挿入のマッチングプロセスを統一した。 成績は良好だが、これらの導入はトレーニングやスコアリングにノイズや不公平をもたらした可能性がある。 本稿では,分類概念をボックス埋め込みにマッピングし,擬似リーブの必要性を回避するために2つの確率的スコアラを用いた分類完成のための新しいフレームワークであるTaxBoxを提案する。 Specifically, TaxBox consists of three components: (1) a graph aggregation module to leverage the structural information of the taxonomy and two lightweight decoders that map features to box embedding and capture complex relationships between concepts; (2) two probabilistic scorers that correspond to attachment and insertion operations and ensure the avoidance of pseudo-leaves; and (3) three learning objectives that assist the model in mapping concepts more granularly onto the box embedding space. 4つの実世界のデータセットでの実験的結果は、taxboxがベースラインメソッドをかなり上回っており、以前の最先端メソッドをある程度上回っていることを示唆している。

Taxonomy completion, a task aimed at automatically enriching an existing taxonomy with new concepts, has gained significant interest in recent years. Previous works have introduced complex modules, external information, and pseudo-leaves to enrich the representation and unify the matching process of attachment and insertion. While they have achieved good performance, these introductions may have brought noise and unfairness during training and scoring. In this paper, we present TaxBox, a novel framework for taxonomy completion that maps taxonomy concepts to box embeddings and employs two probabilistic scorers for concept attachment and insertion, avoiding the need for pseudo-leaves. Specifically, TaxBox consists of three components: (1) a graph aggregation module to leverage the structural information of the taxonomy and two lightweight decoders that map features to box embedding and capture complex relationships between concepts; (2) two probabilistic scorers that correspond to attachment and insertion operations and ensure the avoidance of pseudo-leaves; and (3) three learning objectives that assist the model in mapping concepts more granularly onto the box embedding space. Experimental results on four real-world datasets suggest that TaxBox outperforms baseline methods by a considerable margin and surpasses previous state-of-art methods to a certain extent.
翻訳日:2023-05-19 14:47:40 公開日:2023-05-18
# SAM-based Pseudo Labeling と Multi-scale Feature Grouping を用いた弱教師付き物体分割

Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping ( http://arxiv.org/abs/2305.11003v1 )

ライセンス: Link先を確認
Chunming He and Kai Li and Yachao Zhang and Guoxia Xu and Longxiang Tang and Yulun Zhang and Zhenhua Guo and Xiu Li(参考訳) Wakly-Supervised Concealed Object Segmentation (WSCOS) は、オブジェクトを周囲の環境とよく混ざり合うように分割することを目的としている。 本研究は,(1)本質的な類似性から隠蔽対象を背景から区別することは困難であり,(2)微少に注釈付けされたトレーニングデータは,モデル学習の弱さにのみ寄与する。 本稿では,この2つの課題に対処する新しいWSCOS手法を提案する。 固有類似性問題に対処するために、まず異なる粒度で特徴をグループ化し、その結果を集約するマルチスケール機能グループ化モジュールを設計する。 同様の機能をグループ化することで、セグメンテーションコヒーレンスを促進し、単一および複数オブジェクトイメージの完全なセグメンテーション結果を得るのに役立つ。 近年提案されているビジョンファウンデーションモデルであるSegment Anything Model(SAM)を活用し,提案したスパースアノテーションをモデルのトレーニングに用いるセグメンテーションマスクを生成するプロンプトとして利用する。 低品質セグメンテーションマスクの影響を軽減するため,マルチ強化結果アンサンブル,エントロピーに基づく画素レベルの重み付け,エントロピーに基づく画像レベルの選択など,一連の戦略を提案する。 これらの戦略は、セグメンテーションモデルをトレーニングするためのより信頼性の高い監視を提供するのに役立つ。 提案手法が様々なwscosタスクにおいて有効であることを検証し,その効果を実証する実験を行った。

Weakly-Supervised Concealed Object Segmentation (WSCOS) aims to segment objects well blended with surrounding environments using sparsely-annotated data for model training. It remains a challenging task since (1) it is hard to distinguish concealed objects from the background due to the intrinsic similarity and (2) the sparsely-annotated training data only provide weak supervision for model learning. In this paper, we propose a new WSCOS method to address these two challenges. To tackle the intrinsic similarity challenge, we design a multi-scale feature grouping module that first groups features at different granularities and then aggregates these grouping results. By grouping similar features together, it encourages segmentation coherence, helping obtain complete segmentation results for both single and multiple-object images. For the weak supervision challenge, we utilize the recently-proposed vision foundation model, Segment Anything Model (SAM), and use the provided sparse annotations as prompts to generate segmentation masks, which are used to train the model. To alleviate the impact of low-quality segmentation masks, we further propose a series of strategies, including multi-augmentation result ensemble, entropy-based pixel-level weighting, and entropy-based image-level selection. These strategies help provide more reliable supervision to train the segmentation model. We verify the effectiveness of our method on various WSCOS tasks, and experiments demonstrate that our method achieves state-of-the-art performance on these tasks.
翻訳日:2023-05-19 14:47:22 公開日:2023-05-18
# ガウス過程を用いた非線形性を持つ動的項構造モデル

Dynamic Term Structure Models with Nonlinearities using Gaussian Processes ( http://arxiv.org/abs/2305.11001v1 )

ライセンス: Link先を確認
Tomasz Dubiel-Teleszynski, Konstantinos Kalogeropoulos, Nikolaos Karouzakis(参考訳) 動的項構造モデルにおける非スパンドマクロ経済変数の重要性は文献で議論されている。 我々の知る限り、初期の研究では、DTSMにおける経済と実際の金利のダイナミクスの間の線形相互作用のみを検討した。 そこで本研究では,ガウス型dtsmsの一般化したモデル構成を提案し,この2つの非線形関係を予測に活用する。 具体的には,モデル非線形性に先立ってガウス過程を導入するカスタム・シーケンシャルモンテカルロ推定予測スキームを構築する。 提案する逐次的手法は、動的ポートフォリオ最適化と併用して、投資家が生み出す経済価値の可能性を評価することもできる。 この方法論は米国財務省のデータと選択したマクロ経済指標を用いて提示される。 すなわち、コアインフレと実際の経済活動に注目します。 非線形モデルから得られた結果と線形モデルの適用による結果との対比を行った。 実際の経済活動とは異なり、コアインフレーションの場合、線形モデルと比較して、非線形モデルの適用は、考慮された成熟度全体にわたる経済的価値の統計的に有意な上昇をもたらす。

The importance of unspanned macroeconomic variables for Dynamic Term Structure Models has been intensively discussed in the literature. To our best knowledge the earlier studies considered only linear interactions between the economy and the real-world dynamics of interest rates in DTSMs. We propose a generalized modelling setup for Gaussian DTSMs which allows for unspanned nonlinear associations between the two and we exploit it in forecasting. Specifically, we construct a custom sequential Monte Carlo estimation and forecasting scheme where we introduce Gaussian Process priors to model nonlinearities. Sequential scheme we propose can also be used with dynamic portfolio optimization to assess the potential of generated economic value to investors. The methodology is presented using US Treasury data and selected macroeconomic indices. Namely, we look at core inflation and real economic activity. We contrast the results obtained from the nonlinear model with those stemming from an application of a linear model. Unlike for real economic activity, in case of core inflation we find that, compared to linear models, application of nonlinear models leads to statistically significant gains in economic value across considered maturities.
翻訳日:2023-05-19 14:46:53 公開日:2023-05-18
# SpeechGPT:本質的な対話能力を持つ大規模言語モデル

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities ( http://arxiv.org/abs/2305.11000v1 )

ライセンス: Link先を確認
Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu(参考訳) マルチモーダルな大言語モデルは、人工知能(AGI)の重要なステップと見なされ、ChatGPTの出現に大きく関心を寄せている。 しかし、現在の音声言語モデルは典型的にはカスケードパラダイムを採用し、モーダル間知識伝達を防ぐ。 本稿では,マルチモデルコンテンツを認識・生成可能な,本質的なクロスモーダルな対話能力を持つ大規模言語モデルであるSpeechGPTを提案する。 まず、離散音声表現を用いて、大規模モーダル音声命令データセットであるSpeechInstructを構築する。 さらに,モダリティ適応事前学習,クロスモーダル命令微調整,チェーン・オブ・モダリティ命令微調整を含む3段階の訓練戦略を採用した。 実験の結果,speechgptはマルチモーダルヒューマンインストラクションを追従し,複数のモーダリティを1つのモデルで扱う可能性を強調できることがわかった。 デモはhttps://0nutation.github.io/speechgpt.github.io/で表示される。

Multi-modal large language models are regarded as a crucial step towards Artificial General Intelligence (AGI) and have garnered significant interest with the emergence of ChatGPT. However, current speech-language models typically adopt the cascade paradigm, preventing inter-modal knowledge transfer. In this paper, we propose SpeechGPT, a large language model with intrinsic cross-modal conversational abilities, capable of perceiving and generating multi-model content. With discrete speech representations, we first construct SpeechInstruct, a large-scale cross-modal speech instruction dataset. Additionally, we employ a three-stage training strategy that includes modality-adaptation pre-training, cross-modal instruction fine-tuning, and chain-of-modality instruction fine-tuning. The experimental results demonstrate that SpeechGPT has an impressive capacity to follow multi-modal human instructions and highlight the potential of handling multiple modalities with one model. Demos are shown in https://0nutation.github.io/SpeechGPT.github.io/.
翻訳日:2023-05-19 14:46:37 公開日:2023-05-18
# Webは、大規模言語モデルを改善するためのOysterになれる

The Web Can Be Your Oyster for Improving Large Language Models ( http://arxiv.org/abs/2305.10998v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jingyuan Wang, Jian-Yun Nie and Ji-Rong Wen(参考訳) 大規模言語モデル(LLM)は、大量の世界の知識を符号化する。 しかし、そのような知識はモデルトレーニング時に凍結されるため、モデルは静的になり、当時のトレーニングデータによって制限される。 知識集約型タスクにおけるLLMの能力をさらに向上するために,検索エンジンを用いた大規模WebによるLLMの拡張を検討する。 以前の拡張ソース(例えばウィキペディアのデータダンプ)とは異なり、ウェブはより広く、より包括的で常に更新された情報を提供する。 本稿では,16以上の知識集約型タスクを統一的なテキスト・テキスト・フォーマットで学習する web 型 llm uniweb を提案する。 Webから取得したコンテンツを使う代わりに、我々のアプローチは2つの大きな改善を行った。 まず,llmの予測の信頼度を自己評価し,さらに多くのデータに対してwebを参照するタイミングを適応的に決定できる適応型検索エンジン支援学習手法を提案する。 第二に,事前学習課題である連続的知識学習(continual knowledge learning)をsalient spansの予測に基づいて設計し,符号化された知識と検索された知識の差異を低減させる。 幅広い知識集約型タスクの実験により、我々のモデルは従来の検索強化手法よりも大幅に優れていた。

Large language models (LLMs) encode a large amount of world knowledge. However, as such knowledge is frozen at the time of model training, the models become static and limited by the training data at that time. In order to further improve the capacity of LLMs for knowledge-intensive tasks, we consider augmenting LLMs with the large-scale web using search engine. Unlike previous augmentation sources (e.g., Wikipedia data dump), the web provides broader, more comprehensive and constantly updated information. In this paper, we present a web-augmented LLM UNIWEB, which is trained over 16 knowledge-intensive tasks in a unified text-to-text format. Instead of simply using the retrieved contents from web, our approach has made two major improvements. Firstly, we propose an adaptive search engine assisted learning method that can self-evaluate the confidence level of LLM's predictions, and adaptively determine when to refer to the web for more data, which can avoid useless or noisy augmentation from web. Secondly, we design a pretraining task, i.e., continual knowledge learning, based on salient spans prediction, to reduce the discrepancy between the encoded and retrieved knowledge. Experiments on a wide range of knowledge-intensive tasks show that our model significantly outperforms previous retrieval-augmented methods.
翻訳日:2023-05-19 14:46:19 公開日:2023-05-18
# 変調マスクによる生涯強化学習知識の共有

Sharing Lifelong Reinforcement Learning Knowledge via Modulating Masks ( http://arxiv.org/abs/2305.10997v1 )

ライセンス: Link先を確認
Saptarshi Nath, Christos Peridis, Eseoghene Ben-Iwhiwhu, Xinran Liu, Shirin Dora, Cong Liu, Soheil Kolouri, Andrea Soltoggio(参考訳) 生涯学習エージェントは、生涯にわたって複数のタスクを順次学習することを目指している。 これは、新しいタスクを学ぶときに以前の知識を活用し、忘れることを避ける能力を含む。 特定のパラメータ分離アプローチである変調マスクは、最近、教師付き学習と強化学習の両方において有望であることが示されている。 生涯学習アルゴリズムは、主に単一エージェントアプローチで研究されているが、複数のエージェントが生涯学習知識を相互に共有する方法については疑問が残る。 マスクを変調するパラメータ分離機構は,生涯学習者の分散分散分散システムにおいて,エージェント間の知識交換に特に適している。 キーとなる考え方は、特定のタスク知識を特定のマスクに分離することで、エージェントは特定の知識のみをオンデマンドで転送することができ、堅牢で効果的な分散生涯学習をもたらすことである。 動的エージェント番号と接続性を備えた完全な分散と非同期のシナリオを想定しています。 オンデマンド通信プロトコルにより、エージェントは特定のマスクを転送し、各タスクに直面するときにポリシーに統合する。 実験により,オンデマンドマスク通信は,DD-PPO,IMPALA,PPO+EWCなどの分散RLベースラインに対して,分散寿命強化学習を効果的に実施し,生涯学習の便益を提供することを示す。 このシステムは接続ドロップに対して特に堅牢であり、知識交換による迅速な学習を示す。

Lifelong learning agents aim to learn multiple tasks sequentially over a lifetime. This involves the ability to exploit previous knowledge when learning new tasks and to avoid forgetting. Modulating masks, a specific type of parameter isolation approach, have recently shown promise in both supervised and reinforcement learning. While lifelong learning algorithms have been investigated mainly within a single-agent approach, a question remains on how multiple agents can share lifelong learning knowledge with each other. We show that the parameter isolation mechanism used by modulating masks is particularly suitable for exchanging knowledge among agents in a distributed and decentralized system of lifelong learners. The key idea is that the isolation of specific task knowledge to specific masks allows agents to transfer only specific knowledge on-demand, resulting in robust and effective distributed lifelong learning. We assume fully distributed and asynchronous scenarios with dynamic agent numbers and connectivity. An on-demand communication protocol ensures agents query their peers for specific masks to be transferred and integrated into their policies when facing each task. Experiments indicate that on-demand mask communication is an effective way to implement distributed lifelong reinforcement learning and provides a lifelong learning benefit with respect to distributed RL baselines such as DD-PPO, IMPALA, and PPO+EWC. The system is particularly robust to connection drops and demonstrates rapid learning due to knowledge exchange.
翻訳日:2023-05-19 14:45:58 公開日:2023-05-18
# プライベートな生成モデルがプライバシー予算をどう費やすかを理解する

Understanding how Differentially Private Generative Models Spend their Privacy Budget ( http://arxiv.org/abs/2305.10994v1 )

ライセンス: Link先を確認
Georgi Ganev and Kai Xu and Emiliano De Cristofaro(参考訳) 差分プライバシー(DP)で訓練された生成モデルは、プライバシーリスクを低減しつつ、合成データの生成にますます使用される。 特定のプライバシとユーティリティのトレードオフをナビゲートすることで、特定の設定やタスクに最適なモデルを決定することが難しくなる。 本稿では,DP生成モデルが列や列にプライバシ予算を分配する方法を解析することにより,表データのコンテキストにおけるこのギャップを埋める。 基礎となるモデリング技術,DP機構,データ次元など,プライバシ予算の支出に寄与する主な要因について検討する。 グラフィカルモデルと深部生成モデルの両方に対する広範囲な評価は、異なる設定やタスクに適した特徴に光を当てています。 グラフィカルモデルでは、プライバシ予算を水平方向に分散させることで、比較的広いデータセットを扱うことができず、より多くのデータでモノトニックに最適化されたタスクのパフォーマンスが向上することを示す。 ディープジェネレーティブモデルでは、イテレーション毎に予算を費やすため、さまざまなデータセットサイズで振る舞いを予測できないが、より多くの機能でトレーニングすれば、パフォーマンスが向上する。 また、プライバシーの低いレベル(\epsilon\geq100$)は、一部のモデルの一般化に役立つ可能性がある。

Generative models trained with Differential Privacy (DP) are increasingly used to produce synthetic data while reducing privacy risks. Navigating their specific privacy-utility tradeoffs makes it challenging to determine which models would work best for specific settings/tasks. In this paper, we fill this gap in the context of tabular data by analyzing how DP generative models distribute privacy budgets across rows and columns, arguably the main source of utility degradation. We examine the main factors contributing to how privacy budgets are spent, including underlying modeling techniques, DP mechanisms, and data dimensionality. Our extensive evaluation of both graphical and deep generative models sheds light on the distinctive features that render them suitable for different settings and tasks. We show that graphical models distribute the privacy budget horizontally and thus cannot handle relatively wide datasets while the performance on the task they were optimized for monotonically increases with more data. Deep generative models spend their budget per iteration, so their behavior is less predictable with varying dataset dimensions but could perform better if trained on more features. Also, low levels of privacy ($\epsilon\geq100$) could help some models generalize, achieving better results than without applying DP.
翻訳日:2023-05-19 14:45:35 公開日:2023-05-18
# ConsistentNeRF: スパースビュー合成のための3次元一貫性を持つニューラルラジアンス場の実現

ConsistentNeRF: Enhancing Neural Radiance Fields with 3D Consistency for Sparse View Synthesis ( http://arxiv.org/abs/2305.11031v1 )

ライセンス: Link先を確認
Shoukang Hu and Kaichen Zhou and Kaiyu Li and Longhui Yu and Lanqing Hong and Tianyang Hu and Zhenguo Li and Gim Hee Lee and Ziwei Liu(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は,高密度画像を用いた3次元再構成機能を備えている。 しかし、その性能はスパースビュー設定で著しく低下する。 異なる視点における画素の3次元一貫性の学習は、そのような場合の再構成品質の向上に不可欠である。 本稿では,深度情報を利用して画素間のマルチビューとシングルビューの3D整合性の調整を行うConsistentNeRFを提案する。 特に、ConsistentNeRFは3次元対応を示す画素に集中し、一貫した深度関係を維持するために、深さ由来の幾何情報と深さ不変の損失を用いる。 最近の代表作における広範囲な実験により,sparse view条件におけるモデル性能が大幅に向上し,psnrでは最大94%,ssimでは76%,lpipでは31%の改善が得られた。

Neural Radiance Fields (NeRF) has demonstrated remarkable 3D reconstruction capabilities with dense view images. However, its performance significantly deteriorates under sparse view settings. We observe that learning the 3D consistency of pixels among different views is crucial for improving reconstruction quality in such cases. In this paper, we propose ConsistentNeRF, a method that leverages depth information to regularize both multi-view and single-view 3D consistency among pixels. Specifically, ConsistentNeRF employs depth-derived geometry information and a depth-invariant loss to concentrate on pixels that exhibit 3D correspondence and maintain consistent depth relationships. Extensive experiments on recent representative works reveal that our approach can considerably enhance model performance in sparse view conditions, achieving improvements of up to 94% in PSNR, 76% in SSIM, and 31% in LPIPS compared to the vanilla baselines across various benchmarks, including DTU, NeRF Synthetic, and LLFF.
翻訳日:2023-05-19 14:39:58 公開日:2023-05-18
# 文書レベルの距離関係抽出のための不確かさ誘導ラベル

Uncertainty Guided Label Denoising for Document-level Distant Relation Extraction ( http://arxiv.org/abs/2305.11029v1 )

ライセンス: Link先を確認
Qi Sun and Kun Huang and Xiaocui Yang and Pengfei Hong and Kun Zhang and Soujanya Poria(参考訳) 文書レベルの関係抽出(DocRE)は、文書内のエンティティ間の複雑な意味関係を推論することを目的としている。 遠隔監視(DS)は、DocREのパフォーマンスを改善することができる大規模な自動ラベル付きデータを生成することができる。 最近の研究は、DSデータのノイズを低減するために、プレデノジングモデルによって生成された擬似ラベルを活用している。 しかし、信頼できない偽ラベルは、例えば偽の偽ラベルを追加し、正しいDSラベルを失うなど、新しいノイズをもたらす。 したがって、DSデータを識別する効果的な擬似ラベルをどうやって選択するかは、文書レベルの遠隔関係抽出において依然として課題である。 この問題に対処するために,疑似ラベルを信頼できるかどうかを判定する不確実性推定技術を導入する。 本研究では,不確実性誘導ラベルを用いた文書レベルの遠隔関係抽出フレームワークUGDREを提案する。 具体的には,重複関係を持つ擬似ラベルの信頼性を測定する新しいインスタンスレベルの不確実性推定法を提案する。 さらに, ロングテール問題を考えることで, 高信頼擬似ラベルをフィルタするために, 異なる種類の関係に対する動的不確かさしきい値を設計する。 2つの公開データセットで実験を行う。 我々のフレームワークは、RE-DocREDデータセット上で、1.91 F1と2.28 Ign F1の強いベースラインを上回ります。

Document-level relation extraction (DocRE) aims to infer complex semantic relations among entities in a document. Distant supervision (DS) is able to generate massive auto-labeled data, which can improve DocRE performance. Recent works leverage pseudo labels generated by the pre-denoising model to reduce noise in DS data. However, unreliable pseudo labels bring new noise, e.g., adding false pseudo labels and losing correct DS labels. Therefore, how to select effective pseudo labels to denoise DS data is still a challenge in document-level distant relation extraction. To tackle this issue, we introduce uncertainty estimation technology to determine whether pseudo labels can be trusted. In this work, we propose a Document-level distant Relation Extraction framework with Uncertainty Guided label denoising, UGDRE. Specifically, we propose a novel instance-level uncertainty estimation method, which measures the reliability of the pseudo labels with overlapping relations. By further considering the long-tail problem, we design dynamic uncertainty thresholds for different types of relations to filter high-uncertainty pseudo labels. We conduct experiments on two public datasets. Our framework outperforms strong baselines by 1.91 F1 and 2.28 Ign F1 on the RE-DocRED dataset.
翻訳日:2023-05-19 14:39:40 公開日:2023-05-18
# 結合量子ドット分子に共存する2つのビクシトン型

Two Biexciton Types Coexisting in Coupled Quantum Dot Molecules ( http://arxiv.org/abs/2305.11027v1 )

ライセンス: Link先を確認
Nadav Frenkel, Einav Scharf, Gur Lubin, Adar Levi, Yossef E. Panfil, Yonatan Ossia, Josep Planelles, Juan I. Climente, Uri Banin, and Dan Oron(参考訳) コロイド量子ドット分子は、量子ドットベースの技術を設計するための新しい自由度を導入し、ナノマテリアルの新たなクラスである。 これらの材料における多重励起状態の性質は、量子発光器としての性能に不可欠であるが、既存の分光法では完全には解決できない。 そこで本研究では, セグレーションや局部化バイエクシトン状態など, 異なる形態の豊かな景観を表すバイエクシトン種の特徴について検討する。 そこで本研究では,CdSe/CdS結合量子ドット二量体系において,異なるバイエクシトン種を分解するために,Heralded Spectroscopyの拡張を導入する。 結合した量子ドット対の両側に分離された2つのほぼ独立なエクシトンに対応する長寿命で弱い相互作用を持つ2つの種と、高速に脱着し、強く相互作用する2エクシトン種の共存と相互作用を明らかにする。 2つのバイエクシトンタイプは数値シミュレーションと一致しており、強相互作用種を量子ドット分子の片側に局在する2つの励起子と弱い相互作用種を2つの量子ドット分子側に分離した励起子に割り当てている。 結合量子ドット分子における多重励起状態の深い理解は、可変単光子または多重光子量子エミッタの合理的設計を支援することができる。

Coupled colloidal quantum dot molecules are an emerging class of nanomaterials, introducing new degrees of freedom for designing quantum dot-based technologies. The properties of multiply excited states in these materials are crucial to their performance as quantum light emitters but cannot be fully resolved by existing spectroscopic techniques. Here we study the characteristics of biexcitonic species, which represent a rich landscape of different configurations, such as segregated and localized biexciton states. To this end, we introduce an extension of Heralded Spectroscopy to resolve different biexciton species in the prototypical CdSe/CdS coupled quantum dot dimer system. We uncover the coexistence and interplay of two distinct biexciton species: A fast-decaying, strongly-interacting biexciton species, analogous to biexcitons in single quantum dots, and a long-lived, weakly-interacting species corresponding to two nearly-independent excitons separated to the two sides of the coupled quantum dot pair. The two biexciton types are consistent with numerical simulations, assigning the strongly-interacting species to two excitons localized at one side of the quantum dot molecule and the weakly-interacting species to excitons segregated to the two quantum dot molecule sides. This deeper understanding of multiply excited states in coupled quantum dot molecules can support the rational design of tunable single- or multiple-photon quantum emitters.
翻訳日:2023-05-19 14:39:19 公開日:2023-05-18
# cdidn : 肺病変の長期追跡のための高い変形インピーダンス能を有する登録モデル

CDIDN: A Registration Model with High Deformation Impedance Capability for Long-Term Tracking of Pulmonary Lesion Dynamics ( http://arxiv.org/abs/2305.11024v1 )

ライセンス: Link先を確認
Xinyu Zhao, Sa Huang, Wei Pang, You Zhou(参考訳) 医用CT画像の登録問題について,新しい視点から検討し,CT画像の変形度に対する感度について検討した。 学習に基づく手法によっては平均精度で成功しているものもあるが、局所的な大変形(LLD)を持つ領域を扱う能力は、小さな変形を持つ領域と比較して著しく低下する可能性がある。 これはこの問題の研究を動機づけます。 lldの主な原因は臓器の動きと組織構造の変化であり、後者はしばしば長期の過程である。 本稿では,高変形インピーダンス(DIC)と精度の両方を示すCDIDN(Cascade-Dilation Inter-Layer Differential Network)と呼ばれる新しい登録モデルを提案する。 CDIDNは、変位場(DF)におけるLDDを強化することにより、CT画像のLDDに対するレジリエンスを向上させる。 機能ベースのLDDのプログレッシブ分解を使用し、異なるレベルの特徴フローをトップダウンでメインフローにブレンドする。 各レベルで層間微分モジュール(IDM)を活用して、主フローを局所的に洗練し、特徴フローをグローバルに滑らかにするとともに、様々な度の特徴変形を効果的に処理できる特徴速度場を統合する。 肺を代表臓器として用いたCDIDNの評価を行った。 以上の結果から,IDMはDFのLDDを大幅に向上させ,DICの改善とモデルの精度の向上を図っている。 他の優れた学習ベース手法と比較して、CDIDNは最高のDICと優れた精度を示す。 そこで本研究では, 肺病変の出現, 消失, 拡大, 縮小を正確に追跡する新しい方法を提案し, 早期病変, 末梢病変の検出, 偽拡大, 偽収縮, 病変の切断を効果的に行う。

We study the problem of registration for medical CT images from a novel perspective -- the sensitivity to degree of deformations in CT images. Although some learning-based methods have shown success in terms of average accuracy, their ability to handle regions with local large deformation (LLD) may significantly decrease compared to dealing with regions with minor deformation. This motivates our research into this issue. Two main causes of LLDs are organ motion and changes in tissue structure, with the latter often being a long-term process. In this paper, we propose a novel registration model called Cascade-Dilation Inter-Layer Differential Network (CDIDN), which exhibits both high deformation impedance capability (DIC) and accuracy. CDIDN improves its resilience to LLDs in CT images by enhancing LLDs in the displacement field (DF). It uses a feature-based progressive decomposition of LLDs, blending feature flows of different levels into a main flow in a top-down manner. It leverages Inter-Layer Differential Module (IDM) at each level to locally refine the main flow and globally smooth the feature flow, and also integrates feature velocity fields that can effectively handle feature deformations of various degrees. We assess CDIDN using lungs as representative organs with large deformation. Our findings show that IDM significantly enhances LLDs of the DF, by which improves the DIC and accuracy of the model. Compared with other outstanding learning-based methods, CDIDN exhibits the best DIC and excellent accuracy. Based on vessel enhancement and enhanced LLDs of the DF, we propose a novel method to accurately track the appearance, disappearance, enlargement, and shrinkage of pulmonary lesions, which effectively addresses detection of early lesions and peripheral lung lesions, issues of false enlargement, false shrinkage, and mutilation of lesions.
翻訳日:2023-05-19 14:38:53 公開日:2023-05-18
# 汎用マルチインテント条件付きスロットフィリング

Generalized Multiple Intent Conditioned Slot Filling ( http://arxiv.org/abs/2305.11023v1 )

ライセンス: Link先を確認
Harshil Shah, Arthur Wilcke, Marius Cobzarenco, Cristi Cobzarenco, Edward Challis, David Barber(参考訳) 自然言語理解には、意図検出(ユーザの目的を特定する)とスロットフィリング(それらの目的に関連するエンティティを抽出する)のタスクが含まれる。 プリエントスロットフィリングメソッドは、メッセージ内で各インテントタイプが1回以上発生できないと仮定するが、これは実世界の設定に有効な仮定ではないことが多い。 本稿では,メッセージ中の一意なインテントの制約を取り除いてスロット充填を一般化する。 これをJSON生成タスクとしてキャストし、言語モデルを使ってアプローチします。 dbpediaと既存のスロット充填データセットを組み合わせることで、トレーニング済みデータセットを作成し、json生成に変換します。 また,GPT-3を用いてドメイン内データセットを生成する。 このタスクのためのt5モデルを(プロンプトの例なしで)トレーニングし、両方のトレーニングデータセットがパフォーマンスを改善し、トレーニング中に見えないインテントタイプに一般化できることを確認します。

Natural language understanding includes the tasks of intent detection (identifying a user's objectives) and slot filling (extracting the entities relevant to those objectives). Prior slot filling methods assume that each intent type cannot occur more than once within a message, however this is often not a valid assumption for real-world settings. In this work, we generalize slot filling by removing the constraint of unique intents in a message. We cast this as a JSON generation task and approach it using a language model. We create a pre-training dataset by combining DBpedia and existing slot filling datasets that we convert for JSON generation. We also generate an in-domain dataset using GPT-3. We train T5 models for this task (with and without exemplars in the prompt) and find that both training datasets improve performance, and that the model is able to generalize to intent types not seen during training.
翻訳日:2023-05-19 14:38:23 公開日:2023-05-18
# 超並列再重み付けウェイクスリープ

Massively Parallel Reweighted Wake-Sleep ( http://arxiv.org/abs/2305.11022v1 )

ライセンス: Link先を確認
Thomas Heap, Gavin Leech, Laurence Aitchison(参考訳) Reweighted wake-sleep (RWS) は、非常に一般的なモデルのクラスでベイズ推論を実行する機械学習手法である。 RWSは、基礎となる近似後部から$K$のサンプルを抽出し、重要重み付けを使用して真の後部をよりよく推定する。 RWS はその近似後部を真の後部の重み付けされた推定に向けて更新する。 しかし、最近の研究[Chattergee and Diaconis, 2018] は、有効な重み付けに必要なサンプルの数は潜伏変数の数で指数関数的であることを示している。 このような重要なサンプルを多数得ることは、最小のモデルを除いて全てにおいて難解である。 ここでは、この問題を回避し、すべての$n$潜伏変数の$K$サンプルを描画し、サンプルのすべての$K^n$組み合わせを個別に推論することで、超並列RWSを開発する。 K^n$コンビネーションの推論は難しそうに思えるが、必要となる計算は生成モデルにおける条件付き不依存を利用して多項式時間で行うことができる。 標準の「グローバル」RWSよりも大幅に改善され、全関節から$K$のサンプルが引き出される。

Reweighted wake-sleep (RWS) is a machine learning method for performing Bayesian inference in a very general class of models. RWS draws $K$ samples from an underlying approximate posterior, then uses importance weighting to provide a better estimate of the true posterior. RWS then updates its approximate posterior towards the importance-weighted estimate of the true posterior. However, recent work [Chattergee and Diaconis, 2018] indicates that the number of samples required for effective importance weighting is exponential in the number of latent variables. Attaining such a large number of importance samples is intractable in all but the smallest models. Here, we develop massively parallel RWS, which circumvents this issue by drawing $K$ samples of all $n$ latent variables, and individually reasoning about all $K^n$ possible combinations of samples. While reasoning about $K^n$ combinations might seem intractable, the required computations can be performed in polynomial time by exploiting conditional independencies in the generative model. We show considerable improvements over standard "global" RWS, which draws $K$ samples from the full joint.
翻訳日:2023-05-19 14:38:07 公開日:2023-05-18
# アノテーションフリーな視聴覚セグメンテーション

Annotation-free Audio-Visual Segmentation ( http://arxiv.org/abs/2305.11019v1 )

ライセンス: Link先を確認
Jinxiang Liu, Yu Wang, Chen Ju, Ya Zhang, Weidi Xie(参考訳) オーディオ・ビジュアルセグメンテーション(avs)の目的は、ピクセル毎のセグメンテーションマスクを正確に予測することで、視覚シーン内の聴覚物体を探索することである。 本稿では,以下の貢献について述べる。 i) AVSタスクのための人工データを生成するためのスケーラブルでアノテーションのないパイプラインを提案する。 既存のイメージセグメンテーションとオーディオデータセットを活用して、カテゴリラベル、イメージマスクペア、オーディオサンプル間のリンクを描画することで、AVSモデルをトレーニングするための(画像、オーディオ、マスク)トリプルを簡単に作成することができます。 (ii)我々は,オーディオアウェアなクエリベースのトランスフォーマデコーダを備えた,新しいオーディオアウェアトランスフォーマ(autr)アーキテクチャを導入する。 このアーキテクチャにより、モデルは音声信号の誘導により音声オブジェクトを探索し、より正確なセグメンテーションを行うことができる。 (iii) 提案するパイプラインで生成された合成データを用いたavsモデルの訓練の有効性を示す,合成データと実データの両方について広範な実験を行った。 さらに,提案したAuTRアーキテクチャは,公開ベンチマークにおいて優れた性能と強力な一般化能力を示す。 プロジェクトページはhttps://jinxiang-liu.github.io/anno-free-AVS/。

The objective of Audio-Visual Segmentation (AVS) is to locate sounding objects within visual scenes by accurately predicting pixelwise segmentation masks. In this paper, we present the following contributions: (i), we propose a scalable and annotation-free pipeline for generating artificial data for the AVS task. We leverage existing image segmentation and audio datasets to draw links between category labels, image-mask pairs, and audio samples, which allows us to easily compose (image, audio, mask) triplets for training AVS models; (ii), we introduce a novel Audio-Aware Transformer (AuTR) architecture that features an audio-aware query-based transformer decoder. This architecture enables the model to search for sounding objects with the guidance of audio signals, resulting in more accurate segmentation; (iii), we present extensive experiments conducted on both synthetic and real datasets, which demonstrate the effectiveness of training AVS models with synthetic data generated by our proposed pipeline. Additionally, our proposed AuTR architecture exhibits superior performance and strong generalization ability on public benchmarks. The project page is https://jinxiang-liu.github.io/anno-free-AVS/.
翻訳日:2023-05-19 14:37:48 公開日:2023-05-18
# ディープメトリックテンソル正規化政策勾配

Deep Metric Tensor Regularized Policy Gradient ( http://arxiv.org/abs/2305.11017v1 )

ライセンス: Link先を確認
Gang Chen and Victoria Huang(参考訳) ポリシー勾配アルゴリズムは、深層強化学習技術の重要なファミリーである。 過去の多くの研究は、政策ネットワークのトレーニングに一階の政策勾配情報を使うことに重点を置いていた。 これらの研究とは違って,本研究は,政策勾配に関連するヘッセン情報を適切に活用し,制御することで,政策勾配アルゴリズムの性能を顕著に向上できると考えることによる。 我々の注意を引き付けた重要なヘッセン情報の一つが、ユークリッドポリシーパラメトリック空間におけるポリシー勾配ベクトル場の分岐を与えるヘッセントレースである。 我々は、このユークリッドポリシーパラメトリック空間を一般リーマン多様体に一般化するためのゴールを設定し、パラメトリック空間に計量テンソル場$g_ab$を導入する。 これは、新たに開発された数学的ツール、ディープラーニングアルゴリズム、およびメトリックテンソルディープニューラルネットワーク(DNN)によって実現される。 これらの技術的発展を活かし、リーマン多様体の絶対的発散を重要な正規化メカニズムとして最小化することを学び、リーマン多様体がその方針勾配ベクトル場を滑らかにする新しいポリシー勾配アルゴリズムを提案する。 新たに開発したアルゴリズムは,いくつかのベンチマーク強化学習問題に対して実験的に研究されている。 実験の結果,新しい計量テンソル正規化アルゴリズムは,我々の正規化技術を使用しないアルゴリズムよりも著しく優れていることがわかった。 さらなる実験的解析により、訓練された計量テンソル dnn と対応する計量テンソル $g_{ab}$ はリーマン多様体の零への絶対的発散を効果的に低減できることが示唆される。

Policy gradient algorithms are an important family of deep reinforcement learning techniques. Many past research endeavors focused on using the first-order policy gradient information to train policy networks. Different from these works, we conduct research in this paper driven by the believe that properly utilizing and controlling Hessian information associated with the policy gradient can noticeably improve the performance of policy gradient algorithms. One key Hessian information that attracted our attention is the Hessian trace, which gives the divergence of the policy gradient vector field in the Euclidean policy parametric space. We set the goal to generalize this Euclidean policy parametric space into a general Riemmanian manifold by introducing a metric tensor field $g_ab$ in the parametric space. This is achieved through newly developed mathematical tools, deep learning algorithms, and metric tensor deep neural networks (DNNs). Armed with these technical developments, we propose a new policy gradient algorithm that learns to minimize the absolute divergence in the Riemannian manifold as an important regularization mechanism, allowing the Riemannian manifold to smoothen its policy gradient vector field. The newly developed algorithm is experimentally studied on several benchmark reinforcement learning problems. Our experiments clearly show that the new metric tensor regularized algorithm can significantly outperform its counterpart that does not use our regularization technique. Additional experimental analysis further suggests that the trained metric tensor DNN and the corresponding metric tensor $g_{ab}$ can effectively reduce the absolute divergence towards zero in the Riemannian manifold.
翻訳日:2023-05-19 14:37:28 公開日:2023-05-18
# クロスドメイン関係抽出のためのシルバー構文事前学習

Silver Syntax Pre-training for Cross-Domain Relation Extraction ( http://arxiv.org/abs/2305.11016v1 )

ライセンス: Link先を確認
Elisa Bassignana, Filip Ginter, Sampo Pyysalo, Rob van der Goot, and Barbara Plank(参考訳) 特に現実的なドメイン外評価を考える場合、関係抽出(re)は依然として難しい課題である。 高品質な(手動で注釈付けされた)データを取得するのは非常に高価であり、新しいドメイン毎に現実的に繰り返すことができない。 関連するタスクからのデータに対する中間的なトレーニングステップは、多くのNLPタスクで有用であることが示されているが、このセットアップには追加のアノテートデータが必要である。 本稿では,REのための中間訓練について検討する。 構文構造と意味論的REの親和性を利用して,2つのエンティティ間の最も短い依存性経路にあることで,REと密接に関連している構文関係を同定する。 次に,既存の構文解析器の精度を活用して,大量の低コスト事前学習データを自動的に取得する。 関連する構文関係に関するREモデルを事前トレーニングすることで、追加の注釈付きデータなしで、6つのドメイン間設定のうち5つでベースラインを上回ります。

Relation Extraction (RE) remains a challenging task, especially when considering realistic out-of-domain evaluations. One of the main reasons for this is the limited training size of current RE datasets: obtaining high-quality (manually annotated) data is extremely expensive and cannot realistically be repeated for each new domain. An intermediate training step on data from related tasks has shown to be beneficial across many NLP tasks.However, this setup still requires supplementary annotated data, which is often not available. In this paper, we investigate intermediate pre-training specifically for RE. We exploit the affinity between syntactic structure and semantic RE, and identify the syntactic relations which are closely related to RE by being on the shortest dependency path between two entities. We then take advantage of the high accuracy of current syntactic parsers in order to automatically obtain large amounts of low-cost pre-training data. By pre-training our RE model on the relevant syntactic relations, we are able to outperform the baseline in five out of six cross-domain setups, without any additional annotated data.
翻訳日:2023-05-19 14:36:59 公開日:2023-05-18
# 事前学習型大規模言語モデルを用いたPDDLドメインの汎用計画

Generalized Planning in PDDL Domains with Pretrained Large Language Models ( http://arxiv.org/abs/2305.11014v1 )

ライセンス: Link先を確認
Tom Silver, Soham Dan, Kavitha Srinivas, Joshua B. Tenenbaum, Leslie Pack Kaelbling, Michael Katz(参考訳) 最近の研究は、大きな言語モデル(LLM)がプランナーとして機能するかどうかを検討してきた。 ドメインとトレーニングタスクが与えられた場合、LLMはドメイン内の他のタスクの計画を効率的に生成するプログラムを生成する。 特に、PDDLドメインを検討し、GPT-4を用いてPythonプログラムを合成する。 また、(1) llmがドメインを要約し、プログラムを合成する前に言葉で戦略を提案する連鎖的思考(cot)要約、(2)プログラムがトレーニングタスクに関して検証される自動デバッグ、そしてエラーの場合、llmは4種類のフィードバックで再入力される。 このアプローチを7つのpddlドメインで評価し,4つのアブレーションと4つのベースラインと比較した。 全体として、GPT-4は驚くほど強力な一般化プランナーである。 また,自動デバッギングは非常に重要であること,CoTの要約が一様でないこと,GPT-4がGPT-3.5よりはるかに優れていること,そして2つのトレーニングタスクだけが強力な一般化に十分であることも結論した。

Recent work has considered whether large language models (LLMs) can function as planners: given a task, generate a plan. We investigate whether LLMs can serve as generalized planners: given a domain and training tasks, generate a program that efficiently produces plans for other tasks in the domain. In particular, we consider PDDL domains and use GPT-4 to synthesize Python programs. We also consider (1) Chain-of-Thought (CoT) summarization, where the LLM is prompted to summarize the domain and propose a strategy in words before synthesizing the program; and (2) automated debugging, where the program is validated with respect to the training tasks, and in case of errors, the LLM is re-prompted with four types of feedback. We evaluate this approach in seven PDDL domains and compare it to four ablations and four baselines. Overall, we find that GPT-4 is a surprisingly powerful generalized planner. We also conclude that automated debugging is very important, that CoT summarization has non-uniform impact, that GPT-4 is far superior to GPT-3.5, and that just two training tasks are often sufficient for strong generalization.
翻訳日:2023-05-19 14:36:41 公開日:2023-05-18
# DCプログラミングによる部分モジュラ最小化の差

Difference of Submodular Minimization via DC Programming ( http://arxiv.org/abs/2305.11046v1 )

ライセンス: Link先を確認
Marwa El Halabi, George Orfanides, Tim Hoheisel(参考訳) 2つの部分モジュラ(DS)関数の違いを最小化することは、様々な機械学習問題に自然に発生する問題である。 DS問題は2つの凸関数(DC)の差の最小化として等価に定式化できることはよく知られているが、既存のアルゴリズムはこの接続を完全に利用していない。 DC問題に対する古典的アルゴリズムはDCアルゴリズム (DCA) と呼ばれる。 DS最小化に対応するDCプログラムに適用したDCAの変種とその完全形(CDCA)を紹介する。 我々は, dca の既存の収束特性を拡張し, ds 問題の収束特性と接続する。 dcaの結果は既存のdsアルゴリズムが満たした理論的な保証と一致し、収束特性のより完全なキャラクタリゼーションを提供する。 CDCAの場合、より強力な局所最小性保証が得られる。 提案アルゴリズムは,音声コーパス選択と特徴選択の2つの応用において,既存のベースラインよりも優れていることを示す。

Minimizing the difference of two submodular (DS) functions is a problem that naturally occurs in various machine learning problems. Although it is well known that a DS problem can be equivalently formulated as the minimization of the difference of two convex (DC) functions, existing algorithms do not fully exploit this connection. A classical algorithm for DC problems is called the DC algorithm (DCA). We introduce variants of DCA and its complete form (CDCA) that we apply to the DC program corresponding to DS minimization. We extend existing convergence properties of DCA, and connect them to convergence properties on the DS problem. Our results on DCA match the theoretical guarantees satisfied by existing DS algorithms, while providing a more complete characterization of convergence properties. In the case of CDCA, we obtain a stronger local minimality guarantee. Our numerical results show that our proposed algorithms outperform existing baselines on two applications: speech corpus selection and feature selection.
翻訳日:2023-05-19 14:29:04 公開日:2023-05-18
# 辞書選択による推薦システムセレンディピティーの改善

Improving Recommendation System Serendipity Through Lexicase Selection ( http://arxiv.org/abs/2305.11044v1 )

ライセンス: Link先を確認
Ryan Boldi, Aadam Lokhandwala, Edward Annatone, Yuval Schechter, Alexander Lavrenenko, Cooper Sigrist(参考訳) レコメンダシステムは私たちのデジタル生活のほとんどすべての側面に影響を与えます。 残念なことに、私たちが望むものを与えようとして、最終的にはオープンマインドを制限してしまうのです。 現在のレコメンダシステムは、人々が見たい情報しか見ることができないecho chambersと、似たようなバックグラウンドのユーザーが同様のコンテンツを見ることができるhomophilyを促進する。 本稿では,クラスタ分析を用いたレコメンデーションシステムにおけるエコーチャンバーとホモフィリーの存在を測定するためのセレンディピティー指標を提案する。 次に,レキシケース選択として知られる進化的計算文献から親選択アルゴリズムを採用することにより,よく知られた推奨手法の多様性保存性を向上させることを試みる。 以上の結果から,レキシケースの選択,すなわちレキシケースの選択とランキングの混合は,パーソナライゼーション,カバレッジ,セレンディピティーのベンチマークにおいて純粋に評価され,精度(ヒットレート)ではわずかに低い結果を示した。 これらの結果を様々な推薦リストサイズで検証する。 本研究は,レキシケースの選択によって,特定のユーザに関連する複数の項目の推薦クラスタを維持でき,しかも高いヒットレートの精度を維持しながら,他の方法では達成できないトレードオフを維持できることを示す。

Recommender systems influence almost every aspect of our digital lives. Unfortunately, in striving to give us what we want, they end up restricting our open-mindedness. Current recommender systems promote echo chambers, where people only see the information they want to see, and homophily, where users of similar background see similar content. We propose a new serendipity metric to measure the presence of echo chambers and homophily in recommendation systems using cluster analysis. We then attempt to improve the diversity-preservation qualities of well known recommendation techniques by adopting a parent selection algorithm from the evolutionary computation literature known as lexicase selection. Our results show that lexicase selection, or a mixture of lexicase selection and ranking, outperforms its purely ranked counterparts in terms of personalization, coverage and our specifically designed serendipity benchmark, while only slightly under-performing in terms of accuracy (hit rate). We verify these results across a variety of recommendation list sizes. In this work we show that lexicase selection is able to maintain multiple diverse clusters of item recommendations that are each relevant for the specific user, while still maintaining a high hit-rate accuracy, a trade off that is not achieved by other methods.
翻訳日:2023-05-19 14:28:48 公開日:2023-05-18
# 情報理論一般化境界の統一的枠組み

A unified framework for information-theoretic generalization bounds ( http://arxiv.org/abs/2305.11042v1 )

ライセンス: Link先を確認
Yifeng Chu and Maxim Raginsky(参考訳) 本稿では,学習アルゴリズムにおける情報理論の一般化境界の導出手法を提案する。 主な技術的ツールは、測度の変化と、$L_{\psi_p}$ Orlicz空間におけるヤングの不等式の緩和に基づく確率的デコリレーション補題である。 確率測度の空間における対称性、カップリング、連鎖といった他の手法と組み合わせてデコリレーション補題を用いて、期待と高い確率の両方において一般化誤差の新たな上限を求め、相互情報、条件付き相互情報、確率連鎖、PAC-ベイズ不等式に基づく既存の一般化境界の多くを特殊ケースとして回復する。 さらに、亜ガウス過程の期待上限上のフェルニケ・タラグランド上界は特別な場合として現れる。

This paper presents a general methodology for deriving information-theoretic generalization bounds for learning algorithms. The main technical tool is a probabilistic decorrelation lemma based on a change of measure and a relaxation of Young's inequality in $L_{\psi_p}$ Orlicz spaces. Using the decorrelation lemma in combination with other techniques, such as symmetrization, couplings, and chaining in the space of probability measures, we obtain new upper bounds on the generalization error, both in expectation and in high probability, and recover as special cases many of the existing generalization bounds, including the ones based on mutual information, conditional mutual information, stochastic chaining, and PAC-Bayes inequalities. In addition, the Fernique-Talagrand upper bound on the expected supremum of a subgaussian process emerges as a special case.
翻訳日:2023-05-19 14:28:25 公開日:2023-05-18
# 消音オートエンコーダの高次元漸近性

High-dimensional Asymptotics of Denoising Autoencoders ( http://arxiv.org/abs/2305.11041v1 )

ライセンス: Link先を確認
Hugo Cui, Lenka Zdeborov\'a(参考訳) 重み付けされた2層非線形オートエンコーダとスキップ接続を用いてガウス混合体からデータをノイズ化する問題に対処する。 トレーニングサンプル数と入力次元が連立する高次元限界は、隠れた単位の数が有界である間は無限大となる傾向がある。 発声平均二乗テスト誤差に対するクローズドフォーム表現を提供する。 この結果に基づいて,主成分分析に密接に関連するスキップ接続を伴わないオートエンコーダに対するアーキテクチャの利点を定量的に評価する。 さらに,本研究の結果から,実際のデータセットの学習曲線を正確に把握できることが示唆された。

We address the problem of denoising data from a Gaussian mixture using a two-layer non-linear autoencoder with tied weights and a skip connection. We consider the high-dimensional limit where the number of training samples and the input dimension jointly tend to infinity while the number of hidden units remains bounded. We provide closed-form expressions for the denoising mean-squared test error. Building on this result, we quantitatively characterize the advantage of the considered architecture over the autoencoder without the skip connection that relates closely to principal component analysis. We further show that our results accurately capture the learning curves on a range of real data sets.
翻訳日:2023-05-19 14:28:10 公開日:2023-05-18
# グローバーアルゴリズムを用いた変分量子パーセプトロンのシミュレーション

Simulation of a Variational Quantum Perceptron using Grover's Algorithm ( http://arxiv.org/abs/2305.11040v1 )

ライセンス: Link先を確認
Nouhaila Innan and Mohamed Bennai(参考訳) 量子パーセプトロン、変分回路、Groverアルゴリズムは量子機械学習のための有望なコンポーネントとして提案されている。 本稿では,量子変動回路とGroverアルゴリズムを組み合わせた新しい量子パーセプトロンを提案する。 しかし、これはグロバーのアルゴリズム(QVPG)によるこの量子変分パーセプトロンが量子変分(QVP)や古典的なものに対して何らかの利点を持つことを保証していない。 本稿では,QVPとQVP-Gの性能を損失関数を計算し,それらの精度を分類タスクで解析し,これらの2つの量子モデルを古典パーセプトロン(CP)と比較する。 その結果、2つの量子モデルの方がCPよりも効率的であることが示され、新しいモデルQVP-GはQVPよりも優れており、Groverが分類タスクに適用可能であり、非構造化探索問題以外のモデルもより正確であることを示した。

The quantum perceptron, the variational circuit, and the Grover algorithm have been proposed as promising components for quantum machine learning. This paper presents a new quantum perceptron that combines the quantum variational circuit and the Grover algorithm. However, this does not guarantee that this quantum variational perceptron with Grover's algorithm (QVPG) will have any advantage over its quantum variational (QVP) and classical counterparts. Here, we examine the performance of QVP and QVP-G by computing their loss function and analyzing their accuracy on the classification task, then comparing these two quantum models to the classical perceptron (CP). The results show that our two quantum models are more efficient than CP, and our novel suggested model QVP-G outperforms the QVP, demonstrating that the Grover can be applied to the classification task and even makes the model more accurate, besides the unstructured search problems.
翻訳日:2023-05-19 14:27:59 公開日:2023-05-18
# Deep PackGen: 敵対的ネットワークパケット生成のための深層強化学習フレームワーク

Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial Network Packet Generation ( http://arxiv.org/abs/2305.11039v1 )

ライセンス: Link先を確認
Soumyadeep Hore and Jalal Ghadermazi and Diwas Paudel and Ankit Shah and Tapas K. Das and Nathaniel D. Bastian(参考訳) 人工知能(AI)と機械学習(ML)アルゴリズムの進歩は、より高速なコンピューティングインフラストラクチャの可用性と相まって、ML支援ネットワーク侵入検知システム(NIDS)の開発を通じて、サイバーセキュリティ運用センター(ディフェンダー)のセキュリティ姿勢を高めている。 同時に、AI/MLモデルのサポートにより、セキュリティを回避する敵の能力も向上している。 したがって、防衛側は、NIDSの検出機構を利用する回避攻撃を積極的に準備する必要がある。 近年の研究では、フローベースとパケットベースの特徴の摂動はMLモデルを欺くことができるが、これらのアプローチには限界がある。 フローベースの機能に対する摂動はリバースエンジニアリングが難しいが、パケットベースの機能に対する摂動で生成されたサンプルは再生できない。 方法論の枠組みであるDeep PackGenは,逆パケットを生成するために深層強化学習を採用し,文献におけるアプローチの限界を克服することを目的としている。 生の悪質なネットワークパケットを入力として、それらを体系的に乱れにすることで、Deep PackGenはそれらの機能を保ちながらそれらを良質なパケットとして扱います。 我々の実験では、公開データを用いて、Deep PackGenは、さまざまなMLモデルに対して平均で66.4\%の成功率を達成した。 また, 検証の結果, 正反対サンプルの45%以上は, 識別器の判定境界を回避した分布外パケットであることがわかった。 本研究は,異なる種類の悪意パケットに対して特定の回避的摂動を行う敵の能力に関する知見から得られた知見であり,敵攻撃の進行に対して,敵がNIDSの堅牢性を高めるのに役立つ。

Recent advancements in artificial intelligence (AI) and machine learning (ML) algorithms, coupled with the availability of faster computing infrastructure, have enhanced the security posture of cybersecurity operations centers (defenders) through the development of ML-aided network intrusion detection systems (NIDS). Concurrently, the abilities of adversaries to evade security have also increased with the support of AI/ML models. Therefore, defenders need to proactively prepare for evasion attacks that exploit the detection mechanisms of NIDS. Recent studies have found that the perturbation of flow-based and packet-based features can deceive ML models, but these approaches have limitations. Perturbations made to the flow-based features are difficult to reverse-engineer, while samples generated with perturbations to the packet-based features are not playable. Our methodological framework, Deep PackGen, employs deep reinforcement learning to generate adversarial packets and aims to overcome the limitations of approaches in the literature. By taking raw malicious network packets as inputs and systematically making perturbations on them, Deep PackGen camouflages them as benign packets while still maintaining their functionality. In our experiments, using publicly available data, Deep PackGen achieved an average adversarial success rate of 66.4\% against various ML models and across different attack types. Our investigation also revealed that more than 45\% of the successful adversarial samples were out-of-distribution packets that evaded the decision boundaries of the classifiers. The knowledge gained from our study on the adversary's ability to make specific evasive perturbations to different types of malicious packets can help defenders enhance the robustness of their NIDS against evolving adversarial attacks.
翻訳日:2023-05-19 14:27:44 公開日:2023-05-18
# 名前付きエンティティ認識のための文脈内学習

Learning In-context Learning for Named Entity Recognition ( http://arxiv.org/abs/2305.11038v1 )

ライセンス: Link先を確認
Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han and Le Sun(参考訳) 実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティ型の発生、高品質なアノテーションの欠如に苦しむ。 上記の問題に対処するため,本論文では,テキスト内NER能力を PLM に効果的に注入し,いくつかの実証例を用いて新たなタイプのエンティティをオンザフライで認識する,コンテキスト内学習に基づくNERアプローチを提案する。 具体的には、PLMをメタ関数 $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}} としてモデル化する。 新しいエンティティ抽出器は、plm、すなわち$\mathcal{ (\lambda.m}$) に新しい命令とデモンストレーションを適用することで暗黙的に構築できる。 M) }$(インストラクション、デモ)$\to$ $\mathcal{F}$ where $\mathcal{F}$は新しいエンティティ抽出子、すなわち、$\mathcal{F}$: text $\to$エンティティとなる。 そこで本稿では,PLM に記述中の NER 能力を注入するメタ関数事前学習アルゴリズムを提案し,PLM を(指示,実演)初期抽出器と代用ゴールデン抽出器とを比較して事前学習する。 数発のNERデータセットによる実験結果から,本手法はテキスト内NER能力をPLMに効果的に注入し,PLM+fin-tuningよりも優れていた。

Named entity recognition in real-world applications suffers from the diversity of entity types, the emergence of new entity types, and the lack of high-quality annotations. To address the above problems, this paper proposes an in-context learning-based NER approach, which can effectively inject in-context NER ability into PLMs and recognize entities of novel types on-the-fly using only a few demonstrative instances. Specifically, we model PLMs as a meta-function $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}}. M}$, and a new entity extractor can be implicitly constructed by applying new instruction and demonstrations to PLMs, i.e., $\mathcal{ (\lambda . M) }$(instruction, demonstrations) $\to$ $\mathcal{F}$ where $\mathcal{F}$ will be a new entity extractor, i.e., $\mathcal{F}$: text $\to$ entities. To inject the above in-context NER ability into PLMs, we propose a meta-function pre-training algorithm, which pre-trains PLMs by comparing the (instruction, demonstration)-initialized extractor with a surrogate golden extractor. Experimental results on 4 few-shot NER datasets show that our method can effectively inject in-context NER ability into PLMs and significantly outperforms the PLMs+fine-tuning counterparts.
翻訳日:2023-05-19 14:27:15 公開日:2023-05-18
# ワードピースのトレーディング構文木:ワードピースを用いたターゲット指向オピニオンワード抽出とアスペクト強調

Trading Syntax Trees for Wordpieces: Target-oriented Opinion Words Extraction with Wordpieces and Aspect Enhancement ( http://arxiv.org/abs/2305.11034v1 )

ライセンス: Link先を確認
Samuel Mensah, Kai Sun, Nikolaos Aletras(参考訳) State-of-the-the-the-art target-oriented opinion word extract (TOWE)モデルは通常、BERTベースのテキストエンコーダを使用し、構文木から抽出された構文情報を含むグラフ畳み込みネットワーク(GCN)を使用する。 これらの手法はGCNの限られたゲインを実現し,BERTワードピースの使用が困難である。 一方、BERTワードピースは文脈情報に乏しい稀な単語や単語を表現するのに有効であることが知られている。 この問題に対処するため、この作業では、メソッドのアーキテクチャからGCNコンポーネントを完全に取り除き、BERTワードピースの構文木を交換する。 TOWE性能を向上させるために,符号化時のアスペクト表現損失の問題に取り組む。 文を入力としてのみ利用する代わりに、文とアスペクトのペアを使う。 我々の比較的単純なアプローチは、ベンチマークデータセットの最先端結果を実現し、さらなる研究の強力なベースラインとして機能するはずです。

State-of-the-art target-oriented opinion word extraction (TOWE) models typically use BERT-based text encoders that operate on the word level, along with graph convolutional networks (GCNs) that incorporate syntactic information extracted from syntax trees. These methods achieve limited gains with GCNs and have difficulty using BERT wordpieces. Meanwhile, BERT wordpieces are known to be effective at representing rare words or words with insufficient context information. To address this issue, this work trades syntax trees for BERT wordpieces by entirely removing the GCN component from the methods' architectures. To enhance TOWE performance, we tackle the issue of aspect representation loss during encoding. Instead of solely utilizing a sentence as the input, we use a sentence-aspect pair. Our relatively simple approach achieves state-of-the-art results on benchmark datasets and should serve as a strong baseline for further research.
翻訳日:2023-05-19 14:26:48 公開日:2023-05-18
# 視覚的質問応答:最近の文献における技術と共通動向に関する調査

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature ( http://arxiv.org/abs/2305.11033v1 )

ライセンス: Link先を確認
Ana Cl\'audia Akemi Matsuki de Faria, Felype de Castro Bastos, Jos\'e Victor Nogueira Alves da Silva, Vitor Lopes Fabris, Valeska de Sousa Uchoa, D\'ecio Gon\c{c}alves de Aguiar Neto, Claudio Filipi Goncalves dos Santos(参考訳) 視覚質問応答(visual question answering, vqa)は、自然言語処理と画像予測における最近の問題である。 この領域では、アルゴリズムは特定の画像に関する質問に答える必要がある。 この調査の執筆時点で、25の最近の研究が分析された。 さらに、6つのデータセットが分析され、ダウンロードへのリンクが提供された。 本研究は,本分野における最近の研究成果を概説し,その結果,最先端の誤り,一般的な誤り,今後の研究者にとっての改善点など,より深い分析と比較を行った。

Visual Question Answering (VQA) is an emerging area of interest for researches, being a recent problem in natural language processing and image prediction. In this area, an algorithm needs to answer questions about certain images. As of the writing of this survey, 25 recent studies were analyzed. Besides, 6 datasets were analyzed and provided their link to download. In this work, several recent pieces of research in this area were investigated and a deeper analysis and comparison among them were provided, including results, the state-of-the-art, common errors, and possible points of improvement for future researchers.
翻訳日:2023-05-19 14:26:30 公開日:2023-05-18
# 最適自然政策グラディエント:オンラインRLのためのシンプルな効率的な政策最適化フレームワーク

Optimistic Natural Policy Gradient: a Simple Efficient Policy Optimization Framework for Online RL ( http://arxiv.org/abs/2305.11032v1 )

ライセンス: Link先を確認
Qinghua Liu, Gell\'ert Weisz, Andr\'as Gy\"orgy, Chi Jin, Csaba Szepesv\'ari(参考訳) 政策最適化アルゴリズムは、近年の強化学習(RL)の実証的成功において重要な役割を担っているが、既存の理論的な政策最適化の理解は、表向きのMDPに限定されるか、探索が必要なオンラインRLにおいて非常に最適なサンプル複雑さに悩まされている。 楽観的npgは、従来の自然政策勾配 (npg) アルゴリズム [kakade, 2001] と楽観的政策評価サブルーチンを組み合わせることで、探索を促進することができる。 $d$次元線形 MDP に対して、Optimistic NPG は計算効率が高く、$\tilde{O}(d^2/\varepsilon^3)$サンプル内で$\varepsilon$-Optimal Policy を学ぶ。 また、政策最適化アルゴリズム[Zanette et al., 2021]の最先端の結果を$d$の係数で改善する。 線形 MDP を最良知識として仮定する一般関数近似に対して、最適化NPG は、多項式サンプルの複雑さを最適に近いポリシーを学ぶための最初のポリシー最適化アルゴリズムである。

While policy optimization algorithms have played an important role in recent empirical success of Reinforcement Learning (RL), the existing theoretical understanding of policy optimization remains rather limited -- they are either restricted to tabular MDPs or suffer from highly suboptimal sample complexity, especial in online RL where exploration is necessary. This paper proposes a simple efficient policy optimization framework -- Optimistic NPG for online RL. Optimistic NPG can be viewed as simply combining of the classic natural policy gradient (NPG) algorithm [Kakade, 2001] with optimistic policy evaluation subroutines to encourage exploration. For $d$-dimensional linear MDPs, Optimistic NPG is computationally efficient, and learns an $\varepsilon$-optimal policy within $\tilde{O}(d^2/\varepsilon^3)$ samples, which is the first computationally efficient algorithm whose sample complexity has the optimal dimension dependence $\tilde{\Theta}(d^2)$. It also improves over state-of-the-art results of policy optimization algorithms [Zanette et al., 2021] by a factor of $d$. For general function approximation that subsumes linear MDPs, Optimistic NPG, to our best knowledge, is also the first policy optimization algorithm that achieves the polynomial sample complexity for learning near-optimal policies.
翻訳日:2023-05-19 14:26:20 公開日:2023-05-18
# 音声認識・翻訳・理解課題におけるE-Branchformer vs. Conformerの比較検討

A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks ( http://arxiv.org/abs/2305.11073v1 )

ライセンス: Link先を確認
Yifan Peng, Kwangyoun Kim, Felix Wu, Brian Yan, Siddhant Arora, William Chen, Jiyang Tang, Suwon Shon, Prashant Sridhar, Shinji Watanabe(参考訳) convolution-augmented transformer 変種である conformer は、音声認識 (asr)、音声翻訳 (st)、音声言語理解 (slu) といった様々なタスクにおいて優れた性能を持つため、音声処理のデファクトエンコーダアーキテクチャとなっている。 最近、E-Branchformerと呼ばれる新しいエンコーダが、LibriSpeech ASRベンチマークでConformerより優れており、より一般的な音声アプリケーションに期待できる。 この研究は、E-Branchformer と Conformer を比較し、様々なタイプのエンドツーエンドシーケンス・ツー・シーケンスモデルを用いて広範な実験を行った。 その結果,15 ASR, 2 ST, 3 SLU ベンチマークのほぼすべての評価セットにおいて,E-Branchformer は Conformer と同等あるいは同等の性能を示した。 私たちは、再現性のためのトレーニング設定と事前訓練されたモデルをリリースします。

Conformer, a convolution-augmented Transformer variant, has become the de facto encoder architecture for speech processing due to its superior performance in various tasks, including automatic speech recognition (ASR), speech translation (ST) and spoken language understanding (SLU). Recently, a new encoder called E-Branchformer has outperformed Conformer in the LibriSpeech ASR benchmark, making it promising for more general speech applications. This work compares E-Branchformer and Conformer through extensive experiments using different types of end-to-end sequence-to-sequence models. Results demonstrate that E-Branchformer achieves comparable or better performance than Conformer in almost all evaluation sets across 15 ASR, 2 ST, and 3 SLU benchmarks, while being more stable during training. We will release our training configurations and pre-trained models for reproducibility, which can benefit the speech community.
翻訳日:2023-05-19 14:21:05 公開日:2023-05-18
# 話者不変クラスタリングによるコンテンツ表現改善のための自己教師型微調整

Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering ( http://arxiv.org/abs/2305.11072v1 )

ライセンス: Link先を確認
Heng-Jui Chang, Alexander H. Liu, James Glass(参考訳) 自己教師付き音声表現モデルは様々なタスクに成功しているが、ラベルなしデータを用いたコンテンツ関連問題に対する改善は難しい。 本稿では,音声表現をクラスタリングし,原音声と話者摂動発話間のスワップ予測を行う,新しい自己教師付き学習手法であるspinを提案する。 spin disentangleはスピーカー情報とコンテンツ表現を単一のgpu上で45分間の微調整で保存する。 Spinは事前訓練されたネットワークを改善し、音声認識や音響ユニット発見における先行手法より優れている。

Self-supervised speech representation models have succeeded in various tasks, but improving them for content-related problems using unlabeled data is challenging. We propose speaker-invariant clustering (Spin), a novel self-supervised learning method that clusters speech representations and performs swapped prediction between the original and speaker-perturbed utterances. Spin disentangles speaker information and preserves content representations with just 45 minutes of fine-tuning on a single GPU. Spin improves pre-trained networks and outperforms prior methods in speech recognition and acoustic unit discovery.
翻訳日:2023-05-19 14:20:45 公開日:2023-05-18
# 溶岩中のニューロモルフィックベイズ最適化

Neuromorphic Bayesian Optimization in Lava ( http://arxiv.org/abs/2305.11060v1 )

ライセンス: Link先を確認
Shay Snyder (1), Sumedh R. Risbud (2), and Maryam Parsa (1) ((1) George Mason University, (2) Intel Labs)(参考訳) 計算的に高価で高次元的な問題の増大は、最適に近い解を妥当な時間で見つけるための新しい最適化手法を必要とする。 ベイズ最適化(BO)は、多変量問題における基礎となる関係を学習するための最良の方法論の1つである。 これにより、ユーザーは時間消費と計算コストのかかるブラックボックス機能を実現可能な時間枠で最適化することができる。 既存のbo実装では、データとメモリが分離された従来のvon-neumannアーキテクチャを使用している。 本稿では,オープンソースのlavasソフトウェアフレームワークへの貢献として,lavas bayesian optimization (lavabo)を紹介する。 LavaBOは、異種で細粒度の並列なインメモリニューロモルフィックコンピューティングアーキテクチャ(例えばIntelのLoihiプラットフォーム)と互換性のあるBOシステムを開発するための最初のステップである。 本研究では,バックプロパゲーションと進化学習を通じて,最先端スパイクニューラルネットワークを訓練するなど,複数の問題に対するlavaboシステムのアルゴリズム性能を評価する。 従来のアルゴリズム(グリッド探索やランダム探索など)と比較して,lavaboのパラメータ探索空間を,より少ないコストで探索し,最適な解を探索する能力に注目する。

The ever-increasing demands of computationally expensive and high-dimensional problems require novel optimization methods to find near-optimal solutions in a reasonable amount of time. Bayesian Optimization (BO) stands as one of the best methodologies for learning the underlying relationships within multi-variate problems. This allows users to optimize time consuming and computationally expensive black-box functions in feasible time frames. Existing BO implementations use traditional von-Neumann architectures, in which data and memory are separate. In this work, we introduce Lava Bayesian Optimization (LavaBO) as a contribution to the open-source Lava Software Framework. LavaBO is the first step towards developing a BO system compatible with heterogeneous, fine-grained parallel, in-memory neuromorphic computing architectures (e.g., Intel's Loihi platform). We evaluate the algorithmic performance of the LavaBO system on multiple problems such as training state-of-the-art spiking neural network through back-propagation and evolutionary learning. Compared to traditional algorithms (such as grid and random search), we highlight the ability of LavaBO to explore the parameter search space with fewer expensive function evaluations, while discovering the optimal solutions.
翻訳日:2023-05-19 14:20:23 公開日:2023-05-18
# petal: 逆問題を解くための平均線形化による物理エミュレーション

PETAL: Physics Emulation Through Averaged Linearizations for Solving Inverse Problems ( http://arxiv.org/abs/2305.11056v1 )

ライセンス: Link先を確認
Jihui Jin, Etienne Ollivier, Richard Touret, Matthew McKinley, Karim G. Sabra, Justin K. Romberg(参考訳) 逆問題では、オブザーバブルに与えられた関心のシグナルを回復するタスクが記述される。 一般に、可観測性は基礎となる未知信号に適用される非線形フォワードモデルによって関連付けられる。 非線形フォワードモデルの反転は、しばしば一連の見積もりで線形化の計算と反転を伴うため、計算的に高価である。 物理ベースのモデルを反転させる代わりに、サーロゲートフォワードモデル(emulator)をトレーニングし、古典的な最適化フレームワークで入力を解決するために現代のオートグレードライブラリを利用する。 エミュレータを訓練する現在の方法は、教師付き機械学習方式でブラックボックスで行われ、フォワードモデルの既存の知識を活用できない。 本稿では,様々な参照点に関する前方モデルの線形化をモデル自身に組み込んで,既知の物理学を明示的に取り入れた,単純な学習重み付け平均モデルを提案する。 物理に基づく線形化による学習モデルをグラウンディングすることで、フォワードモデリングの精度が向上し、インバージョンプロセス中によりリッチな物理に基づく勾配情報を提供し、より正確な信号回復をもたらす。 メキシコ湾における海洋力学シミュレーションにおいて,海洋音速プロファイル(ssp)の変動を音響観測(固有線到達時間など)から復元することを目的とした海洋音響トモグラフィー(oat)の例の有効性を示す。

Inverse problems describe the task of recovering an underlying signal of interest given observables. Typically, the observables are related via some non-linear forward model applied to the underlying unknown signal. Inverting the non-linear forward model can be computationally expensive, as it often involves computing and inverting a linearization at a series of estimates. Rather than inverting the physics-based model, we instead train a surrogate forward model (emulator) and leverage modern auto-grad libraries to solve for the input within a classical optimization framework. Current methods to train emulators are done in a black box supervised machine learning fashion and fail to take advantage of any existing knowledge of the forward model. In this article, we propose a simple learned weighted average model that embeds linearizations of the forward model around various reference points into the model itself, explicitly incorporating known physics. Grounding the learned model with physics based linearizations improves the forward modeling accuracy and provides richer physics based gradient information during the inversion process leading to more accurate signal recovery. We demonstrate the efficacy on an ocean acoustic tomography (OAT) example that aims to recover ocean sound speed profile (SSP) variations from acoustic observations (e.g. eigenray arrival times) within simulation of ocean dynamics in the Gulf of Mexico.
翻訳日:2023-05-19 14:20:05 公開日:2023-05-18
# TikhonovおよびRKHS正則化のための小型ノイズ解析

Small noise analysis for Tikhonov and RKHS regularizations ( http://arxiv.org/abs/2305.11055v1 )

ライセンス: Link先を確認
Quanjun Lang, Fei Lu(参考訳) 正規化は、不正な機械学習と逆問題において重要な役割を果たす。 しかし、様々な正規化ノルムの基本的な比較分析は未解決である。 我々は、ガウス雑音を伴う線形逆問題において、TikhonovおよびRKHS正規化におけるノルムの効果を評価するための小さなノイズ分析フレームワークを構築した。 この枠組みは、小雑音域における正規化推定器の収束率を調査し、従来のl2レギュラライザの潜在的な不安定性を明らかにする。 このような不安定性は、L2 Tikhonov と RKHS の正則化をカバーする適応的分数分解器の革新的なクラスを提案することで解決する。 驚くべき洞察は、これらの分数 rkhss によるオーバースムーシングは一貫して最適な収束率をもたらすが、最適なハイパーパラメーターは実際に選択するには速すぎるかもしれないということである。

Regularization plays a pivotal role in ill-posed machine learning and inverse problems. However, the fundamental comparative analysis of various regularization norms remains open. We establish a small noise analysis framework to assess the effects of norms in Tikhonov and RKHS regularizations, in the context of ill-posed linear inverse problems with Gaussian noise. This framework studies the convergence rates of regularized estimators in the small noise limit and reveals the potential instability of the conventional L2-regularizer. We solve such instability by proposing an innovative class of adaptive fractional RKHS regularizers, which covers the L2 Tikhonov and RKHS regularizations by adjusting the fractional smoothness parameter. A surprising insight is that over-smoothing via these fractional RKHSs consistently yields optimal convergence rates, but the optimal hyper-parameter may decay too fast to be selected in practice.
翻訳日:2023-05-19 14:19:43 公開日:2023-05-18
# BERM:Dense Retrievalの一般化能力向上のためのマッチングのためのバランスと抽出可能な表現の訓練

BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval ( http://arxiv.org/abs/2305.11052v1 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng(参考訳) 高密度検索は、ドメイン内ラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。 しかし、従来の研究では、ドメイン不変かつ解釈可能な特徴(すなわち、情報検索の本質である2つのテキスト間の信号のマッチング)の弱いモデリングのために、密集した検索を未認識領域に一般化することは困難である。 本稿では,BERMと呼ばれるマッチング信号をキャプチャすることで,高密度検索の一般化を改善する手法を提案する。 完全きめ細かい表現とクエリ指向の相性は、マッチング信号の2つの特性である。 このように、BERMでは、1つの通路を複数の単位に分割し、2つの単位レベル要件をトレーニングの制約として提案し、効果的なマッチング信号を得る。 1つは意味的単位バランス、もう1つは本質的マッチング単位抽出可能性である。 単位レベルのビューとバランスの取れたセマンティクスは、表現をきめ細かい方法で表現する。 基本整合ユニット抽出性は、与えられたクエリに敏感な通過表現を与え、複雑なコンテキストを含む通路から純粋整合情報を抽出する。 ベイル実験では,提案手法を異なる濃密検索訓練法(バニラ,ハード負のマイニング,知識蒸留)と効果的に組み合わせることで,追加の推論オーバーヘッドや対象領域データなしに一般化能力を向上させることができることを示した。

Dense retrieval has shown promise in the first-stage retrieval process when trained on in-domain labeled datasets. However, previous studies have found that dense retrieval is hard to generalize to unseen domains due to its weak modeling of domain-invariant and interpretable feature (i.e., matching signal between two texts, which is the essence of information retrieval). In this paper, we propose a novel method to improve the generalization of dense retrieval via capturing matching signal called BERM. Fully fine-grained expression and query-oriented saliency are two properties of the matching signal. Thus, in BERM, a single passage is segmented into multiple units and two unit-level requirements are proposed for representation as the constraint in training to obtain the effective matching signal. One is semantic unit balance and the other is essential matching unit extractability. Unit-level view and balanced semantics make representation express the text in a fine-grained manner. Essential matching unit extractability makes passage representation sensitive to the given query to extract the pure matching information from the passage containing complex context. Experiments on BEIR show that our method can be effectively combined with different dense retrieval training methods (vanilla, hard negatives mining and knowledge distillation) to improve its generalization ability without any additional inference overhead and target domain data.
翻訳日:2023-05-19 14:19:26 公開日:2023-05-18
# 水健康に関するオープンナレッジグラフ

The Water Health Open Knowledge Graph ( http://arxiv.org/abs/2305.11051v1 )

ライセンス: Link先を確認
Gianluca Carletti, Elio Giulianelli, Anna Sofia Lippolis, Giorgia Lodi, Andrea Giovanni Nuzzolese, Marco Picone, Giulio Settanta(参考訳) 近年,水と保健資源の管理への関心が高まっている。 この関心は、水不足とその中核に品質を持つ人類が引き起こす世界的な持続可能性課題によってもたらされる。 したがって、国連が目標とするクリーンウォーターと衛生の持続可能な開発目標の広い文脈でこれらの問題に対処するためには、効果的で有意義でオープンなデータを利用できることが不可欠である。 本稿では、その設計方法論と影響分析とともに、WHOW-KG(Water Health Open Knowledge Graph)を紹介する。 whow-kgは、水消費、汚染、感染症率、薬物分布に関するデータをモデル化するセマンティックナレッジグラフである。 whow-kgは、euが出資するwhowプロジェクト(water health open knowledge)の文脈で開発され、知識の発見から意思決定まで、水や健康分野の研究者、政策立案者、実践者にとって貴重なリソースとなる幅広いアプリケーションをサポートすることを目的としている。 WHOW-KGは5つのオントロジーと関連するリンクされたオープンデータで構成される。

Recently, an increasing interest in the management of water and health resources has been recorded. This interest is fed by the global sustainability challenges posed to the humanity that have water scarcity and quality at their core. Thus, the availability of effective, meaningful and open data is crucial to address those issues in the broader context of the Sustainable Development Goals of clean water and sanitation as targeted by the United Nations. In this paper, we present the Water Health Open Knowledge Graph (WHOW-KG) along with its design methodology and analysis on impact. WHOW-KG is a semantic knowledge graph that models data on water consumption, pollution, infectious disease rates and drug distribution. The WHOW-KG is developed in the context of the EU-funded WHOW (Water Health Open Knowledge) project and aims at supporting a wide range of applications: from knowledge discovery to decision-making, making it a valuable resource for researchers, policymakers, and practitioners in the water and health domains. The WHOW-KG consists of a network of five ontologies and related linked open data, modelled according to those ontologies.
翻訳日:2023-05-19 14:18:47 公開日:2023-05-18
# 画像復調のためのPDEインフォームド有効ロバストモデルNODE-ImgNet

NODE-ImgNet: a PDE-informed effective and robust model for image denoising ( http://arxiv.org/abs/2305.11049v1 )

ライセンス: Link先を確認
Xinheng Xie, Yue Wu, Hao Ni, Cuiyu He(参考訳) 画像分割のための従来の偏微分方程式(pde)のアプローチに触発されて、ニューラル常微分方程式(ノード)と畳み込みニューラルネットワーク(cnn)ブロックを組み合わせた、node-imgnetと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 NODE-ImgNetは本質的にPDEモデルであり、動的システムはPDEの明示的な仕様なしで暗黙的に学習される。 これは、学習プロセス中にアーティファクトを導入する際の典型的な問題を自然に回避します。 残余ネットワーク(ResNet)の連続的変種と見なすことができるようなNODE構造を起動することで、画像の復調においてその利点を継承し、精度とパラメータ効率を向上させる。 特に,gaussian noiseによるグレー画像やカラー画像,実雑音画像など,さまざまなシナリオにおいて一貫した効果を示し,小型画像データセットからの学習において優れていることを示す。

Inspired by the traditional partial differential equation (PDE) approach for image denoising, we propose a novel neural network architecture, referred as NODE-ImgNet, that combines neural ordinary differential equations (NODEs) with convolutional neural network (CNN) blocks. NODE-ImgNet is intrinsically a PDE model, where the dynamic system is learned implicitly without the explicit specification of the PDE. This naturally circumvents the typical issues associated with introducing artifacts during the learning process. By invoking such a NODE structure, which can also be viewed as a continuous variant of a residual network (ResNet) and inherits its advantage in image denoising, our model achieves enhanced accuracy and parameter efficiency. In particular, our model exhibits consistent effectiveness in different scenarios, including denoising gray and color images perturbed by Gaussian noise, as well as real-noisy images, and demonstrates superiority in learning from small image datasets.
翻訳日:2023-05-19 14:17:56 公開日:2023-05-18
# 測定バックアクションを利用した強化学習によるキャビティフォック状態重ね合わせの作製

Preparation of cavity Fock state superpositions by reinforcement learning exploiting measurement back-action ( http://arxiv.org/abs/2305.11047v1 )

ライセンス: Link先を確認
Arthur Perret, Yves B\'erub\'e-Lauzi\`ere(参考訳) ボゾンおよび一般空洞量子状態の生成は通常、望ましい目標状態に到達するためにオープンループ制御を使用する。 そこで本研究では,コヒーレントドライブと共に弱測定の非線形性を活用し,測定に基づくフィードバック手法を提案する。 lyapunovベースの制御に関する以前の作業の延長は、このタスクに失敗することが示されている。 これは別のアプローチを促すもので、強化学習(rl)はこの目的のためにここで使われる。 このようなアプローチにより、キャビティ固有状態重ね合わせは、キャビティフォトンジャンプの検出を自然に取り入れつつ、測定バックアクションのみを非線形として98$\%以上で作成することができる。 truncated quantile critic~(tqc)と呼ばれる最近導入されたオフポリシーアプローチと、量子制御で一般的に使用されるオンポリシーメソッド、すなわち近位政策最適化~(ppo)である。 その結果,TQCはより高い目標状態の忠実度を達成できることがわかった。

Preparation of bosonic and general cavity quantum states usually relies on using open-loop control to reach a desired target state. In this work, a measurement-based feedback approach is used instead, exploiting the non-linearity of weak measurements alongside a coherent drive to prepare these states. The extension of previous work on Lyapunov-based control is shown to fail for this task. This prompts for a different approach, and reinforcement learning (RL) is resorted to here for this purpose. With such an approach, cavity eigenstate superpositions can be prepared with fidelities over 98$\%$ using only the measurements back-action as the non-linearity, while naturally incorporating detection of cavity photon jumps. Two different RL frameworks are analyzed: an off-policy approach recently introduced called truncated quantile critic~(TQC) and the on-policy method commonly used in quantum control, namely proximal policy optimization~(PPO). It is shown that TQC performs better at reaching higher target state fidelity preparation.
翻訳日:2023-05-19 14:17:20 公開日:2023-05-18
# QPGesture:自然音声によるジェスチャー生成のための量子化と位相誘導動作マッチング

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation ( http://arxiv.org/abs/2305.11094v1 )

ライセンス: Link先を確認
Sicheng Yang, Zhiyong Wu, Minglei Li, Zhensong Zhang, Lei Hao, Weihong Bao, Haolin Zhuang(参考訳) 人間の動きのランダムなジッタのため、音声によるジェスチャー生成は非常に困難である。 さらに、人間の発話とジェスチャーには本質的に非同期な関係がある。 これらの課題に取り組むため,我々は,新しい量子化ベースと位相誘導型モーションマッチングフレームワークを提案する。 具体的には、まず、意味のあるジェスチャーユニットを要約するコードブックを学ぶためのジェスチャーVQ-VAEモジュールを提示する。 それぞれのコードがユニークなジェスチャーを表すため、ランダムなジッタリング問題は効果的に緩和される。 次に、Levenshtein距離を使って多様なジェスチャーを異なる音声で一致させる。 ジェスチャーの対応する音声の類似度指標としての音声量子化に基づくレベンシュテイン距離は、より適切なジェスチャーと音声とのマッチングを助け、音声とジェスチャーのアライメント問題をよく解決する。 さらに、音声の文脈やリズムのセマンティクスに基づいて最適なジェスチャーマッチングを誘導するための位相を導入する。 テキストベースまたは音声ベースのジェスチャーを行う場合のフェーズガイドは、生成したジェスチャーをより自然にするためのものである。 大規模な実験により,本手法は音声によるジェスチャー生成における近年の手法よりも優れていた。 私たちのコード、データベース、事前訓練されたモデル、デモはhttps://github.com/youngseng/qpgesture.com/で利用可能です。

Speech-driven gesture generation is highly challenging due to the random jitters of human motion. In addition, there is an inherent asynchronous relationship between human speech and gestures. To tackle these challenges, we introduce a novel quantization-based and phase-guided motion-matching framework. Specifically, we first present a gesture VQ-VAE module to learn a codebook to summarize meaningful gesture units. With each code representing a unique gesture, random jittering problems are alleviated effectively. We then use Levenshtein distance to align diverse gestures with different speech. Levenshtein distance based on audio quantization as a similarity metric of corresponding speech of gestures helps match more appropriate gestures with speech, and solves the alignment problem of speech and gestures well. Moreover, we introduce phase to guide the optimal gesture matching based on the semantics of context or rhythm of audio. Phase guides when text-based or speech-based gestures should be performed to make the generated gestures more natural. Extensive experiments show that our method outperforms recent approaches on speech-driven gesture generation. Our code, database, pre-trained models, and demos are available at https://github.com/YoungSeng/QPGesture.
翻訳日:2023-05-19 14:09:19 公開日:2023-05-18
# 量子誤差補正のための雑音適応リカバリ回路

Noise-adapted recovery circuits for quantum error correction ( http://arxiv.org/abs/2305.11093v1 )

ライセンス: Link先を確認
Debjyoti Biswas, Gaurav M. Vaidya, and Prabha Mandayam(参考訳) 量子エラー訂正(QEC)プロトコルの実装は、今日のノイズの多い中間スケール量子デバイスの時代において難しい課題である。 我々は、任意の符号やノイズチャネルの至近忠実性を達成するため、petzマップと呼ばれる普遍的ノイズ適応リカバリマップの量子回路を提案する。 2つの回路構成は等尺拡張やブロックエンコーディングといった代数的手法によるものであるが、第3のアプローチではリカバリマップを2つのpovm列に分割する。 3つのケースそれぞれにおいて、現在文献に存在するリソース要件を改善します。 また、petz回復回路とは別に、符号化状態と回収状態との忠実性を直接推定できる回路も提示する。 回路構成の具体例として、振幅減衰ノイズから保護するために調整された4ドルのqecコードに対応するpetzリカバリ回路を実装した。 ノイズ対応リカバリ回路の有効性は、ibm量子プロセッサ上での理想的かつノイズシミュレーションによって実証される。

Implementing quantum error correction (QEC) protocols is a challenging task in today's era of noisy intermediate-scale quantum devices. We present quantum circuits for a universal, noise-adapted recovery map, often referred to as the Petz map, which is known to achieve close-to-optimal fidelity for arbitrary codes and noise channels. While two of our circuit constructions draw upon algebraic techniques such as isometric extension and block encoding, the third approach breaks down the recovery map into a sequence of two-outcome POVMs. In each of the three cases we improve upon the resource requirements that currently exist in the literature. Apart from Petz recovery circuits, we also present circuits that can directly estimate the fidelity between the encoded state and the recovered state. As a concrete example of our circuit constructions, we implement Petz recovery circuits corresponding to the $4$-qubit QEC code tailored to protect against amplitude-damping noise. The efficacy of our noise-adapted recovery circuits is then demonstrated through ideal and noisy simulations on the IBM quantum processors.
翻訳日:2023-05-19 14:09:03 公開日:2023-05-18
# 基礎モデルからのユニバーサルドメイン適応

Universal Domain Adaptation from Foundation Models ( http://arxiv.org/abs/2305.11092v1 )

ライセンス: Link先を確認
Bin Deng and Kui Jia(参考訳) 基礎モデル(例: clipまたはdinov2)は、膨大なデータのコーパスでトレーニングを行い、特定の下流タスクに適応することで、幅広い視覚的タスクで印象的な学習と伝達能力を示している。 しかし、UniDA(UniDA)は、ソースドメイン内のラベル付きデータとターゲットドメイン内のラベルなしデータを用いてモデルを学習し、学習したモデルが対象データに適応できるように、基礎モデルが完全には研究されていないことが興味深い。 本稿では,基礎モデルを用いた最先端UniDA手法の総合的な実証的研究を行う。 まず、基礎モデルでは、ソースデータのみに基づいてモデルをトレーニングするベースラインメソッドの性能が大幅に向上するが、既存のUniDAメソッドは一般的にベースラインよりも改善しないことを示す。 これは、UniDAが基礎モデルを使用するためには、新しい研究努力が必要であることを示唆している。 そこで本研究では,CLIPモデル上でのターゲットデータ蒸留手法を提案するとともに,UniDAベンチマーク全体のベースラインに対する一貫した改善を実現する。 本研究は,既存のh-scoreメトリクスを用いた場合のしきい値に敏感な問題に対処するために,新たに提案されている普遍的分類率(ucr)の評価基準に基づいている。

Foundation models (e.g., CLIP or DINOv2) have shown their impressive learning and transferring capabilities on a wide range of visual tasks, by training on a large corpus of data and adapting to specific downstream tasks. It is, however, interesting that foundation models have not been fully explored for universal domain adaptation (UniDA), which is to learn models using labeled data in a source domain and unlabeled data in a target one, such that the learned models can successfully adapt to the target data. In this paper, we make comprehensive empirical studies of state-of-the-art UniDA methods using foundation models. We first demonstrate that, while foundation models greatly improve the performance of the baseline methods that train the models on the source data alone, existing UniDA methods generally fail to improve over the baseline. This suggests that new research efforts are very necessary for UniDA using foundation models. To this end, we propose a very simple method of target data distillation on the CLIP model, and achieves consistent improvement over the baseline across all the UniDA benchmarks. Our studies are under a newly proposed evaluation metric of universal classification rate (UCR), which is threshold- and ratio-free and addresses the threshold-sensitive issue encountered when using the existing H-score metric.
翻訳日:2023-05-19 14:08:46 公開日:2023-05-18
# 離散状態空間におけるブラックアウト拡散:生成拡散モデル

Blackout Diffusion: Generative Diffusion Models in Discrete-State Spaces ( http://arxiv.org/abs/2305.11089v1 )

ライセンス: Link先を確認
Javier E Santos, Zachary R. Fox, Nicholas Lubbers, Yen Ting Lin(参考訳) 典型的な生成拡散モデルは、後方変換を訓練するためにガウス拡散過程に依存し、ガウス雑音からサンプルを生成するのに使用できる。 しかし、実世界のデータは、多くの科学的応用を含む離散状態空間でしばしば行われる。 本稿では,(変分解析とは対照的に)厳密な解析を用いて,前方拡散過程における任意の離散状態マルコフ過程を理論的に定式化する。 この理論を既存の連続状態ガウス拡散や離散拡散への他のアプローチと関連付け、連続時間設定における対応する逆時間確率過程とスコア関数、離散時間設定における逆時間写像を同定する。 このフレームワークの例として、ノイズの代わりに空のイメージからサンプルを生成することを学習する ``Blackout Diffusion' を紹介する。 CIFAR-10, バイナリMNIST, CelebAデータセットの数値実験により, 本手法の有効性が確認された。 特定の(ガウス的)前方過程から変分近似を伴わない離散状態過程への一般化は、拡散モデルの解釈方法に光を当て、議論する。

Typical generative diffusion models rely on a Gaussian diffusion process for training the backward transformations, which can then be used to generate samples from Gaussian noise. However, real world data often takes place in discrete-state spaces, including many scientific applications. Here, we develop a theoretical formulation for arbitrary discrete-state Markov processes in the forward diffusion process using exact (as opposed to variational) analysis. We relate the theory to the existing continuous-state Gaussian diffusion as well as other approaches to discrete diffusion, and identify the corresponding reverse-time stochastic process and score function in the continuous-time setting, and the reverse-time mapping in the discrete-time setting. As an example of this framework, we introduce ``Blackout Diffusion'', which learns to produce samples from an empty image instead of from noise. Numerical experiments on the CIFAR-10, Binarized MNIST, and CelebA datasets confirm the feasibility of our approach. Generalizing from specific (Gaussian) forward processes to discrete-state processes without a variational approximation sheds light on how to interpret diffusion models, which we discuss.
翻訳日:2023-05-19 14:08:24 公開日:2023-05-18
# 自動推論における問題集合に対する軽量オンライン学習

Lightweight Online Learning for Sets of Related Problems in Automated Reasoning ( http://arxiv.org/abs/2305.11087v1 )

ライセンス: Link先を確認
Haoze Wu, Christopher Hahn, Florian Lonsing, Makai Mann, Raghuram Ramanujan, Clark Barrett(参考訳) 我々は,関連する問題の集合を解決するための自動推論タスクのための軽量オンライン学習手法であるself-driven strategy learning (sdsl)を提案する。 sdslは、以前の問題を解決しながら、データセット形式で自動的に情報を収集する。 学習したデータを用いて、学習したデータに機械学習モデルを適用することで、後の問題の解法戦略を調整する。 我々はこのアプローチを抽象トランジッションルールのセットとして正式に定義する。 本稿では,データ生成のための条件付きサンプリングとランダムフォレストを基礎となる機械学習モデルとして用いたsdsl計算の具体例について述べる。 この手法をkissatソルバ上に実装し,kissat+sdslの組み合わせがより広い境界を証明し,最新のハードウェアモデルチェックコンペティタから得られたベンチマークにおいて,最先端の有界モデルチェックアプローチよりも多くの反例を見出すことを示す。

We present Self-Driven Strategy Learning (sdsl), a lightweight online learning methodology for automated reasoning tasks that involve solving a set of related problems. sdsl automatically gathers information, in form of a dataset, while solving earlier problems. It utilizes the learned data to adjust the solving strategy for later problems by fitting a machine learning model to the obtained data on the fly. We formally define the approach as a set of abstract transition rules. We describe a concrete instance of the sdsl calculus which uses conditional sampling for generating data and random forests as the underlying machine learning model. We implement the approach on top of the Kissat solver and show that the combination of Kissat+sdsl certifies larger bounds and finds more counter-examples than other state-of-the-art bounded model checking approaches on benchmarks obtained from the latest Hardware Model Checking Competition.
翻訳日:2023-05-19 14:08:05 公開日:2023-05-18
# 優先か、意図か? ダブルディスタングル協調フィルタ

Preference or Intent? Double Disentangled Collaborative Filtering ( http://arxiv.org/abs/2305.11084v1 )

ライセンス: Link先を確認
Chao Wang, Hengshu Zhu, Dazhong Shen, Wei wu, Hui Xiong(参考訳) 人は通常、アイテムを選択する意図が異なるが、同じ意図の下での好みも異なることがある。 従来の協調フィルタリング手法では、意図と嗜好の両方の要素がモデリングプロセスに絡まっており、レコメンデーションパフォーマンスの堅牢性と解釈可能性を大幅に制限する。 例えば、評価の低い項目は常にネガティブなフィードバックとして扱われますが、実際にはユーザの意図に関するポジティブな情報を提供することができます。 そこで本稿では,Double Disentangled Collaborative Filtering (DDCF) という,パーソナライズされたレコメンデーションのための2次元表現学習手法を提案する。 第1レベルの偏角は意図と選好の影響因子を分離するために行われ、第2レベルの偏角は計算の複雑さが制限された個々の意図の下で独立なスパースな選好表現を構築するために行われる。 具体的には,2つの変分オートエンコーダネットワーク,意図認識ネットワーク,選好分解ネットワークを用いて,それぞれ意図と選好要因を学習する。 このように、低次の項目はモデリング意図の正のサンプルとして扱われ、一方、モデリング嗜好の負のサンプルとして扱われる。 最後に、実世界の3つのデータセットと4つの評価指標に関する広範な実験により、DDCFの有効性と解釈可能性を明確に検証した。

People usually have different intents for choosing items, while their preferences under the same intent may also different. In traditional collaborative filtering approaches, both intent and preference factors are usually entangled in the modeling process, which significantly limits the robustness and interpretability of recommendation performances. For example, the low-rating items are always treated as negative feedback while they actually could provide positive information about user intent. To this end, in this paper, we propose a two-fold representation learning approach, namely Double Disentangled Collaborative Filtering (DDCF), for personalized recommendations. The first-level disentanglement is for separating the influence factors of intent and preference, while the second-level disentanglement is performed to build independent sparse preference representations under individual intent with limited computational complexity. Specifically, we employ two variational autoencoder networks, intent recognition network and preference decomposition network, to learn the intent and preference factors, respectively. In this way, the low-rating items will be treated as positive samples for modeling intents while the negative samples for modeling preferences. Finally, extensive experiments on three real-world datasets and four evaluation metrics clearly validate the effectiveness and the interpretability of DDCF.
翻訳日:2023-05-19 14:07:50 公開日:2023-05-18
# キラル集積量子光学のためのトポロジーおよび従来のナノフォトニック導波路

Topological and conventional nano-photonic waveguides for chiral integrated quantum optics ( http://arxiv.org/abs/2305.11082v1 )

ライセンス: Link先を確認
N.J Martin, M. Jalali Mehrabad, X. Chen, R. Dost, E. Nussbaum, D. Hallett, L. Hallacy, E. Clarke, P.K. Patil, S. Hughes, A.M Fox, M.S. Skolnick, and L.R. Wilson(参考訳) 集積量子フォトニクスにおけるキラリティは、量子非線形効果を持つスケーラブルな量子技術を達成するための有望な経路として現れてきた。 ヘリカル光モードを利用するトポロジカル光導波路は、キラル光-マター相互作用を利用する新しいアプローチとして提案されている。 しかし、組み込まれた量子エミッタへのキラル結合の性質と強度に関する不確実性は、これらのシステムのスケーラビリティを妨げている。 本研究では, トポロジカルフォトニック導波路におけるキラルカップリングについて, 実験, 理論的, 数値解析の組み合わせを用いて総合的に検討する。 我々は、いくつかのトポロジカルフォトニック導波路における光物質結合の位置依存性特性を定量的に評価し、それらのキラル量子光学応用のための従来のライン欠陥導波路と比較した。 本研究は、位相フォトニック量子回路におけるキラル光間相互作用の程度と特性に関する重要な知見を提供し、定量的に予測された量子非線形効果のチップ実装への道を開く。

Chirality in integrated quantum photonics has emerged as a promising route towards achieving scalable quantum technologies with quantum nonlinearity effects. Topological photonic waveguides, which utilize helical optical modes, have been proposed as a novel approach to harnessing chiral light-matter interactions on-chip. However, uncertainties remain regarding the nature and strength of the chiral coupling to embedded quantum emitters, hindering the scalability of these systems. In this work, we present a comprehensive investigation of chiral coupling in topological photonic waveguides using a combination of experimental, theoretical, and numerical analyses. We quantitatively characterize the position-dependence nature of the light-matter coupling on several topological photonic waveguides and benchmark their chiral coupling performance against conventional line defect waveguides for chiral quantum optical applications. Our results provide crucial insights into the degree and characteristics of chiral light-matter interactions in topological photonic quantum circuits and pave the way towards the implementation of quantitatively-predicted quantum nonlinear effects on-chip.
翻訳日:2023-05-19 14:07:29 公開日:2023-05-18
# テキスト-画像モデルによる画像の地理的代表性の検討

Inspecting the Geographical Representativeness of Images from Text-to-Image Models ( http://arxiv.org/abs/2305.11080v1 )

ライセンス: Link先を確認
Abhipsa Basu, R. Venkatesh Babu and Danish Pruthi(参考訳) 生成モデルの最近の進歩は、ほとんどのテキスト入力に対して、現実的かつ関連する画像を生成するモデルを生み出している。 これらのモデルは、毎日何百万もの画像を生成するために使われており、生成芸術、デジタルマーケティング、データ拡張といった領域に大きな影響を与える可能性を秘めている。 大きすぎる影響を考えると、生成したコンテンツが世界の特定の部分を過剰に表現するのではなく、世界中のアーティファクトや周囲を反映していることが重要です。 本稿では,27カ国540人の参加者からなるクラウドソーシング研究を用いて,DALL.E2および安定拡散モデルを用いて生成した共通名詞(例えば,家)の地理的代表性を測定する。 国名のない意図的な入力では、生成された画像は、主にアメリカの周囲を反映しており、上位世代は他国からの周囲を反映している(平均スコアは5点中3点以下)。 入力に国名を指定すると、dall.e 2 と 0.75 では平均で 1.44 ポイント上昇するが、多くの国では依然としてスコアが低く、将来のモデルがより地理的に包括的であることの必要性が強調される。 最後に,ユーザ研究を行うことなく,生成画像の地理的代表性を定量化する可能性について検討する。

Recent progress in generative models has resulted in models that produce both realistic as well as relevant images for most textual inputs. These models are being used to generate millions of images everyday, and hold the potential to drastically impact areas such as generative art, digital marketing and data augmentation. Given their outsized impact, it is important to ensure that the generated content reflects the artifacts and surroundings across the globe, rather than over-representing certain parts of the world. In this paper, we measure the geographical representativeness of common nouns (e.g., a house) generated through DALL.E 2 and Stable Diffusion models using a crowdsourced study comprising 540 participants across 27 countries. For deliberately underspecified inputs without country names, the generated images most reflect the surroundings of the United States followed by India, and the top generations rarely reflect surroundings from all other countries (average score less than 3 out of 5). Specifying the country names in the input increases the representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable Diffusion, however, the overall scores for many countries still remain low, highlighting the need for future models to be more geographically inclusive. Lastly, we examine the feasibility of quantifying the geographical representativeness of generated images without conducting user studies.
翻訳日:2023-05-19 14:07:08 公開日:2023-05-18
# マスク顔検出のための顔検出アルゴリズムの比較研究

A Comparative Study of Face Detection Algorithms for Masked Face Detection ( http://arxiv.org/abs/2305.11077v1 )

ライセンス: Link先を確認
Sahel Mohammad Iqbal, Danush Shekar, Subhankar Mishra(参考訳) 現代の顔検出アルゴリズムは、ポーズ、照明、スケールのバリエーションなど多くの課題に対処する必要がある。 最近注目を集めている顔検出問題のサブクラスは、オクルード顔検出、またはより具体的には、マスクされた顔の検出である。 新型コロナウイルス(covid-19)パンデミックの到来から3年が経ち、マスク付き顔で既存の顔検出アルゴリズムがいかにうまく機能するかについては、まだ証拠がない。 この記事では、まず、マスクされた顔問題のために作られた最先端の顔検出器と検出器の概要と、既存のマスクされた顔データセットのレビューを紹介する。 マスク付き顔検出における顔検出装置の性能評価と比較を行い,その性能に寄与する要因について考察した。

Contemporary face detection algorithms have to deal with many challenges such as variations in pose, illumination, and scale. A subclass of the face detection problem that has recently gained increasing attention is occluded face detection, or more specifically, the detection of masked faces. Three years on since the advent of the COVID-19 pandemic, there is still a complete lack of evidence regarding how well existing face detection algorithms perform on masked faces. This article first offers a brief review of state-of-the-art face detectors and detectors made for the masked face problem, along with a review of the existing masked face datasets. We evaluate and compare the performances of a well-representative set of face detectors at masked face detection and conclude with a discussion on the possible contributing factors to their performance.
翻訳日:2023-05-19 14:06:44 公開日:2023-05-18
# Tram: ソースコード要約のためのトークンレベルの検索強化メカニズム

Tram: A Token-level Retrieval-augmented Mechanism for Source Code Summarization ( http://arxiv.org/abs/2305.11074v1 )

ライセンス: Link先を確認
Tong Ye, Lingfei Wu, Tengfei Ma, Xuhong Zhang, Yangkai Du, Peiyu Liu, Wenhai Wang, Shouling Ji(参考訳) プログラムの機能を記述するヒューマン可読テキストの自動生成は、ソースコードの要約の意図である。 この分野ではニューラル言語モデルは大きなパフォーマンスを発揮するが、新たなトレンドはニューラルモデルと外部知識を組み合わせることである。 以前のアプローチのほとんどは、エンコーダ側の文レベルの検索と組み合わせパラダイム(類似のコードスニペットの再評価と対応するコードとサマリペアの使用)に依存している。 しかし、このパラダイムは粗い粒度であり、デコーダ側の高品質なサマリトークンを直接利用することはできない。 本稿では,デコーダ側で細粒度トークンレベルの検索誘導機構を探索し,バニラニューラルモデルがより良いコード要約を生成するのを支援する。 さらに,文脈的コードセマンティクスの取得におけるトークンレベルの検索の制限を軽減するために,コードセマンティクスを要約トークンに統合することを提案する。 広範な実験と人的評価により,トークンレベルの検索型アプローチが性能を著しく改善し,より解釈的であることが判明した。

Automatically generating human-readable text describing the functionality of a program is the intent of source code summarization. Although Neural Language Models achieve significant performance in this field, an emerging trend is combining neural models with external knowledge. Most previous approaches rely on the sentence-level retrieval and combination paradigm (retrieval of similar code snippets and use of the corresponding code and summary pairs) on the encoder side. However, this paradigm is coarse-grained and cannot directly take advantage of the high-quality retrieved summary tokens on the decoder side. In this paper, we explore a fine-grained token-level retrieval-augmented mechanism on the decoder side to help the vanilla neural model generate a better code summary. Furthermore, to mitigate the limitation of token-level retrieval on capturing contextual code semantics, we propose to integrate code semantics into summary tokens. Extensive experiments and human evaluation reveal that our token-level retrieval-augmented approach significantly improves performance and is more interpretive.
翻訳日:2023-05-19 14:06:29 公開日:2023-05-18
# MiraBest: 機械学習のための形態的に分類されたラジオギャラクシーのデータセット

MiraBest: A Dataset of Morphologically Classified Radio Galaxies for Machine Learning ( http://arxiv.org/abs/2305.11108v1 )

ライセンス: Link先を確認
Fiona A. M. Porter and Anna M. M. Scaife(参考訳) 現在および将来の観測所からのデータ量の増加は、天文学のための自動機械学習方法論の開発と応用の促進を促した。 しかし、天文学や天体物理学における異なる機械学習アルゴリズムのパフォーマンスを評価するための標準化データセットの作成には、あまり注意が払われていない。 ここでは、NVSSとFIRSTから1256個の無線ルードAGNの公開バッチデータセットであるMiraBestデータセットを詳細に説明し、Fanaroff-Riley形態分類に従って、MiraghaeiとBest (2017)によって手作業でラベル付けされた0.03 < z < 0.1$にフィルタリングした。 我々は、データセットの構築の基礎となる原則、サンプルの選択と事前処理の方法論、データセットの構造と構成、そして文献で使われる他のデータセットとの比較について概説する。 MiraBestデータセットを利用する既存のアプリケーションがレビューされ、2100ソースの拡張データセットがMiraBestと、機械学習応用の文献で広く使われている他の無線ルードAGNのカタログとの交差マッチングによって作成されます。

The volume of data from current and future observatories has motivated the increased development and application of automated machine learning methodologies for astronomy. However, less attention has been given to the production of standardised datasets for assessing the performance of different machine learning algorithms within astronomy and astrophysics. Here we describe in detail the MiraBest dataset, a publicly available batched dataset of 1256 radio-loud AGN from NVSS and FIRST, filtered to $0.03 < z < 0.1$, manually labelled by Miraghaei and Best (2017) according to the Fanaroff-Riley morphological classification, created for machine learning applications and compatible for use with standard deep learning libraries. We outline the principles underlying the construction of the dataset, the sample selection and pre-processing methodology, dataset structure and composition, as well as a comparison of MiraBest to other datasets used in the literature. Existing applications that utilise the MiraBest dataset are reviewed, and an extended dataset of 2100 sources is created by cross-matching MiraBest with other catalogues of radio-loud AGN that have been used more widely in the literature for machine learning applications.
翻訳日:2023-05-19 14:00:52 公開日:2023-05-18
# データフィッティングから発見へ:強化学習によるモータ制御のニューラルダイナミクスの解釈

From Data-Fitting to Discovery: Interpreting the Neural Dynamics of Motor Control through Reinforcement Learning ( http://arxiv.org/abs/2305.11107v1 )

ライセンス: Link先を確認
Eugene R. Rush, Kaushik Jayaram, J. Sean Humbert(参考訳) 運動神経科学において、人工リカレントニューラルネットワークモデルはしばしば動物研究を補完する。 しかし、ほとんどのモデリング努力はデータ適合に限られており、強化学習の文脈で仮想的なエンボディドエージェントを調べる数少ないものは、生物学的なエージェントと直接比較するものではない。 本研究は,霊長類歩行とサイクリングの実験的な発見を直接支援する足歩行を行う仮想ロボットの構造的神経活動を明らかにすることで,このギャップに対処する。 歩行を訓練された身体的なエージェントは、隣接する神経空間における絡み合いや対向する神経路を避ける滑らかなダイナミクスを示すことが、計算神経科学の核となる原則であることがわかった。 具体的には、幅広い歩行群にまたがって、リカレント層における神経路が入力駆動アクチュエーション層よりも絡み合っていないことを示す。 これらの楕円形軌跡の神経分離をよりよく解釈するために,前方・横・回転の異なる速度条件における平均活性の分散を最大化する速度軸を同定する。

In motor neuroscience, artificial recurrent neural networks models often complement animal studies. However, most modeling efforts are limited to data-fitting, and the few that examine virtual embodied agents in a reinforcement learning context, do not draw direct comparisons to their biological counterparts. Our study addressing this gap, by uncovering structured neural activity of a virtual robot performing legged locomotion that directly support experimental findings of primate walking and cycling. We find that embodied agents trained to walk exhibit smooth dynamics that avoid tangling -- or opposing neural trajectories in neighboring neural space -- a core principle in computational neuroscience. Specifically, across a wide suite of gaits, the agent displays neural trajectories in the recurrent layers are less tangled than those in the input-driven actuation layers. To better interpret the neural separation of these elliptical-shaped trajectories, we identify speed axes that maximizes variance of mean activity across different forward, lateral, and rotational speed conditions.
翻訳日:2023-05-19 14:00:30 公開日:2023-05-18
# mdctGAN: 修正DCTスペクトルを用いた音声超解像のためのタミングトランスフォーマーベースGAN

mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra ( http://arxiv.org/abs/2305.11104v1 )

ライセンス: Link先を確認
Chenhao Shuai, Chaohua Shi, Lu Gan and Hongqing Liu(参考訳) SSRは高分解能(HR)音声を対応する低分解能(LR)音声から復元することを目的としている。 近年のSSR法は, 位相再構成の重要性を無視し, 回復品質を抑えるため, 等級スペクトルの再構成に重点を置いている。 本稿では,修正離散コサイン変換(modified discrete cosine transform:mdct)に基づく新しいssrフレームワークであるmdctganを提案する。 MDCT領域での逆学習により,Vocoderや追加のポストプロセッシングを使わずに,段階的にHR音声を再構成する。 さらに,mdctganは,自己着信機構で周波数整合特徴を学習することにより,高品質な音声再構成を実現する。 vctkコーパスデータセットでは,本モデルがmosおよびpesqスコアの高い自然な聴覚品質を生成することを示す。 また、様々な入力レートから48kHzの目標解像度で、最先端の対数スペクトル距離(LSD)性能を実現する。 コードはhttps://github.com/neoncloud/mdctganから入手できる。

Speech super-resolution (SSR) aims to recover a high resolution (HR) speech from its corresponding low resolution (LR) counterpart. Recent SSR methods focus more on the reconstruction of the magnitude spectrogram, ignoring the importance of phase reconstruction, thereby limiting the recovery quality. To address this issue, we propose mdctGAN, a novel SSR framework based on modified discrete cosine transform (MDCT). By adversarial learning in the MDCT domain, our method reconstructs HR speeches in a phase-aware manner without vocoders or additional post-processing. Furthermore, by learning frequency consistent features with self-attentive mechanism, mdctGAN guarantees a high quality speech reconstruction. For VCTK corpus dataset, the experiment results show that our model produces natural auditory quality with high MOS and PESQ scores. It also achieves the state-of-the-art log-spectral-distance (LSD) performance on 48 kHz target resolution from various input rates. Code is available from https://github.com/neoncloud/mdctGAN
翻訳日:2023-05-19 14:00:12 公開日:2023-05-18
# 2次元ganデータによる3次元再構成ネットワークのプログレッシブ学習

Progressive Learning of 3D Reconstruction Network from 2D GAN Data ( http://arxiv.org/abs/2305.11102v1 )

ライセンス: Link先を確認
Aysegul Dundar, Jun Gao, Andrew Tao, Bryan Catanzaro(参考訳) 本稿では,高品質なテクスチャ3Dモデルを単一画像から再構成する手法を提案する。 現在の手法は、高価なアノテーションを持つデータセット、マルチビュー画像とそのカメラパラメータに依存している。 提案手法は,アノテーションコストが無視できるGAN生成多視点画像データセットに依存する。 しかし、厳密なマルチビュー一貫性はなく、GANは歪んだ画像を出力することもある。 この結果、復元性は低下した。 この作業では、生成されたデータセットのこれらの制限を克服するために、2つの大きな貢献があります。 1) 損失を計算する際にモデル自身の予測に徐々に依存する頑健な多段階学習方式。 2) 詳細を達成するために, オンライン偽地真理生成を用いた新しい敵対的学習パイプラインを考案した。 我々の研究はganモデルの2次元監督から3次元再構築モデルへの橋渡しを提供し、高価なアノテーションを取り除きます。 我々は,ganが生成するマルチビュー画像のトレーニングや,高価なアノテーションによる実画像のトレーニングなど,従来の手法よりも大幅な改善を示す。 3DビジュアルのWebページをご覧ください。 https://research.nvidia.com/labs/adlr/progressive-3d-learning

This paper presents a method to reconstruct high-quality textured 3D models from single images. Current methods rely on datasets with expensive annotations; multi-view images and their camera parameters. Our method relies on GAN generated multi-view image datasets which have a negligible annotation cost. However, they are not strictly multi-view consistent and sometimes GANs output distorted images. This results in degraded reconstruction qualities. In this work, to overcome these limitations of generated datasets, we have two main contributions which lead us to achieve state-of-the-art results on challenging objects: 1) A robust multi-stage learning scheme that gradually relies more on the models own predictions when calculating losses, 2) A novel adversarial learning pipeline with online pseudo-ground truth generations to achieve fine details. Our work provides a bridge from 2D supervisions of GAN models to 3D reconstruction models and removes the expensive annotation efforts. We show significant improvements over previous methods whether they were trained on GAN generated multi-view images or on real images with expensive annotations. Please visit our web-page for 3D visuals: https://research.nvidia.com/labs/adlr/progressive-3d-learning
翻訳日:2023-05-19 13:59:51 公開日:2023-05-18
# XFormer:高速で正確なモノクロ3Dボディキャプチャ

XFormer: Fast and Accurate Monocular 3D Body Capture ( http://arxiv.org/abs/2305.11101v1 )

ライセンス: Link先を確認
Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin and Cheng-Bin Jin(参考訳) 本稿では,単眼画像のみを入力として,コンシューマcpu上でのリアルタイム性能を実現する,新しいヒューマンメッシュおよびモーションキャプチャ手法であるxformerを提案する。 提案するネットワークアーキテクチャには,2次元のキーポイントを持つ3次元メッシュ頂点を推定するキーポイントブランチと,RGB画像特徴から直接予測を行うイメージブランチの2つのブランチが含まれている。 本手法の核となるクロスモーダルトランスフォーマーブロックは,2次元キーポイント座標と画像空間特徴の注意をモデル化することにより,これら2つの枝をまたいで情報を流すことができる。 アーキテクチャはスマートに設計されており,2D/3Dアノテーション付き画像,3D擬似ラベル付き画像,関連する画像を持たないモーションキャプチャデータセットなど,さまざまな種類のデータセットをトレーニングすることができる。 これにより,システムの精度と一般化能力が向上する。 軽量なバックボーン(mobilenetv3)をベースとし,高速なブレイジング(単一のcpuコア上で30fps以上)で動作し,競合精度を保っている。 さらに、HRNetバックボーンにより、XFormerはHumm3.6と3DPWデータセットで最先端のパフォーマンスを提供する。

We present XFormer, a novel human mesh and motion capture method that achieves real-time performance on consumer CPUs given only monocular images as input. The proposed network architecture contains two branches: a keypoint branch that estimates 3D human mesh vertices given 2D keypoints, and an image branch that makes predictions directly from the RGB image features. At the core of our method is a cross-modal transformer block that allows information to flow across these two branches by modeling the attention between 2D keypoint coordinates and image spatial features. Our architecture is smartly designed, which enables us to train on various types of datasets including images with 2D/3D annotations, images with 3D pseudo labels, and motion capture datasets that do not have associated images. This effectively improves the accuracy and generalization ability of our system. Built on a lightweight backbone (MobileNetV3), our method runs blazing fast (over 30fps on a single CPU core) and still yields competitive accuracy. Furthermore, with an HRNet backbone, XFormer delivers state-of-the-art performance on Huamn3.6 and 3DPW datasets.
翻訳日:2023-05-19 13:59:34 公開日:2023-05-18
# 金属ナノ粒子と半導体の界面における空間エクシトン局在

Spatial Exciton Localization at Interfaces of Metal Nanoparticles and Atomically Thin Semiconductors ( http://arxiv.org/abs/2305.11099v1 )

ライセンス: Link先を確認
Robert Salzwedel, Lara Greten, Stefan Schmidt, Stephen Hughes, Andreas Knorr, and Malte Selig(参考訳) 本稿では,金属ナノ粒子からなるナノ構造と遷移金属ジカルコゲナイドの単分子層との相互作用を解析的に研究する。 複合系では,プラズモン誘発電位における衣服の励起子の中心-質量運動を制御できる有効固有値方程式を同定する。 エキシトン-プラズモンハイブリッドの動的方程式の検討により、負の固有エネルギーを持つ結合状態の存在が明らかとなり、これはプラズモン誘導電位に局在するエキシトンとして解釈される。 電位におけるこれらの結合状態の出現は、励起子とプラズモンの間の強い結合を示す。 近接場における散乱光を明示的に計算することにより,このカップリング機構を定量化し,強い励起子-プラズモンカップリングのシグネチャを回避し,数十mevの効果的なラビ分割を行う。

We present a self-consistent Maxwell-Bloch theory to analytically study the interaction between a nanostructure consisting of a metal nanoparticle and a monolayer of transition metal dichalcogenide. For the combined system, we identify an effective eigenvalue equation that governs the center-of-mass motion of the dressed excitons in a plasmon-induced potential. Examination of the dynamical equation of the exciton-plasmon hybrid reveals the existence of bound states with negative eigenenergies, which we interpret as excitons localized in the plasmon-induced potential. The appearance of these bound states in the potential indicates strong coupling between excitons and plasmons. We quantify this coupling regime by computing the scattered light in the near-field explicitly and identify signatures of strong exciton-plasmon coupling with an avoided crossing behavior and an effective Rabi splitting of tens of meV.
翻訳日:2023-05-19 13:59:14 公開日:2023-05-18
# 論理推論と統計的学習の単純な生成モデル

A Simple Generative Model of Logical Reasoning and Statistical Learning ( http://arxiv.org/abs/2305.11098v1 )

ライセンス: Link先を確認
Hiroyuki Kido(参考訳) 統計的学習と論理推論は、AIの2つの主要な分野であり、人間のようなマシンインテリジェンスに統一されることが期待される。 既存の研究の多くは、既存の論理システムと統計システムを結合する方法を考えています。 しかし、統計的学習と論理的推論に対する基本的なアプローチが共通の原理にどのように関係しているかを説明する推論の理論は存在しない。 神経科学における多くの経験的研究が、学習と推論を含む脳機能に対するベイズ的(あるいは確率的生成)アプローチを示唆しているという事実に着想を得て、我々は論理的推論と統計的学習の単純なベイズ的モデルを提案する。 この理論はコルモゴロフの公理を満たす統計的に正確であり、フェンシュタットの表現定理と最大推定値に一致し、線形時間複雑性を持つ正確なベイズ推定を行う。 この理論は、整合性、可能性、矛盾性、不合理性から不確実な推論をデータ駆動で一般化した理論として論理的に正しい。 この理論は、mnistデータセットにおける生成および予測タスクに対する解として機械学習の観点から正しいだけでなく、k近傍の手法に対して理論的に正しい。 我々は、形式論理におけるその満足度の観点から、データの象徴的知識のモデル化を行う。 シンボリック推論は因果関係の前進と後退の過程の結果として現れる。 前方プロセスと後方プロセスはそれぞれ形式論理における解釈と逆解釈に対応している。 逆解釈は、我々の作品を、しばしば逆包含(inverse entailment)、逆推論(inverse deduction)、逆分解(inverse resolution)と呼ばれる主流と区別する。 この視点は、人間のようなマシンインテリジェンスに対する学習と推論に対する新たな洞察を与える。

Statistical learning and logical reasoning are two major fields of AI expected to be unified for human-like machine intelligence. Most existing work considers how to combine existing logical and statistical systems. However, there is no theory of inference so far explaining how basic approaches to statistical learning and logical reasoning stem from a common principle. Inspired by the fact that much empirical work in neuroscience suggests Bayesian (or probabilistic generative) approaches to brain function including learning and reasoning, we here propose a simple Bayesian model of logical reasoning and statistical learning. The theory is statistically correct as it satisfies Kolmogorov's axioms, is consistent with both Fenstad's representation theorem and maximum likelihood estimation and performs exact Bayesian inference with a linear-time complexity. The theory is logically correct as it is a data-driven generalisation of uncertain reasoning from consistency, possibility, inconsistency and impossibility. The theory is correct in terms of machine learning as its solution to generation and prediction tasks on the MNIST dataset is not only empirically reasonable but also theoretically correct against the K nearest neighbour method. We simply model how data causes symbolic knowledge in terms of its satisfiability in formal logic. Symbolic reasoning emerges as a result of the process of going the causality forwards and backwards. The forward and backward processes correspond to an interpretation and inverse interpretation in formal logic, respectively. The inverse interpretation differentiates our work from the mainstream often referred to as inverse entailment, inverse deduction or inverse resolution. The perspective gives new insights into learning and reasoning towards human-like machine intelligence.
翻訳日:2023-05-19 13:58:57 公開日:2023-05-18
# 事前データ適合ネットワークの統計的基礎

Statistical Foundations of Prior-Data Fitted Networks ( http://arxiv.org/abs/2305.11097v1 )

ライセンス: Link先を確認
Thomas Nagler(参考訳) 機械学習の新しいパラダイムとして、事前データ対応ネットワーク(pfns)が最近提案されている。 ネットワークを観察されたトレーニングセットにトレーニングするのではなく、さまざまなタスクからシミュレーションされたトレーニングセット上で、固定モデルはオフラインでトレーニングされる。 事前学習されたモデルは、任意のサイズと分布を持つフレッシュトレーニングセットのコンテキスト内のクラス確率を推測するために使用される。 実証的には、PFNは、事前トレーニングで使用されるものと同じ大きさのタスクで最先端のパフォーマンスを達成する。 驚くべきことに、推論中に大きなデータセットを渡すと、その精度はさらに向上する。 本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。 PFNはベイズ的考えに動機付けられているが、PFNの純粋に頻繁な解釈は事前調整されたものであるが、訓練されていない予測者はそれらの振る舞いを説明する。 予測器の分散は、個々のトレーニングサンプルに対する感度が低下し、バイアスがテスト特徴の周囲に適切に局在している場合に限り消滅する。 現在のPFN実装で使用されるトランスフォーマーアーキテクチャは、前者のみを保証する。 これらの知見は、好適な経験的行動を持つ建築の設計に有用であることを示す。

Prior-data fitted networks (PFNs) were recently proposed as a new paradigm for machine learning. Instead of training the network to an observed training set, a fixed model is pre-trained offline on small, simulated training sets from a variety of tasks. The pre-trained model is then used to infer class probabilities in-context on fresh training sets with arbitrary size and distribution. Empirically, PFNs achieve state-of-the-art performance on tasks with similar size to the ones used in pre-training. Surprisingly, their accuracy further improves when passed larger data sets during inference. This article establishes a theoretical foundation for PFNs and illuminates the statistical mechanisms governing their behavior. While PFNs are motivated by Bayesian ideas, a purely frequentistic interpretation of PFNs as pre-tuned, but untrained predictors explains their behavior. A predictor's variance vanishes if its sensitivity to individual training samples does and the bias vanishes only if it is appropriately localized around the test feature. The transformer architecture used in current PFN implementations ensures only the former. These findings shall prove useful for designing architectures with favorable empirical behavior.
翻訳日:2023-05-19 13:58:29 公開日:2023-05-18
# エンドツーエンド手話翻訳のためのモーダリティデータ拡張

Cross-modality Data Augmentation for End-to-End Sign Language Translation ( http://arxiv.org/abs/2305.11096v1 )

ライセンス: Link先を確認
Jinhui Ye, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Hui Xiong(参考訳) エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。 サインビデオとテキストの差異やラベル付きデータの不足などにより,この課題は難しい課題となっている。 これらの課題に対処するため,我々は,手話翻訳モデルから擬似手話対を活用し,手話翻訳機能をエンドツーエンド手話翻訳(すなわちビデオからテキストへの翻訳)に移すための,新しいクロスモダリティデータ拡張(xmda)フレームワークを提案する。 具体的には、XmDAは2つの重要な構成要素、すなわち、相互モダリティ混合と相互モダリティ知識蒸留からなる。 前者は、手話ビデオ機能と光沢埋め込みのアライメントを明示的に奨励し、モダリティギャップを橋渡ししている。 後者は、音声テキスト生成を指導するために、教師モデルからの知識を活用している。 PHOENIX-2014TとCSL-Dailyという2つの広く使われているSLTデータセットの実験結果は、提案したXmDAフレームワークがベースラインモデルを大幅に上回っていることを示す。 XmDAはビデオとテキスト間の表現距離を減らし、低頻度語と長文の処理を改善することで、音声テキスト生成を向上させるという我々の主張を確認した。

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.
翻訳日:2023-05-19 13:58:14 公開日:2023-05-18
# ゼロショットタスク一般化のためのwebスケール音声モデルの隠れた人材育成

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization ( http://arxiv.org/abs/2305.11095v1 )

ライセンス: Link先を確認
Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath(参考訳) 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。 音声視覚音声認識(AVSR)、コードスイッチト音声認識(CS-ASR)、音声翻訳(ST)の3つのタスクを選択した。 タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。 実験の結果、デフォルトのプロンプトと比較して、3つのゼロショットタスクで10%から45%のパフォーマンスが向上し、いくつかのデータセットでsata教師付きモデルよりも優れています。 さらに,本実験では,発話に対する頑健性,アクセントの偏り,潜在空間における多言語理解など,whisperの多くの興味深い特徴が明らかにされている。 コードはhttps://github.com/jasonppy/promptingwhisperで入手できる。

We investigate the emergent abilities of the recently proposed web-scale speech model Whisper, by adapting it to unseen tasks with prompt engineering. We selected three tasks: audio-visual speech recognition (AVSR), code-switched speech recognition (CS-ASR), and speech translation (ST) on unseen language pairs. We design task-specific prompts, by either leveraging another large-scale model, or simply manipulating the special tokens in the default prompts. Experiments show that compared to the default prompts, our proposed prompts improve performance by 10% to 45% on the three zero-shot tasks, and even outperform SotA supervised models on some datasets. In addition, our experiments reveal many interesting properties of Whisper, including its robustness to prompts, bias on accents, and the multilingual understanding in its latent space. Code is available at https://github.com/jasonppy/PromptingWhisper
翻訳日:2023-05-19 13:57:46 公開日:2023-05-18
# オンライン学習者の攻撃:教師-学生分析

Attacks on Online Learners: a Teacher-Student Analysis ( http://arxiv.org/abs/2305.11132v1 )

ライセンス: Link先を確認
Riccardo Giuseppe Margiotta, Sebastian Goldt, Guido Sanguinetti(参考訳) 機械学習モデルは、敵対的な攻撃に弱いことで有名だ。 多くの文献が事前訓練されたモデルに対するテストタイム攻撃について研究しているが、オンライン学習環境における攻撃の重要事例は今のところほとんど注目されていない。 本研究では,攻撃者がデータラベルを摂動させてオンライン学習者の学習力学を操作できるシナリオを,制御理論の観点から研究する。 本研究は,教師と教師の学習環境において,異なる攻撃戦略を考慮し,問題の理論的解析を行い,単純な線形学習者の定常状態に対する解析結果を得る。 これらの結果から,攻撃強度が臨界しきい値を超えると,学習者の精度が不連続になることを示すことができる。 次に、実データを用いて複雑なアーキテクチャを持つ学習者に対する経験的攻撃を研究し、理論解析の知見を確認する。 その結果、特に小さなバッチでデータストリームを行う場合、欲深い攻撃は極めて効率的であることが分かりました。

Machine learning models are famously vulnerable to adversarial attacks: small ad-hoc perturbations of the data that can catastrophically alter the model predictions. While a large literature has studied the case of test-time attacks on pre-trained models, the important case of attacks in an online learning setting has received little attention so far. In this work, we use a control-theoretical perspective to study the scenario where an attacker may perturb data labels to manipulate the learning dynamics of an online learner. We perform a theoretical analysis of the problem in a teacher-student setup, considering different attack strategies, and obtaining analytical results for the steady state of simple linear learners. These results enable us to prove that a discontinuous transition in the learner's accuracy occurs when the attack strength exceeds a critical threshold. We then study empirically attacks on learners with complex architectures using real data, confirming the insights of our theoretical analysis. Our findings show that greedy attacks can be extremely efficient, especially when data stream in small batches.
翻訳日:2023-05-19 13:50:35 公開日:2023-05-18
# SimOAP:オーバーサンプリングとポスト評価によるペルソナ対話生成における一貫性と一貫性の向上

SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation ( http://arxiv.org/abs/2305.11130v1 )

ライセンス: Link先を確認
Junkai Zhou, Liang Pang, Huawei Shen, Xueqi Cheng(参考訳) 大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果をもたらす。 しかし、ペルソナに基づく対話生成タスクにおいては、一貫性と一貫性も重要な要素であり、言語モデルにとって大きな課題である。 既存の作業は主に価値あるデータフィルタリング、モデル構造の変更、あるいは客観的関数設計に重点を置いているが、その改善は限定的であり、事前訓練された全ての言語モデルに一般化するのは難しい。 しかし、十分な世代を考慮すれば、言語モデルは一貫性のある一貫性のある応答を生成することができる。 したがって、問題は大規模応答生成とターゲット応答選択にある。 本研究は,単純な2段階のSimOAP戦略,すなわちオーバーサンプリングとポスト評価を提案する。 オーバーサンプリング段階は,市販の蒸留・圧縮手法を用いて,既存の訓練モデルからの大規模応答を効率的に行い,評価段階は大規模候補からの複数のよく設計された評価指標に基づいて,優れた応答を選択する。 実験の結果,提案するプラグインsimoap戦略はバックボーンモデルを改善し,自動評価と人間評価の両方においてベースライン戦略を上回った。

Language models trained on large-scale corpora can generate remarkably fluent results in open-domain dialogue. However, for the persona-based dialogue generation task, consistency and coherence are also key factors, which are great challenges for language models. Existing works mainly focus on valuable data filtering, model structure modifying, or objective function designing, while their improvements are limited and hard to generalize to all types of pre-trained language models. However, we find that language models can produce consistent and coherent responses if we consider enough generations. Thus, the problems lay in large-scale response generation and target response selection. In this work, a simple but effective two-stage SimOAP strategy is proposed, i.e., over-sampling and post-evaluation. The over-sampling stage takes large-scale responses from existing trained models efficiently via off-the-shelf distilling and compressing methods, and the post-evaluation stage selects a good response based on multiple well-designed evaluation metrics from large-scale candidates. Experimental results show that the proposed plug-in SimOAP strategy improves the backbone models and outperforms the baseline strategies in both automatic and human evaluations.
翻訳日:2023-05-19 13:50:17 公開日:2023-05-18
# mLongT5: より長いシーケンスのための多言語で効率的なテキスト間変換器

mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences ( http://arxiv.org/abs/2305.11129v1 )

ライセンス: Link先を確認
David Uthus, Santiago Onta\~n\'on, Joshua Ainslie, Mandy Guo(参考訳) 本稿では,長文入力処理に適した多言語・高能率テキスト変換器の開発について述べる。 このモデルはmLongT5と呼ばれ、LongT5のアーキテクチャの上に構築され、mT5の事前トレーニングとUL2の事前トレーニングタスクに使用される多言語データセットを活用する。 このモデルを多言語要約および質問応答タスクで評価し,mBARTやM-BERTといった既存の多言語モデルと比較してmLongT5の性能が向上した。

We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT.
翻訳日:2023-05-19 13:49:57 公開日:2023-05-18
# 畳み込みニューラルネットワークを用いた皮膚病変診断

Skin Lesion Diagnosis Using Convolutional Neural Networks ( http://arxiv.org/abs/2305.11125v1 )

ライセンス: Link先を確認
Daniel Alonso Villanueva Nunez and Yongmin Li(参考訳) がん皮膚病変はヒトで検出される最も一般的な悪性腫瘍の1つであり、早期に検出されないと死に至る可能性がある。 そのため、早期に正確な結果にアクセスして生存率を最適化することが重要である。 残念ながら、正確な結果は通常高度に訓練された皮膚科医によって得られ、多くの人、特に低所得国や中所得国ではアクセスできない。 人工知能(AI)は、医療専門家と同等あるいはそれ以上の診断を提供することが証明されたことから、この問題に対する潜在的な解決策のように見える。 本プロジェクトの目的は,様々な分野から画像分類のための最先端技術を集め,それらを実装することである。 これらのテクニックには、mixup、Presizing、Test-time Augmentationなどが含まれる。 DenseNet121、バッチ正規化を伴うVGG16、ResNet50の3つのアーキテクチャが実装に使用された。 主に2つの目的で設計された。 まず, メラノサイト性母斑, メラノーマ, 良性角化様病変, 基底細胞癌, アクチン性角化, 上皮内癌, 血管病変, 皮膚線維腫の7種類に分類する。 第二に、画像を良性または悪性に分類する。 モデルは8012画像のデータセットを用いて訓練され、その性能は2003画像を用いて評価された。 このモデルは、手作りの機能抽出を必要とせずに、イメージからラベルに直接、エンドツーエンドでトレーニングされています。

Cancerous skin lesions are one of the most common malignancies detected in humans, and if not detected at an early stage, they can lead to death. Therefore, it is crucial to have access to accurate results early on to optimize the chances of survival. Unfortunately, accurate results are typically obtained by highly trained dermatologists, who may not be accessible to many people, particularly in low-income and middle-income countries. Artificial Intelligence (AI) appears to be a potential solution to this problem, as it has proven to provide equal or even better diagnoses than healthcare professionals. This project aims to address the issue by collecting state-of-the-art techniques for image classification from various fields and implementing them. Some of these techniques include mixup, presizing, and test-time augmentation, among others. Three architectures were used for the implementation: DenseNet121, VGG16 with batch normalization, and ResNet50. The models were designed with two main purposes. First, to classify images into seven categories, including melanocytic nevus, melanoma, benign keratosis-like lesions, basal cell carcinoma, actinic keratoses and intraepithelial carcinoma, vascular lesions, and dermatofibroma. Second, to classify images into benign or malignant. The models were trained using a dataset of 8012 images, and their performance was evaluated using 2003 images. It's worth noting that this model is trained end-to-end, directly from the image to the labels, without the need for handcrafted feature extraction.
翻訳日:2023-05-19 13:49:47 公開日:2023-05-18
# 日光による「レーザー」冷却のための閉じ込められた次元の熱光

Thermal light in confined dimensions for "laser" cooling with unfiltered sunlight ( http://arxiv.org/abs/2305.11124v1 )

ライセンス: Link先を確認
Amanda Younes and Wesley C. Campbell(参考訳) 地下ケルビン温度への冷却は通常、粒子の冷水浴またはレーザー場からの自発的な光子散乱を使用して行われるが、どちらの場合においても、冷却は整列した低温(すなわち低エントロピー)系との相互作用によって行われる。 しかし、近年、いくつかのモードの温度を上げることで所望のシステムの冷却が速くなる「加熱による冷却」の方式が提案されている。 我々は, 未濾過日光を5800\,\mathrm{K}$で冷却することにより, 閉じ込められたイオンを運動場状態に冷却する方法について議論した。 イオンに供給するための単一モードファイバ内の熱光の統計学をどのように扱うかを示し、準1次元に埋め込まれた黒体スペクトルがいかに強く変化するかを実験的に示す。 繊維を結合した低次元の太陽光による冷却速度の定量的推定は、この加熱による冷却の実証に有益である。

Cooling of systems to sub-kelvin temperatures is usually done using either a cold bath of particles or spontaneous photon scattering from a laser field; in either case, cooling is driven by interaction with a well-ordered, cold (i.e. low entropy) system. However, there have recently been several schemes proposed for ``cooling by heating,'' in which raising the temperature of some mode drives the cooling of the desired system faster. We discuss how to cool a trapped ion to its motional ground state using unfiltered sunlight at $5800\,\mathrm{K}$ to drive the cooling. We show how to treat the statistics of thermal light in a single-mode fiber for delivery to the ion, and show experimentally how the black-body spectrum is strongly modified by being embedded in quasi-one-dimension. Quantitative estimates for the achievable cooling rate with our measured fiber-coupled, low-dimensional sunlight show promise for demonstrating this implementation of cooling by heating.
翻訳日:2023-05-19 13:49:22 公開日:2023-05-18
# 光プラズマ発光のベイズ最適化による組成制御による窒化薄膜の自律スパッタ合成

Autonomous sputter synthesis of thin film nitrides with composition controlled by Bayesian optimization of optical plasma emission ( http://arxiv.org/abs/2305.11122v1 )

ライセンス: Link先を確認
Davi M. Febba, Kevin R. Talley, Kendal Johnson, Stephen Schaefer, Sage R. Bauers, John S. Mangum, Rebecca W. Smaha, Andriy Zakutayev(参考訳) 自律実験は、材料発見のペースを加速するための効率的なアプローチとして登場した。 分子・高分子科学において自律合成の道具が普及し, ハイブリッド材料やナノ粒子の溶液処理が盛んに行われているが, 半導体産業においては, 物理的蒸気蒸着のための自律的ツールの例が少なからず重要である。 本稿では,Pythonでカスタム制御された高自動スパッタリングリアクター,光発光分光法(OES),ベイズ最適化アルゴリズムを応用した,制御組成の制御された薄膜スパッタ堆積用自律装置の設計と実装について報告する。 N$2$大気中におけるZnおよびTiターゲットの共スパッタ中に観測される発光線の線形関数として, 蛍光X線で測定した薄膜組成をモデル化した。 OESに通知されたベイズ制御アルゴリズムは、所望の放出信号と測定された放出信号の絶対誤差を最小化することにより、スパッタリングパワーの空間をユーザ定義の組成で製造する。 我々は, Zn$_x$Ti$_{1-x}$N$_y$薄膜を, 15nmの薄膜であっても相対3.5%の範囲内でターゲットカチオン組成から逸脱して自動で作製し, 提案手法が特定の組成で確実に薄膜を合成し, 人間の干渉を最小限に抑えることを示した。 さらに, プラズマ強度が非直線的に圧力に依存する, あるいは素子付着係数が基板温度に強く依存する, より難しい合成実験まで拡張することができる。

Autonomous experimentation has emerged as an efficient approach to accelerate the pace of materials discovery. Although instruments for autonomous synthesis have become popular in molecular and polymer science, solution processing of hybrid materials and nanoparticles, examples of autonomous tools for physical vapour deposition are scarce yet important for the semiconductor industry. Here, we report the design and implementation of an autonomous instrument for sputter deposition of thin films with controlled composition, leveraging a highly automated sputtering reactor custom-controlled by Python, optical emission spectroscopy (OES), and Bayesian optimization algorithm. We modeled film composition, measured by x-ray fluorescence, as a linear function of emission lines monitored during the co-sputtering from elemental Zn and Ti targets in N$_2$ atmosphere. A Bayesian control algorithm, informed by OES, navigates the space of sputtering power to fabricate films with user-defined composition, by minimizing the absolute error between desired and measured emission signals. We validated our approach by autonomously fabricating Zn$_x$Ti$_{1-x}$N$_y$ films with deviations from the targeted cation composition within relative 3.5 %, even for 15 nm thin films, demonstrating that the proposed approach can reliably synthesize thin films with specific composition and minimal human interference. Moreover, the proposed method can be extended to more difficult synthesis experiments where plasma intensity depends non-linearly on pressure, or the elemental sticking coefficients strongly depend on the substrate temperature.
翻訳日:2023-05-19 13:49:03 公開日:2023-05-18
# 線形逆問題の解法のための複合ガウスネットワーク

A Compound Gaussian Network for Solving Linear Inverse Problems ( http://arxiv.org/abs/2305.11120v1 )

ライセンス: Link先を確認
Carter Lyons, Raghu G. Raj, and Margaret Cheney(参考訳) 本稿では, 線形逆問題, 特にトモグラフィー画像や圧縮センシングに現れるタイプの問題を解くために, 2つの新しいアプローチを考案する。 第一のアプローチは、正規化が複合ガウス事前分布に基づく正則化最小二乗対象関数を最小化する反復アルゴリズムである。 ガウス型化合物は、スパーシティに基づくアプローチを含む画像再構成においてよく使われる多くの先行事項を事前に仮定する。 このアルゴリズムは、反復アルゴリズムの「アンロール」または「アンフォールディング」に対応するディープニューラルネットワークである。 アンロールされたディープニューラルネットワークは解釈可能な層を持ち、標準的なディープラーニング手法より優れている。 本稿では,両アルゴリズムの構成と性能に関する洞察を与える計算理論について述べる。 結論は、どちらのアルゴリズムも、トモグラフィ画像形成や圧縮センシング、特に低訓練の難しい状況において、最先端のアプローチよりも優れているということである。

For solving linear inverse problems, particularly of the type that appear in tomographic imaging and compressive sensing, this paper develops two new approaches. The first approach is an iterative algorithm that minimizers a regularized least squares objective function where the regularization is based on a compound Gaussian prior distribution. The Compound Gaussian prior subsumes many of the commonly used priors in image reconstruction, including those of sparsity-based approaches. The developed iterative algorithm gives rise to the paper's second new approach, which is a deep neural network that corresponds to an "unrolling" or "unfolding" of the iterative algorithm. Unrolled deep neural networks have interpretable layers and outperform standard deep learning methods. This paper includes a detailed computational theory that provides insight into the construction and performance of both algorithms. The conclusion is that both algorithms outperform other state-of-the-art approaches to tomographic image formation and compressive sensing, especially in the difficult regime of low training.
翻訳日:2023-05-19 13:48:31 公開日:2023-05-18
# LLMScore:テキストと画像の合成評価における大規模言語モデルのパワーの実現

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation ( http://arxiv.org/abs/2305.11116v1 )

ライセンス: Link先を確認
Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, William Yang Wang(参考訳) 既存のテキストから画像への合成に関する自動評価は、オブジェクトレベルの合成性を考慮せずに、画像とテキストのマッチングスコアしか提供できない。 本研究では,多粒度合成による評価スコアを提供する新しいフレームワークであるLLMScoreを提案する。 LLMScoreは、大きな言語モデル(LLM)を活用して、テキスト・ツー・イメージモデルを評価する。 まず、イメージをイメージレベルおよびオブジェクトレベルのビジュアル記述に変換する。 そして、LCMに評価指示を入力し、合成画像とテキストとのアライメントを測定し、最終的に合理性を伴うスコアを生成する。 以上の結果から, LLMScoreと人的判断との相関は, 幅広いデータセット(属性結合コントラスト, 概念結合, MSCOCO, DrawBench, PaintSkills)において最も高い。 特に,我々のLLMScoreは,一般的なテキスト画像マッチング指標CLIPとBLIPよりも58.8%,31.2%高い評価値とのタウ相関を達成している。

Existing automatic evaluation on text-to-image synthesis can only provide an image-text matching score, without considering the object-level compositionality, which results in poor correlation with human judgments. In this work, we propose LLMScore, a new framework that offers evaluation scores with multi-granularity compositionality. LLMScore leverages the large language models (LLMs) to evaluate text-to-image models. Initially, it transforms the image into image-level and object-level visual descriptions. Then an evaluation instruction is fed into the LLMs to measure the alignment between the synthesized image and the text, ultimately generating a score accompanied by a rationale. Our substantial analysis reveals the highest correlation of LLMScore with human judgments on a wide range of datasets (Attribute Binding Contrast, Concept Conjunction, MSCOCO, DrawBench, PaintSkills). Notably, our LLMScore achieves Kendall's tau correlation with human evaluations that is 58.8% and 31.2% higher than the commonly-used text-image matching metrics CLIP and BLIP, respectively.
翻訳日:2023-05-19 13:48:13 公開日:2023-05-18
# 古典的部分同型暗号に適合する量子XORオブリバスト転送プロトコル

A quantum XOR oblivious transfer protocol compatible with classical partially homomorphic encryption ( http://arxiv.org/abs/2305.11114v1 )

ライセンス: Link先を確認
Li Yu, Jie Xu, Fuqun Wang, Chui-Ping Yang(参考訳) XOR oblivious Transfer (XOT) は古典的な暗号プリミティブであり、1-out-of--2 oblivious transferよりも弱いが、セキュアな2要素計算には普遍的である。 理想のXOTでは、ボブは最初2ビットしか持たず、アリスはボブの第1ビットか第2ビットか、またはその排他的あるいはそれ以上の情報を得ることはできないが、ボブは彼女の選択について何も学ばない。 本稿では,古典的入力に対するxotの機能を実装し,aliceの入力に対するセキュリティは完全だが,bobの入力に対する部分的セキュリティのみを提供する量子プロトコルを提案する。 ハイブリッドセキュリティの面では、プロトコルと古典的なxor準同型暗号スキームを組み合わせることで、線形関数の評価時に量子コストを削減できる。

XOR oblivious transfer (XOT) is a classical cryptographic primitive which is apparently weaker than 1-out-of-2 oblivious transfer, yet still universal for secure two-party computation. In ideal XOT, Bob initially has two bits, and Alice may choose to obtain either the first bit of Bob's, or the second bit, or their exclusive-or, but does not obtain any more information, while Bob does not learn anything about her choice. In this work we present a quantum protocol which implements the functionality of XOT on classical inputs, with complete security for Alice's input, but only partial security for Bob's input. On the hybrid security front, the protocol can be easily combined with a classical XOR homomorphic encryption scheme to save quantum costs when evaluating linear functions.
翻訳日:2023-05-19 13:47:44 公開日:2023-05-18
# PPDONet:ディスクプラネットシステムにおける定常解の高速予測のためのディープオペレータネットワーク

PPDONet: Deep Operator Networks for Fast Prediction of Steady-State Solutions in Disk-Planet Systems ( http://arxiv.org/abs/2305.11111v1 )

ライセンス: Link先を確認
Shunyuan Mao, Ruobing Dong, Lu Lu, Kwang Moo Yi, Sifan Wang, Paris Perdikaris(参考訳) 我々は、原始惑星系ディスクオペレーターネットワーク(ppdonet)というツールを開発し、原惑星系ディスクにおけるディスク惑星間相互作用の解をリアルタイムに予測する。 私たちはDeep Operator Networks(DeepONets)をベースにしています。これは、決定論的および確率微分方程式を表現するために非線形演算子を学習できるニューラルネットワークのクラスです。 PPDONetでは、円盤面密度、放射速度、方位速度の定常解に対して、シャクラ・アンド・スニャーエフ粘度$\alpha$、円盤面比$h_\mathrm{0}$、惑星質量比$q$の3つのスカラーパラメータをマッピングする。 PPDONetソリューションの総合的なテストセットを用いて精度を実証する。 我々のツールは、ラップトップ上で1秒未満で1つのシステムにおけるディスクプラネタリー相互作用の結果を予測することができる。 PPDONetの公開実装は \url{https://github.com/smao-astro/PPDONet} で公開されている。

We develop a tool, which we name Protoplanetary Disk Operator Network (PPDONet), that can predict the solution of disk-planet interactions in protoplanetary disks in real-time. We base our tool on Deep Operator Networks (DeepONets), a class of neural networks capable of learning non-linear operators to represent deterministic and stochastic differential equations. With PPDONet we map three scalar parameters in a disk-planet system -- the Shakura \& Sunyaev viscosity $\alpha$, the disk aspect ratio $h_\mathrm{0}$, and the planet-star mass ratio $q$ -- to steady-state solutions of the disk surface density, radial velocity, and azimuthal velocity. We demonstrate the accuracy of the PPDONet solutions using a comprehensive set of tests. Our tool is able to predict the outcome of disk-planet interaction for one system in less than a second on a laptop. A public implementation of PPDONet is available at \url{https://github.com/smao-astro/PPDONet}.
翻訳日:2023-05-19 13:47:28 公開日:2023-05-18
# huging faceのmlモデルの炭素フットプリントの検討--レポジトリマイニングによる研究

Exploring the Carbon Footprint of Hugging Face's ML Models: A Repository Mining Study ( http://arxiv.org/abs/2305.11164v1 )

ライセンス: Link先を確認
Joel Casta\~no, Silverio Mart\'inez-Fern\'andez, Xavier Franch, Justus Bogner(参考訳) 機械学習(ML)システムの台頭は、能力とモデルサイズの増加により、その炭素フットプリントを悪化させた。 しかしながら、mlモデルの炭素フットプリントが実際に測定、報告、評価される方法についての知識は乏しい。 そこで本論文は,Hugging Faceにおける1,417のMLモデルと関連するデータセットの炭素フットプリントの測定を解析することを目的としている。 目標は、MLモデルの炭素効率を報告し最適化する方法に関する洞察とレコメンデーションを提供することだ。 この研究には、炭素排出量に関するHugging Face Hub APIに関する最初のリポジトリマイニング研究が含まれている。 この研究は,(1)MLモデル作成者がHugging Face Hub上でどのように二酸化炭素排出量を測定し,報告するかという2つの研究課題に答えようとしている。 トレーニングMLモデルの二酸化炭素排出量にどのような影響があるのか? この研究はいくつかの重要な発見をもたらした。 これには、炭素排出報告モデルの割合の低下、過去2年間のハグ面における報告された炭素フットプリントのわずかな減少、メインアプリケーションドメインとしてのnlpの継続的な支配などが含まれる。 さらに、この研究は、二酸化炭素排出量とモデルサイズ、データセットサイズ、MLアプリケーションドメインといった様々な属性の相関関係を明らかにする。 これらの結果は、Hugging Faceコミュニティ内のエネルギーレポートのプラクティスを改善し、炭素効率の良いモデル開発を促進するためのソフトウェア測定の必要性を強調している。 この問題への対応として, 二酸化炭素排出報告に基づくモデル分類と, 炭素効率の分類の2つの分類が提案されている。 これらの分類提案の目的は、MLコミュニティにおける透明性と持続可能なモデル開発を促進することである。

The rise of machine learning (ML) systems has exacerbated their carbon footprint due to increased capabilities and model sizes. However, there is scarce knowledge on how the carbon footprint of ML models is actually measured, reported, and evaluated. In light of this, the paper aims to analyze the measurement of the carbon footprint of 1,417 ML models and associated datasets on Hugging Face, which is the most popular repository for pretrained ML models. The goal is to provide insights and recommendations on how to report and optimize the carbon efficiency of ML models. The study includes the first repository mining study on the Hugging Face Hub API on carbon emissions. This study seeks to answer two research questions: (1) how do ML model creators measure and report carbon emissions on Hugging Face Hub?, and (2) what aspects impact the carbon emissions of training ML models? The study yielded several key findings. These include a decreasing proportion of carbon emissions-reporting models, a slight decrease in reported carbon footprint on Hugging Face over the past 2 years, and a continued dominance of NLP as the main application domain. Furthermore, the study uncovers correlations between carbon emissions and various attributes such as model size, dataset size, and ML application domains. These results highlight the need for software measurements to improve energy reporting practices and promote carbon-efficient model development within the Hugging Face community. In response to this issue, two classifications are proposed: one for categorizing models based on their carbon emission reporting practices and another for their carbon efficiency. The aim of these classification proposals is to foster transparency and sustainable model development within the ML community.
翻訳日:2023-05-19 13:42:23 公開日:2023-05-18
# ゼロショット・リレーション・エクストラクタとして大規模言語モデルをアンロックする命令タスクの調整

Aligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation Extractors ( http://arxiv.org/abs/2305.11159v1 )

ライセンス: Link先を確認
Kai Zhang, Bernal Jim\'enez Guti\'errez, Yu Su(参考訳) 最近の研究により、大規模命令追従データセット上での微調整大型言語モデル(LLM)は、特にゼロショット設定において、幅広いNLPタスクにおける性能を大幅に向上することが示された。 しかし、先進的な命令チューニング LLM でさえ、基本的な情報抽出タスクである関係抽出(RE)において、小さな LM よりも優れていない。 我々は、命令チューニングは、命令チューニングデータセットのre頻度が低いため、llmの強力なre能力を引き出すことができないと仮定し、すべてのタスクの1%に満たない(wang et al., 2022)。 この制限に対処するため、命令チューニングデータセットにおける主要なタスクである質問応答(QA)とREを一致させるフレームワークであるQA4REを提案する。 総合的なゼロショットRE実験を2つの命令調整LDM(合計6つのLLM)で行うことで、我々のQA4REフレームワークはLLMの性能を一貫して改善し、仮説を強く検証し、LLMが強いゼロショットベースラインを大きなマージンで上回ることを実証した。 さらに、我々はQA4REフレームワークの堅牢性、少数ショットの有効性、および強力な転送可能性を示す、徹底的な実験と議論を行っている。 この研究は、これらのタスクを、QAのようなより一般的な命令チューニングタスクと整合させることによって、挑戦的で表現不足なタスクにLLMを適用する、有望な方法を示している。

Recent work has shown that fine-tuning large language models (LLMs) on large-scale instruction-following datasets substantially improves their performance on a wide range of NLP tasks, especially in the zero-shot setting. However, even advanced instruction-tuned LLMs still fail to outperform small LMs on relation extraction (RE), a fundamental information extraction task. We hypothesize that instruction-tuning has been unable to elicit strong RE capabilities in LLMs due to RE's low incidence in instruction-tuning datasets, making up less than 1% of all tasks (Wang et al., 2022). To address this limitation, we propose QA4RE, a framework that aligns RE with question answering (QA), a predominant task in instruction-tuning datasets. Comprehensive zero-shot RE experiments over four datasets with two series of instruction-tuned LLMs (six LLMs in total) demonstrate that our QA4RE framework consistently improves LLM performance, strongly verifying our hypothesis and enabling LLMs to outperform strong zero-shot baselines by a large margin. Additionally, we provide thorough experiments and discussions to show the robustness, few-shot effectiveness, and strong transferability of our QA4RE framework. This work illustrates a promising way of adapting LLMs to challenging and underrepresented tasks by aligning these tasks with more common instruction-tuning tasks like QA.
翻訳日:2023-05-19 13:41:57 公開日:2023-05-18
# 単一空間モードにおけるプログラム可能な多光子量子干渉

Programmable multi-photon quantum interference in a single spatial mode ( http://arxiv.org/abs/2305.11157v1 )

ライセンス: Link先を確認
Lorenzo Carosini, Virginia Oddi, Francesco Giorgino, Lena M. Hansen, Benoit Seron, Simone Piacentini, Tobias Guggemos, Iris Agresti, Juan Carlos Loredo, and Philip Walther(参考訳) 光の古典的でない状態の干渉は、量子力学から計算への到達を可能にする。 最も一般的には、単一光子の偏光または空間的位置は、これらのアプリケーションをPraxisに変換するためのアドレス可能な自由度として用いられる。 しかし、そのようなアーキテクチャの多くの光子を処理するためのスケールアップは、光学素子や光子源、検出器などのコンポーネントが急速に増えているため、非常にリソースを必要とする。 本稿では,単一空間モードにおける時間ビン符号化に基づくマルチフォトン処理のための資源効率の高いアーキテクチャを示す。 我々は、16モードで最大8個の光子の干渉を観測するために、効率的な量子ドット単光子源と高速プログラム可能なタイムビン干渉計を用い、すべて1つの検出器でのみ記録する。 この結果は,単一空間モードで動作する将来のユニバーサルフォトニクス量子プロセッサの基礎を形成することができる。

The interference of non-classical states of light enables quantum-enhanced applications reaching from metrology to computation. Most commonly, the polarisation or spatial location of single photons are used as addressable degrees-of-freedom for turning these applications into praxis. However, the scale-up for the processing of a large number of photons of such architectures is very resource demanding due to the rapidily increasing number of components, such as optical elements, photon sources and detectors. Here we demonstrate a resource-efficient architecture for multi-photon processing based on time-bin encoding in a single spatial mode. We employ an efficient quantum dot single-photon source, and a fast programmable time-bin interferometer, to observe the interference of up to 8 photons in 16 modes, all recorded only with one detector--thus considerably reducing the physical overhead previously needed for achieving equivalent tasks. Our results can form the basis for a future universal photonics quantum processor operating in a single spatial mode.
翻訳日:2023-05-19 13:41:24 公開日:2023-05-18
# UniControl:野生で制御可能な視覚生成のための統一拡散モデル

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild ( http://arxiv.org/abs/2305.11147v1 )

ライセンス: Link先を確認
Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu(参考訳) 機械の自律性と人間の制御を達成することは、対話型AIシステムの設計において、しばしば異なる目的を表す。 安定拡散のような視覚的生成基盤モデルは、特に任意の言語で刺激された場合、これらの目標をナビゲートすることを約束している。 しかし、しばしば空間的、構造的、幾何学的な制御による画像の生成に不足する。 このようなコントロールの統合は、単一の統一モデルにおいて様々な視覚条件に対応できるが、未対応の課題である。 そこで我々は,単一フレームワーク内で多岐にわたる制御可能な条件と画像(c2i)タスクを統合するとともに,任意の言語プロンプトを許容する,新しい生成基盤モデルであるunicontrolを導入する。 unicontrolはピクセルレベルのpreciseイメージ生成を可能にする。視覚条件は主に生成された構造に影響を与え、言語はスタイルとコンテキストをガイドする。 多様な視覚条件に対応する能力をユニコントロールするために、事前学習されたテキストから画像への拡散モデルを強化し、拡散モデルを変調するタスクアウェアハイパーネットを導入し、異なるc2iタスクに同時に適応できるようにする。 9つのユニークなC2Iタスクで訓練されたUniControlは、目に見えない視覚条件で、印象的なゼロショット生成能力を示す。 実験の結果,ユニコントロールは,モデルサイズに匹敵するシングルタスク制御手法の性能をしばしば上回っていることがわかった。 この制御の汎用性は、UniControlを制御可能な視覚生成の領域における重要な進歩と位置づけている。

Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
翻訳日:2023-05-19 13:41:10 公開日:2023-05-18
# ゼノ効果の様々な形態からのグローバースピードアップ

Grover Speedup from Many Forms of the Zeno Effect ( http://arxiv.org/abs/2305.11146v1 )

ライセンス: Link先を確認
Jesse Berwald, Nick Chancellor, Raouf Dridi(参考訳) 従来、固有状態間の動的位相による連続的ゼノ効果に基づく断熱量子計算は、グローバーのような量子スピードアップを最適に実現できることが確立されてきた。 言い換えれば、Groverのオリジナルのアルゴリズムと同じ$\sqrt{N}$スケールで、構造化されていない探索問題を解くことができる。 自然な疑問は、ゼノ効果の他の表現が物理的に現実的なモデルにおいて最適なスピードアップをサポートすることができるかどうかである(普遍ゲート集合を間接的にサポートするのではなく、直接アナログアプリケーションを通して)。 本稿では, 励起状態の測定, デコヒーレンス, 破壊等により, 計算上役に立たない状態まで, 速度アップを支援できることを示す。 また,zenoの動作に依存しないスピードアップを実現するための多種多様な手法を提案する。 これらのアルゴリズムを3つのファミリーに分類し,速度向上の方法に関する構造化理解を促進する。1つは断熱計算と連続時間量子ウォークを含む位相キック,もう1つは強調と測定,もう1つは励起状態における振幅の破壊に基づく。 これらの結果から,アナログ量子コンピューティングの新たなパラダイムが期待できる可能性が示唆された。

It has previously been established that adiabatic quantum computation, operating based on a continuous Zeno effect due to dynamical phases between eigenstates, is able to realise an optimal Grover-like quantum speedup. In other words is able to solve an unstructured search problem with the same $\sqrt{N}$ scaling as Grover's original algorithm. A natural question is whether other manifestations of the Zeno effect can also support an optimal speedup in a physically realistic model (through direct analog application rather than indirectly by supporting a universal gateset). In this paper we show that they can support such a speedup, whether due to measurement, decoherence, or even decay of the excited state into a computationally useless state. Our results also suggest a wide variety of methods to realise speedup which do not rely on Zeno behaviour. We group these algorithms into three families to facilitate a structured understanding of how speedups can be obtained: one based on phase kicks, containing adiabatic computation and continuous-time quantum walks; one based on dephasing and measurement; and finally one based on destruction of the amplitude within the excited state, for which we are not aware of any previous results. These results suggest that there may be exciting opportunities for new paradigms of analog quantum computing based on these effects.
翻訳日:2023-05-19 13:40:41 公開日:2023-05-18
# 厳密な注釈付き並列コーパスを用いた機械翻訳の談話中心評価

Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus ( http://arxiv.org/abs/2305.11142v1 )

ライセンス: Link先を確認
Yuchen Eleanor Jiang, Tianyu Liu, Shuming Ma, Dongdong Zhang, Mrinmaya Sachan, Ryan Cotterell(参考訳) 最近のいくつかの論文では、特に高リソース言語において、センテンスレベル機械翻訳(MT)における人間の同等性を主張している。 そのため、mtコミュニティは部分的に文書レベルの翻訳に重点を移している。 文書の翻訳には、テキストの構造と意味を深く理解する必要があるが、一貫性、一貫性、一貫性、結束といった様々な談話現象によってしばしば捉えられる。 しかし, 従来の文レベルMT評価ベンチマークでは, 文脈認識型MTシステムの性能評価には不十分である。 本稿では,jiang et al. (2022) で導入された大規模並列コーパスbwbに基づいて,豊富な談話アノテーションを備えた新しいデータセットを提案する。 新しいbwbアノテーションは、エンティティ、用語、コリファレンス、引用という4つの追加評価要素を導入し、両方の言語で15,095のエンティティ参照をカバーしている。 これらのアノテーションを用いて,ソース言語とターゲット言語の会話構造との類似性と差異を体系的に検討し,mtの出力は,その潜在的な談話構造の観点から,基本的に人間の翻訳と異なることが判明した。 これにより、文書レベルのMTにおける課題と機会に関する新たな視点が得られます。文書レベルのMTにおける今後の研究と、他の言語翻訳タスクへの一般化を促進するために、我々のリソースを公開します。

Several recent papers claim human parity at sentence-level Machine Translation (MT), especially in high-resource languages. Thus, in response, the MT community has, in part, shifted its focus to document-level translation. Translating documents requires a deeper understanding of the structure and meaning of text, which is often captured by various kinds of discourse phenomena such as consistency, coherence, and cohesion. However, this renders conventional sentence-level MT evaluation benchmarks inadequate for evaluating the performance of context-aware MT systems. This paper presents a new dataset with rich discourse annotations, built upon the large-scale parallel corpus BWB introduced in Jiang et al. (2022). The new BWB annotation introduces four extra evaluation aspects, i.e., entity, terminology, coreference, and quotation, covering 15,095 entity mentions in both languages. Using these annotations, we systematically investigate the similarities and differences between the discourse structures of source and target languages, and the challenges they pose to MT. We discover that MT outputs differ fundamentally from human translations in terms of their latent discourse structures. This gives us a new perspective on the challenges and opportunities in document-level MT. We make our resource publicly available to spur future research in document-level MT and the generalization to other language translation tasks.
翻訳日:2023-05-19 13:40:17 公開日:2023-05-18
# クリフォード群同変ニューラルネットワーク

Clifford Group Equivariant Neural Networks ( http://arxiv.org/abs/2305.11141v1 )

ライセンス: Link先を確認
David Ruhe, Johannes Brandstetter, Patrick Forr\'e(参考訳) 我々は,$\mathrm{e}(n)$-同変ネットワークを構築するための新しいアプローチとして,clifford group equivariant neural networksを導入する。 我々は、クリフォード代数内の部分群である $\textit{Clifford group}$ を特定し、研究する。 主に、群の作用は直交自己同型を形成し、これは典型的なベクトル空間を越えてクリフォード代数全体へ拡張し、乗ベクトル階調を尊重する。 これにより、多重ベクトル分解に対応する複数の非同値な部分表現が導かれる。 さらに、作用はクリフォード代数のベクトル空間構造だけでなく、その乗法構造、すなわち幾何学積も尊重していることを証明する。 これらの結果は、次数射影を含む多ベクトルの多項式がクリフォード群に対して同変写像を構成し、同変ニューラルネットワーク層をパラメータ化できることを示唆している。 注目すべき利点は、これらの層がベクトルベースで直接動作し、任意の次元に優雅に一般化することである。 特に,1つのコア実装,3次元$n$-body実験,4次元Lorentz-equivariant高エネルギー物理実験,5次元凸船体実験など,いくつかの異なるタスクにおける最先端性能を実証する。

We introduce Clifford Group Equivariant Neural Networks: a novel approach for constructing $\mathrm{E}(n)$-equivariant networks. We identify and study the $\textit{Clifford group}$, a subgroup inside the Clifford algebra, whose definition we slightly adjust to achieve several favorable properties. Primarily, the group's action forms an orthogonal automorphism that extends beyond the typical vector space to the entire Clifford algebra while respecting the multivector grading. This leads to several non-equivalent subrepresentations corresponding to the multivector decomposition. Furthermore, we prove that the action respects not just the vector space structure of the Clifford algebra but also its multiplicative structure, i.e., the geometric product. These findings imply that every polynomial in multivectors, including their grade projections, constitutes an equivariant map with respect to the Clifford group, allowing us to parameterize equivariant neural network layers. Notable advantages are that these layers operate directly on a vector basis and elegantly generalize to any dimension. We demonstrate, notably from a single core implementation, state-of-the-art performance on several distinct tasks, including a three-dimensional $n$-body experiment, a four-dimensional Lorentz-equivariant high-energy physics experiment, and a five-dimensional convex hull experiment.
翻訳日:2023-05-19 13:39:54 公開日:2023-05-18
# バイアステキストへのバイアス付きモデルのエクスプロイト:ジェンダーフェア書き換えモデル

Exploiting Biased Models to De-bias Text: A Gender-Fair Rewriting Model ( http://arxiv.org/abs/2305.11140v1 )

ライセンス: Link先を確認
Chantal Amrhein, Florian Schottmann, Rico Sennrich and Samuel L\"aubli(参考訳) 自然言語生成モデルは、トレーニングデータに存在するバイアスを再現し、しばしば増幅する。 従来の研究では、シーケンシャル・ツー・シーケンスの書き換えモデルを用いて、バイアス付きモデル出力(または元のテキスト)を、言語規則を通じて擬似的なトレーニングデータを作成することによって、よりジェンダーフェアな言語に変換する研究が行われた。 しかし、このアプローチは英語よりも複雑な形態を持つ言語には実用的ではない。 逆方向、つまりジェンダーフェアテキストから始まるトレーニングデータの作成は、形態的に複雑な言語では容易であり、それが英語の最先端の書き直しモデルのパフォーマンスと一致することを示す。 ルールに基づくデータ生成の本質をなくすため,本研究では,ラウンドトリップ翻訳を用いて,実際のジェンダーフェアテキストからジェンダーバイアス付きテキストを作成する機械翻訳モデルを提案する。 我々のアプローチは、精巧な手作りルールを必要とせずに、ドイツ語の書き直しモデルを訓練することを可能にする。 このモデルのアウトプットは、人間評価研究で示されるように、男女関係を増加させた。

Natural language generation models reproduce and often amplify the biases present in their training data. Previous research explored using sequence-to-sequence rewriting models to transform biased model outputs (or original texts) into more gender-fair language by creating pseudo training data through linguistic rules. However, this approach is not practical for languages with more complex morphology than English. We hypothesise that creating training data in the reverse direction, i.e. starting from gender-fair text, is easier for morphologically complex languages and show that it matches the performance of state-of-the-art rewriting models for English. To eliminate the rule-based nature of data creation, we instead propose using machine translation models to create gender-biased text from real gender-fair text via round-trip translation. Our approach allows us to train a rewriting model for German without the need for elaborate handcrafted rules. The outputs of this model increased gender-fairness as shown in a human evaluation study.
翻訳日:2023-05-19 13:39:32 公開日:2023-05-18
# 魚と機械における社会的嗜好の並列展開

Parallel development of social preferences in fish and machines ( http://arxiv.org/abs/2305.11137v1 )

ライセンス: Link先を確認
Joshua McGraw, Donsuk Lee, Justin Wood(参考訳) ソーシャルグルーピングの計算基盤とは何か? この質問に対する伝統的なアプローチは、口頭推論や単純な(低次元の)量的モデルに焦点が当てられている。 しかし、現実の世界では、高次元学習システム(脳と身体)が高次元の感覚入力と相互作用し、動物の世界との具体的相互作用によって社会的嗜好が出現する。 したがって、社会的グループ化の深い理解には、高次元の学習メカニズムを用いて感覚入力から直接学習する具体化モデルが必要である。 この目的のために、我々は人工ニューラルネットワーク(ANN)を構築し、それらのANNを仮想魚体に具現化し、実際の魚の飼育状態を模倣した仮想魚槽に人工魚を飼育した。 次に,実魚に出現する社会的嗜好と人工魚を比較した。 人工魚が2つの中核学習機構(強化学習と好奇心駆動学習)を持つと、人工魚は魚のような社会的嗜好を発達させることがわかった。 本物の魚と同様に、人工魚は自然に他のグループよりも自分のグループのメンバーを好むことを覚えた。 人工魚は自然界で見られる自己隔離行動に似た自己隔離を自発的に学んだ。 その結果,(1)強化学習,(2)本質的モチベーション,(3)グループ内メンバーによる初期ソーシャル体験の3因子からソーシャルグループ化が出現する可能性が示唆された。 このアプローチは、画像計算可能なモデルによるリバースエンジニアリングのような社会行動の基礎を築き、高次元感覚入力と社会的嗜好の分離をブリッジする。

What are the computational foundations of social grouping? Traditional approaches to this question have focused on verbal reasoning or simple (low-dimensional) quantitative models. In the real world, however, social preferences emerge when high-dimensional learning systems (brains and bodies) interact with high-dimensional sensory inputs during an animal's embodied interactions with the world. A deep understanding of social grouping will therefore require embodied models that learn directly from sensory inputs using high-dimensional learning mechanisms. To this end, we built artificial neural networks (ANNs), embodied those ANNs in virtual fish bodies, and raised the artificial fish in virtual fish tanks that mimicked the rearing conditions of real fish. We then compared the social preferences that emerged in real fish versus artificial fish. We found that when artificial fish had two core learning mechanisms (reinforcement learning and curiosity-driven learning), artificial fish developed fish-like social preferences. Like real fish, the artificial fish spontaneously learned to prefer members of their own group over members of other groups. The artificial fish also spontaneously learned to self-segregate with their in-group, akin to self-segregation behavior seen in nature. Our results suggest that social grouping can emerge from three ingredients: (1) reinforcement learning, (2) intrinsic motivation, and (3) early social experiences with in-group members. This approach lays a foundation for reverse engineering animal-like social behavior with image-computable models, bridging the divide between high-dimensional sensory inputs and social preferences.
翻訳日:2023-05-19 13:39:16 公開日:2023-05-18
# クリッピングによる圧縮・電力制御を伴う空気上flの収束解析

Convergence Analysis of Over-the-Air FL with Compression and Power Control via Clipping ( http://arxiv.org/abs/2305.11135v1 )

ライセンス: Link先を確認
Haifeng Wen, Hong Xing, and Osvaldo Simeone(参考訳) オーバー・ザ・エア・フェデレート・ラーニング(AirFL)の展開における重要な課題の1つは、ベースラインのノイズレス実装と比較して学習性能が最小限に低下する一方で、共有チャネルの電力と帯域幅の制約を満たす機構の設計である。 デバイス毎の電力制約を瞬時に制約する付加的な白色ガウスノイズ(AWGN)チャネルに対して、先行研究はノルムクリッピングに基づく電力制御機構の最適性を実証した。 これは polyak-{\l}ojasiewicz (pl) 条件を満たす滑らかな学習対象に対する最適性ギャップの上界の最小化によって達成された。 本稿では,通常のクリッピングに基づくAirFLの開発に2つの貢献を行い,これをAirFL-Clipと呼ぶ。 まず,一般にスムーズな学習目的と非凸学習目的に適用されるAirFLClipの収束バウンダリを提供する。 既存の結果とは異なり、派生バウンドは実行固有のパラメータを含まないため、オフライン評価をサポートする。 第2に、AirFL-Clipを拡張して、Top-kスペーシフィケーションと線形圧縮を含む。 この一般化されたプロトコルは、AirFL-Clip-Compと呼ばれ、一般的な滑らかで非凸な学習目的に対する収束を導出する。 我々は,境界に存在する時間変化量のみを,スパースリカバリアルゴリズムのよく研究された特性を活用し,オフラインで効率的に推定できることを示す。

One of the key challenges towards the deployment of over-the-air federated learning (AirFL) is the design of mechanisms that can comply with the power and bandwidth constraints of the shared channel, while causing minimum deterioration to the learning performance as compared to baseline noiseless implementations. For additive white Gaussian noise (AWGN) channels with instantaneous per-device power constraints, prior work has demonstrated the optimality of a power control mechanism based on norm clipping. This was done through the minimization of an upper bound on the optimality gap for smooth learning objectives satisfying the Polyak-{\L}ojasiewicz (PL) condition. In this paper, we make two contributions to the development of AirFL based on norm clipping, which we refer to as AirFL-Clip. First, we provide a convergence bound for AirFLClip that applies to general smooth and non-convex learning objectives. Unlike existing results, the derived bound is free from run-specific parameters, thus supporting an offline evaluation. Second, we extend AirFL-Clip to include Top-k sparsification and linear compression. For this generalized protocol, referred to as AirFL-Clip-Comp, we derive a convergence bound for general smooth and non-convex learning objectives. We argue, and demonstrate via experiments, that the only time-varying quantities present in the bound can be efficiently estimated offline by leveraging the well-studied properties of sparse recovery algorithms.
翻訳日:2023-05-19 13:38:48 公開日:2023-05-18
# instruct2act: 大規模言語モデルによるマルチモダリティ命令とロボット動作のマッピング

Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model ( http://arxiv.org/abs/2305.11176v1 )

ライセンス: Link先を確認
Siyuan Huang, Zhengkai Jiang, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li(参考訳) 基礎モデルは、テキストから画像への生成、panopticのセグメンテーション、自然言語処理など、様々なアプリケーションで大きな進歩を遂げている。 Instruct2Actは,大規模言語モデルを用いて複数モーダル命令をロボット操作タスクの逐次動作にマッピングするフレームワークである。 具体的には、インストラクト2ActはLLMモデルを使用して、ロボットタスクの包括的な認識、計画、アクションループを構成するPythonプログラムを生成する。 認識セクションでは、事前に定義されたAPIを使用して複数の基盤モデルにアクセスし、Segment Anything Model(SAM)が候補オブジェクトを正確に特定し、CLIPがそれらを分類する。 このように、このフレームワークは基礎モデルとロボット能力の専門知識を活用し、複雑な高レベルの命令を正確なポリシーコードに変換する。 我々のアプローチは、様々な命令のモダリティや入力タイプを調整し、特定のタスク要求に合わせて調整できる。 テーブルトップ操作領域内の異なるシナリオのロボットタスクで評価することにより,本手法の実用性と効率性を検証する。 さらに,ゼロショット法は,いくつかのタスクにおいて,最先端の学習ベースポリシを上回っていた。 私たちの提案するアプローチのコードはhttps://github.com/opengvlab/instruct2actで利用可能です。

Foundation models have made significant strides in various applications, including text-to-image generation, panoptic segmentation, and natural language processing. This paper presents Instruct2Act, a framework that utilizes Large Language Models to map multi-modal instructions to sequential actions for robotic manipulation tasks. Specifically, Instruct2Act employs the LLM model to generate Python programs that constitute a comprehensive perception, planning, and action loop for robotic tasks. In the perception section, pre-defined APIs are used to access multiple foundation models where the Segment Anything Model (SAM) accurately locates candidate objects, and CLIP classifies them. In this way, the framework leverages the expertise of foundation models and robotic abilities to convert complex high-level instructions into precise policy codes. Our approach is adjustable and flexible in accommodating various instruction modalities and input types and catering to specific task demands. We validated the practicality and efficiency of our approach by assessing it on robotic tasks in different scenarios within tabletop manipulation domains. Furthermore, our zero-shot method outperformed many state-of-the-art learning-based policies in several tasks. The code for our proposed approach is available at https://github.com/OpenGVLab/Instruct2Act, serving as a robust benchmark for high-level robotic instruction tasks with assorted modality inputs.
翻訳日:2023-05-19 13:31:17 公開日:2023-05-18
# VisionLLM: 大規模言語モデルはビジョン中心タスクのためのオープンエンディングデコーダでもある

VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks ( http://arxiv.org/abs/2305.11175v1 )

ライセンス: Link先を確認
Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai(参考訳) 大規模言語モデル(LLM)は、人工知能(AGI)への進歩を顕著に加速しており、ユーザに適したタスクに対して印象的なゼロショット能力を備えており、幅広いアプリケーションに対して大きな可能性を秘めている。 しかしながら、コンピュータビジョンの分野では、多数の強力なビジョン基盤モデル(VFM)が利用可能であるにもかかわらず、それらはまだ事前に定義された形式のタスクに限定されており、LLMのオープンなタスク能力に匹敵しない。 本稿では,視覚中心タスクのための llm ベースのフレームワークである visionllm を提案する。 このフレームワークは、画像を外国語として扱い、視覚中心のタスクを柔軟に定義し、言語命令を使って管理できる言語タスクと整合させることにより、視覚と言語タスクの統一的な視点を提供する。 LLMベースのデコーダは、オープンなタスクに対してこれらの命令に基づいて適切な予測を行うことができる。 広範な実験により、提案する visionllm は、細粒度オブジェクトレベルから粗粒度タスクレベルのカスタマイズまで、言語命令を通じて異なるレベルのタスクカスタマイズを達成できることを示した。 注目すべきなのは、一般のLLMベースのフレームワークによって、私たちのモデルは、検出固有のモデルと同等に、COCO上で60倍のmAPを達成することができることです。 このモデルがジェネラリストビジョンと言語モデルの新たなベースラインを設定できることを願っています。 デモはhttps://github.com/OpenGVLab/InternGPTに基づいてリリースされる。 コードはhttps://github.com/OpenGVLab/VisionLLMで公開される。

Large language models (LLMs) have notably accelerated progress towards artificial general intelligence (AGI), with their impressive zero-shot capacity for user-tailored tasks, endowing them with immense potential across a range of applications. However, in the field of computer vision, despite the availability of numerous powerful vision foundation models (VFMs), they are still restricted to tasks in a pre-defined form, struggling to match the open-ended task capabilities of LLMs. In this work, we present an LLM-based framework for vision-centric tasks, termed VisionLLM. This framework provides a unified perspective for vision and language tasks by treating images as a foreign language and aligning vision-centric tasks with language tasks that can be flexibly defined and managed using language instructions. An LLM-based decoder can then make appropriate predictions based on these instructions for open-ended tasks. Extensive experiments show that the proposed VisionLLM can achieve different levels of task customization through language instructions, from fine-grained object-level to coarse-grained task-level customization, all with good results. It's noteworthy that, with a generalist LLM-based framework, our model can achieve over 60\% mAP on COCO, on par with detection-specific models. We hope this model can set a new baseline for generalist vision and language models. The demo shall be released based on https://github.com/OpenGVLab/InternGPT. The code shall be released at https://github.com/OpenGVLab/VisionLLM.
翻訳日:2023-05-19 13:30:51 公開日:2023-05-18
# 弱い相互作用を持つ双曲型ディラック材料の磁気触媒作用

Magnetic catalysis in weakly interacting hyperbolic Dirac materials ( http://arxiv.org/abs/2305.11174v1 )

ライセンス: Link先を確認
Noble Gluscevich, Btan Roy(参考訳) 状態の線形消滅密度のため、2次元半充填双断面双曲格子の族における自由フェルミオン運動から生じる創発的無質量ディラック準粒子は、十分に強い有限次元クーロン反発に対してのみ量子相転移を通じて動的質量生成を特徴とする。 このように、隣り合う強いクーロン反発(V$)は、2つの双極子双極子双極子格子の間の平均フェルミオン密度の停滞パターンを持つ電荷密度波(CDW)秩序の核生成に導かれる。 スピンレスフェルミオンの集合(単純性のため)を考えると、ゼロエネルギーに近い状態の 'emph{finite} 密度を生成することによって強い外部磁場の応用が、 \emph{infinitesimal} $V$ であっても CDW オーダーの凝縮を引き起こすことを示す。 提案した磁気触媒機構は、均一かつ均一な(ベル状)磁場に対して作用する。 双曲型ディラック材料で囲まれた全フラックスによるCDWオーダーのスケーリングを,幅広い(特に亜臨界)$V$に対して提案する。

Due to linearly vanishing density of states, emergent massless Dirac quasiparticle resulting from the free fermion motion on a family of two-dimensional half-filled bipartite hyperbolic lattices feature dynamic mass generation through quantum phase transitions only for sufficiently strong finite-range Coulomb repulsion. As such, strong nearest-neighbor Coulomb repulsion ($V$) is conducive to the nucleation of a charge-density-wave (CDW) order with a staggered pattern of average fermionic density between two sublattices of bipartite hyperbolic lattices. Considering a collection of spinless fermions (for simplicity), here we show that application of strong external magnetic fields by virtue of producing a \emph{finite} density of states near the zero energy triggers the condensation of the CDW order even for \emph{infinitesimal} $V$. The proposed magnetic catalysis mechanism is operative for uniform as well as inhomogeneous (bell-shaped) magnetic fields. We present scaling of the CDW order with the total flux enclosed by hyperbolic Dirac materials for a wide range of (especially subcritical) $V$.
翻訳日:2023-05-19 13:30:25 公開日:2023-05-18
# Open-Vocabulary Part Segmentation を用いた Going Denser の開発

Going Denser with Open-Vocabulary Part Segmentation ( http://arxiv.org/abs/2305.11173v1 )

ライセンス: Link先を確認
Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan(参考訳) オブジェクト検出は、限られたカテゴリからオープン語彙へと拡張されている。 将来的には、完全なインテリジェントなビジョンシステムは、よりきめ細かいオブジェクト記述やオブジェクト部品を理解する必要がある。 本稿では,開語彙オブジェクトとその部分セグメンテーションの両方を予測することができる検出器を提案する。 この能力は2つのデザインから得られる。 まず, 部分レベル, オブジェクトレベル, 画像レベルのデータのジョイント上に検出器をトレーニングし, 言語と画像間の多粒度アライメントを構築する。 第2に,基本対象との密接な意味的対応によって,新しい対象をその部分へ解析する。 これら2つの設計により、検出器は様々なデータソースと基礎モデルから大きな恩恵を受けることができる。 本手法は,open-vocabulary part segmentation 実験において,partimagenet におけるクロスデータセット一般化において,ベースラインを 3.3$\sim$7.3 で上回り,パスカル部分のクロスカテゴリ一般化において7.3 の新規ap$_{50}$ でベースラインを改善する。 最後に、幅広い部分セグメンテーションデータセットに一般化した検出器をトレーニングし、データセット固有のトレーニングよりも優れたパフォーマンスを実現します。

Object detection has been expanded from a limited number of categories to open vocabulary. Moving forward, a complete intelligent vision system requires understanding more fine-grained object descriptions, object parts. In this paper, we propose a detector with the ability to predict both open-vocabulary objects and their part segmentation. This ability comes from two designs. First, we train the detector on the joint of part-level, object-level and image-level data to build the multi-granularity alignment between language and image. Second, we parse the novel object into its parts by its dense semantic correspondence with the base object. These two designs enable the detector to largely benefit from various data sources and foundation models. In open-vocabulary part segmentation experiments, our method outperforms the baseline by 3.3$\sim$7.3 mAP in cross-dataset generalization on PartImageNet, and improves the baseline by 7.3 novel AP$_{50}$ in cross-category generalization on Pascal Part. Finally, we train a detector that generalizes to a wide range of part segmentation datasets while achieving better performance than dataset-specific training.
翻訳日:2023-05-19 13:30:08 公開日:2023-05-18
# ONE-PEACE:無制限モダリティに向けた1つの汎用表現モデル

ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities ( http://arxiv.org/abs/2305.11172v1 )

ライセンス: Link先を確認
Peng Wang, Shijie Wang, Junyang Lin, Shuai Bai, Xiaohuan Zhou, Jingren Zhou, Xinggang Wang, Chang Zhou(参考訳) 本研究では,無限のモダリティに向けて汎用表現モデルを構築するためのスケーラブルな方法を探究する。 ONE-PEACEは、4Bパラメータを持つ高度に拡張可能なモデルで、視覚、音声、言語モダリティ間の表現をシームレスに調整し統合することができる。 ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。 この設計により、アダプタやffnを追加することで、新しいモダリティを容易に拡張できると同時に、セルフアテンション層によるマルチモーダル融合を可能にする。 1ピースを事前学習するために,モダリティ非依存な2つの事前学習タスクであるクロスモーダルライニングコントラストとイントラモーダルデノージングコントラストを開発し,異なるモダリティの意味空間を調整し,モダリティ内の細かな詳細を同時に捉える。 スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。 ONE-PEACEは、画像分類(ImageNet)、セマンティックセグメンテーション(ADE20K)、オーディオテキスト検索(AudioCaps, Clotho)、音声分類(ESC-50, FSD50K, VGGSound)、音声質問応答(AVQA)、画像テキスト検索(MSCOCO, Flickr30K)、ビジュアルグラウンド(RefCOCO/+/g)など、様々なユニモーダルタスクにおいて、視覚や言語で事前訓練されたモデルを使用しない。 コードはhttps://github.com/OFA-Sys/ONE-PEACEで入手できる。

In this work, we explore a scalable way for building a general representation model toward unlimited modalities. We release ONE-PEACE, a highly extensible model with 4B parameters that can seamlessly align and integrate representations across vision, audio, and language modalities. The architecture of ONE-PEACE comprises modality adapters, shared self-attention layers, and modality FFNs. This design allows for the easy extension of new modalities by adding adapters and FFNs, while also enabling multi-modal fusion through self-attention layers. To pretrain ONE-PEACE, we develop two modality-agnostic pretraining tasks, cross-modal aligning contrast and intra-modal denoising contrast, which align the semantic space of different modalities and capture fine-grained details within modalities concurrently. With the scaling-friendly architecture and pretraining tasks, ONE-PEACE has the potential to expand to unlimited modalities. Without using any vision or language pretrained model for initialization, ONE-PEACE achieves leading results on a wide range of uni-modal and multi-modal tasks, including image classification (ImageNet), semantic segmentation (ADE20K), audio-text retrieval (AudioCaps, Clotho), audio classification (ESC-50, FSD50K, VGGSound), audio question answering (AVQA), image-text retrieval (MSCOCO, Flickr30K), and visual grounding (RefCOCO/+/g). Code is available at https://github.com/OFA-Sys/ONE-PEACE.
翻訳日:2023-05-19 13:29:43 公開日:2023-05-18
# TrueTeacher: 大規模言語モデルによる現実的一貫性評価の学習

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models ( http://arxiv.org/abs/2305.11171v1 )

ライセンス: Link先を確認
Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and Idan Szpektor(参考訳) 事実整合性評価は自然言語推論(nli)モデルを用いて行われることが多いが、これらのモデルは要約の評価に限定的な成功を示している。 以前の作業は、合成トレーニングデータでそのようなモデルを改善した。 しかし、データは典型的には、乱れた人書きの要約に基づいており、実際のモデル生成の要約と特徴が異なることが多く、事実の誤りをカバーできる範囲が限られている。 あるいは、最近、大言語モデル(llm)は生成的タスクを直接評価する有望な結果を示したが、実用には計算コストが高すぎる。 そこで我々は,LLMを用いた多種多様なモデル生成要約を注釈付けして合成データを生成するTrueTeacherを紹介した。 以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。 TRUEベンチマークの実験では、我々のデータを用いて訓練された学生モデルが、同等の能力で最先端のモデルとLLMの教師の両方を著しく上回っていることが示されている。 本研究では,TrueTeacherを既存の合成データ生成手法と比較し,その優位性とドメインシフトに対する堅牢性を示す。 mfaceデータセットを用いて,本手法が多言語シナリオに一般化することを示す。 最後に、TrueTeacherを用いて1.4万のサンプルを作成した大規模な合成データセットをリリースする。

Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. Using the the mFACE dataset, we also show that our method generalizes to multilingual scenarios. Finally, we release a large-scale synthetic dataset with 1.4M examples generated using TrueTeacher.
翻訳日:2023-05-19 13:29:05 公開日:2023-05-18
# 動的インコンテキスト学習による効率的なプロンプト

Efficient Prompting via Dynamic In-Context Learning ( http://arxiv.org/abs/2305.11170v1 )

ライセンス: Link先を確認
Wangchunshu Zhou, Yuchen Eleanor Jiang, Ryan Cotterell, Mrinmaya Sachan(参考訳) AIアプリケーションを構築する主要な方法は、トレーニングスペシャリストモデルからジェネラリストモデルへのシフトである。 一般モデルを促す一般的なプラクティスは、しばしばコンテキスト内学習と呼ばれ、モデルのタスクをよりよく理解するためのプロンプトにいくつかの例(デモ)を追加することである。 効果的なコンテキスト内学習は、入力をはるかに長くし、コンテキストウィンドウの貴重なスペースを消費し、より大きな計算コストをもたらすため、非効率である。 本稿では,入力複雑性と計算予算に応じてテキスト中の例を動的に割り当てる,ブラックボックスジェネリストモデルによる効率的なプロンプトのレシピであるDynICLを提案する。 これを実現するために,汎用モデルに適したコンテキスト内サンプル数を予測するメタコントローラを訓練し,特定の入力に対する性能効率トレードオフに基づいて良好な予測を行う。 次に,メタコントローラからの予測と与えられた計算予算に基づいて,入力に対する実演回数を動的に割り当てる。 実験結果から,計算資源や要求性能が制約された2つの実運用環境において,動的サンプル割当により性能・効率のトレードオフが向上することが示された。 特にDynaICLは、各入力に同じテキスト内例を割り当てる一般的なプラクティスと比較して、トークン予算を最大46%削減する。 また、特定のバックボーンモデルとタスクに基づいてトレーニングされたメタコントローラが、見当たらないモデルやタスクにうまく一般化できることがわかった。

The primary way of building AI applications is shifting from training specialist models to prompting generalist models. A common practice for prompting generalist models, often referred to as in-context learning, is to append a few examples (demonstrations) to the prompt to help the model better understand the task. While effective, in-context learning can be inefficient because it makes the input prompt much longer, consuming valuable space in the context window and leading to larger computational costs. In this paper, we propose DynaICL, a recipe for efficient prompting with black-box generalist models that dynamically allocate in-context examples according to the input complexity and the computational budget. To achieve this, we train a meta controller that predicts the number of in-context examples suitable for the generalist model to make a good prediction based on the performance-efficiency trade-off for a specific input. We then dynamically allocate the number of demonstrations for an input according to predictions from the meta controller and the given computation budget. Experimental results show that dynamic example allocation helps achieve a better performance-efficiency trade-off in two practical settings where computational resources or the required performance is constrained. Specifically, DynaICL saves up to 46% token budget compared to the common practice that allocates the same number of in-context examples to each input. We also find that a meta controller trained on a certain backbone model and tasks can successfully generalize to unseen models and tasks.
翻訳日:2023-05-19 13:28:42 公開日:2023-05-18
# プログラムで学習した言語モデルにおける意味のエビデンス

Evidence of Meaning in Language Models Trained on Programs ( http://arxiv.org/abs/2305.11169v1 )

ライセンス: Link先を確認
Charles Jin, Martin Rinard(参考訳) 本稿では,テキスト上での次のトークン予測,特にプログラムのコーパスのみを訓練しながら,言語モデルが意味を学習できることを示す。 各プログラムは(テキスト的な)入出力例の形式で仕様によって先行される。 プログラムで作業することで、言語モデルにおける意味の存在(または欠如)を特徴づける中間的テストベッドとしてプログラム合成を適合させる、言語における意味(例えば、正確性や意味論)に関する概念を正確に定義することができる。 まず、プログラムのコーパス上でTransformerモデルをトレーニングし、指定したプログラムを完了すると、トレーニングされたモデルの隠れた状態を探索する。 言語のセマンティクスを学ぶための帰納的バイアスは与えられていないが、線形プローブはモデル状態から現在のプログラム状態と将来のプログラム状態の両方の抽象化を抽出することができる。 さらに、プローブの精度と仕様を実装するプログラムを生成するモデルの能力との間には、強く統計的に有意な相関関係がある。 探索者が学習するよりもモデル状態のセマンティクスが表現されるかどうかを評価するため,語彙と構文を保存しながら,言語のセマンティクスに介入する新たな実験手順を設計する。 また、モデルがトレーニングセットのプログラムよりも平均的に短いプログラムを生成することを学習し、言語モデルの出力が意味論的に意味のある方法でトレーニング分布と異なる可能性があることを示す。 まとめると,本稿では,言語モデルの学習のための新しい手法を提案せず,言語モデルにおける(形式的)意味の獲得と表現に関する実験的なフレームワークを開発し,その知見を提供する。

We present evidence that language models can learn meaning despite being trained only to perform next token prediction on text, specifically a corpus of programs. Each program is preceded by a specification in the form of (textual) input-output examples. Working with programs enables us to precisely define concepts relevant to meaning in language (e.g., correctness and semantics), making program synthesis well-suited as an intermediate testbed for characterizing the presence (or absence) of meaning in language models. We first train a Transformer model on the corpus of programs, then probe the trained model's hidden states as it completes a program given a specification. Despite providing no inductive bias toward learning the semantics of the language, we find that a linear probe is able to extract abstractions of both current and future program states from the model states. Moreover, there is a strong, statistically significant correlation between the accuracy of the probe and the model's ability to generate a program that implements the specification. To evaluate whether the semantics are represented in the model states rather than learned by the probe, we design a novel experimental procedure that intervenes on the semantics of the language while preserving the lexicon and syntax. We also demonstrate that the model learns to generate correct programs that are, on average, shorter than those in the training set, which is evidence that language model outputs may differ from the training distribution in semantically meaningful ways. In summary, this paper does not propose any new techniques for training language models, but develops an experimental framework for and provides insights into the acquisition and representation of (formal) meaning in language models.
翻訳日:2023-05-19 13:28:18 公開日:2023-05-18
# mvpsnet: 高速一般化されたマルチビューフォトメトリックステレオ

MVPSNet: Fast Generalizable Multi-view Photometric Stereo ( http://arxiv.org/abs/2305.11167v1 )

ライセンス: Link先を確認
Dongxu Zhao, Daniel Lichy, Pierre-Nicolas Perrin, Jan-Michael Frahm, Soumyadip Sengupta(参考訳) MVPSNetと呼ばれる多視点測光ステレオ(MVPS)の高速で一般化可能なソリューションを提案する。 提案手法の鍵となる特徴抽出ネットワークは,複数の照明条件下で撮影された同じビューからの画像を効果的に組み合わせ,立体マッチングのためのシェーディングキューから幾何学的特徴を抽出する。 従来のマルチビューステレオメソッドが失敗するテクスチャレス領域においても,これらの特徴をLAFM(Light Aggregated Feature Map)と呼ぶことで特徴マッチングに有効であることを示す。 提案手法は,411$\times$(105秒 vs. 12時間)の推論を高速化しながら,シーンごとのニューラルネットワークを最適化する最新のMVPS手法であるPS-NeRFに類似した再構成結果を生成する。 さらに, MVPSのための新しい合成データセット sMVPS を導入し, 一般化可能なMVPS 法の訓練に有効であることを示した。

We propose a fast and generalizable solution to Multi-view Photometric Stereo (MVPS), called MVPSNet. The key to our approach is a feature extraction network that effectively combines images from the same view captured under multiple lighting conditions to extract geometric features from shading cues for stereo matching. We demonstrate these features, termed `Light Aggregated Feature Maps' (LAFM), are effective for feature matching even in textureless regions, where traditional multi-view stereo methods fail. Our method produces similar reconstruction results to PS-NeRF, a state-of-the-art MVPS method that optimizes a neural network per-scene, while being 411$\times$ faster (105 seconds vs. 12 hours) in inference. Additionally, we introduce a new synthetic dataset for MVPS, sMVPS, which is shown to be effective to train a generalizable MVPS method.
翻訳日:2023-05-19 13:27:49 公開日:2023-05-18
# 依存データを用いた線形回帰における雑音レベル

The noise level in linear regression with dependent data ( http://arxiv.org/abs/2305.11165v1 )

ライセンス: Link先を確認
Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni(参考訳) 任意の実現可能性仮定を欠いた従属($-mixing)データを持つランダム設計線形回帰の上限を導出する。 厳密に実現可能なマーチンゲールノイズとは対照的に、鋭いインスタンス最適化非漸近は文献では利用できない。 一定因子まで,中央極限定理によって予測される分散項 -- 問題の雑音レベル -- を正しく復元し,不特定化を導入することで優雅な劣化を示す。 バーンインを過ぎると、中程度の偏差が顕著になり、特に時間因子を混合することで先行順序項が膨らむことはない。

We derive upper bounds for random design linear regression with dependent ($\beta$-mixing) data absent any realizability assumptions. In contrast to the strictly realizable martingale noise regime, no sharp instance-optimal non-asymptotics are available in the literature. Up to constant factors, our analysis correctly recovers the variance term predicted by the Central Limit Theorem -- the noise level of the problem -- and thus exhibits graceful degradation as we introduce misspecification. Past a burn-in, our result is sharp in the moderate deviations regime, and in particular does not inflate the leading order term by mixing time factors.
翻訳日:2023-05-19 13:27:19 公開日:2023-05-18
# 多目的最適化のための逆強化学習の収束の証明

A proof of convergence of inverse reinforcement learning for multi-objective optimization ( http://arxiv.org/abs/2305.06137v3 )

ライセンス: Link先を確認
Akira Kitaoka, Riki Eto(参考訳) 本稿では,多目的最適化問題の逆問題を定式化することにより,多目的最適化に対するワッサーシュタイン逆強化学習の収束性を示す。 さらに,勾配降下を伴う逆強化学習(最大エントロピー逆強化学習,誘導コスト学習)と射影劣勾配法との収束を証明した。

We show the convergence of Wasserstein inverse reinforcement learning for multi-objective optimizations with the projective subgradient method by formulating an inverse problem of the multi-objective optimization problem. In addition, we prove convergence of inverse reinforcement learning (maximum entropy inverse reinforcement learning, guided cost learning) with gradient descent and the projective subgradient method.
翻訳日:2023-05-19 10:55:32 公開日:2023-05-18
# 球面画像からの3次元再構成:技術・応用・展望のレビュー

3D reconstruction from spherical images: A review of techniques, applications, and prospects ( http://arxiv.org/abs/2302.04495v4 )

ライセンス: Link先を確認
San Jiang, Yaxin Li, Duojie Weng, Kan You, Wu Chen(参考訳) 3次元再構成は、現代のフォトグラムシステムにおいてますます重要な役割を担っている。 従来の衛星や空中リモートセンシング(RS)プラットフォームは、大規模な地形や都市の3D再構成に必要なデータソースを提供することができる。 低高度のuav(無人航空機)でも、都市キャニオンや屋内シーンなどの複雑な状況下での3d再構成は、カメラフレーム間の頻繁なトラッキング障害と高いデータ収集コストのために困難である。 近年,球面画像は1台のカメラから周囲の環境を撮影する能力から広く利用されている。 視野画像がFOV(Field of View)に制限されているのとは対照的に、球面画像は全シーンを水平および垂直のFOVでカバーし、これらの複雑なシーンにおけるカメラトラッキングとデータ取得を容易にする。 プロ用および消費者向けの球面カメラの急速な進化と広範囲な利用により、球面画像は都市・屋内シーンの3Dモデリングに大きな可能性を示している。 しかし、古典的な3dリコンストラクションパイプラインは、球面画像に直接使用することはできない。 さらに、球面画像の3d再構成のために設計されたソフトウェアパッケージも少なくない。 そこで本研究では,データ取得,特徴検出とマッチング,画像配向,高密度マッチングといった観点で,球面画像の3次元再構成技術の現状を徹底的に調査するとともに,有望な応用例を示し,今後の可能性について議論する。 本研究は今後の研究を導く手がかりとなるだろう。

3D reconstruction plays an increasingly important role in modern photogrammetric systems. Conventional satellite or aerial-based remote sensing (RS) platforms can provide the necessary data sources for the 3D reconstruction of large-scale landforms and cities. Even with low-altitude UAVs (Unmanned Aerial Vehicles), 3D reconstruction in complicated situations, such as urban canyons and indoor scenes, is challenging due to frequent tracking failures between camera frames and high data collection costs. Recently, spherical images have been extensively used due to the capability of recording surrounding environments from one camera exposure. In contrast to perspective images with limited FOV (Field of View), spherical images can cover the whole scene with full horizontal and vertical FOV and facilitate camera tracking and data acquisition in these complex scenes. With the rapid evolution and extensive use of professional and consumer-grade spherical cameras, spherical images show great potential for the 3D modeling of urban and indoor scenes. Classical 3D reconstruction pipelines, however, cannot be directly used for spherical images. Besides, there exist few software packages that are designed for the 3D reconstruction of spherical images. As a result, this research provides a thorough survey of the state-of-the-art for 3D reconstruction of spherical images in terms of data acquisition, feature detection and matching, image orientation, and dense matching as well as presenting promising applications and discussing potential prospects. We anticipate that this study offers insightful clues to direct future research.
翻訳日:2023-05-19 10:55:18 公開日:2023-05-18
# GeNAS: より一般化されたニューラルアーキテクチャ検索

GeNAS: Neural Architecture Search with Better Generalization ( http://arxiv.org/abs/2305.08611v2 )

ライセンス: Link先を確認
Joonhyun Jeong, Joonsang Yu, Geondo Park, Dongyoon Han, YoungJoon Yoo(参考訳) Neural Architecture Search (NAS)は、最適なネットワークアーキテクチャを優れたテスト性能で自動的に発掘することを目的としている。 最近のneural architecture search(nas)アプローチは、ターゲットデータに対して優れたネットワークを見つけるために検証損失や精度に依存する。 そこで本研究では,より一般化した探索型アーキテクチャのためのニューラルアーキテクチャ探索手法について検討する。 損失面の平坦性はニューラルネットワークアーキテクチャの一般化能力を予測するための有望なプロキシであることを示す。 提案手法を様々な検索空間で評価し,最先端のnas法と同等あるいはそれ以上の性能を示した。 特に、フラットネス測度によって見出される結果的アーキテクチャは、オブジェクト検出やセマンティクスセグメンテーションのような様々なタスクと同様に、データ分散の様々なシフト(例: imagenet-v2,-a,-o)にロバストに一般化する。 コードはhttps://github.com/clovaai/GeNASで入手できる。

Neural Architecture Search (NAS) aims to automatically excavate the optimal network architecture with superior test performance. Recent neural architecture search (NAS) approaches rely on validation loss or accuracy to find the superior network for the target data. In this paper, we investigate a new neural architecture search measure for excavating architectures with better generalization. We demonstrate that the flatness of the loss surface can be a promising proxy for predicting the generalization capability of neural network architectures. We evaluate our proposed method on various search spaces, showing similar or even better performance compared to the state-of-the-art NAS methods. Notably, the resultant architecture found by flatness measure generalizes robustly to various shifts in data distribution (e.g. ImageNet-V2,-A,-O), as well as various tasks such as object detection and semantic segmentation. Code is available at https://github.com/clovaai/GeNAS.
翻訳日:2023-05-19 10:47:10 公開日:2023-05-18
# DarkBERT: インターネットのダークサイドのための言語モデル

DarkBERT: A Language Model for the Dark Side of the Internet ( http://arxiv.org/abs/2305.08596v2 )

ライセンス: Link先を確認
Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin(参考訳) 近年の研究では、ダークウェブで使われている言語とサーフェスウェブとは明らかに異なることが示されている。 ダークウェブの研究は一般的にドメインのテキスト分析を必要とするため、ダークウェブ特有の言語モデルは研究者に貴重な洞察を与える可能性がある。 本研究では,Dark Webデータに基づく言語モデルであるDarkBERTを紹介する。 ドメインの適切な表現を構築するのに不利なダークウェブの極端な語彙的および構造的多様性と戦うために、darkbertのトレーニングに使用されるテキストデータをフィルタリングしてコンパイルするステップについて説明する。 我々は、DarkBERTとそのバニラと他の広く使われている言語モデルを評価し、様々なユースケースにおいて、Dark Webドメイン固有のモデルが提供する利点を検証する。 評価の結果,DarkBERTは現在の言語モデルより優れており,今後のダークウェブ研究に有用な情報源となる可能性が示唆された。

Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
翻訳日:2023-05-19 10:46:53 公開日:2023-05-18
# 相関解析を超えたnlg評価指標:経験的メトリック選好チェックリスト

NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist ( http://arxiv.org/abs/2305.08566v3 )

ライセンス: Link先を確認
Iftitahu Ni'mah and Meng Fang and Vlado Menkovski and Mykola Pechenizkiy(参考訳) 本研究では,人間の評価的側面を文脈や目的として用いたかどうかに基づいて,NLG自動メトリクスを分析する。 (i)タスク非依存及び (ii)人間化。 Perplexity、BLEU、BERTScoreといったタスク非依存のメトリクスは、費用対効果が高く、多様なNLGタスクに適応できるが、人間との相関は弱い。 ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。 しかし、システムレベルの性能とシステム出力の品質を識別する効果は、まだ不明である。 テキスト要約,対話応答生成,制御生成の3つのタスクにおいて,自動メトリクスの識別能力を評価するためのフレームワークとして,計量選好チェックリストを提案する。 マルチアスペクト・ヒューマンアライメント・メトリック(UniEval)は,人間アライメント・メトリクス(CTC,CtrlEval)とタスクアライメント・メトリクス(BLEU,BERTScore)に必ずしも支配的ではない。 また、システムレベルの性能を識別する上で、自動メトリクスが人間よりも優れたガイダンスを提供するユースケースを示す。 提案するフレームワークは: 一 自動測度が人間の嗜好に忠実であるか否かを、人間との相関関係によらず検証すること (II)NLGシステムの強度と限界を精査するためには,評価スコアの基準平均化法がしばしば用いていない。

In this study, we analyze NLG automatic metrics based on whether human evaluation aspect is used as context or objective to compute the metrics: (i) Task-agnostic and (ii) Human-aligned. Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective and highly adaptable to diverse NLG tasks, yet they have a weak correlation with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation level by incorporating desirable human-like qualities as training objective. However, their effectiveness at discerning system-level performance and quality of system outputs remain unclear. We present metric preference checklist as a framework to assess the discriminative power of automatic metrics in three NLG tasks: Text Summarization, Dialogue Response Generation, and Controlled Generation. We show that multi-aspect human-aligned metric (UniEval) is not necessarily dominant over single-aspect human-aligned metrics (CTC, CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly when a disagreement between human evaluation aspects is present. We also show particular use cases in which automatic metrics provide a better guidance than human on discriminating system-level performance. Our proposed framework provides access: (i) for verifying whether automatic metrics are faithful to human preference, regardless their correlation level to human; and (ii) for scrutinizing the strengths and limitations of NLG systems, which are often obscured by a standard averaging method of evaluation scores.
翻訳日:2023-05-19 10:46:37 公開日:2023-05-18
# 抽象的多文書要約のための階層的符号化復号法

A Hierarchical Encoding-Decoding Scheme for Abstractive Multi-document Summarization ( http://arxiv.org/abs/2305.08503v3 )

ライセンス: Link先を確認
Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing(参考訳) 事前学習言語モデル(PLM)は、抽象的な単一文書要約(SDS)において素晴らしい成果を上げている。 しかし、そのような利点は、文書間の相互作用がより複雑であるmuti-document summarization(mds)に簡単には拡張できない。 以前の作業では、MDSのための新しいアーキテクチャや新しい事前学習対象を設計するか、複雑なドキュメントの相互作用を考慮せずにPLMをMDSに適用する。 前者は以前の事前訓練をフルに利用せず、複数のドメインにまたがってうまく一般化できないが、後者はmdsタスク特有の複雑な関係に完全には従えない。 本稿では,エンコーダとデコーダの両方に階層構造を適用し,MDSタスクのマルチドキュメントインタラクションを容易にするために,PLMをよりよく活用することを目的とする。 私たちは、幅広いドメインにわたる10のmdsデータセットで設計をテストします。 大規模な実験により,提案手法はこれらのデータセットに対して一貫した改善を達成でき,過去の最高のモデルよりも優れており,MDS事前学習またはより大きなモデルパラメータを付加したモデルと比較して,優れた,あるいは競争的な結果を得ることができることが示された。

Pre-trained language models (PLMs) have accomplished impressive achievements in abstractive single-document summarization (SDS). However, such benefits may not be readily extended to muti-document summarization (MDS), where the interactions among documents are more complex. Previous works either design new architectures or new pre-training objectives for MDS, or apply PLMs to MDS without considering the complex document interactions. While the former does not make full use of previous pre-training efforts and may not generalize well across multiple domains, the latter cannot fully attend to the intricate relationships unique to MDS tasks. In this paper, we enforce hierarchy on both the encoder and decoder and seek to make better use of a PLM to facilitate multi-document interactions for the MDS task. We test our design on 10 MDS datasets across a wide range of domains. Extensive experiments show that our proposed method can achieve consistent improvements on all these datasets, outperforming the previous best models, and even achieving better or competitive results as compared to some models with additional MDS pre-training or larger model parameters.
翻訳日:2023-05-19 10:46:05 公開日:2023-05-18
# free-text sequence-to-sequence modeling による層プルーニングによるパラメータ効率の良い微調整

Parameter-Efficient Fine-Tuning with Layer Pruning on Free-Text Sequence-to-Sequence modeling ( http://arxiv.org/abs/2305.08285v2 )

ライセンス: Link先を確認
Yunqi Zhu and Xuebing Yang and Yuanyuan Wu and Wensheng Zhang(参考訳) 言語モデルのサイズの増大は、事前訓練されたモデルを凍結するLoRAのようなパラメータ効率のよい微調整において大きな研究関心を高め、複数の下流タスク(要約、質問応答、翻訳など)に対して小さなトレーニング可能なパラメータを注入する。 ファインチューニングの効率をさらに高めるために,LoRAと構造化層プルーニングを統合したフレームワークを提案する。 統合されたフレームワークはMIMIC-IV-Noteと2つの公開医療対話データセットに基づく2つの独立した医療レポート要約データセットで検証される。 元のモデルの0.6%のパラメータをチューニングし、30%以上のトランスフォーマー層をprunすることで、フレームワークはgpuメモリ使用量の50%を削減し、トレーニングフェーズの100%を高速化することができる。

The increasing size of language models raises great research interests in parameter-efficient fine-tuning such as LoRA that freezes the pre-trained model, and injects small-scale trainable parameters for multiple downstream tasks (e.g., summarization, question answering and translation). To further enhance the efficiency of fine-tuning, we propose a framework that integrates LoRA and structured layer pruning. The integrated framework is validated on two created deidentified medical report summarization datasets based on MIMIC-IV-Note and two public medical dialogue datasets. By tuning 0.6% parameters of the original model and pruning over 30% Transformer-layers, our framework can reduce 50% of GPU memory usage and speed up 100% of the training phase, while preserving over 92% generation qualities on free-text sequence-to-sequence tasks.
翻訳日:2023-05-19 10:45:44 公開日:2023-05-18
# クロスドメインqaを一般化する学習

Learning to Generalize for Cross-domain QA ( http://arxiv.org/abs/2305.08208v2 )

ライセンス: Link先を確認
Yingjie Niu, Linyi Yang, Ruihai Dong, Yue Zhang(参考訳) 自然言語処理(NLP)モデルのドメイン外一般化能力,特に質問応答(QA)タスクに対する懸念が高まっている。 トレーニングコストの増大により、QAの現在の合成データ拡張方法が妨げられる。 この問題に対処するため,提案手法と線形探索と微調整戦略を組み合わせた新しい手法を提案するが,追加コストは伴わない。 本手法は, 生成モデルと識別モデルの両方の一般化能力の向上に有効であることが理論的, 実験的に証明されている。 我々のアプローチは最先端のベースラインを上回り、F1のスコアは平均4.5%-7.9%上昇した。 さらに,任意の事前学習モデルに容易に統合でき,未検討のクロスドメインqaタスクに対して有望な解決策を提供する。 ソースコードはGitHub*で公開しています。

There have been growing concerns regarding the out-of-domain generalization ability of natural language processing (NLP) models, particularly in question-answering (QA) tasks. Current synthesized data augmentation methods for QA are hampered by increased training costs. To address this issue, we propose a novel approach that combines prompting methods and linear probing then fine-tuning strategy, which does not entail additional cost. Our method has been theoretically and empirically shown to be effective in enhancing the generalization ability of both generative and discriminative models. Our approach outperforms state-of-the-art baselines, with an average increase in F1 score of 4.5%-7.9%. Furthermore, our method can be easily integrated into any pre-trained models and offers a promising solution to the under-explored cross-domain QA task. We release our source code at GitHub*.
翻訳日:2023-05-19 10:45:24 公開日:2023-05-18
# 遠距離発話レベルの表現のための自己教師型ニューラルファクター解析

Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations ( http://arxiv.org/abs/2305.08099v2 )

ライセンス: Link先を確認
Weiwei Lin, Chenhang He, Man-Wai Mak, Youzhi Tu(参考訳) wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識(ASR)における最先端の性能を示し、低ラベル・リソース設定において非常に有用であることが証明されている。 しかし、sslモデルの成功はまだ話者、感情、言語認識といった発話レベルのタスクに移行しておらず、優れたパフォーマンスを得るためにはsslモデルの教師付き微調整が必要である。 問題の原因は,異種表現の欠如と,これらの課題に対する発話レベルの学習目標にあると考える。 HuBERTがクラスタリングを使って隠れ音響ユニットを発見する方法に着想を得て、隠れ音響ユニットを用いてSSL機能を整列させる因子分析(FA)モデルを定式化した。 下位の発話レベル表現は、一致した特徴に対する確率的推論を用いて、音声の内容から切り離される。 さらに、faモデルから派生した変動下限は発話レベルの目標を提供し、エラー勾配をトランスフォーマ層にバックプロパゲーションし、高度に識別可能な音響単位を学ぶことができる。 HuBERTのマスク付き予測トレーニングと組み合わせて使用する場合、私たちのモデルは、ラベル付きデータの20%しか表示されないSUPERBベンチマークの発話レベル非意味タスクにおいて、現在の最高のモデルであるWavLMよりも優れています。

Self-supervised learning (SSL) speech models such as wav2vec and HuBERT have demonstrated state-of-the-art performance on automatic speech recognition (ASR) and proved to be extremely useful in low label-resource settings. However, the success of SSL models has yet to transfer to utterance-level tasks such as speaker, emotion, and language recognition, which still require supervised fine-tuning of the SSL models to obtain good performance. We argue that the problem is caused by the lack of disentangled representations and an utterance-level learning objective for these tasks. Inspired by how HuBERT uses clustering to discover hidden acoustic units, we formulate a factor analysis (FA) model that uses the discovered hidden acoustic units to align the SSL features. The underlying utterance-level representations are disentangled from the content of speech using probabilistic inference on the aligned features. Furthermore, the variational lower bound derived from the FA model provides an utterance-level objective, allowing error gradients to be backpropagated to the Transformer layers to learn highly discriminative acoustic units. When used in conjunction with HuBERT's masked prediction training, our models outperform the current best model, WavLM, on all utterance-level non-semantic tasks on the SUPERB benchmark with only 20% of labeled data.
翻訳日:2023-05-19 10:45:10 公開日:2023-05-18
# HFLIC:強化された変換による人間フレンドリーな学習画像圧縮

HFLIC: Human Friendly Perceptual Learned Image Compression with Reinforced Transform ( http://arxiv.org/abs/2305.07519v4 )

ライセンス: Link先を確認
Peirong Ning, Wei Jiang, Ronggang Wang(参考訳) 近年,低ビットレートでも細部を細部まで保持し,レート分散知覚圧縮を優先する学習画像圧縮技術が急速に進歩している。 しかし、現在の学習に基づく画像圧縮手法は、しばしば人間にやさしい圧縮を犠牲にし、長い復号時間を必要とする。 本稿では、既存の画像圧縮モデルのバックボーンネットワークとロス関数の強化を提案し、人間の知覚と効率の改善に焦点をあてる。 提案手法は,復号時間が少なく,人間に優しい圧縮を提供するとともに,最先端の学習画像圧縮手法や古典的手法と比較して,競合する主観的な結果が得られる。 経験的評価により,提案手法の有効性を実証し,25%以上のビットレートを同じ主観的品質で節約できることを示した。

In recent years, there has been rapid development in learned image compression techniques that prioritize ratedistortion-perceptual compression, preserving fine details even at lower bit-rates. However, current learning-based image compression methods often sacrifice human-friendly compression and require long decoding times. In this paper, we propose enhancements to the backbone network and loss function of existing image compression model, focusing on improving human perception and efficiency. Our proposed approach achieves competitive subjective results compared to state-of-the-art end-to-end learned image compression methods and classic methods, while requiring less decoding time and offering human-friendly compression. Through empirical evaluation, we demonstrate the effectiveness of our proposed method in achieving outstanding performance, with more than 25% bit-rate saving at the same subjective quality.
翻訳日:2023-05-19 10:44:44 公開日:2023-05-18
# ChatGPTは良い因果共振器か? 総合評価

Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation ( http://arxiv.org/abs/2305.07375v3 )

ライセンス: Link先を確認
Jinglong Gao, Xiao Ding, Bing Qin, Ting Liu(参考訳) 因果推論能力は多くのNLPアプリケーションに不可欠である。 様々なNLPタスクにおけるChatGPTの顕著な出現能力にもかかわらず、ChatGPTが因果推論においてどの程度優れているかは明らかでない。 本稿では,chatgptの因果推論能力について,最初の包括的評価を行う。 実験の結果,ChatGPTは因果的推論に優れず,因果的解釈に優れていた。 加えて、ChatGPTは因果推論に深刻な幻覚を持っているが、それはおそらく、自然言語における因果関係と非因果関係のバイアスの報告と、RLHFのようなChatGPTのアップグレードプロセスによるものである。 In-Context Learning (ICL) と Chain-of-Though (COT) の技術は、このような因果幻覚をさらに悪化させる可能性がある。 さらに、ChatGPTの因果推論能力は、因果概念をプロンプトで表現するために使われる単語に敏感であり、クローズドプロンプトはオープンエンドプロンプトよりも優れている。 文中のイベントに対して、chatgptは暗黙の因果関係よりも明示的な因果関係を捉えるのに優れており、イベント密度が低く、イベント間の語彙距離が小さい文ではよりよく機能する。

Causal reasoning ability is crucial for numerous NLP applications. Despite the impressive emerging ability of ChatGPT in various NLP tasks, it is unclear how well ChatGPT performs in causal reasoning. In this paper, we conduct the first comprehensive evaluation of the ChatGPT's causal reasoning capabilities. Experiments show that ChatGPT is not a good causal reasoner, but a good causal interpreter. Besides, ChatGPT has a serious hallucination on causal reasoning, possibly due to the reporting biases between causal and non-causal relationships in natural language, as well as ChatGPT's upgrading processes, such as RLHF. The In-Context Learning (ICL) and Chain-of-Though (COT) techniques can further exacerbate such causal hallucination. Additionally, the causal reasoning ability of ChatGPT is sensitive to the words used to express the causal concept in prompts, and close-ended prompts perform better than open-ended prompts. For events in sentences, ChatGPT excels at capturing explicit causality rather than implicit causality, and performs better in sentences with lower event density and smaller lexical distance between events.
翻訳日:2023-05-19 10:44:26 公開日:2023-05-18
# 準二次元量子異常に対する着飾った分子理論

The dressed molecules theory for the quasi-two-dimensional quantum anomaly ( http://arxiv.org/abs/2305.07210v4 )

ライセンス: Link先を確認
Fan Wu, Jian-shen Hu and Lianyi He(参考訳) この研究において、服を着た分子理論は、最近の実験系における呼吸モードの2次元量子異常を記述するために用いられる。 平均場、ガウス対ゆらぎ理論の助けを借りて、我々は、アキシャル励起状態とフェシュバッハ分子状態を特徴づけるために服を着た分子状態を使用し、完全な低エネルギー効果理論を提案する。 バーディーン=クーパー=シュリーファー(BCS)超流動からボース=アインシュタイン凝縮体(BEC)へのクロスオーバー全体において、我々は低エネルギー領域における2次元実験系を正確に記述できることを示した。 呼吸モードの周波数が期待より小さくなる実験結果について, 完璧に解説する。 擬似低次元量子系における共形異常を理解するためには、2次元フェルミオンの着衣分子理論の確立が不可欠である。

In this work, the dressed molecules theory is used to describe the two-dimensional quantum anomaly of breathing mode in the recent experimental system\cite{Holten2018,Peppler2018}. With the aid of a beyond mean-field, Gaussian pair fluctuation theory, we employ the dressed molecules states to characterize the axial excited states and the Feshbach molecular states, and propose a complete low energy effective theory. We show that, in the whole crossover from a Bardeen-Cooper-Schrieffer (BCS) superfluid to a Bose-Einstein condensate (BEC), our theory can describe the two-dimensional experimental systems precisely in low energe region. We explain the the puzzling experimental observations of the smaller than expected breathing mode frequency perfectly. Our establishment of the dressed molecules theory for 2D fermions is crucial to understand the conformal anomaly in the quasi low-dimensional quantum systems.
翻訳日:2023-05-19 10:43:57 公開日:2023-05-18
# EfficientSCI:大規模ビデオスナップショット圧縮画像の時空間分解による高結合ネットワーク

EfficientSCI: Densely Connected Network with Space-time Factorization for Large-scale Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2305.10006v2 )

ライセンス: Link先を確認
Lishun Wang, Miao Cao, and Xin Yuan(参考訳) ビデオスナップショット圧縮イメージング(SCI)は、2次元検出器を用いて1回の露光時に連続するビデオフレームをキャプチャする。 その後、所望のビデオフレームを再構築するために効率的な再構成アルゴリズムを設計する必要がある。 最近のDeep Learning-based State-of-the-art(SOTA)再構成アルゴリズムは、ほとんどのタスクで良い結果を得たが、過剰なモデルの複雑さとGPUメモリの制限のために、依然として以下の課題に直面している。 1)これらのモデルは高い計算コストを必要とし、 2) 圧縮率の高い大規模映像フレームを復元できないのが普通である。 これらの問題に対処するために,高密な接続と時間分解機構を単一ブロック内で利用し,高効率なビデオsciネットワークを開発した。 EfficientSCIネットワークは、空間領域の畳み込みと時間領域のトランスフォーマーを用いて、空間時間相関を確立することができる。 圧縮率の高いUHDカラービデオは,PSNRが32dB以上である単一エンドツーエンドディープラーニングモデルを用いて,スナップショット2次元計測から再構成可能であることを示すのはこれが初めてである。 シミュレーションと実データの両方の大規模な結果から,提案手法は従来のSOTAアルゴリズムよりも高い性能を示し,実時間性能が向上した。 コードはhttps://github.com/ucaswangls/EfficientSCI.gitにある。

Video snapshot compressive imaging (SCI) uses a two-dimensional detector to capture consecutive video frames during a single exposure time. Following this, an efficient reconstruction algorithm needs to be designed to reconstruct the desired video frames. Although recent deep learning-based state-of-the-art (SOTA) reconstruction algorithms have achieved good results in most tasks, they still face the following challenges due to excessive model complexity and GPU memory limitations: 1) these models need high computational cost, and 2) they are usually unable to reconstruct large-scale video frames at high compression ratios. To address these issues, we develop an efficient network for video SCI by using dense connections and space-time factorization mechanism within a single residual block, dubbed EfficientSCI. The EfficientSCI network can well establish spatial-temporal correlation by using convolution in the spatial domain and Transformer in the temporal domain, respectively. We are the first time to show that an UHD color video with high compression ratio can be reconstructed from a snapshot 2D measurement using a single end-to-end deep learning model with PSNR above 32 dB. Extensive results on both simulation and real data show that our method significantly outperforms all previous SOTA algorithms with better real-time performance. The code is at https://github.com/ucaswangls/EfficientSCI.git.
翻訳日:2023-05-19 10:36:52 公開日:2023-05-18
# リモートセンシングによるブロックチェーン対応太陽エネルギー保険

Blockchain-enabled Parametric Solar Energy Insurance via Remote Sensing ( http://arxiv.org/abs/2305.09961v2 )

ライセンス: Link先を確認
Mingyu Hao, Keyang Qian, Sid Chi-Kin Chau(参考訳) その人気にもかかわらず、太陽エネルギーの性質は非常に不確実であり、特に家庭ユーザーにとって、太陽エネルギーの商業的生存性と投資に影響を与える。 太陽エネルギー発電からの収入を安定させるためには、オフピーク期間に過剰な太陽エネルギーを貯めるためのエネルギー貯蔵や将来の市場からの金融デリバティブといった伝統的な選択肢が限られている。 本稿では, 太陽パネル所有者が, 検証可能な地理的特定指標(地表面日射)に基づいて, 太陽エネルギーの発生を保証できる「パラメトリック太陽エネルギー保険」という新しいアイデアを探求する。 パラメトリックソーラーエネルギー保険は、太陽エネルギーの不足に対する財政補助金の機会を提供し、再生可能エネルギーの変動を地理的に補正する。 さらに、ブロックチェーンとリモートセンシング(衛星画像)を活用して、太陽エネルギー保険の引受と請求を自動化するだけでなく、説明責任と透明性も向上する、公に検証可能なプラットフォームを太陽エネルギー保険に提供することを提案する。 我々は、最先端のゼロ知識証明(zk-SNARK)を利用して、現実の無許可ブロックチェーンプラットフォームEthereum上で、プライバシー保護ブロックチェーンベースのソーラーエネルギー保険を実現する。

Despite its popularity, the nature of solar energy is highly uncertain and weather dependent, affecting the business viability and investment of solar energy generation, especially for household users. To stabilize the income from solar energy generation, there have been limited traditional options, such as using energy storage to pool excessive solar energy in off-peak periods or financial derivatives from future markets to hedge energy prices. In this paper, we explore a novel idea of "parametric solar energy insurance", by which solar panel owners can insure their solar energy generation based on a verifiable geographically specific index (surface solar irradiation). Parametric solar energy insurance offers opportunities of financial subsidies for insufficient solar energy generation and amortizes the fluctuations of renewable energy generation geographically. Furthermore, we propose to leverage blockchain and remote sensing (satellite imagery) to provide a publicly verifiable platform for solar energy insurance, which not only automates the underwriting and claims of a solar energy insurance policy, but also improves its accountability and transparency. We utilize the state-of-the-art succinct zero-knowledge proofs (zk-SNARK) to realize privacy-preserving blockchain-based solar energy insurance on real-world permissionless blockchain platform Ethereum.
翻訳日:2023-05-19 10:36:28 公開日:2023-05-18
# 『i'm full who i am』 : オープン言語生成におけるバイアスを測定するためにトランスジェンダーとノンバイナリの声を中心に

"I'm fully who I am": Towards Centering Transgender and Non-Binary Voices to Measure Biases in Open Language Generation ( http://arxiv.org/abs/2305.09941v2 )

ライセンス: Link先を確認
Anaelia Ovalle, Palash Goyal, Jwala Dhamala, Zachary Jaggers, Kai-Wei Chang, Aram Galstyan, Richard Zemel, Rahul Gupta(参考訳) トランスジェンダーとノンバイナリ(TGNB)の個人は、日常生活から差別や排除を不当に経験している。 近年の言語生成技術の普及と普及を考えると、この人口のさらなる疎外化の可能性は増大するのみである。 NLPフェアネスの文献は、性別バイアスの照明と対処に焦点を当てているが、TGNBのアイデンティティに対する性別の害を評価するには、そのようなアイデンティティが社会的性規範とどのように一意に相互作用するか、そしてそれらがジェンダーバイナリ中心の視点とどのように異なるかを理解する必要がある。 このような測定フレームワークは本質的には、ジェンダー非包摂的NLPと彼らが誰に仕えるかの調整を支援するために、中心的なTGNB音声を必要とする。 この目標に向けて、我々はTGNBのコミュニティと既存の学際文献を基盤として、TGNBの人々が経験した限界化を取り巻く社会的現実がオープン言語生成(OLG)にどのように貢献し、持続するかを評価する。 まず, 限界化ストレス因子をまず理解することにより, 1) 性別の誤認と(2) 性開示に対する有害な反応を評価する。 そこで本研究では,TGNB 指向のコミュニティ内で,現実のテキストからキュレートされたテンプレートベースのテキストからなる TANGO データセットを提案する。 モデル内では二項代名詞が支配的であり,二項代名詞を用いたプロンプトをきっかけに,LLMは生成したテキストの中で最少の男女が生成される。 一方,singular theyとneopronounsで発生をトリガーする場合,ミスジェネレーションが最も一般的であった。 LLMのテキストには、性別の開示をきっかけに、スティグマティゼーション言語が含まれ、TGNBの性別の開示によって最も有毒になった。 我々の研究は、TLMにおけるTGNBの有害性に関するさらなる研究を保証し、コミュニティ音声や学際文学におけるジェンダー非包括的AIの設計を具体化するための幅広いケーススタディとして役立っている。

Transgender and non-binary (TGNB) individuals disproportionately experience discrimination and exclusion from daily life. Given the recent popularity and adoption of language generation technologies, the potential to further marginalize this population only grows. Although a multitude of NLP fairness literature focuses on illuminating and addressing gender biases, assessing gender harms for TGNB identities requires understanding how such identities uniquely interact with societal gender norms and how they differ from gender binary-centric perspectives. Such measurement frameworks inherently require centering TGNB voices to help guide the alignment between gender-inclusive NLP and whom they are intended to serve. Towards this goal, we ground our work in the TGNB community and existing interdisciplinary literature to assess how the social reality surrounding experienced marginalization by TGNB persons contributes to and persists within Open Language Generation (OLG). By first understanding their marginalization stressors, we evaluate (1) misgendering and (2) harmful responses to gender disclosure. To do this, we introduce the TANGO dataset, comprising of template-based text curated from real-world text within a TGNB-oriented community. We discover a dominance of binary gender norms within the models; LLMs least misgendered subjects in generated text when triggered by prompts whose subjects used binary pronouns. Meanwhile, misgendering was most prevalent when triggering generation with singular they and neopronouns. When prompted with gender disclosures, LLM text contained stigmatizing language and scored most toxic when triggered by TGNB gender disclosure. Our findings warrant further research on how TGNB harms manifest in LLMs and serve as a broader case study toward concretely grounding the design of gender-inclusive AI in community voices and interdisciplinary literature.
翻訳日:2023-05-19 10:36:06 公開日:2023-05-18
# エプシロンサンプリング岩:機械翻訳における最小ベイズリスクデコードのためのサンプリング戦略の検討

Epsilon Sampling Rocks: Investigating Sampling Strategies for Minimum Bayes Risk Decoding for Machine Translation ( http://arxiv.org/abs/2305.09860v2 )

ライセンス: Link先を確認
Markus Freitag and Behrooz Ghorbani and Patrick Fernandes(参考訳) 機械翻訳(MT)の最近の進歩は、最小ベイズリスク(MBR)復号化がビーム探索復号法(特にニューラルベースユーティリティ関数と組み合わせた場合)の強力な代替となることを示している。 しかし、MBR復号法の性能は、モデルからどれだけの候補をサンプリングするかに大きく依存する。 本稿では,MBR復号化のための候補リストを生成するための異なるサンプリング手法が性能に与える影響について検討する。 我々は,祖先,核,トップkサンプリングなどの一般的なサンプリング手法を評価する。 それらの限界に対する洞察に基づいて、我々は最近提案されたエプシロンサンプリングアプローチを実験し、全てのトークンをエプシロンよりも小さい確率で掘り起こし、サンプルの各トークンが公正な確率質量を受け取ることを保証した。 エプシロンサンプリングに基づくmbrデコーディングは,人間による広範囲な評価により,ビーム探索デコーディングのみならず,他の4つの言語ペアをまたいだmbrデコード手法においても有意に優れていることが示された。

Recent advances in machine translation (MT) have shown that Minimum Bayes Risk (MBR) decoding can be a powerful alternative to beam search decoding, especially when combined with neural-based utility functions. However, the performance of MBR decoding depends heavily on how and how many candidates are sampled from the model. In this paper, we explore how different sampling approaches for generating candidate lists for MBR decoding affect performance. We evaluate popular sampling approaches, such as ancestral, nucleus, and top-k sampling. Based on our insights into their limitations, we experiment with the recently proposed epsilon-sampling approach, which prunes away all tokens with a probability smaller than epsilon, ensuring that each token in a sample receives a fair probability mass. Through extensive human evaluations, we demonstrate that MBR decoding based on epsilon-sampling significantly outperforms not only beam search decoding, but also MBR decoding with all other tested sampling methods across four language pairs.
翻訳日:2023-05-19 10:35:28 公開日:2023-05-18
# 集約されたデータから学ぶ:キュレートされたバッグとランダムなバッグ

Learning from Aggregated Data: Curated Bags versus Random Bags ( http://arxiv.org/abs/2305.09557v2 )

ライセンス: Link先を確認
Lin Chen, Gang Fu, Amin Karbasi, Vahab Mirrokni(参考訳) ユーザのプライバシ保護は、大規模にデプロイされ、さまざまな集団から収集される多くの機械学習システムにとって、大きな関心事である。 この懸念に対処する1つの方法は、単一のユーザに関する情報が他のユーザと組み合わせられるように、集約された方法でデータラベルを収集し、リリースすることである。 本稿では,個々のラベルではなく,集約データラベルを用いた機械学習モデルのトレーニングの可能性を検討する。 具体的には,共通の特徴に基づいてデータポイントをグループ化するキュレーションバッグと,同じサイズのバッグにデータポイントをランダムにグループ化するランダムバッグの2つについて検討した。 計算したバッグ設定や幅広い損失関数に対して,データの集約によって生じる可能性のある性能劣化を伴わずに勾配学習を行うことができることを示す。 本手法は,個々のラベルを必要とせずに,キュレートされたバッグ内の個々のデータ例に対する損失関数の勾配の和を集約ラベルから計算できるという観測に基づく。 ランダムバッグ設定では,仮説クラスのラデマッハ複雑性に基づく一般化リスクバウンドを提供し,最小のリスクバウンドを達成するために経験的リスク最小化をどのように実現するかを示す。 実際、ランダムバッグの設定では、バウンドが示すように、バッグのサイズと達成可能なエラー率との間にトレードオフがあります。 最後に,理論的な知見を確認するために,注意深く実験研究を行う。 特に,集合学習は,モデルの精度を維持しつつ,ユーザのプライバシーを守る効果的な方法であることが示唆された。

Protecting user privacy is a major concern for many machine learning systems that are deployed at scale and collect from a diverse set of population. One way to address this concern is by collecting and releasing data labels in an aggregated manner so that the information about a single user is potentially combined with others. In this paper, we explore the possibility of training machine learning models with aggregated data labels, rather than individual labels. Specifically, we consider two natural aggregation procedures suggested by practitioners: curated bags where the data points are grouped based on common features and random bags where the data points are grouped randomly in bag of similar sizes. For the curated bag setting and for a broad range of loss functions, we show that we can perform gradient-based learning without any degradation in performance that may result from aggregating data. Our method is based on the observation that the sum of the gradients of the loss function on individual data examples in a curated bag can be computed from the aggregate label without the need for individual labels. For the random bag setting, we provide a generalization risk bound based on the Rademacher complexity of the hypothesis class and show how empirical risk minimization can be regularized to achieve the smallest risk bound. In fact, in the random bag setting, there is a trade-off between size of the bag and the achievable error rate as our bound indicates. Finally, we conduct a careful empirical study to confirm our theoretical findings. In particular, our results suggest that aggregate learning can be an effective method for preserving user privacy while maintaining model accuracy.
翻訳日:2023-05-19 10:35:07 公開日:2023-05-18
# 宇宙天気研究のための太陽活動領域磁図画像データセット

Solar Active Region Magnetogram Image Dataset for Studies of Space Weather ( http://arxiv.org/abs/2305.09492v2 )

ライセンス: Link先を確認
Laura E. Boucheron, Ty Vincent, Jeremy A. Grajeda, Ellery Wuest(参考訳) このデータセットでは、NASAのソーラー・ダイナミクス・オブザーバ(Solar Dynamics Observatory, SDO)から、磁気グラム(磁場の強さを定量化するイメージ)の包括的なコレクションを提供しています。 このデータセットは、3つのソースからのデータを組み込んで、太陽活動領域(大磁束の領域、一般的には噴火イベントの源)のsdo helioseismic and magnetic imager (hmi)磁図と対応するフレリング活性のラベルを提供する。 このデータセットは、磁気構造、時間経過に伴う進化、太陽フレアとの関係に関する画像解析や太陽物理学の研究に有用である。 このデータセットは、教師付きおよび教師なしの機械学習(古典的および深層)、バイナリとマルチクラスの分類、回帰を含む、自動的な太陽フレア予測方法を研究する研究者にとって興味深い。 このデータセットは、太陽フレア予測研究のベンチマークデータセットとして機能する、太陽活動領域の一貫した大きさの画像による、最小限の処理とユーザ設定が可能なデータセットである。

In this dataset we provide a comprehensive collection of magnetograms (images quantifying the strength of the magnetic field) from the National Aeronautics and Space Administration's (NASA's) Solar Dynamics Observatory (SDO). The dataset incorporates data from three sources and provides SDO Helioseismic and Magnetic Imager (HMI) magnetograms of solar active regions (regions of large magnetic flux, generally the source of eruptive events) as well as labels of corresponding flaring activity. This dataset will be useful for image analysis or solar physics research related to magnetic structure, its evolution over time, and its relation to solar flares. The dataset will be of interest to those researchers investigating automated solar flare prediction methods, including supervised and unsupervised machine learning (classical and deep), binary and multi-class classification, and regression. This dataset is a minimally processed, user configurable dataset of consistently sized images of solar active regions that can serve as a benchmark dataset for solar flare prediction research.
翻訳日:2023-05-19 10:34:41 公開日:2023-05-18
# 連携型学習管理システムのためのスマートポリシー制御

Smart Policy Control for Securing Federated Learning Management System ( http://arxiv.org/abs/2305.09134v2 )

ライセンス: Link先を確認
Aditya Pribadi Kalapaaking, Ibrahim Khalil, and Mohammed Atiquzzaman(参考訳) スマートシティやインテリジェントヘルスケアシステム、さまざまな実世界のアプリケーションにIoT(Internet of Things)デバイスが広く採用されていることにより、大量のデータが生成されるようになり、しばしば異なる機械学習(ML)モデルを使用して分析される。 フェデレートラーニング(FL)はプライバシ保護機械学習技術として認識されており、複数のパーティが生データを交換することなくMLモデルを協調的にトレーニングしている。 しかし、現在のFLアーキテクチャでは、各FL参加者が実施する各種データ保護ポリシーにより、トレーニングプロセスの監査ができない。 さらに、現在のアーキテクチャで利用可能なグローバルモデル検証機能は存在しない。 本稿では,フェデレートラーニング(FL)管理システムを確保するためのスマートコントラクトベースのポリシー制御を提案する。 まず,スマートコントラクトベースのローカルトレーニングポリシコントロールをfl参加者側で開発し,展開する。 このポリシー管理はトレーニングプロセスを検証するために使用され、評価プロセスがすべてのfl参加者に対して同じルールに従うことを保証します。 次に、グローバルなモデル集約プロセスを管理するために、スマートコントラクトベースの集約ポリシーを施行します。 完了すると、集約されたモデルとポリシがブロックチェーンベースのストレージに格納される。 その後、全FL参加者に集約されたグローバルモデルとスマートコントラクトを配布する。 提案手法は,機械学習モデルのアクセス管理と整合性検証にスマートポリシー制御を用いる。 MNISTやCIFAR-10など,機械学習アーキテクチャやデータセットを用いて,提案したフレームワークの評価を行った。

The widespread adoption of Internet of Things (IoT) devices in smart cities, intelligent healthcare systems, and various real-world applications have resulted in the generation of vast amounts of data, often analyzed using different Machine Learning (ML) models. Federated learning (FL) has been acknowledged as a privacy-preserving machine learning technology, where multiple parties cooperatively train ML models without exchanging raw data. However, the current FL architecture does not allow for an audit of the training process due to the various data-protection policies implemented by each FL participant. Furthermore, there is no global model verifiability available in the current architecture. This paper proposes a smart contract-based policy control for securing the Federated Learning (FL) management system. First, we develop and deploy a smart contract-based local training policy control on the FL participants' side. This policy control is used to verify the training process, ensuring that the evaluation process follows the same rules for all FL participants. We then enforce a smart contract-based aggregation policy to manage the global model aggregation process. Upon completion, the aggregated model and policy are stored on blockchain-based storage. Subsequently, we distribute the aggregated global model and the smart contract to all FL participants. Our proposed method uses smart policy control to manage access and verify the integrity of machine learning models. We conducted multiple experiments with various machine learning architectures and datasets to evaluate our proposed framework, such as MNIST and CIFAR-10.
翻訳日:2023-05-19 10:34:23 公開日:2023-05-18
# 脳腫瘍分離(BraTS)チャレンジ2023: 腫瘍分離(BraSyn)のための脳MR画像合成

The Brain Tumor Segmentation (BraTS) Challenge 2023: Brain MR Image Synthesis for Tumor Segmentation (BraSyn) ( http://arxiv.org/abs/2305.09011v2 )

ライセンス: Link先を確認
Hongwei Bran Li, Gian Marco Conte, Syed Muhammad Anwar, Florian Kofler, Koen van Leemput, Marie Piraud, Ivan Ezhov, Felix Meissen, Maruf Adewole, Syed Muhammad Anwar, Anastasia Janas, Anahita Fathi Kazerooni, Dominic LaBella, Ahmed W. Moawad, Keyvan Farahani, James Eddy, Timothy Bergquist, Verena Chung, Russell Takeshi Shinohara, Farouk Dako, Walter Wiggins, Zachary Reitman, Chunhao Wang, Xinyang Liu, Zhifan Jiang, Ariana Familiar, Elaine Johanson, Zeke Meier, Christos Davatzikos, John Freymann, Justin Kirby, Michel Bilello, Hassan M. Fathallah-Shaykh, Roland Wiest, Jan Kirschke, Rivka R. Colen, Aikaterini Kotrotsou, Pamela Lamontagne, Daniel Marcus, Mikhail Milchenko, Arash Nazeri, Marc Andr\'e Weber, Abhishek Mahajan, Suyash Mohan, John Mongan, Christopher Hess, Soonmee Cha, Javier Villanueva, Meyer Errol Colak, Priscila Crivellaro, Andras Jakab, Jake Albrecht, Udunna Anazodo, Mariam Aboian, Thomas Yu, Verena Chung, Timothy Bergquist, James Eddy, Jake Albrecht, Ujjwal Baid, Spyridon Bakas, Marius George Linguraru, Bjoern Menze, Juan Eugenio Iglesias, Benedikt Wiestler(参考訳) 自動脳腫瘍分割法は確立されており、明確な臨床的有用性を持つパフォーマンスレベルに達する。 ほとんどのアルゴリズムは4つの入力磁気共鳴イメージング(MRI)モダリティ(典型的にはT1強調画像、T2強調画像、FLAIR画像)を必要とする。 しかしながら、これらのシーケンスのいくつかは、例えば、時間的制約や(患者の動きのような)イメージアーティファクトのために、臨床実践で欠落することが多い。 したがって, これらのシナリオにおいて, セグメンテーション性能の回復に欠かせないモダリティを置換することは, 臨床ルーチンにおいて, より広く採用されるためには, 極めて望ましいものである。 本稿では,医療用画像コンピューティングとコンピュータ支援インターベンション(MICCAI)2023と連携して編成された脳MR画像合成ベンチマーク(BraSyn)のセットアップについて報告する。 この課題の目的は、複数の利用可能な画像から欠落したMRIモダリティを現実的に合成し、自動脳腫瘍セグメンテーションパイプラインを促進する画像合成方法のベンチマークを行うことである。 画像データセットは多様で多様であり、様々な病院や研究機関と連携して作成された。

Automated brain tumor segmentation methods are well established, reaching performance levels with clear clinical utility. Most algorithms require four input magnetic resonance imaging (MRI) modalities, typically T1-weighted images with and without contrast enhancement, T2-weighted images, and FLAIR images. However, some of these sequences are often missing in clinical practice, e.g., because of time constraints and/or image artifacts (such as patient motion). Therefore, substituting missing modalities to recover segmentation performance in these scenarios is highly desirable and necessary for the more widespread adoption of such algorithms in clinical routine. In this work, we report the set-up of the Brain MR Image Synthesis Benchmark (BraSyn), organized in conjunction with the Medical Image Computing and Computer-Assisted Intervention (MICCAI) 2023. The objective of the challenge is to benchmark image synthesis methods that realistically synthesize missing MRI modalities given multiple available images to facilitate automated brain tumor segmentation pipelines. The image dataset is multi-modal and diverse, created in collaboration with various hospitals and research institutions.
翻訳日:2023-05-19 10:33:40 公開日:2023-05-18
# LoViT:手術用位相認識用長ビデオトランス

LoViT: Long Video Transformer for Surgical Phase Recognition ( http://arxiv.org/abs/2305.08989v2 )

ライセンス: Link先を確認
Yang Liu, Maxence Boels, Luis C. Garcia-Peraza-Herrera, Tom Vercauteren, Prokar Dasgupta, Alejandro Granados and Sebastien Ourselin(参考訳) オンラインの手術相認識は、パフォーマンスを定量化し、手術ワークフローの実行を監督するコンテキストツールを構築する上で重要な役割を果たす。 現在のアプローチは、異なるフェーズに出現する類似のフレームによる誤った予測につながるフレームレベルの監督を使って空間的特徴抽出器を訓練し、外科手術でよく見られるロングビデオの分析に影響を及ぼす計算上の制約によって局所的特徴とグローバルな特徴をうまく融合しないため、制限されている。 本稿では,Long Video Transformer (LoViT) と呼ばれる,時間的に豊富な空間的特徴抽出器と,自己意図に基づく2つのL-Transモジュールからなる大規模時間的アグリゲータを組み合わせた,短時間・長期の時間的情報を融合する2段階の手法を提案する。 マルチスケールのテンポラリヘッドは、局所的および大域的な特徴を結合し、位相遷移認識による手術段階を分類する。 このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。 Trans-SVNetと比較して、LoViTはColec80でビデオレベルの精度が2.39pp(パーセント)向上し、AutoLaparoで3.14ppになった。 さらに、オートラパロの位相レベルjaccardの5.25pp改善とcholec80の1.55pp改善を達成している。 以上の結果から,本手法は,異なる手術手順と時間的シークエンシング特性の2つのデータセット上での外科的位相認識の最先端化に有効であり,また,ロングビデオ対応のメカニズムも導入している。

Online surgical phase recognition plays a significant role towards building contextual tools that could quantify performance and oversee the execution of surgical workflows. Current approaches are limited since they train spatial feature extractors using frame-level supervision that could lead to incorrect predictions due to similar frames appearing at different phases, and poorly fuse local and global features due to computational constraints which can affect the analysis of long videos commonly encountered in surgical interventions. In this paper, we present a two-stage method, called Long Video Transformer (LoViT) for fusing short- and long-term temporal information that combines a temporally-rich spatial feature extractor and a multi-scale temporal aggregator consisting of two cascaded L-Trans modules based on self-attention, followed by a G-Informer module based on ProbSparse self-attention for processing global temporal information. The multi-scale temporal head then combines local and global features and classifies surgical phases using phase transition-aware supervision. Our approach outperforms state-of-the-art methods on the Cholec80 and AutoLaparo datasets consistently. Compared to Trans-SVNet, LoViT achieves a 2.39 pp (percentage point) improvement in video-level accuracy on Cholec80 and a 3.14 pp improvement on AutoLaparo. Moreover, it achieves a 5.25 pp improvement in phase-level Jaccard on AutoLaparo and a 1.55 pp improvement on Cholec80. Our results demonstrate the effectiveness of our approach in achieving state-of-the-art performance of surgical phase recognition on two datasets of different surgical procedures and temporal sequencing characteristics whilst introducing mechanisms that cope with long videos.
翻訳日:2023-05-19 10:33:18 公開日:2023-05-18
# PMC-VQA: 医用視覚質問応答のための視覚指導チューニング

PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering ( http://arxiv.org/abs/2305.10415v2 )

ライセンス: Link先を確認
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie(参考訳) 本稿では, 医用視覚質問応答(medvqa)の問題に焦点をあて, 臨床関連情報を含む医用画像の効率的な解釈に不可欠である。 まず、人間と機械の相互作用を自然に追従する生成タスクとしてMedVQAの問題を再構成し、トレーニング済み視覚エンコーダからの視覚情報を大きな言語モデルに整合させることにより、医用視覚理解のための生成モデルを提案する。 第2に,さまざまな形態や疾患をカバーする227kのvqa対の149k画像を含む,pmc-vqaという,大規模医療用視覚的質問応答データセットを構築するためのスケーラブルなパイプラインを構築した。 第3に、提案したモデルを PMC-VQA 上で事前トレーニングし、VQA-RAD や SLAKE といった複数の公開ベンチマークで微調整し、既存の作業よりも大きなマージンで性能を向上させる。 さらに,手作業による検証を行うテストセットを提案する。

In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.
翻訳日:2023-05-19 10:27:32 公開日:2023-05-18
# 生成言語モデルを用いた大規模テキスト分析:AI特許における公開価値表現の発見を事例として

Large-Scale Text Analysis Using Generative Language Models: A Case Study in Discovering Public Value Expressions in AI Patents ( http://arxiv.org/abs/2305.10383v2 )

ライセンス: Link先を確認
Sergio Pelaez, Gaurav Verma, Barbara Ribeiro, Philip Shapira(参考訳) データのラベリングはテキスト分類器のトレーニングには不可欠であるが、特に複雑で抽象的な概念において、正確に達成することがしばしば困難である。 改良手法として,生成言語モデル(GPT-4)を用いて,大規模テキスト解析のためのラベルと合理性を生成する手法を提案する。 このアプローチを,米国AI特許における公開価値表現の発見に応用する。 InnovationQ+に送信された高度なBooleanクエリを用いて、154,934件の特許文書からなるデータベースを収集する。 結果はUSPTOの完全な特許文書とマージされ、540万の文が得られた。 我々は、これらのAI特許文中の公開価値表現を識別し、ラベル付けするためのフレームワークを設計する。 GPT-4のプロンプトは、テキスト分類のための定義、ガイドライン、例、合理性を含む。 bleuスコアとトピックモデリングを用いて,gpt-4が生成するラベルの品質と合理性を評価し,正確性,多様性,忠実性を見出す。 これらの理論的根拠は、モデルの連鎖、人間の検証のための透過的なメカニズム、認知的限界を克服するための人間のアノテーションのサポートとしても機能する。 我々は、gpt-4が、我々のフレームワークから高いレベルの公開価値理論の認識を達成していると結論づけた。 GPT-4 で作成したラベルを用いて,BERT ベースの分類器を訓練し,データベース全体の文を予測し,高い F1 スコアを3クラス (0.85) と2クラス (0.91) のタスクに対して達成する。 本稿では,複雑で抽象的な概念を用いて大規模テキスト解析を行う手法の意義について考察し,注意深いフレームワーク設計と対話型人間の監視により,生成言語モデルが品質において有意な利点と,ラベルや合理性の生成に要する時間とコストを削減できることを示す。

Labeling data is essential for training text classifiers but is often difficult to accomplish accurately, especially for complex and abstract concepts. Seeking an improved method, this paper employs a novel approach using a generative language model (GPT-4) to produce labels and rationales for large-scale text analysis. We apply this approach to the task of discovering public value expressions in US AI patents. We collect a database comprising 154,934 patent documents using an advanced Boolean query submitted to InnovationQ+. The results are merged with full patent text from the USPTO, resulting in 5.4 million sentences. We design a framework for identifying and labeling public value expressions in these AI patent sentences. A prompt for GPT-4 is developed which includes definitions, guidelines, examples, and rationales for text classification. We evaluate the quality of the labels and rationales produced by GPT-4 using BLEU scores and topic modeling and find that they are accurate, diverse, and faithful. These rationales also serve as a chain-of-thought for the model, a transparent mechanism for human verification, and support for human annotators to overcome cognitive limitations. We conclude that GPT-4 achieved a high-level of recognition of public value theory from our framework, which it also uses to discover unseen public value expressions. We use the labels produced by GPT-4 to train BERT-based classifiers and predict sentences on the entire database, achieving high F1 scores for the 3-class (0.85) and 2-class classification (0.91) tasks. We discuss the implications of our approach for conducting large-scale text analyses with complex and abstract concepts and suggest that, with careful framework design and interactive human oversight, generative language models can offer significant advantages in quality and in reduced time and costs for producing labels and rationales.
翻訳日:2023-05-19 10:26:50 公開日:2023-05-18
# FACE: クロスエントロピーのフーリエ解析による自然言語生成の評価

FACE: Evaluating Natural Language Generation with Fourier Analysis of Cross-Entropy ( http://arxiv.org/abs/2305.10307v2 )

ライセンス: Link先を確認
Zuhao Yang, Yingfang Yuan, Yang Xu, Shuo Zhan, Huajun Bai, Kefan Chen(参考訳) 機械生成言語と人間の言語の距離を測定することは重要なオープン問題である。 言語におけるエントロピーの周期性に関する心理言語学からの実証的知見に触発されて,モデル生成言語と人文言語の類似性を測定するために,推定された言語交叉エントロピーのフーリエ解析に基づく一連の指標であるfaceを提案する。 オープンエンド生成課題と先行研究の実験データに基づいて, 顔は, モデルのギャップを効果的に識別し, モデルサイズをスケールし, 復号のための異なるサンプリング手法の結果を反映し, 他の評価指標や人間の判断スコアとよく相関することがわかった。 FACEは計算効率が高く、直感的な解釈を提供する。

Measuring the distance between machine-produced and human language is a critical open problem. Inspired by empirical findings from psycholinguistics on the periodicity of entropy in language, we propose FACE, a set of metrics based on Fourier Analysis of the estimated Cross-Entropy of language, for measuring the similarity between model-generated and human-written languages. Based on an open-ended generation task and the experimental data from previous studies, we find that FACE can effectively identify the human-model gap, scales with model size, reflects the outcomes of different sampling methods for decoding, correlates well with other evaluation metrics and with human judgment scores. FACE is computationally efficient and provides intuitive interpretations.
翻訳日:2023-05-19 10:26:16 公開日:2023-05-18
# MemoryBank: 長期記憶による大規模言語モデルの強化

MemoryBank: Enhancing Large Language Models with Long-Term Memory ( http://arxiv.org/abs/2305.10250v2 )

ライセンス: Link先を確認
Wanjun Zhong, Lianghong Guo, Qiqi Gao, Yanlin Wang(参考訳) 大規模言語モデルの革命的進歩は、人工知能システムとのインタラクションを大きく変えました。 それにもかかわらず、これらのモデルにおける長期記憶機構の欠如という顕著な障害は残る。 この不足は、パーソナル・コンパニオン・システムや心理的カウンセリングなど、持続的な相互作用を必要とする状況においてますます顕著になる。 そこで本研究では,LLMに適したメモリ機構であるMemoryBankを提案する。 memorybankでは、モデルが関連するメモリを呼び出し、継続的なメモリ更新を通じて継続的に進化させ、過去のインタラクションからの情報を合成することで、ユーザパーソナリティに適応することができる。 擬人化行動を模倣し、メモリを選択的に保存するために、メモリバンクは、ebbinghaus forgetting curve理論にインスパイアされたメモリ更新機構を組み込んでいる。 MemoryBankは、ChatGPTのようなクローズドソースモデルとChatGLMのようなオープンソースモデルの両方を利用できる。 我々は、長期AIコンパニオンシナリオにおいて、LLMベースのSiliconFriendというチャットボットを作成することにより、MemoryBankの応用を実証する。 心理学的ダイアログによってさらに調整されたSiliconFriendは、対話における共感を高める。 実験には、現実世界のユーザダイアログによる質的分析と、シミュレーションダイアログによる定量的分析の両方が含まれる。 後者では、chatgptは多様な特徴を持つユーザとして動作し、幅広いトピックをカバーする長期的な対話コンテキストを生成する。 分析の結果,siliconfriendは,メモリバンク機能を備えており,長期的対応や関連する記憶のリコール,ユーザパーソナリティの理解が容易であることが明らかとなった。

Revolutionary advancements in Large Language Models have drastically reshaped our interactions with artificial intelligence systems. Despite this, a notable hindrance remains-the deficiency of a long-term memory mechanism within these models. This shortfall becomes increasingly evident in situations demanding sustained interaction, such as personal companion systems and psychological counseling. Therefore, we propose MemoryBank, a novel memory mechanism tailored for LLMs. MemoryBank enables the models to summon relevant memories, continually evolve through continuous memory updates, comprehend, and adapt to a user personality by synthesizing information from past interactions. To mimic anthropomorphic behaviors and selectively preserve memory, MemoryBank incorporates a memory updating mechanism, inspired by the Ebbinghaus Forgetting Curve theory, which permits the AI to forget and reinforce memory based on time elapsed and the relative significance of the memory, thereby offering a human-like memory mechanism. MemoryBank is versatile in accommodating both closed-source models like ChatGPT and open-source models like ChatGLM. We exemplify application of MemoryBank through the creation of an LLM-based chatbot named SiliconFriend in a long-term AI Companion scenario. Further tuned with psychological dialogs, SiliconFriend displays heightened empathy in its interactions. Experiment involves both qualitative analysis with real-world user dialogs and quantitative analysis with simulated dialogs. In the latter, ChatGPT acts as users with diverse characteristics and generates long-term dialog contexts covering a wide array of topics. The results of our analysis reveal that SiliconFriend, equipped with MemoryBank, exhibits a strong capability for long-term companionship as it can provide emphatic response, recall relevant memories and understand user personality.
翻訳日:2023-05-19 10:26:03 公開日:2023-05-18
# アテンションスコーディングデコーディングによる生成逆数ネットワークのスパイキング

Spiking Generative Adversarial Network with Attention Scoring Decoding ( http://arxiv.org/abs/2305.10246v2 )

ライセンス: Link先を確認
Linghao Feng, Dongcheng Zhao, Yi Zeng(参考訳) ニューラルネットワークに基づく生成モデルは、ディープラーニングにおいて大きな課題となる。 現状では、そのようなモデルは主に人工ニューラルネットワークの領域に限られている。 第3世代のニューラルネットワークであるスパイクニューラルネットワークは、豊かな時空間ダイナミクスのため、脳のような処理により近い近似を提供する。 しかし、スパイクニューラルネットワークに基づく生成モデルは十分に研究されていない。 本研究では,複雑な画像を扱うことができるスパイク生成対向ネットワークの構築を開拓した。 最初の課題は、生成的敵ネットワークに固有の領域外不整合と時間的不整合の問題を識別することであった。 我々は,これらの問題に対して,土間距離と注意重み付き復号法を組み込んで対処し,複数のデータセットにまたがるアルゴリズムの性能を著しく向上させた。 実験の結果,本手法はMNIST,FashionMNIST,CIFAR10,CelebAデータセットの既存手法よりも優れていることがわかった。 さらに,識別器が人工アナログニューラルネットワークであるハイブリッドスパイキング生成対向ネットワークと比較して,本手法はマウスにおける情報処理パターンと密に一致していることを示す。

Generative models based on neural networks present a substantial challenge within deep learning. As it stands, such models are primarily limited to the domain of artificial neural networks. Spiking neural networks, as the third generation of neural networks, offer a closer approximation to brain-like processing due to their rich spatiotemporal dynamics. However, generative models based on spiking neural networks are not well studied. In this work, we pioneer constructing a spiking generative adversarial network capable of handling complex images. Our first task was to identify the problems of out-of-domain inconsistency and temporal inconsistency inherent in spiking generative adversarial networks. We addressed these issues by incorporating the Earth-Mover distance and an attention-based weighted decoding method, significantly enhancing the performance of our algorithm across several datasets. Experimental results reveal that our approach outperforms existing methods on the MNIST, FashionMNIST, CIFAR10, and CelebA datasets. Moreover, compared with hybrid spiking generative adversarial networks, where the discriminator is an artificial analog neural network, our methodology demonstrates closer alignment with the information processing patterns observed in the mouse.
翻訳日:2023-05-19 10:25:35 公開日:2023-05-18
# llmの隠れたリスク評価--ロバスト性、一貫性、信頼性に関する実証的研究

Assessing Hidden Risks of LLMs: An Empirical Study on Robustness, Consistency, and Credibility ( http://arxiv.org/abs/2305.10235v2 )

ライセンス: Link先を確認
Wentao Ye, Mingfeng Ou, Tianyi Li, Yipeng chen, Xuetao Ma, Yifan Yanggong, Sai Wu, Jie Fu, Gang Chen, Haobo Wang, Junbo Zhao(参考訳) 近年の大規模言語モデル(LLM)の人気は、特にAPIやオープンソースモデル、プラグインといったオープンなエコシステムを通じて、バウンダリのないフィールドに大きな影響を与えている。 しかし、広く展開されているため、隠された潜在的なリスクを徹底的に議論し分析する研究の欠如がある。 その際, LLMシステムの堅牢性, 一貫性, 信頼性について, 先駆的かつ先駆的な研究を行う。 LLM時代における関連文献の大半を無チャートで扱うことで,大量のクエリ/レスポンスを扱う自動化ワークフローを提案する。 全体として、ChatGPT、LLaMA、OPTなど、主要なLLMに対して100万以上のクエリを実行する。 我々のワークフローの中核はデータプリミティブから成り、次に異なる対向距離システムの下でこれらのLCMを評価する自動インタプリタが続く。 その結果、このトレンドコミュニティからは、非常に稀な結論がいくつか、おそらく不運な結果をもたらしました。 略して、以下の通りである。 (i)-ユーザが生成したクエリ入力の小さなが避けられないエラーは、偶然にLCMが予期せず応答する可能性がある。 (ii)-LLMはセマンティックに類似したクエリ入力を処理する際に一貫性が低い。 さらに、副次的な発見として、ChatGPTは、入力が極端に汚染された場合でも、正しい回答を得られることを発見した。 この現象はLLMの強力な記憶を実証するが、学術的発展においてLLMが関与する評価にそのようなデータを使用することについて深刻な懸念を提起する。 そこで本研究では,LLM を用いた評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。 上記の主張を支持するために広範な実証研究が行われている。

The recent popularity of large language models (LLMs) has brought a significant impact to boundless fields, particularly through their open-ended ecosystem such as the APIs, open-sourced models, and plugins. However, with their widespread deployment, there is a general lack of research that thoroughly discusses and analyzes the potential risks concealed. In that case, we intend to conduct a preliminary but pioneering study covering the robustness, consistency, and credibility of LLMs systems. With most of the related literature in the era of LLM uncharted, we propose an automated workflow that copes with an upscaled number of queries/responses. Overall, we conduct over a million queries to the mainstream LLMs including ChatGPT, LLaMA, and OPT. Core to our workflow consists of a data primitive, followed by an automated interpreter that evaluates these LLMs under different adversarial metrical systems. As a result, we draw several, and perhaps unfortunate, conclusions that are quite uncommon from this trendy community. Briefly, they are: (i)-the minor but inevitable error occurrence in the user-generated query input may, by chance, cause the LLM to respond unexpectedly; (ii)-LLMs possess poor consistency when processing semantically similar query input. In addition, as a side finding, we find that ChatGPT is still capable to yield the correct answer even when the input is polluted at an extreme level. While this phenomenon demonstrates the powerful memorization of the LLMs, it raises serious concerns about using such data for LLM-involved evaluation in academic development. To deal with it, we propose a novel index associated with a dataset that roughly decides the feasibility of using such data for LLM-involved evaluation. Extensive empirical studies are tagged to support the aforementioned claims.
翻訳日:2023-05-19 10:25:16 公開日:2023-05-18
# IDO-VFI:イベントによるビデオフレーム補間のための光フロー誘導によるダイナミクスの同定

IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame Interpolation with Events ( http://arxiv.org/abs/2305.10198v2 )

ライセンス: Link先を確認
Chenyang Shi, Hanxiao Liu, Jing Jin, Wenzhuo Li, Yuzhen Li, Boyi Wei, Yibo Zhang(参考訳) ビデオフレーム補間は、境界フレームから高品質な中間フレームを生成し、フレームレートを上げることを目的としている。 既存の線形、対称および非線形モデルは、フレーム間運動の欠如からギャップを埋めるために使用されるが、実際の運動を再構築することはできない。 しかし、イベントカメラはフレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。 本稿では,様々なサブ領域の計算量を光学フロー誘導により割り当てる,イベント・フレームベースの映像フレーム補間法であるido-vfiを提案する。 提案手法は,まずフレームとイベントに基づいて光学フローを推定し,その後,光学フロー振幅に応じてガムベルゲーティングモジュールを介して,それらのサブ領域における残留光学フローを更に計算するかどうかを判定する。 中間フレームは最終的に簡潔なトランスフォーマーベースの融合ネットワークを介して生成される。 提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。 さらに,本手法は,複数のビデオフレーム補間ベンチマークにおいて,最先端のフレームオンリーおよびフレームオーバーイベント法より優れる。 コードとモデルはhttps://github.com/shicy17/ido-vfiで入手できる。

Video frame interpolation aims to generate high-quality intermediate frames from boundary frames and increase frame rate. While existing linear, symmetric and nonlinear models are used to bridge the gap from the lack of inter-frame motion, they cannot reconstruct real motions. Event cameras, however, are ideal for capturing inter-frame dynamics with their extremely high temporal resolution. In this paper, we propose an event-and-frame-based video frame interpolation method named IDO-VFI that assigns varying amounts of computation for different sub-regions via optical flow guidance. The proposed method first estimates the optical flow based on frames and events, and then decides whether to further calculate the residual optical flow in those sub-regions via a Gumbel gating module according to the optical flow amplitude. Intermediate frames are eventually generated through a concise Transformer-based fusion network. Our proposed method maintains high-quality performance while reducing computation time and computational effort by 10% and 17% respectively on Vimeo90K datasets, compared with a unified process on the whole region. Moreover, our method outperforms state-of-the-art frame-only and frames-plus-events methods on multiple video frame interpolation benchmarks. Codes and models are available at https://github.com/shicy17/IDO-VFI.
翻訳日:2023-05-19 10:24:49 公開日:2023-05-18
# 制御可能なマインド視覚拡散モデル

Controllable Mind Visual Diffusion Model ( http://arxiv.org/abs/2305.10135v2 )

ライセンス: Link先を確認
Bohan Zeng, Shanglin Li, Xuhui Liu, Sicheng Gao, Xiaolong Jiang, Xu Tang, Yao Hu, Jianzhuang Liu, Baochang Zhang(参考訳) 脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。 拡散モデルでは、機能的磁気共鳴イメージング(fmri)データの解析において、元の視覚刺激と一致した高品質画像の再構成が期待されているが、脳信号から意味的およびシルエットな情報を抽出できる精度は限られている。 本研究では,制御可能な心の視覚拡散モデル(cmvdm)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。 さらに、残余ブロックが組み込まれて、セマンティックおよびシルエット機能以外の情報をキャプチャする。 そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。 広汎な実験により,CMVDMは定性的かつ定量的に既存の最先端手法よりも優れていることを示した。

Brain signal visualization has emerged as an active research area, serving as a critical interface between the human visual system and computer vision models. Although diffusion models have shown promise in analyzing functional magnetic resonance imaging (fMRI) data, including reconstructing high-quality images consistent with original visual stimuli, their accuracy in extracting semantic and silhouette information from brain signals remains limited. In this regard, we propose a novel approach, referred to as Controllable Mind Visual Diffusion Model (CMVDM). CMVDM extracts semantic and silhouette information from fMRI data using attribute alignment and assistant networks. Additionally, a residual block is incorporated to capture information beyond semantic and silhouette features. We then leverage a control model to fully exploit the extracted information for image synthesis, resulting in generated images that closely resemble the visual stimuli in terms of semantics and silhouette. Through extensive experimentation, we demonstrate that CMVDM outperforms existing state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2023-05-19 10:24:27 公開日:2023-05-18
# 多目的最適化のためのwasserstein逆強化学習の模倣の証明

A proof of imitation of Wasserstein inverse reinforcement learning for multi-objective optimization ( http://arxiv.org/abs/2305.10089v2 )

ライセンス: Link先を確認
Akira Kitaoka, Riki Eto(参考訳) 本研究では,多目的最適化のための有限イテレーションにおいて,学習者の報酬値が専門家の報酬値を模倣できることを示す。 さらに,wasserstein逆強化学習により,学習者の最適解が,辞書順による多目的最適化のための専門家の最適解を模倣できることを示した。

We prove Wasserstein inverse reinforcement learning enables the learner's reward values to imitate the expert's reward values in a finite iteration for multi-objective optimizations. Moreover, we prove Wasserstein inverse reinforcement learning enables the learner's optimal solutions to imitate the expert's optimal solutions for multi-objective optimizations with lexicographic order.
翻訳日:2023-05-19 10:24:08 公開日:2023-05-18
# TG-VQA:ビデオ質問に答える第3のゲーム

TG-VQA: Ternary Game of Video Question Answering ( http://arxiv.org/abs/2305.10049v2 )

ライセンス: Link先を確認
Hao Li, Peng Jin, Zesen Cheng, Songyang Zhang, Kai Chen, Zhennan Wang, Chang Liu, Jie Chen(参考訳) ビデオ質問応答は、その中のアライメントセマンティクスを推論することで、ビデオコンテンツに関する質問に答えることを目的としている。 しかしながら、人間の指示、すなわちアノテーションや事前に大きく依存しているため、現在のコントラスト学習に基づくビデオQA法は、きめ細かい視覚言語的アライメントの実行が困難である。 本研究では,ビデオQAタスクの微妙なアライメントを実現するために,ゲーム理論を革新的に活用し,ビデオ,質問,回答といった特定のインタラクション戦略を持つ複数のプレイヤー間の複雑な関係をシミュレートする。 具体的には,ビデオQA固有のインタラクション戦略を慎重に設計し,ラベルに重きを置くことなく,微粒な視覚言語アライメントラベルを数学的に生成することができる。 我々のTG-VQAは、その有効性と一般化能力を検証し、長期および短期のVideoQAデータセットにおいて、既存の最先端技術(5%以上)よりも優れています。 ゲーム理論的相互作用の指導により、我々のモデルは限られたデータ({10}^4 ~videos$)に驚くほど収束し、大規模データ(10^7~videos$)で事前学習された多くのデータを上回る。

Video question answering aims at answering a question about the video content by reasoning the alignment semantics within them. However, since relying heavily on human instructions, i.e., annotations or priors, current contrastive learning-based VideoQA methods remains challenging to perform fine-grained visual-linguistic alignments. In this work, we innovatively resort to game theory, which can simulate complicated relationships among multiple players with specific interaction strategies, e.g., video, question, and answer as ternary players, to achieve fine-grained alignment for VideoQA task. Specifically, we carefully design a VideoQA-specific interaction strategy to tailor the characteristics of VideoQA, which can mathematically generate the fine-grained visual-linguistic alignment label without label-intensive efforts. Our TG-VQA outperforms existing state-of-the-art by a large margin (more than 5%) on long-term and short-term VideoQA datasets, verifying its effectiveness and generalization ability. Thanks to the guidance of game-theoretic interaction, our model impressively convergences well on limited data (${10}^4 ~videos$), surpassing most of those pre-trained on large-scale data ($10^7~videos$).
翻訳日:2023-05-19 10:24:02 公開日:2023-05-18