このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230518となっている論文です。

PDF登録状況(公開日: 20230518)

TitleAuthorsAbstract論文公表日・翻訳日
# 実行時SPIR-Vコード生成のための構成可能で機能的なAPI構築の経験

Experiences in Building a Composable and Functional API for Runtime SPIR-V Code Generation ( http://arxiv.org/abs/2305.09493v2 )

ライセンス: Link先を確認
Juan Fumero, Gy\"orgy Rethy, Athanasios Stratikopoulos, Nikos Foutris, Christos Kotselidis(参考訳) 本稿では,SPIR-Vバイナリモジュールを動的に構築するためのJava構成可能かつ機能的なライブラリを自動生成するフレームワークであるBeehive SPIR-V Toolkitを提案する。 Beehive SPIR-V Toolkitは、コンパイラとランタイムシステムを最適化して、Java仮想マシン(JVM)のようなマネージドランタイムシステムからSPIR-Vバイナリモジュールを生成し、検証することで使用することができる。 さらに,本フレームワークは,SPIR-V 以外の標準用の Java ライブラリの自動生成を容易にするため,メンテナンスが容易な新しい SPIR-V リリースに対応するよう設計されている。 Beehive SPIR-V Toolkitはまた、分解されたSPIR-VテキストファイルからSPIR-Vバイナリモジュールを出力するアセンブラと、SPIR-Vバイナリコードをテキストファイルに変換するアセンブラと、コンソールクライアントアプリケーションを含む。 私たちの知る限り、Beehive SPIR-V ToolkitはSPIR-Vバイナリモジュールを動的に生成できる最初のJavaプログラミングフレームワークです。 私たちのフレームワークの使用を実証するために、異種ハードウェア上でJavaプログラムを自動的にオフロードし実行するためのJavaフレームワークであるTornadoVMのコンテキストにおいて、SPIR-V Beehive Toolkitの統合を紹介します。 我々は、SPIR-V Beehive Toolkitを通じて、TornadoVMが既存のOpenCL C JITコンパイラよりも3倍高速にコードをコンパイルでき、TornadoVMの既存のOpenCL Cバックエンドよりも最大1.22倍高速であることを示した。

This paper presents the Beehive SPIR-V Toolkit; a framework that can automatically generate a Java composable and functional library for dynamically building SPIR-V binary modules. The Beehive SPIR-V Toolkit can be used by optimizing compilers and runtime systems to generate and validate SPIR-V binary modules from managed runtime systems, such as the Java Virtual Machine (JVM). Furthermore, our framework is architected to accommodate new SPIR-V releases in an easy-to-maintain manner, and it facilitates the automatic generation of Java libraries for other standards, besides SPIR-V. The Beehive SPIR-V Toolkit also includes an assembler that emits SPIR-V binary modules from disassembled SPIR-V text files, and a disassembler that converts the SPIR-V binary code into a text file, and a console client application. To the best of our knowledge, the Beehive SPIR-V Toolkit is the first Java programming framework that can dynamically generate SPIR-V binary modules. To demonstrate the use of our framework, we showcase the integration of the SPIR-V Beehive Toolkit in the context of the TornadoVM, a Java framework for automatically offloading and running Java programs on heterogeneous hardware. We show that, via the SPIR-V Beehive Toolkit, the TornadoVM is able to compile code 3x faster than its existing OpenCL C JIT compiler, and it performs up to 1.52x faster than the existing OpenCL C backend in TornadoVM.
翻訳日:2023-10-24 08:35:09 公開日:2023-05-18
# JavaとC/C++で書かれた言語間Androidアプリケーションのバッファオーバーフローの統計的検出

Statically Detecting Buffer Overflow in Cross-language Android Applications Written in Java and C/C++ ( http://arxiv.org/abs/2305.10233v2 )

ライセンス: Link先を確認
Kishanthan Thangarajah, Noble Mathews, Michael Pu, Meiyappan Nagappan, Yousra Aafer and Sridhar Chimalakonda(参考訳) 多くのアプリケーションは、ネイティブコードのサポート、パフォーマンス向上、言語固有のライブラリなど、さまざまな言語が提供する機能を活用するために、複数の言語で書かれています。 しかし、このような多言語アプリケーションのソースコードを分析するために現在利用可能な静的解析ツールはほとんどない。 既存のクロス言語(JavaとC/C++)分析の作業では、クロス言語の性質を持つバッファオーバーフロー脆弱性の検出に失敗している。 この作業では、javaとc/c++間の言語横断分析の方法に取り組んでいます。 具体的には,Java と C/C++ 間のデータフロー解析を行い,バッファオーバーフローを検出する手法を提案する。 これはJavaとC/C++で記述されたプロジェクトでデータフローを自動的に解析するツールです。 このアプローチを使用して、6つのよく知られたAndroidアプリケーションで23のバッファオーバーフロー脆弱性を検出することができ、そのうち、開発者は3つのアプリケーションで11の脆弱性を確認しました。

Many applications are being written in more than one language to take advantage of the features that different languages provide such as native code support, improved performance, and language-specific libraries. However, there are few static analysis tools currently available to analyse the source code of such multilingual applications. Existing work on cross-language (Java and C/C++) analysis fails to detect buffer overflow vulnerabilities that are of cross-language nature. In this work, we are addressing how to do cross-language analysis between Java and C/C++. Specifically, we propose an approach to do data flow analysis between Java and C/C++ to detect buffer overflow. We have developed PilaiPidi, a tool that can automatically analyse the data flow in projects written in Java and C/C++. Using our approach, we were able to detect 23 buffer overflow vulnerabilities, which are of cross-language nature, in six different well-known Android applications, and out of these, developers have confirmed 11 vulnerabilities in three applications.
翻訳日:2023-10-24 08:22:53 公開日:2023-05-18
# Docker Composeマルチコンテナオーケストレーションのパターン

Patterns in Docker Compose Multi-Container Orchestration ( http://arxiv.org/abs/2305.11293v1 )

ライセンス: Link先を確認
Kalvin Eng, Abram Hindle, and Eleni Stroulia(参考訳) ソフトウェア設計パターンは、一般的なソフトウェア設計問題に対する一般的なコードソリューションを提供する。 現代のソフトウェアシステムは、構成するサービスコンポーネントの編成とオーケストレーションにコンテナに大きく依存しています。 しかし、マルチコンテナオーケストレーションに参加する準備が整ったdockerサービスイメージが普及しているにも関わらず、開発者は独自のマルチコンテナdockerオーケストレーションの開発方法に関するガイダンスをあまり持っていない。 この作業では、オーケストレーションツールとしてDocker Composeを使用する成功したプロジェクトのデータセットをキュレートし、Docker Compose構成の質的かつ定量的な分析に従事します。 データと分析の収集により、ソフトウェア設計パターンのように、多くの成功したオープンソースプロジェクトが採用するデプロイメントとオーケストレーションの繰り返しパターンの識別と命名が可能になる。 これらのパターンは、ソフトウェアシステムが野放しでオーケストレーションされる方法を強調しており、コンテナオーケストレーションを開発したいと考えている人に例をあげることができる。 これらのコントリビューションは、Docker Composeの使用方法に関する証拠として、ソフトウェアエンジニアリングパターンに関する実証的研究も進めている。

Software design patterns present general code solutions to common software design problems. Modern software systems rely heavily on containers for organizing and orchestrating their constituent service components. Yet, despite the prevalence of ready-to-use Docker service images ready to participate in multi-container orchestration, developers do not have much guidance on how to develop their own multi-container Docker orchestrations. Thus in this work, we curate a dataset of successful projects that employ Docker Compose as an orchestration tool; then, we engage in qualitative and quantitative analysis of Docker Compose configurations. The collection of data and analysis enables the identification and naming of repeating patterns of deployment and orchestration employed by numerous successful open-source projects, much like software design patterns. These patterns highlight how software systems are orchestrated in the wild and can give examples to anybody wishing to develop their container orchestrations. These contributions also advance empirical research in software engineering patterns as evidence is provided about how Docker Compose is used.
翻訳日:2023-10-24 08:14:08 公開日:2023-05-18
# AIによるコード生成ツールの信頼性調査と設計

Investigating and Designing for Trust in AI-powered Code Generation Tools ( http://arxiv.org/abs/2305.11248v1 )

ライセンス: Link先を確認
Ruotong Wang, Ruijia Cheng, Denae Ford, Thomas Zimmermann(参考訳) GitHub CopilotのようなAI駆動のコード生成ツールが普及するにつれて、ソフトウェア開発者がAIツールを信頼していることを理解することが、ツールの採用と責任ある使用の鍵となる。 しかし、開発者がAIを信頼する方法や、生成するAIシステムのインターフェースを設計して、適切なレベルの信頼を促進する方法についてはほとんど分かっていません。 本稿では,2段階の質的調査の結果について述べる。 私たちはまず17人の開発者にインタビューを行い、AIコード生成ツールの適切な信頼を構築する際の課題を理解しました。 適切な期待の構築、AIツールの設定、AI提案の検証など、主な3つの課題を取り上げました。 これらの課題に対処するため、我々は第2段階の設計調査を行い、開発者の信頼構築プロセスを支援する設計概念を探求した。 1)AIパフォーマンスのコミュニケーションにより、ユーザーは適切な期待を達成できる。 2) ユーザが好みを設定して調整することでAIを設定できるようにし、 3)ai提案の評価を支援するモデルメカニズムの指標の提供。 これらの設計概念が、AIによるコード生成ツールへの適切な信頼を構築するのにどのように役立つか、そして設計における潜在的なリスクについて、開発者のフィードバックを集めた。 これらの結果から,AIを利用したコード生成ツールの信頼性設計に関する設計勧告が提案されている。

As AI-powered code generation tools such as GitHub Copilot become popular, it is crucial to understand software developers' trust in AI tools -- a key factor for tool adoption and responsible usage. However, we know little about how developers build trust with AI, nor do we understand how to design the interface of generative AI systems to facilitate their appropriate levels of trust. In this paper, we describe findings from a two-stage qualitative investigation. We first interviewed 17 developers to contextualize their notions of trust and understand their challenges in building appropriate trust in AI code generation tools. We surfaced three main challenges -- including building appropriate expectations, configuring AI tools, and validating AI suggestions. To address these challenges, we conducted a design probe study in the second stage to explore design concepts that support developers' trust-building process by 1) communicating AI performance to help users set proper expectations, 2) allowing users to configure AI by setting and adjusting preferences, and 3) offering indicators of model mechanism to support evaluation of AI suggestions. We gathered developers' feedback on how these design concepts can help them build appropriate trust in AI-powered code generation tools, as well as potential risks in design. These findings inform our proposed design recommendations on how to design for trust in AI-powered code generation tools.
翻訳日:2023-10-24 08:13:51 公開日:2023-05-18
# iOS開発におけるパッケージマネージャのライブラリ依存ネットワークの解析

Analysis of Library Dependency Networks of Package Managers Used in iOS Development ( http://arxiv.org/abs/2305.10910v1 )

ライセンス: Link先を確認
Kristiina Rahkema, Dietmar Pfahl, Rudolf Ramler(参考訳) 既存のソリューションをサードパーティのライブラリの形で再利用することは、ソフトウェアを書く際によくあるプラクティスである。 パッケージマネージャは、ライブラリのインストールと更新のプロセスを自動化して、サードパーティライブラリへの依存関係を管理するために使用される。 ライブラリの依存関係自体は、いくつかのレベルの間接的な依存性ネットワークを作成する他のライブラリへの依存関係を持つことができる。 swiftエコシステムにおけるライブラリ依存ネットワークは、cocoapods、carthage、swift package manager(pm)のライブラリを含んでいる。 これらのパッケージマネージャは、例えば、iOSやMac OSアプリケーションをSwiftやObjective-Cで開発する際に使用される。 我々は、swiftエコシステムにおけるライブラリ依存ネットワークの進化に関する最初の分析を提供する。 CocoaPodsは、最大のライブラリセットを持つパッケージマネージャであるが、他のパッケージマネージャとの違いは、期待ほど大きくはない。 swiftで最年少のパッケージマネージャと公式パッケージマネージャであるswift pmがますます人気を集めており、他の2つのパッケージマネージャの成長が徐々に遅くなっている。 直接的な依存関係と推移的な依存関係を分析すると、Swiftエコシステムの依存関係の総数は、他の多くのエコシステムと比較して低いことが分かりました。 それでも、依存関係の総数は、過去5年間で明らかな増加傾向を示している。

Reusing existing solutions in the form of third-party libraries is common practice when writing software. Package managers are used to manage dependencies to third-party libraries by automating the process of installing and updating the libraries. Library dependencies themselves can have dependencies to other libraries creating a dependency network with several levels of indirections. The library dependency network in the Swift ecosystem encompasses libraries from CocoaPods, Carthage and Swift Package Manager (PM). These package managers are used when developing, for example, iOS or Mac OS applications in Swift and Objective-C. We provide the first analysis of the library dependency network evolution in the Swift ecosystem. Although CocoaPods is the package manager with the biggest set of libraries, the difference to other package managers is not as big as expected. The youngest package manager and official package manager for Swift, Swift PM, is becoming more and more popular, resulting in a gradual slow-down of the growth of the other two package managers. When analyzing direct and transitive dependencies, we found that the mean total number of dependencies is lower in the Swift ecosystem compared to many other ecosystems. Still, the total number of dependencies shows a clear growing trend over the last five years.
翻訳日:2023-10-24 08:13:32 公開日:2023-05-18
# CCT5: コードチェンジ指向の事前トレーニングモデル

CCT5: A Code-Change-Oriented Pre-Trained Model ( http://arxiv.org/abs/2305.10785v1 )

ライセンス: Link先を確認
Bo Lin, Shangwen Wang, Zhongxin Liu, Yepang Liu, Xin Xia and Xiaoguang Mao(参考訳) ソフトウェアは絶えず変化しており、開発者はコード変更の意図に関する記述を書いたり、欠陥の多いコード変更を特定したりといった、タイムリーな方法でいくつかの派生タスクを実行する必要がある。 これらのタスクを扱うコストが開発費用の占める割合(約70%)が大きいことを考慮すると、プロセスの自動化は開発者の負担を大幅に軽減します。 このような目標を達成するために、既存のアプローチは主に、スクラッチからディープラーニングモデルをトレーニングするか、既存のトレーニング済みモデルをこれらのタスクで微調整するかに依存している。 既存のトレーニング済みモデルは、コードの変更(つまり、2つのコードスニペットの違い)ではなく、1つのコードスニペットをエンコードするように設計されているため、トレーニング済みモデルの学習知識を十分に活用することは難しい。 我々は、ソフトウェアメンテナンスにおける開発者のサポートを改善するために、コード変更用に特別に設計されたモデルを事前訓練することを提案する。 そこで我々はまず,1.5m以上のコード変更とコミットメッセージのペアワイズデータを含む大規模データセットを収集する。 これらのデータに基づいて、事前学習のための5つの異なるタスクをキュレートする。 我々は、コードの変更とコードレビュープロセスに特有の2つのタスクによって、広く研究されている3つのタスクに対して、事前訓練されたモデルであるCCT5を微調整する。 その結果,CCT5は従来のディープラーニング手法と既存の事前学習モデルの両方に優れていた。

Software is constantly changing, requiring developers to perform several derived tasks in a timely manner, such as writing a description for the intention of the code change, or identifying the defect-prone code changes. Considering that the cost of dealing with these tasks can account for a large proportion (typically around 70 percent) of the total development expenditure, automating such processes will significantly lighten the burdens of developers. To achieve such a target, existing approaches mainly rely on training deep learning models from scratch or fine-tuning existing pretrained models on such tasks, both of which have weaknesses. Specifically, the former uses comparatively small-scale labelled data for training, making it difficult to learn and exploit the domain knowledge of programming language hidden in the large-amount unlabelled code in the wild; the latter is hard to fully leverage the learned knowledge of the pre-trained model, as existing pre-trained models are designed to encode a single code snippet rather than a code change (i.e., the difference between two code snippets). We propose to pre-train a model specially designed for code changes to better support developers in software maintenance. To this end, we first collect a large-scale dataset containing 1.5M+ pairwise data of code changes and commit messages. Based on these data, we curate five different tasks for pre-training, which equip the model with diverse domain knowledge about code changes. We fine-tune the pre-trained model, CCT5, on three widely-studied tasks incurred by code changes and two tasks specific to the code review process. Results show that CCT5 outperforms both conventional deep learning approaches and existing pre-trained models on these tasks.
翻訳日:2023-10-24 08:13:12 公開日:2023-05-18
# DrugChat: 薬物分子グラフ上でChatGPTのような機能を実現する

DrugChat: Towards Enabling ChatGPT-Like Capabilities on Drug Molecule Graphs ( http://arxiv.org/abs/2309.03907v1 )

ライセンス: Link先を確認
Youwei Liang, Ruiyi Zhang, Li Zhang, Pengtao Xie(参考訳) 薬物化合物のChatGPTライクなシステムは、医薬品研究におけるゲームチェンジャーになり、薬物発見の促進、構造-活性関係の理解の強化、リード最適化の指導、薬物再資源化の支援、失敗率の低減、臨床試験の合理化などが可能である。 本研究では,薬物分子グラフ上でChatGPTライクな機能を実現するためのプロトタイプシステムであるD薬チャットを開発した。 DrugChatはChatGPTと同じように動作する。 ユーザは化合物分子グラフをアップロードし、この化合物について様々な質問をする。 drugchatは、マルチターンでインタラクティブな方法でこれらの質問に答える。 DrugChatシステムは、グラフニューラルネットワーク(GNN)、大規模言語モデル(LLM)、およびアダプタで構成される。 GNNは複合分子グラフを入力とし、このグラフの表現を学ぶ。 アダプタは、GNNによって生成されたグラフ表現をLLMに許容される別の表現に変換する。 LLMは、適応子とユーザの質問によって変換された複合表現を入力とし、回答を生成する。 これらのコンポーネントはすべてエンドツーエンドでトレーニングされる。 そこで我々は10,834の薬物化合物と143,517の質問応答対を含む指導調律データセットを収集した。 コードとデータは \url{https://github.com/ucsd-ai4h/drugchat} で入手できる。

A ChatGPT-like system for drug compounds could be a game-changer in pharmaceutical research, accelerating drug discovery, enhancing our understanding of structure-activity relationships, guiding lead optimization, aiding drug repurposing, reducing the failure rate, and streamlining clinical trials. In this work, we make an initial attempt towards enabling ChatGPT-like capabilities on drug molecule graphs, by developing a prototype system DrugChat. DrugChat works in a similar way as ChatGPT. Users upload a compound molecule graph and ask various questions about this compound. DrugChat will answer these questions in a multi-turn, interactive manner. The DrugChat system consists of a graph neural network (GNN), a large language model (LLM), and an adaptor. The GNN takes a compound molecule graph as input and learns a representation for this graph. The adaptor transforms the graph representation produced by the GNN into another representation that is acceptable to the LLM. The LLM takes the compound representation transformed by the adaptor and users' questions about this compound as inputs and generates answers. All these components are trained end-to-end. To train DrugChat, we collected instruction tuning datasets which contain 10,834 drug compounds and 143,517 question-answer pairs. The code and data is available at \url{https://github.com/UCSD-AI4H/drugchat}
翻訳日:2023-10-23 08:43:18 公開日:2023-05-18
# 組合せ最適化のためのニューラルアルゴリズム推論

Neural Algorithmic Reasoning for Combinatorial Optimisation ( http://arxiv.org/abs/2306.06064v1 )

ライセンス: Link先を確認
Dobrik Georgiev and Danilo Numeroso and Davide Bacciu and Pietro Li\`o(参考訳) ニューラルネットワークによるnpハード/完全組合せ問題を解くことは、古典的な近似アルゴリズムを超越することを目的とした、難しい研究領域である。 長期的目的は、訓練データのみから優れた解を生成することを学ぶことにより、NP-hard/complete問題に対する手設計のヒューリスティックスを上回ることにある。 トラベリングセールスマン問題(TSP)は、しばしばそのようなアプローチを対象とする、顕著な組合せ最適化問題である。 しかしながら、現在のTSPの解法は、しばしば問題の固有の「アルゴリズム」の性質を見落としている。 対照的に、TSP用に設計されたヒューリスティックスは、最小スパンニングツリーを見つけるような、確立されたアルゴリズムを頻繁に活用する。 本稿では,近年のニューラルアルゴリズム推論の進歩を活かし,tsp問題の学習を改善することを提案する。 具体的には、TSPインスタンスでトレーニングする前に、関連するアルゴリズムでニューラルネットワークを事前トレーニングすることを提案する。 その結果,この学習環境を用いて,非学習型学習モデルと比較して優れた学習性能が得られた。

Solving NP-hard/complete combinatorial problems with neural networks is a challenging research area that aims to surpass classical approximate algorithms. The long-term objective is to outperform hand-designed heuristics for NP-hard/complete problems by learning to generate superior solutions solely from training data. The Travelling Salesman Problem (TSP) is a prominent combinatorial optimisation problem often targeted by such approaches. However, current neural-based methods for solving TSP often overlook the inherent "algorithmic" nature of the problem. In contrast, heuristics designed for TSP frequently leverage well-established algorithms, such as those for finding the minimum spanning tree. In this paper, we propose leveraging recent advancements in neural algorithmic reasoning to improve the learning of TSP problems. Specifically, we suggest pre-training our neural model on relevant algorithms before training it on TSP instances. Our results demonstrate that, using this learning setup, we achieve superior performance compared to non-algorithmically informed deep learning models.
翻訳日:2023-06-18 13:11:55 公開日:2023-05-18
# chainlet orbits - bitcoinブロックチェーンのためのトポロジカルアドレス埋め込み

Chainlet Orbits: Topological Address Embedding for the Bitcoin Blockchain ( http://arxiv.org/abs/2306.07974v1 )

ライセンス: Link先を確認
Poupak Azad, Baris Coskunuzer, Murat Kantarcioglu, Cuneyt Gurcan Akcora(参考訳) 匿名性のある取引を可能にするBitcoinのような暗号通貨の台頭は、ランサムウェア支払いやダークネット市場での取引など、さまざまな不正行為の急増につながっている。 これらの違法行為は、しばしばBitcoinを好む支払い方法として利用する。 しかし、現在の不正行為を検出するツールは、いくつかのヒューリスティックと精巧なデータ収集プロセスに依存するか、解釈が難しい計算非効率なグラフニューラルネットワーク(GNN)モデルを採用する。 既存の手法の計算可能性と解釈可能性の限界を克服するために,Chainlet Orbitsと呼ばれる効果的な解を導入する。 このアプローチは、トランザクションのトポロジ的特性を活用することで、Bitcoinアドレスを埋め込む。 革新的なアドレス埋め込みを利用することで、不正な振る舞いから生じる特徴的なサブ構造に着目して、Bitcoinネットワークの電子犯罪を調査します。 ノード分類実験の結果、トポロジカルおよびGNNベースのアプローチを含む最先端手法と比較して優れた性能を示した。 さらに、弊社のアプローチでは、Bitcoinトランザクションネットワーク上で、解釈可能で説明可能な機械学習モデルを、ほとんどの場合15分以内で使用できる。

The rise of cryptocurrencies like Bitcoin, which enable transactions with a degree of pseudonymity, has led to a surge in various illicit activities, including ransomware payments and transactions on darknet markets. These illegal activities often utilize Bitcoin as the preferred payment method. However, current tools for detecting illicit behavior either rely on a few heuristics and laborious data collection processes or employ computationally inefficient graph neural network (GNN) models that are challenging to interpret. To overcome the computational and interpretability limitations of existing techniques, we introduce an effective solution called Chainlet Orbits. This approach embeds Bitcoin addresses by leveraging their topological characteristics in transactions. By employing our innovative address embedding, we investigate e-crime in Bitcoin networks by focusing on distinctive substructures that arise from illicit behavior. The results of our node classification experiments demonstrate superior performance compared to state-of-the-art methods, including both topological and GNN-based approaches. Moreover, our approach enables the use of interpretable and explainable machine learning models in as little as 15 minutes for most days on the Bitcoin transaction network.
翻訳日:2023-06-18 12:19:36 公開日:2023-05-18
# 視覚言語モデルが食品のコンポジションコンパイルを促進する

Vision-language models boost food composition compilation ( http://arxiv.org/abs/2306.01747v1 )

ライセンス: Link先を確認
Peihua Ma, Yixin Wu, Ning Yu, Yang Zhang, Michael Backes, Qin Wang, Cheng-I Wei(参考訳) 栄養情報は臨床食実践、精密栄養、食品産業において柱となる役割を担っている。 現在、食品組成物の合成は食品成分情報に基づいて食品栄養情報を推定するための標準パラダイムとなっている。 しかし、このパラダイムでは、従来のアプローチはデータマネージャの経験に精通しており、ダイナミックな消費者市場に追いつくことができず、栄養データや初期の機械学習手法では食品成分のステートメント情報を十分に理解できなかったり、食品イメージの特徴を無視することができなかった。 そこで本研究では,前部包装ラベルと製品画像を用いて,食品組成プロファイルを正確に推定するビジョン言語aiモデルumdfood-vlを開発した。 このような大規模モデルトレーニングを推進するために,これまでで最も包括的なマルチモーダル食品データベースであるumdfood-90kを確立した。 UMDFood-VLモデルは、様々な栄養価推定において、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を著しく上回った。 例えば,脂肪価推定では最大0.921のマクロAUCROCを達成し,食品組成コンパイルの実践要件を満たした。 このパフォーマンスは、他の食品および栄養関連データコンパイルに一般化する光を照らし出し、他の食品応用の進化を触媒した。

Nutrition information plays a pillar role in clinical dietary practice, precision nutrition, and food industry. Currently, food composition compilation serves as a standard paradigm to estimate food nutrition information according to food ingredient information. However, within this paradigm, conventional approaches are laborious and highly dependent on the experience of data managers, they cannot keep pace with the dynamic consumer market and resulting in lagging and missing nutrition data and earlier machine learning methods unable to fully understand food ingredient statement information or ignored the characteristic of food image. To this end, we developed a novel vision-language AI model, UMDFood-VL, using front-of-package labeling and product images to accurately estimate food composition profiles. In order to drive such large model training, we established UMDFood-90k, the most comprehensive multimodal food database to date. The UMDFood-VL model significantly outperformed convolutional neural networks (CNNs) and recurrent neural networks (RNNs) on a variety of nutrition value estimations. For instance, we achieved macro-AUCROC up to 0.921 for fat value estimation, which satisfied the practice requirement of food composition compilation. This performance shed the light to generalize to other food and nutrition-related data compilation and catalyzed the evolution of other food applications.
翻訳日:2023-06-11 14:06:28 公開日:2023-05-18
# プレトレーニングテンソル-トレインネットワークは変動量子回路を用いた機械学習を促進する

Pre-training Tensor-Train Networks Facilitates Machine Learning with Variational Quantum Circuits ( http://arxiv.org/abs/2306.03741v1 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hsiu Hsieh(参考訳) 変分量子回路(VQC)は、ノイズの多い中間スケール量子(NISQ)デバイス上で量子ニューラルネットワークを実装するための有望なアプローチである。 近年の研究では、VQCのテンソルトレインネットワーク(TTN)、すなわちTTN-VQCがVQCの表現と一般化能力を改善することが示されている。 しかし、バレン高原の問題は、キュービット数が増加するにつれてコスト関数の勾配が指数関数的に小さくなり、VQCの最適パラメータを見つけるのが難しくなる。 この問題に対処するため,我々は,TTN-VQCアーキテクチャ上に構築したPre+TTN-VQCという新たな学習手法を,事前学習したTTNを組み込んでバレン高原問題を緩和する。 事前訓練されたTTNは、目標データの効率的な微調整を可能にし、良好な経験的性能を達成するために必要なVQCの深さを低減し、バレン高原の景観によって引き起こされるトレーニング障害を軽減する可能性がある。 さらに,誤り性能解析を利用して,Pre+TTN-VQCの表現と一般化能力の利点を強調した。 さらに,Polyak-Lojasiewicz条件を必要とせずに,Pre+TTN-VQCの最適化性能を特徴付けることにより,NISQデバイスに量子ニューラルネットワークを実装する実用性を向上させる。 提案手法と定理を相関付けるために手書き桁分類データセットの実験を行った。

Variational quantum circuit (VQC) is a promising approach for implementing quantum neural networks on noisy intermediate-scale quantum (NISQ) devices. Recent studies have shown that a tensor-train network (TTN) for VQC, namely TTN-VQC, can improve the representation and generalization powers of VQC. However, the Barren Plateau problem leads to the gradients of the cost function vanishing exponentially small as the number of qubits increases, making it difficult to find the optimal parameters for the VQC. To address this issue, we put forth a new learning approach called Pre+TTN-VQC that builds upon the TTN-VQC architecture by incorporating a pre-trained TTN to alleviate the Barren Plateau problem. The pre-trained TTN allows for efficient fine-tuning of target data, which reduces the depth of the VQC required to achieve good empirical performance and potentially alleviates the training obstacles posed by the Barren Plateau landscape. Furthermore, we highlight the advantages of Pre+TTN-VQC in terms of representation and generalization powers by exploiting the error performance analysis. Moreover, we characterize the optimization performance of Pre+TTN-VQC without the need for the Polyak-Lojasiewicz condition, thereby enhancing the practicality of implementing quantum neural networks on NISQ devices. We conduct experiments on a handwritten digit classification dataset to corroborate our proposed methods and theorems.
翻訳日:2023-06-11 13:37:47 公開日:2023-05-18
# 脳波認識のための時間アウェア混在型コンボリューション・トランスフォーマーネットワーク(MACTN)

Temporal Aware Mixed Attention-based Convolution and Transformer Network (MACTN) for EEG Emotion Recognition ( http://arxiv.org/abs/2305.18234v1 )

ライセンス: Link先を確認
Xiaopeng Si, Dong Huang, Yulin Sun and Dong Ming(参考訳) 感情認識は人間とコンピュータの相互作用において重要な役割を担い、脳波(EEG)は人間の感情状態の反映に有利である。 本研究では,局所的・大域的時間的情報の共同モデリングのための階層型ハイブリッドモデルであるMACTNを提案する。 このモデルは、感情の時間的ダイナミクスに関する神経科学の研究にインスパイアされている。 MACTNは、畳み込みニューラルネットワーク(CNN)を通じて局所的な感情的特徴を抽出し、トランスフォーマーを通じて疎グローバルな感情的特徴を統合する。 さらに,最もタスクにかかわるチャネルを特定するために,チャネルアテンション機構を用いる。 THU-EP と DEAP という2つの公開データセットの広範な実験を通じて,提案手法である MACTN は,多くの実験環境において既存の手法と比較して,常に優れた分類精度とF1スコアを達成している。 さらに、アブレーション研究により、自己注意機構とチャネルアテンション機構の統合により、分類性能が向上することが示されている。 最後に、この方法の初期のバージョンは、同じアイデアを共有しており、2022年の世界ロボットコンテストで感情的BCIコンペティションの最終優勝を飾った。

Emotion recognition plays a crucial role in human-computer interaction, and electroencephalography (EEG) is advantageous for reflecting human emotional states. In this study, we propose MACTN, a hierarchical hybrid model for jointly modeling local and global temporal information. The model is inspired by neuroscience research on the temporal dynamics of emotions. MACTN extracts local emotional features through a convolutional neural network (CNN) and integrates sparse global emotional features through a transformer. Moreover, we employ channel attention mechanisms to identify the most task-relevant channels. Through extensive experimentation on two publicly available datasets, namely THU-EP and DEAP, our proposed method, MACTN, consistently achieves superior classification accuracy and F1 scores compared to other existing methods in most experimental settings. Furthermore, ablation studies have shown that the integration of both self-attention mechanisms and channel attention mechanisms leads to improved classification performance. Finally, an earlier version of this method, which shares the same ideas, won the Emotional BCI Competition's final championship in the 2022 World Robot Contest.
翻訳日:2023-06-04 11:51:38 公開日:2023-05-18
# コンピュータ適応テストにおけるテスト精度とセキュリティのバランス

Balancing Test Accuracy and Security in Computerized Adaptive Testing ( http://arxiv.org/abs/2305.18312v1 )

ライセンス: Link先を確認
Wanyong Feng, Aritra Ghosh, Stephen Sireci, Andrew S. Lan(参考訳) computerized adaptive testing (cat) は、学生の知識レベルを正確に測定し、テスト期間を短縮するパーソナライズドテストの一種である。 双方向最適化ベースのCAT(BOBCAT)は、データ駆動型質問選択アルゴリズムを学習し、テスト長を効果的に削減し、テスト精度を向上させる。 しかし、高い質問の露出とテスト重複率に悩まされており、テストのセキュリティに影響を及ぼす可能性がある。 本稿では,BOBCATの制約付きバージョンを導入し,最適化設定を変更し,テストの精度を問題露出とテスト重複率のトレードオフを可能にする。 C-BOBCATは、2つの実世界のアダルトテストデータセットに対する広範な実験を通じて有効であることを示す。

Computerized adaptive testing (CAT) is a form of personalized testing that accurately measures students' knowledge levels while reducing test length. Bilevel optimization-based CAT (BOBCAT) is a recent framework that learns a data-driven question selection algorithm to effectively reduce test length and improve test accuracy. However, it suffers from high question exposure and test overlap rates, which potentially affects test security. This paper introduces a constrained version of BOBCAT to address these problems by changing its optimization setup and enabling us to trade off test accuracy for question exposure and test overlap rates. We show that C-BOBCAT is effective through extensive experiments on two real-world adult testing datasets.
翻訳日:2023-06-04 11:41:07 公開日:2023-05-18
# ニューラルミツバチコロニー最適化:公共交通網設計における事例研究

Neural Bee Colony Optimization: A Case Study in Public Transit Network Design ( http://arxiv.org/abs/2306.00720v1 )

ライセンス: Link先を確認
Andrew Holliday, Gregory Dudek(参考訳) 本研究では,メタヒューリスティックスとニューラルネットワーク解法を組み合わせた組合せ最適化について検討する。 我々は,実世界の重要度を持つ一意に難しい組合せ最適化問題であるトランジットネットワーク設計問題の文脈でこれを行う。 我々は,個々の交通経路の単発計画を行うためにニューラルネットワークポリシを訓練し,修正蜂コロニー最適化(modified bee colony optimization, bco)メタヒューリスティックアルゴリズムのいくつかのサブヒューリスティックの1つとして組み込む。 実験の結果,このハイブリッドアルゴリズムは,学習ポリシーを最大20%,BCOアルゴリズムを最大53%,現実的な問題を最大53%向上させることがわかった。 修正アルゴリズムの各コンポーネントの影響を調べるために,一連のアブリケーションを実行する。

In this work we explore the combination of metaheuristics and learned neural network solvers for combinatorial optimization. We do this in the context of the transit network design problem, a uniquely challenging combinatorial optimization problem with real-world importance. We train a neural network policy to perform single-shot planning of individual transit routes, and then incorporate it as one of several sub-heuristics in a modified Bee Colony Optimization (BCO) metaheuristic algorithm. Our experimental results demonstrate that this hybrid algorithm outperforms the learned policy alone by up to 20% and the original BCO algorithm by up to 53% on realistic problem instances. We perform a set of ablations to study the impact of each component of the modified algorithm.
翻訳日:2023-06-04 11:01:50 公開日:2023-05-18
# 機械学習を用いたPoincar\eマップの軌道の分類

Classification of Orbits in Poincar\'e Maps using Machine Learning ( http://arxiv.org/abs/2305.13329v1 )

ライセンス: Link先を確認
Chandrika Kamath(参考訳) Poincar\'eプロット(Poincar\'e map)はプラズマ物理学者によってトカマクの数値シミュレーションにおいて磁場に閉じ込められたプラズマの挙動を理解するために用いられる。 これらのプロットは、トカマクを表すトーラスの軸に垂直な2次元の水球面とのフィールド線の交差によって生成される。 プロットは複数の軌道で構成され、それぞれがトーラスの周りを回る異なるフィールド線によって生成される。 各軌道は、プラズマを構成する磁場のトポロジーの変化を示す4つの異なる形状の1つまたはクラスを持つことができる。 軌道を形成する点の(x,y)座標が与えられたとき、分析タスクは、クラスを軌道に割り当てることである。 本稿では,この問題を解決する上での2つの大きな課題を克服する方法について述べる。すなわち,誤ったラベルのついた軌道をほとんど持たない高品質なトレーニングセットの作成と,クラスの軌道内の変化や異なるクラスの軌道間の明らかな類似性にもかかわらず,点の座標を識別する特徴に変換する。 我々の自動的アプローチは、視覚的分類よりも客観的で正確であるだけでなく、退屈ではないため、プラズマ物理学者はトカマクの数値シミュレーションから磁場のトポロジーを解析しやすくなる。

Poincar\'e plots, also called Poincar\'e maps, are used by plasma physicists to understand the behavior of magnetically confined plasma in numerical simulations of a tokamak. These plots are created by the intersection of field lines with a two-dimensional poloidal plane that is perpendicular to the axis of the torus representing the tokamak. A plot is composed of multiple orbits, each created by a different field line as it goes around the torus. Each orbit can have one of four distinct shapes, or classes, that indicate changes in the topology of the magnetic fields confining the plasma. Given the (x,y) coordinates of the points that form an orbit, the analysis task is to assign a class to the orbit, a task that appears ideally suited for a machine learning approach. In this paper, we describe how we overcame two major challenges in solving this problem - creating a high-quality training set, with few mislabeled orbits, and converting the coordinates of the points into features that are discriminating, despite the variation within the orbits of a class and the apparent similarities between orbits of different classes. Our automated approach is not only more objective and accurate than visual classification, but is also less tedious, making it easier for plasma physicists to analyze the topology of magnetic fields from numerical simulations of the tokamak.
翻訳日:2023-05-28 05:12:38 公開日:2023-05-18
# 全体脳データからの低次元ダイナミクス学習によるタスクキャプチャの改善

Learning low-dimensional dynamics from whole-brain data improves task capture ( http://arxiv.org/abs/2305.14369v1 )

ライセンス: Link先を確認
Eloy Geenjaar, Donghyun Kim, Riyasat Ohib, Marlena Duda, Amrit Kashyap, Sergey Plis, Vince Calhoun(参考訳) 脳活動の基盤となる神経動力学は、認知過程や精神障害を理解する上で重要である。 しかし、現在のvoxelベースの全脳次元減少技術は、これらのダイナミクスを捉えるのに足りず、動作タスクに不適切な潜在時系列を生成する。 この問題に対処するために,ニューラル常微分方程式(NODE)を介して潜在力学系を表す逐次変分オートエンコーダ(SVAE)を用いて,ニューラルダイナミクスの低次元近似を学習する新しい手法を提案する。 さらに,従来の手法よりも精度の高い認知過程を予測できるスムースなダイナミクスを見出した。 また, 課題関連脳領域への空間的局在の改善や, fmri 運動課題記録から運動ホマルスなどの既知の構造を同定する。 また、潜在空間への非線形投影は特定のタスクのパフォーマンスを高め、将来の研究に有望な方向を提供する。 我々は,運動,作業記憶,リレーショナル処理タスクなど,さまざまなタスクfMRIデータセットに対するアプローチを評価するとともに,左手や右手のタッピングなどの動作サブタスクの関連性について,広く使われている次元削減技術より優れていることを示す。 さらに、NODEをリカレントニューラルネットワーク(RNN)に置き換え、動的システムを明示的に学習することの重要性を理解するための2つのアプローチを比較する。 最後に, 学習した力学系自体のロバスト性を分析し, その不動点が種子全体にわたって頑健であることを見出し, 認知過程を力学系として解析する手法の可能性を強調した。

The neural dynamics underlying brain activity are critical to understanding cognitive processes and mental disorders. However, current voxel-based whole-brain dimensionality reduction techniques fall short of capturing these dynamics, producing latent timeseries that inadequately relate to behavioral tasks. To address this issue, we introduce a novel approach to learning low-dimensional approximations of neural dynamics by using a sequential variational autoencoder (SVAE) that represents the latent dynamical system via a neural ordinary differential equation (NODE). Importantly, our method finds smooth dynamics that can predict cognitive processes with accuracy higher than classical methods. Our method also shows improved spatial localization to task-relevant brain regions and identifies well-known structures such as the motor homunculus from fMRI motor task recordings. We also find that non-linear projections to the latent space enhance performance for specific tasks, offering a promising direction for future research. We evaluate our approach on various task-fMRI datasets, including motor, working memory, and relational processing tasks, and demonstrate that it outperforms widely used dimensionality reduction techniques in how well the latent timeseries relates to behavioral sub-tasks, such as left-hand or right-hand tapping. Additionally, we replace the NODE with a recurrent neural network (RNN) and compare the two approaches to understand the importance of explicitly learning a dynamical system. Lastly, we analyze the robustness of the learned dynamical systems themselves and find that their fixed points are robust across seeds, highlighting our method's potential for the analysis of cognitive processes as dynamical systems.
翻訳日:2023-05-28 04:51:36 公開日:2023-05-18
# 変圧器と感情分析を用いた株価トレンド予測支援

Support for Stock Trend Prediction Using Transformers and Sentiment Analysis ( http://arxiv.org/abs/2305.14368v1 )

ライセンス: Link先を確認
Harsimrat Kaeley, Ye Qiao, Nader Bagherzadeh(参考訳) 株価トレンド分析は、その収益性と本質的にカオス性から、時系列予測に影響を与えた。 株価の傾向を正確に予測しようとする多くのモデルは、recurrent neural network (rnn)に基づいている。 しかし,本論文では,時系列長の増加に伴い,勾配の消失や長期依存が失われるといった,rnnの限界のために,技術ストックデータと感情分析を用いた変圧器ベースのモデルを開発し,長期間にわたって正確なストックトレンド予測を行う。 本稿では,日刊技術株データと,約3年にわたるトップニュース見出しデータを含む新しいデータセットも紹介する。 技術的データのみに基づく株価予測は、株価指標が市場のニュースを効果的に分解できないことによる遅延に苦しむ可能性がある。 トップ見出しでの感情分析の利用は、ニュース報道による市場状況の予期せぬ変化を説明するのに役立つ。 5 営業日から30 営業日にわたって連続した RNN に対するモデルの性能を測定し,異なる期間の取引戦略を模倣する。 これは、シーケンス長が増加するにつれてRNNの方向精度が向上し、最大の改善は30営業日で18.63%に近づいた。

Stock trend analysis has been an influential time-series prediction topic due to its lucrative and inherently chaotic nature. Many models looking to accurately predict the trend of stocks have been based on Recurrent Neural Networks (RNNs). However, due to the limitations of RNNs, such as gradient vanish and long-term dependencies being lost as sequence length increases, in this paper we develop a Transformer based model that uses technical stock data and sentiment analysis to conduct accurate stock trend prediction over long time windows. This paper also introduces a novel dataset containing daily technical stock data and top news headline data spanning almost three years. Stock prediction based solely on technical data can suffer from lag caused by the inability of stock indicators to effectively factor in breaking market news. The use of sentiment analysis on top headlines can help account for unforeseen shifts in market conditions caused by news coverage. We measure the performance of our model against RNNs over sequence lengths spanning 5 business days to 30 business days to mimic different length trading strategies. This reveals an improvement in directional accuracy over RNNs as sequence length is increased, with the largest improvement being close to 18.63% at 30 business days.
翻訳日:2023-05-28 04:51:08 公開日:2023-05-18
# メタバースにおける意味コミュニケーションとAI生成コンテンツの統合フレームワーク

A Unified Framework for Integrating Semantic Communication and AI-Generated Content in Metaverse ( http://arxiv.org/abs/2305.11911v1 )

ライセンス: Link先を確認
Yijing Lin, Zhipeng Gao, Hongyang Du, Dusit Niyato, Jiawen Kang, Abbas Jamalipour, Xuemin Sherman Shen(参考訳) Metaverseが成長を続けるにつれて、効率的なコミュニケーションとインテリジェントなコンテンツ生成の必要性がますます重要になっている。 セマンティックコミュニケーションはユーザ入力から意味と理解を伝えることに焦点を当て、AI生成コンテンツは人工知能を使用してデジタルコンテンツと体験を作成する。 統合セマンティックコミュニケーションとAI生成コンテンツ(ISGC)は最近多くの注目を集めており、ユーザ入力から意味情報を転送し、デジタルコンテンツを生成し、Metaverseのグラフィックを描画する。 本稿では,isgcの資源割当を最適化するための統合ゲインと,目標指向の高品質コンテンツ生成のための協調ゲインと,コミュニケーションとコンテンツの両方の観点からの没入性を改善するための統合フレームワークを提案する。 また,既存のisgcソリューションを分類し,isgcの主要コンポーネントを分析し,いくつかのユースケースを示す。 次に,拡散モデルに基づくケーススタディを構築し,メタバースにおける意味抽出,コンテンツ生成,グラフィックレンダリングを行うための最適なリソース割当戦略を同定する。 最後に,いくつかのオープン研究課題について議論し,isgcとその関連応用の可能性についてさらに検討する。

As the Metaverse continues to grow, the need for efficient communication and intelligent content generation becomes increasingly important. Semantic communication focuses on conveying meaning and understanding from user inputs, while AI-Generated Content utilizes artificial intelligence to create digital content and experiences. Integrated Semantic Communication and AI-Generated Content (ISGC) has attracted a lot of attentions recently, which transfers semantic information from user inputs, generates digital content, and renders graphics for Metaverse. In this paper, we introduce a unified framework that captures ISGC two primary benefits, including integration gain for optimized resource allocation and coordination gain for goal-oriented high-quality content generation to improve immersion from both communication and content perspectives. We also classify existing ISGC solutions, analyze the major components of ISGC, and present several use cases. We then construct a case study based on the diffusion model to identify an optimal resource allocation strategy for performing semantic extraction, content generation, and graphic rendering in the Metaverse. Finally, we discuss several open research issues, encouraging further exploring the potential of ISGC and its related applications in the Metaverse.
翻訳日:2023-05-24 02:16:00 公開日:2023-05-18
# 配列依存酵素反応の理解のための解釈可能なニューラルアーキテクチャ探索と伝達学習

Interpretable neural architecture search and transfer learning for understanding sequence dependent enzymatic reactions ( http://arxiv.org/abs/2305.11917v1 )

ライセンス: Link先を確認
Zijun Zhang, Adam R. Lamson, Michael Shelley, Olga Troyanskaya(参考訳) 微細に調整された酵素経路は細胞過程を制御し、その解離は疾患を引き起こす。 これらの経路の予測および解釈可能なモデルの作成は、経路の複雑さと、細胞およびゲノムのコンテキストのため困難である。 本稿では,これらの課題を解決する深層学習フレームワークであるelektrumについて紹介する。 まず、in vitroの速度論的アッセイを用いて、反応速度を予測する高品質のKinetically Interpretable Neural Networks(KINN)のアンサンブルを迅速に仮説化します。 次に、新たなトランスファー学習ステップを採用し、キンを中間層として深い畳み込みニューラルネットワークに挿入し、反応依存性のin vivo結果の予測を微調整する。 elektrumは、限られた、しかしクリーンなin vitroデータと、細胞内のコンテキストをキャプチャする、ノイズの多い、しかし豊富なin vivoデータを有効に利用します。 我々は、Eektrumを用いてCRISPR-Cas9オフターゲット編集確率を予測し、Eektrumが最先端のパフォーマンスを実現し、ニューラルネットワークアーキテクチャを標準化し、物理的解釈可能性を維持することを示す。

Finely-tuned enzymatic pathways control cellular processes, and their dysregulation can lead to disease. Creating predictive and interpretable models for these pathways is challenging because of the complexity of the pathways and of the cellular and genomic contexts. Here we introduce Elektrum, a deep learning framework which addresses these challenges with data-driven and biophysically interpretable models for determining the kinetics of biochemical systems. First, it uses in vitro kinetic assays to rapidly hypothesize an ensemble of high-quality Kinetically Interpretable Neural Networks (KINNs) that predict reaction rates. It then employs a novel transfer learning step, where the KINNs are inserted as intermediary layers into deeper convolutional neural networks, fine-tuning the predictions for reaction-dependent in vivo outcomes. Elektrum makes effective use of the limited, but clean in vitro data and the noisy, yet plentiful in vivo data that captures cellular context. We apply Elektrum to predict CRISPR-Cas9 off-target editing probabilities and demonstrate that Elektrum achieves state-of-the-art performance, regularizes neural network architectures, and maintains physical interpretability.
翻訳日:2023-05-24 02:02:36 公開日:2023-05-18
# $\mathbb{R}$-smooth Banach空間における非線形方程式のPINN誤差推定

PINNs error estimates for nonlinear equations in $\mathbb{R}$-smooth Banach spaces ( http://arxiv.org/abs/2305.11915v1 )

ライセンス: Link先を確認
Jiexing Gao, Yurii Zakharian(参考訳) 本稿では,PINNの誤差推定を許容するPDEの演算型クラスについて述べる。 また、$L^p$空間に対して、PINNの残差境界のツールであるブランブル・ヒルベルト型補題を得る。

In the paper, we describe in operator form classes of PDEs that admit PINN's error estimation. Also, for $L^p$ spaces, we obtain a Bramble-Hilbert type lemma that is a tool for PINN's residuals bounding.
翻訳日:2023-05-24 02:01:56 公開日:2023-05-18
# スパースリモートセンシングデータを用いた位相分解型非線形海面高度再構成のための機械学習

Machine learning for phase-resolved reconstruction of nonlinear ocean wave surface elevations from sparse remote sensing data ( http://arxiv.org/abs/2305.11913v1 )

ライセンス: Link先を確認
Svenja Ehlers, Marco Klein, Alexander Heinlein, Mathies Wedler, Nicolas Desmars, Norbert Hoffmann, Merten Stender(参考訳) 相分解水波の正確な短期予測は海洋工学における意思決定に不可欠である。 しかし、リモートセンシングに基づく波動予測モデルの初期化は、まずレーダーのような粗い測定から波面を再構築する必要がある。 既存の再構築手法は計算集約的な最適化手順に依存するか、予測プロセス全体のリアルタイム能力や精度を損なう単純なモデリングの仮定に依存する。 そこで我々は,U-Net と Fourier Neural operator (FNO) アーキテクチャに基づくニューラルネットワークを用いた位相分解波面再構成手法を提案する。 本手法は,波動シミュレーションのための高次スペクトル法と幾何学的レーダモデルによる一次元格子の合成的かつ高現実的なトレーニングデータを利用する。 調査の結果,両モデルとも正確な波動再構成結果が得られ,各入力に複数の歴史的レーダスナップショットを含む時空間レーダデータを用いて訓練すると,異なる海状態に対して良好な一般化が得られた。 特に、FNOベースのネットワークは、入力と所望の出力のマッピングをフーリエ空間で学習するためのグローバルアプローチにより、波動物理学によって課されるデータ構造を扱う上で、より優れた性能を発揮する。

Accurate short-term prediction of phase-resolved water wave conditions is crucial for decision-making in ocean engineering. However, the initialization of remote-sensing-based wave prediction models first requires a reconstruction of wave surfaces from sparse measurements like radar. Existing reconstruction methods either rely on computationally intensive optimization procedures or simplistic modeling assumptions that compromise real-time capability or accuracy of the entire prediction process. We therefore address these issues by proposing a novel approach for phase-resolved wave surface reconstruction using neural networks based on the U-Net and Fourier neural operator (FNO) architectures. Our approach utilizes synthetic yet highly realistic training data on uniform one-dimensional grids, that is generated by the high-order spectral method for wave simulation and a geometric radar modeling approach. The investigation reveals that both models deliver accurate wave reconstruction results and show good generalization for different sea states when trained with spatio-temporal radar data containing multiple historic radar snapshots in each input. Notably, the FNO-based network performs better in handling the data structure imposed by wave physics due to its global approach to learn the mapping between input and desired output in Fourier space.
翻訳日:2023-05-24 02:01:52 公開日:2023-05-18
# どんな症状で どれくらいの期間? ソーシャルメディアにおける抑うつ検出のための解釈可能なAIアプローチ

What Symptoms and How Long? An Interpretable AI Approach for Depression Detection in Social Media ( http://arxiv.org/abs/2305.13127v1 )

ライセンス: Link先を確認
Junwei Kuang, Jiaheng Xie and Zhijun Yan(参考訳) うつ病は最も広く重篤な精神疾患であり、経済的にも社会的にも大きな影響をもたらす。 抑うつ検出は、これらの影響を緩和するための早期介入の鍵である。 このような高い判断は本質的には解釈可能性を必要とします。 この意思決定における人間の専門知識を結合し、エンドユーザーからの信頼を守り、アルゴリズムの透明性を確保するため、我々は解釈可能な深層学習モデルであるマルチスケールテンポラルプロトタイプネットワーク(MSTPNet)を開発した。 mstpnetは創発的なプロトタイプ学習手法に基づいている。 抑うつ診断の医学的実践に合わせて、mstpnetは既存のプロトタイプ学習モデルと異なり、抑うつ症状を捉える能力と、頻度や外観の持続性といった時間的分布を捉えている。 実世界のソーシャルメディアデータを用いた大規模な実験分析により、MSTPNetはうつ病検出における最先端のベンチマークを0.851のF1スコアで上回ります。 さらに、MSTPNetは、ユーザが提示するうつ症状と関連する症状がいつまで続くかを特定することで、予測を解釈する。 さらに,このベンチマークの解釈性に対する優位性を示すために,ユーザ調査を行った。 本研究は,ソーシャルメディアにおける抑うつ検出のための新しい解釈可能な深層学習モデルを用いて,既存の文献に寄与する。 提案手法は,うつ病とその症状を検出するソーシャルメディアプラットフォームに実装することができる。 プラットフォームはその後、教育や支援ビデオや記事などのパーソナライズされたオンラインリソースや、うつ病患者に対する治療やソーシャルサポートのソースを提供することができる。

Depression is the most prevalent and serious mental illness, which induces grave financial and societal ramifications. Depression detection is key for early intervention to mitigate those consequences. Such a high-stake decision inherently necessitates interpretability, which most existing methods fall short of. To connect human expertise in this decision-making, safeguard trust from end users, and ensure algorithm transparency, we develop an interpretable deep learning model: Multi-Scale Temporal Prototype Network (MSTPNet). MSTPNet is built upon the emergent prototype learning methods. In line with the medical practice of depression diagnosis, MSTPNet differs from existing prototype learning models in its capability of capturing the depressive symptoms and their temporal distribution such as frequency and persistence of appearance. Extensive empirical analyses using real-world social media data show that MSTPNet outperforms state-of-the-art benchmarks in depression detection, with an F1-score of 0.851. Moreover, MSTPNet interprets its prediction by identifying what depression symptoms the user presents and how long these related symptoms last. We further conduct a user study to demonstrate its superiority over the benchmarks in interpretability. Methodologically, this study contributes to extant literature with a novel interpretable deep learning model for depression detection in social media. Our proposed method can be implemented in social media platforms to detect depression and its symptoms. Platforms can subsequently provide personalized online resources such as educational and supporting videos and articles, or sources for treatments and social support for depressed patients.
翻訳日:2023-05-23 14:56:37 公開日:2023-05-18
# キャビティモード工学による超強磁性光-マター相互作用

Ultrastrong magnetic light-matter interaction with cavity mode engineering ( http://arxiv.org/abs/2108.13266v2 )

ライセンス: Link先を確認
Hyeongrak Choi, Dirk Englund(参考訳) 光子と双極子の磁気相互作用は、電子、センシング、分光、量子コンピューティングにおいて不可欠である。 しかし、その弱い強度は、しばしば共振器が光子を閉じ込め保存する必要がある。 本稿では、超小型モード容積と超高品質係数を有する共振器を作製するモード工学的手法を提案する。 特に,品質因子の低下を最小限に抑えながら,材料や製造に限定された任意に小さいモードボリュームを実現することが可能であることを示す。 トレードオフ空間におけるモードエンジニアリングキャビティを比較し、磁気相互作用が自由空間と比較して10〜16ドル以上強化可能であることを示す。 ダイヤモンド窒素空孔スピンのアンサンブルを用いた原理実証実験は, 理論的予測とよく一致している。 これらの手法は、量子コンピューティングやコンパクト電子常磁性共鳴センサにおける高共役マイクロ波-スピンカップリングからダークマター探索のような基礎科学への新しい応用を可能にする。

Magnetic interaction between photons and dipoles is essential in electronics, sensing, spectroscopy, and quantum computing. However, its weak strength often requires resonators to confine and store the photons. Here, we present mode engineering techniques to create resonators with ultrasmall mode volume and ultrahigh quality factor. In particular, we show that it is possible to achieve an arbitrarily small mode volume only limited by materials or fabrication with minimal quality-factor degradation. We compare mode-engineered cavities in a trade-off space and show that the magnetic interaction can be strengthened more than $10^{16}$ times compared to free space. Proof-of-principles experiments using an ensemble of diamond nitrogen-vacancy spins show good agreement with our theoretical predictions. These methods enable new applications from high-cooperativity microwave-spin coupling in quantum computing or compact electron paramagnetic resonance sensors to fundamental science such as dark matter searches.
翻訳日:2023-05-22 20:22:26 公開日:2023-05-18
# 群衆からの半検証PAC学習

Semi-verified PAC Learning from the Crowd ( http://arxiv.org/abs/2106.07080v3 )

ライセンス: Link先を確認
Shiwei Zeng and Jie Shen(参考訳) 閾値関数のクラウドソーシングpac学習の問題点について検討する。 これは難しい問題であり、労働者の顕著な割合が完璧であると仮定して、クエリ効率のアルゴリズムが最近確立された。 本研究では, 多数派が逆向きに行動し, 残りがマスアートノイズとして振る舞う, 完全性仮定の顕著な一般化について検討する。 また,Charikar et al. (2017) の<semi-verified model} の下では,常に正しいアノテーションを返却する信頼できる託宣者へのアクセスが制限されているため,PAC が基礎となる仮説クラスを大量のラベルクエリで学習することが可能であることを示す。 さらに,ラベリングコストは,より簡単に得られる比較クエリによって大幅に低減できることを示す。 我々のPACは、データ分散の前提に大きく依存する半検証またはリスト記述可能な学習における最近の発展に対して、群衆の知恵を探求することで保証します。

We study the problem of crowdsourced PAC learning of threshold functions. This is a challenging problem and only recently have query-efficient algorithms been established under the assumption that a noticeable fraction of the workers are perfect. In this work, we investigate a more challenging case where the majority may behave adversarially and the rest behave as the Massart noise - a significant generalization of the perfectness assumption. We show that under the {semi-verified model} of Charikar et al. (2017), where we have (limited) access to a trusted oracle who always returns correct annotations, it is possible to PAC learn the underlying hypothesis class with a manageable amount of label queries. Moreover, we show that the labeling cost can be drastically mitigated via the more easily obtained comparison queries. Orthogonal to recent developments in semi-verified or list-decodable learning that crucially rely on data distributional assumptions, our PAC guarantee holds by exploring the wisdom of the crowd.
翻訳日:2023-05-22 20:22:12 公開日:2023-05-18
# NVMクロスバー上の逆学習ネットワークの雑音安定性とロバスト性について

On the Noise Stability and Robustness of Adversarially Trained Networks on NVM Crossbars ( http://arxiv.org/abs/2109.09060v2 )

ライセンス: Link先を確認
Chun Tao, Deboleena Roy, Indranil Chakraborty, Kaushik Roy(参考訳) ディープニューラルネットワーク(DNN)に基づくアプリケーションは、過去10年間で指数関数的に増加している。 計算要求の増大に合わせて、いくつかの非揮発性メモリ(NVM)クロスバーベースのアクセラレータが提案されている。 近年、研究者らはエネルギー効率と性能の向上に加えて、このような近似ハードウェアは敵対的攻撃に対する防御に本質的な堅牢性を持っていることを示した。 以前の研究では、未摂動入力で訓練されたバニラDNNの本質的なロバスト性を定量化していた。 しかし、DNNの逆行訓練はロバスト性のベンチマーク手法であり、ハードウェア固有のロバスト性のみに依存するだけでは不十分である。 本研究では,nvmクロスバー型アナログハードウェアの逆訓練と本質的ロバストネスの融合により,ロバストなdnnの設計を検討する。 まず,そのようなネットワークの非摂動入力におけるノイズ安定性について検討し,逆訓練ネットワークの内部アクティベーションがsnr(signal-to-noise ratio)が低く,バニラネットワークに比べてノイズに敏感であることを観察する。 その結果,アナログハードウェア上での近似計算により,平均2倍の性能劣化が生じた。 騒音安定性解析は, 対向訓練DNNの不安定性を示す。 一方、正方形のブラックボックス攻撃で生成した敵画像に対しては、CIFAR-10/100で訓練されたResNet-10/20は、20-30%の堅牢性向上を示す。 Projected-Gradient-Descent (PGD) White-Box攻撃によって生成された敵画像に対して、逆向きに訓練されたDNNは、$\epsilon_{ attack}$が$\epsilon_{train}$より大きい場合、基盤となるNVMクロスバーによる堅牢な精度が5-10%向上する。 その結果,アナログハードウェア上での対向学習ネットワークの実装には,ハードウェアの非理想性と$\epsilon_{train}$の厳密なキャリブレーションが必要であることがわかった。

Applications based on Deep Neural Networks (DNNs) have grown exponentially in the past decade. To match their increasing computational needs, several Non-Volatile Memory (NVM) crossbar based accelerators have been proposed. Recently, researchers have shown that apart from improved energy efficiency and performance, such approximate hardware also possess intrinsic robustness for defense against adversarial attacks. Prior works quantified this intrinsic robustness for vanilla DNNs trained on unperturbed inputs. However, adversarial training of DNNs is the benchmark technique for robustness, and sole reliance on intrinsic robustness of the hardware may not be sufficient. In this work, we explore the design of robust DNNs through the amalgamation of adversarial training and intrinsic robustness of NVM crossbar-based analog hardware. First, we study the noise stability of such networks on unperturbed inputs and observe that internal activations of adversarially trained networks have lower Signal-to-Noise Ratio (SNR), and are sensitive to noise compared to vanilla networks. As a result, they suffer on average 2x performance degradation due to the approximate computations on analog hardware. Noise stability analyses show the instability of adversarially trained DNNs. On the other hand, for adversarial images generated using Square Black Box attacks, ResNet-10/20 adversarially trained on CIFAR-10/100 display a robustness gain of 20-30%. For adversarial images generated using Projected-Gradient-Descent (PGD) White-Box attacks, adversarially trained DNNs present a 5-10% gain in robust accuracy due to underlying NVM crossbar when $\epsilon_{attack}$ is greater than $\epsilon_{train}$. Our results indicate that implementing adversarially trained networks on analog hardware requires careful calibration between hardware non-idealities and $\epsilon_{train}$ for optimum robustness and performance.
翻訳日:2023-05-22 20:10:04 公開日:2023-05-18
# 新型コロナウイルスの感染拡大で高所得国向け郵便番号のビジネスが急減

Businesses in high-income zip codes often saw sharper visit reductions during the COVID-19 pandemic ( http://arxiv.org/abs/2206.11987v2 )

ライセンス: Link先を確認
Aditya Kulkarni, Min Kim, Joydeep Bhattacharya, Jayanta Bhattacharya(参考訳) 新型コロナウイルスのパンデミックが広がるにつれ、世界中の人々の移動パターンは大きく変化した。 移動時間や費用、旅行の便利さは常にモビリティに影響を与えてきたが、感染リスクや外出禁止や外出禁止などの政策行動が、位置観察計算において考慮すべき新たな要因として現れた。 米国ミネソタ州のSafeGraphモビリティデータを使って、裕福なジップコードにある企業(特に屋内訪問が必要)が、ロックダウン期間外(パンデミック前)の訪問を、貧しい企業よりも大幅に削減したことを実証しています。 訪問が販売に翻訳される程度では、パンデミック後のリカバリ努力は救援資金の優先であり、減少する訪問に関する損失を念頭に置いておくべきだと主張する。

As the COVID-19 pandemic unfolded, the mobility patterns of people worldwide changed drastically. While travel time, costs, and trip convenience have always influenced mobility, the risk of infection and policy actions such as lockdowns and stay-at-home orders emerged as new factors to consider in the location-visitation calculus. We use SafeGraph mobility data from Minnesota, USA, to demonstrate that businesses (especially those requiring extended indoor visits) located in affluent zip codes witnessed sharper reductions in visits (relative to pre-pandemic times) outside of the lockdown periods than their poorer counterparts. To the extent visits translate into sales, we contend that post-pandemic recovery efforts should prioritize relief funding, keeping the losses relating to diminished visits in mind.
翻訳日:2023-05-22 20:02:29 公開日:2023-05-18
# マルチエージェントダイナミクスの確率論的対称性

Probabilistic Symmetry for Multi-Agent Dynamics ( http://arxiv.org/abs/2205.01927v3 )

ライセンス: Link先を確認
Sophia Sun, Robin Walters, Jinxi Li, Rose Yu(参考訳) マルチエージェントダイナミクスの学習は、ロボット工学や自律運転における幅広い応用において、コアAI問題である。 既存の作品の多くは決定論的予測に重点を置いているが、不確実性を定量化しリスクを評価する確率的予測を作成することは、モーションプランニングや衝突回避といった下流の意思決定タスクにとって重要である。 マルチエージェント力学はしばしば内部対称性を含む。 対称性、特に回転平衡を利用することで、予測精度だけでなく不確かさの校正も改善できる。 適切なスコアルールであるエネルギースコアを導入し,確率的予測を評価する。 本稿では,多エージェント軌道の確率論的予測のための新しい動的モデルである確率的同変連続共進化(PECCO)を提案する。 peccoは同変連続畳み込みを拡張し、複数のエージェントの結合速度分布をモデル化する。 速度から位置への不確実性を伝達するためにダイナミクス統合を使用する。 合成データセットと実世界のデータセットの両方において、PECCOは非同変ベースラインに比べて精度とキャリブレーションが大幅に向上した。

Learning multi-agent dynamics is a core AI problem with broad applications in robotics and autonomous driving. While most existing works focus on deterministic prediction, producing probabilistic forecasts to quantify uncertainty and assess risks is critical for downstream decision-making tasks such as motion planning and collision avoidance. Multi-agent dynamics often contains internal symmetry. By leveraging symmetry, specifically rotation equivariance, we can improve not only the prediction accuracy but also uncertainty calibration. We introduce Energy Score, a proper scoring rule, to evaluate probabilistic predictions. We propose a novel deep dynamics model, Probabilistic Equivariant Continuous COnvolution (PECCO) for probabilistic prediction of multi-agent trajectories. PECCO extends equivariant continuous convolution to model the joint velocity distribution of multiple agents. It uses dynamics integration to propagate the uncertainty from velocity to position. On both synthetic and real-world datasets, PECCO shows significant improvements in accuracy and calibration compared to non-equivariant baselines.
翻訳日:2023-05-22 20:01:17 公開日:2023-05-18
# 量子ディスクの古典光学アナローグ

Classical Optical Analogue of Quantum Discord ( http://arxiv.org/abs/2205.00088v2 )

ライセンス: Link先を確認
Jacob M. Leamer, Wenlei Zhang, Nicholas J. Savino, Ravi K. Saripalli, Sanjaya Lohani, Ryan T. Glasser, Denys I. Bondar(参考訳) 量子不協和は量子エンタングルメントに加え、量子優位のための資源であることが示されている。 多くの実験はエンタングルメントの古典的な類似性を示しているが、ディスコードではそうしていない。 本稿では、2つの量子ビットの状態とラゲール・ガウスビームの空間モードの類似性を利用した古典光を用いて量子ディスコの古典的アナログを作成するための概念実証を行う。 本手法は, 理論シミュレーションの強度プロファイルと, ディスコード値の異なる実験結果との比較により, 妥当性を示す。 このような古典的な量子不協和のアナログは、不協和を利用する量子情報技術の理解と発展に関するさらなる洞察を与えるかもしれない。

Quantum discord has been shown to be a resource for quantum advantage in addition to quantum entanglement. While many experiments have demonstrated classical analogies of entanglement, none have done so for discord. We present a proof-of-concept demonstration for creating a classical analogue of quantum discord using classical light that takes advantage of the analogy between the state of two qubits and the spatial modes of a Laguerre-Gauss beam. We demonstrate the validity of this approach by comparing the intensity profiles of theoretical simulations to experimental results for different values of discord. Such a classical analogue of quantum discord may provide further insight in understanding and development of quantum information technologies that make use of discord.
翻訳日:2023-05-22 20:01:05 公開日:2023-05-18
# 窒素空洞中心と光メカニクスを用いた室温量子リピータの提案

Proposal for room-temperature quantum repeaters with nitrogen-vacancy centers and optomechanics ( http://arxiv.org/abs/2203.06611v2 )

ライセンス: Link先を確認
Jia-Wei Ji, Yu-Feng Wu, Stephen C. Wein, Faezeh Kimiaee Asadi, Roohollah Ghobadi, and Christoph Simon(参考訳) 環境条件下で動作可能な量子リピータアーキテクチャを提案する。 提案手法は, 室温でも良好なスピンコヒーレンス時間を有する窒素空孔中心と, フォノン関連デコヒーレンスを回避し, 発光光子をテレコムバンド内に配置できる光力学に基づく非低温スピン光子界面への最近の進展を基盤としている。 本研究では、光子数分解法を用いて、2つの遠隔電子スピン間の絡み合いの忠実度と効率を定量化する。 電子スピンと核スピンを含む操作を準決定論的に置き換えることで核スピンに格納し、長距離に拡張する方法について述べる。 さらに,スピン-オプトメカニクスインタフェースを用いて室温でのスピン状態の高忠実な読み出しを実現する手法を提案する。 我々の研究は、室温で作動する固体成分からなる長距離量子ネットワークが、現在の技術能力の範囲内にあることを示している。

We propose a quantum repeater architecture that can operate under ambient conditions. Our proposal builds on recent progress towards non-cryogenic spin-photon interfaces based on nitrogen-vacancy centers, which have excellent spin coherence times even at room temperature, and optomechanics, which allows to avoid phonon-related decoherence and also allows the emitted photons to be in the telecom band. We apply the photon number decomposition method to quantify the fidelity and the efficiency of entanglement established between two remote electron spins. We describe how the entanglement can be stored in nuclear spins and extended to long distances via quasi-deterministic entanglement swapping operations involving the electron and nuclear spins. We furthermore propose schemes to achieve high-fidelity readout of the spin states at room temperature using the spin-optomechanics interface. Our work shows that long-distance quantum networks made of solid-state components that operate at room temperature are within reach of current technological capabilities.
翻訳日:2023-05-22 20:00:52 公開日:2023-05-18
# 神経積分方程式

Neural Integral Equations ( http://arxiv.org/abs/2209.15190v4 )

ライセンス: Link先を確認
Emanuele Zappala, Antonio Henrique de Oliveira Fonseca, Josue Ortega Caro and David van Dijk(参考訳) 積分方程式 (IE) は非局所相互作用を持つ時空間系をモデル化する方程式である。 彼らは物理学、化学、生物学、工学など理論および応用科学において重要な応用を見出した。 与えられたIEを解くための効率的なアルゴリズムはあるが、IEとその関連するダイナミクスをデータだけで学ぶ方法はない。 本稿では,未知の積分演算子をIEソルバを通じてデータから学習する手法であるNeural Integral Equations (NIE)を紹介する。 また,意図的ニューラル積分方程式(ANIE)を導入し,その積分を自己認識に置き換えることで,拡張性,キャパシティ,解釈可能なモデルを実現する。 A)NIEは、ODE、PDE、IEシステムにおける複数のベンチマークタスクにおいて、合成および実世界のデータの速度と精度において、他の手法よりも優れていることを示す。

Integral equations (IEs) are equations that model spatiotemporal systems with non-local interactions. They have found important applications throughout theoretical and applied sciences, including in physics, chemistry, biology, and engineering. While efficient algorithms exist for solving given IEs, no method exists that can learn an IE and its associated dynamics from data alone. In this paper, we introduce Neural Integral Equations (NIE), a method that learns an unknown integral operator from data through an IE solver. We also introduce Attentional Neural Integral Equations (ANIE), where the integral is replaced by self-attention, which improves scalability, capacity, and results in an interpretable model. We demonstrate that (A)NIE outperforms other methods in both speed and accuracy on several benchmark tasks in ODE, PDE, and IE systems of synthetic and real-world data.
翻訳日:2023-05-22 19:42:56 公開日:2023-05-18
# 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として

On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator ( http://arxiv.org/abs/2209.05042v2 )

ライセンス: Link先を確認
Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao(参考訳) ポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。 これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。 しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。 本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。 まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。 我々の中核的な成果の1つは、観測可能な場合のdLQRの定常点の特異性であり、ポリシー勾配法を用いて動的コントローラを解くための最適性証明を提供する。 さらに、dLQRと線形二次ガウス制御が等価である条件を確立し、決定論的および確率的線形系の最適制御の統一的な視点を提供する。 これらの結果は、部分的に観測された情報を含むより一般的な意思決定問題に対するポリシー勾配アルゴリズムの設計に光を当てた。

The convergence of policy gradient algorithms hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. One of our core results is the uniqueness of the stationary point of dLQR when it is observable, which provides an optimality certificate for solving dynamic controllers using policy gradient methods. Moreover, we establish conditions under which dLQR and linear quadratic Gaussian control are equivalent, thus providing a unified viewpoint of optimal control of both deterministic and stochastic linear systems. These results further shed light on designing policy gradient algorithms for more general decision-making problems with partially observed information.
翻訳日:2023-05-22 19:42:16 公開日:2023-05-18
# soda: がん研究のための健康の社会的決定要因を抽出するための自然言語処理パッケージ

SODA: A Natural Language Processing Package to Extract Social Determinants of Health for Cancer Studies ( http://arxiv.org/abs/2212.03000v2 )

ライセンス: Link先を確認
Zehao Yu, Xi Yang, Chong Dang, Prakash Adekkanattu, Braja Gopal Patra, Yifan Peng, Jyotishman Pathak, Debbie L. Wilson, Ching-Yuan Chang, Wei-Hsuan Lo-Ciganic, Thomas J. George, William R. Hogan, Yi Guo, Jiang Bian, Yonghui Wu(参考訳) 目的: がん患者に対する社会的決定因子(SDoH)を抽出するための事前学習型トランスフォーマーモデルを用いて, オープンソース自然言語処理(NLP)パッケージであるSODA(Social DeterminAnts)を開発し, 新しい疾患領域(オピオイド使用)へのSODAの一般化可能性を検討すること, がん集団を用いたSDoHの抽出率を評価することを目的とする。 方法:sdoh分類と属性を同定し,一般がんコホートからの臨床ノートを用いたsdohコーパスを開発した。 SDoHを抽出するために4つのトランスフォーマーベースNLPモデルを比較し,オピオイドを処方した患者のコホートとNLPモデルの一般化性を検討した。 乳癌(n=7,971),肺(n=11,804),大腸癌(n=6,240)コホートから19種類のSDoHを抽出した。 結果と結論: SDoHの19カテゴリから13,193のSDoH概念/属性の注釈を付した629名のがん患者のコーパスを作成した。 変換器(BERT)モデルによる双方向エンコーダ表現は,SDoH概念抽出において0.9216,0.9441,属性をSDoH概念にリンクする0.9617,0.9626の厳密/高信頼F1スコアを達成した。 オピオイド患者からの新しいアノテーションを用いてNLPモデルを微調整し、厳密/高信頼F1スコアを0.8172/0.8502から0.8312/0.8679に改善した。 19種類のSDoHの抽出率は, がん患者の70%から10個のSDoHを抽出できるが, 9個のSDoHは低抽出率(がん患者の70%)であった。 事前トレーニングされたトランスフォーマーモデルを備えたSODAパッケージはhttps://github.com/uf-hobiinformatics-lab/SDoH_SODAで公開されている。

Objective: We aim to develop an open-source natural language processing (NLP) package, SODA (i.e., SOcial DeterminAnts), with pre-trained transformer models to extract social determinants of health (SDoH) for cancer patients, examine the generalizability of SODA to a new disease domain (i.e., opioid use), and evaluate the extraction rate of SDoH using cancer populations. Methods: We identified SDoH categories and attributes and developed an SDoH corpus using clinical notes from a general cancer cohort. We compared four transformer-based NLP models to extract SDoH, examined the generalizability of NLP models to a cohort of patients prescribed with opioids, and explored customization strategies to improve performance. We applied the best NLP model to extract 19 categories of SDoH from the breast (n=7,971), lung (n=11,804), and colorectal cancer (n=6,240) cohorts. Results and Conclusion: We developed a corpus of 629 cancer patients notes with annotations of 13,193 SDoH concepts/attributes from 19 categories of SDoH. The Bidirectional Encoder Representations from Transformers (BERT) model achieved the best strict/lenient F1 scores of 0.9216 and 0.9441 for SDoH concept extraction, 0.9617 and 0.9626 for linking attributes to SDoH concepts. Fine-tuning the NLP models using new annotations from opioid use patients improved the strict/lenient F1 scores from 0.8172/0.8502 to 0.8312/0.8679. The extraction rates among 19 categories of SDoH varied greatly, where 10 SDoH could be extracted from >70% of cancer patients, but 9 SDoH had a low extraction rate (<70% of cancer patients). The SODA package with pre-trained transformer models is publicly available at https://github.com/uf-hobiinformatics-lab/SDoH_SODA.
翻訳日:2023-05-22 19:35:06 公開日:2023-05-18
# 投機復号による変圧器からの高速推論

Fast Inference from Transformers via Speculative Decoding ( http://arxiv.org/abs/2211.17192v2 )

ライセンス: Link先を確認
Yaniv Leviathan, Matan Kalman, Yossi Matias(参考訳) トランスフォーマーのような大規模な自己回帰モデルからの推論は、kトークンのスローデコードである。 本研究では,複数のトークンを並列に計算することで,自動回帰モデルから高速にサンプリングするアルゴリズムである投機的復号化を導入する。 提案手法の核心にあるのは,(1)ハード言語モデリングタスクには,より効率的なモデルによって適切に近似できる簡単なサブタスクが含まれていること,(2)投機的実行と新しいサンプリング手法を用いることで,近似モデルの出力に対して並列に実行し,複数のトークンを同時に生成し,分散を変更することなく,大規模モデルからの正確な復号を高速に行えることにある。 本手法は,既存のオフ・ザ・棚モデルを再トレーニングやアーキテクチャ変更なしに高速化することができる。 我々は、T5-XXL上でこれを実証し、2X-3Xの加速度を標準のT5X実装と比較した。

Inference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial runs of the model. In this work we introduce speculative decoding - an algorithm to sample from autoregressive models faster without any changes to the outputs, by computing several tokens in parallel. At the heart of our approach lie the observations that (1) hard language-modeling tasks often include easier subtasks that can be approximated well by more efficient models, and (2) using speculative execution and a novel sampling method, we can make exact decoding from the large models faster, by running them in parallel on the outputs of the approximation models, potentially generating several tokens concurrently, and without changing the distribution. Our method can accelerate existing off-the-shelf models without retraining or architecture changes. We demonstrate it on T5-XXL and show a 2X-3X acceleration compared to the standard T5X implementation, with identical outputs.
翻訳日:2023-05-22 19:34:08 公開日:2023-05-18
# テキスト生成のためのモデルベース評価指標の盲点について

On the Blind Spots of Model-Based Evaluation Metrics for Text Generation ( http://arxiv.org/abs/2212.10020v3 )

ライセンス: Link先を確認
Tianxing He, Jingyu Zhang, Tianle Wang, Sachin Kumar, Kyunghyun Cho, James Glass, Yulia Tsvetkov(参考訳) 本研究では,テキスト生成評価指標のロバスト性分析のための有用だがしばしば無視される手法,すなわち合成データを用いたストレステストについて検討する。 基本的に、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。 本稿では,最近提案されている言語モデルに基づく評価指標について,オープンエンド生成,翻訳,要約の課題について検討する。 私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。 例えば、BERTScoreは、要約におけるトランケーションエラーと混同されており、MAUVE(GPT-2上に構築されている)は、世代の初期または中期のエラーに敏感である。 さらに,これらの盲点の背後にある理由を調査し,テキスト生成の信頼性を高めるための実践的回避策を提案する。 私たちはコードとデータをhttps://github.com/cloudygoose/blindspot_nlgでリリースした。

In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore is confused by truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning or middle of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation. We have released our code and data at https://github.com/cloudygoose/blindspot_nlg.
翻訳日:2023-05-22 19:25:38 公開日:2023-05-18
# テキスト型パーソナリティコンピューティングの課題と今後の方向性

On Text-based Personality Computing: Challenges and Future Directions ( http://arxiv.org/abs/2212.06711v3 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, Laura Boeschoten, Erik-Jan van Kesteren, Mahdi Shafiee Kamalabad, Daniel L Oberski(参考訳) テキストベースパーソナリティコンピューティング(tpc)はnlpで多くの研究関心を集めている。 本稿では,研究コミュニティの注意を喚起する15の課題について述べる。 これらの課題は、パーソナリティ分類、測定品質、データセット、パフォーマンス評価、モデリング選択、倫理と公平性といったトピックによって整理される。 それぞれの課題に取り組む際には、NLPと社会科学の両方の視点を組み合わせるだけでなく、具体的な提案も提供します。 より有効で信頼性の高いTPC研究を刺激したいと思っています。

Text-based personality computing (TPC) has gained many research interests in NLP. In this paper, we describe 15 challenges that we consider deserving the attention of the research community. These challenges are organized by the following topics: personality taxonomies, measurement quality, datasets, performance evaluation, modelling choices, as well as ethics and fairness. When addressing each challenge, not only do we combine perspectives from both NLP and social sciences, but also offer concrete suggestions. We hope to inspire more valid and reliable TPC research.
翻訳日:2023-05-22 19:23:48 公開日:2023-05-18
# 多段階時系列予測のためのコプラ共形予測

Copula Conformal Prediction for Multi-step Time Series Forecasting ( http://arxiv.org/abs/2212.03281v2 )

ライセンス: Link先を確認
Sophia Sun, Rose Yu(参考訳) 正確な不確実性測定は、堅牢で信頼性の高い機械学習システムを構築するための重要なステップである。 共形予測(conformal prediction)は、実装の容易さ、統計カバレッジの保証、基盤となる予測器の汎用性で有名な分布のない不確実性定量化アルゴリズムである。 しかし、時系列に対する既存の共形予測アルゴリズムは、時間依存を考慮せずに単段予測に制限される。 本稿では,多変量・多段階時系列予測のためのCopula Conformal Predictionアルゴリズム,CopulaCPTSを提案する。 copulacpts が有限サンプル妥当性保証を持つことを証明した。 いくつかの合成および実世界の多変量時系列データセットにおいて、CopulaCPTSは既存の手法よりも多段階予測タスクに対してより校正され、鋭い信頼区間を生成することを示す。

Accurate uncertainty measurement is a key step to building robust and reliable machine learning systems. Conformal prediction is a distribution-free uncertainty quantification algorithm popular for its ease of implementation, statistical coverage guarantees, and versatility for underlying forecasters. However, existing conformal prediction algorithms for time series are limited to single-step prediction without considering the temporal dependency. In this paper we propose a Copula Conformal Prediction algorithm for multivariate, multi-step Time Series forecasting, CopulaCPTS. We prove that CopulaCPTS has finite sample validity guarantee. On several synthetic and real-world multivariate time series datasets, we show that CopulaCPTS produces more calibrated and sharp confidence intervals for multi-step prediction tasks than existing techniques.
翻訳日:2023-05-22 19:23:09 公開日:2023-05-18
# 典型的な量子エンタングルメントの対称性分類

Symmetry Classification of Typical Quantum Entanglement ( http://arxiv.org/abs/2301.07778v2 )

ライセンス: Link先を確認
Yuhan Liu, Jonah Kudler-Flam, Kohei Kawabata(参考訳) 典型的な量子状態の絡み合いエントロピー、またはページ曲線は、量子多体系や量子重力において重要な役割を果たす。 しかし、量子エンタングルメントにおける対称性の役割についてはほとんど理解されていない。 ここでは、時間反転、電荷共役、カイラル変換の10倍の基本対称性クラスに基づいて、自由フェルミオンの典型的な量子エンタングルメントの包括的分類、あるいは同値な対称性を持つ二次sachdev-ye-kitaevモデルを確立する。 ランダム行列理論の解析的および数値計算により、平均エンタングルメントエントロピーに対する体積法則の寄与はロバストであり、対称性の影響を受けていないことを示す。 逆に、絡み合いのエントロピーの平均と分散の定数項が、各対称性クラスに固有の10倍の普遍値をもたらすことを明らかにする。 これらの定数項は、時間反転対称性による絡み合いスペクトルの大域的スケーリングと、キラルあるいは粒子ホール対称性による絡み合いスペクトルの中心における特異ピークの組み合わせに由来する。 我々の研究は、量子物理学における対称性と絡み合いの相互作用を解明し、対称性に富む量子カオスの特徴付けを提供する。

Entanglement entropy of typical quantum states, also known as the Page curve, plays an important role in quantum many-body systems and quantum gravity. However, little has hitherto been understood about the role of symmetry in quantum entanglement. Here, we establish the comprehensive classification of typical quantum entanglement for free fermions, or equivalently the quadratic Sachdev-Ye-Kitaev model with symmetry, on the basis of the tenfold fundamental symmetry classes of time reversal, charge conjugation, and chiral transformation. Through both analytical and numerical calculations of random matrix theory, we show that the volume-law contribution to average entanglement entropy is robust and remains unaffected by symmetry. Conversely, we uncover that the constant terms of the average and variance of entanglement entropy yield tenfold universal values unique to each symmetry class. These constant terms originate from the combination of a global scaling of the entanglement spectrum due to time-reversal symmetry and a singular peak at the center of the entanglement spectrum due to chiral or particle-hole symmetry. Our work elucidates the interplay of symmetry and entanglement in quantum physics and provides characterization of symmetry-enriched quantum chaos.
翻訳日:2023-05-22 19:15:12 公開日:2023-05-18
# CaRE:高構成ロボットの構成問題の原因を見つける

CaRE: Finding Root Causes of Configuration Issues in Highly-Configurable Robots ( http://arxiv.org/abs/2301.07690v2 )

ライセンス: Link先を確認
Md Abir Hossen, Sonam Kharade, Bradley Schmerl, Javier C\'amara, Jason M. O'Kane, Ellen C. Czaplinski, Katherine A. Dzurilla, David Garlan, Pooyan Jamshidi(参考訳) ロボットシステムは、組合せ的に大きな構成空間を持つサブシステムを持ち、数百から数千の可能なソフトウェアとハードウェアの構成オプションが非自明に相互作用する。 コンフィグレーション可能なパラメータは、特定の目的を目標に設定されるが、誤って設定された場合に機能障害を引き起こす可能性がある。 このような障害の根本原因を見つけることは、指数関数的に大きな構成空間と、ロボットの構成設定とパフォーマンスの間の依存関係のために難しい。 本稿では,因果性レンズによる機能障害の根本原因の診断法であるcareを提案する。 careは、因果構造を学習し、ロボットのパフォーマンス指標に対するオプションの因果効果を推定することにより、様々な構成オプションとロボットのパフォーマンス目標との間の因果関係を抽象化する。 本研究では,観測された機能障害の根本原因を見つけ,物理的ロボット(HuskyとTurtlebot3)とシミュレーション(Gazebo)の両方で実験を行うことにより診断された根本原因を検証し,CaREの有効性を示す。 さらに,シミュレーションでロボットから学習した因果モデル(例:ガゼボのハスキー)が,異なるプラットフォーム(例:ハスキーとタートルボット)の物理的ロボットに移動可能であることを実証する。

Robotic systems have subsystems with a combinatorially large configuration space and hundreds or thousands of possible software and hardware configuration options interacting non-trivially. The configurable parameters are set to target specific objectives, but they can cause functional faults when incorrectly configured. Finding the root cause of such faults is challenging due to the exponentially large configuration space and the dependencies between the robot's configuration settings and performance. This paper proposes CaRE -- a method for diagnosing the root cause of functional faults through the lens of causality. CaRE abstracts the causal relationships between various configuration options and the robot's performance objectives by learning a causal structure and estimating the causal effects of options on robot performance indicators. We demonstrate CaRE's efficacy by finding the root cause of the observed functional faults and validating the diagnosed root cause by conducting experiments in both physical robots (Husky and Turtlebot 3) and in simulation (Gazebo). Furthermore, we demonstrate that the causal models learned from robots in simulation (e.g., Husky in Gazebo) are transferable to physical robots across different platforms (e.g., Husky and Turtlebot 3).
翻訳日:2023-05-22 19:14:52 公開日:2023-05-18
# kagome rydberg原子配列における創発的ガラス状挙動

Emergent glassy behavior in a kagome Rydberg atom array ( http://arxiv.org/abs/2301.07127v2 )

ライセンス: Link先を確認
Zheng Yan, Yan-Cheng Wang, Rhine Samajdar, Subir Sachdev, and Zi Yang Meng(参考訳) 我々は,カゴメ格子Rydberg原子アレイの現実的ハミルトニアン上での大規模量子モンテカルロシミュレーション結果を示す。 本システムには本態性障害はないが, 興味深いことに, 2つの原子価結合固体相の間に位置するパラメータ空間の領域において, 大規模システムサイズにおける静的および動的特性の解析を行った。 このガラス状領域の範囲はエドワーズ=アンダーソン秩序パラメータを用いて境界づけられ、その相転移は2つの近位価結合固体(英語版)、および自明な常磁性相への交差が同定される。 我々は、ガラス相の奥深くで本質的に遅い(想像上の)時間ダイナミクスを実証し、ほとんど縮退した局所最小値の量子乱れ位相を検出するための実験的考察を議論する。 提案手法は, 実時間ガラス現象の研究への新たな経路を開拓し, 現行のリドバーグプラットフォームにおける固体や液体以外の量子物質の相の量子シミュレーションの可能性を強調した。

We present large-scale quantum Monte Carlo simulation results on a realistic Hamiltonian of kagome-lattice Rydberg atom arrays. Although the system has no intrinsic disorder, intriguingly, our analyses of static and dynamic properties on large system sizes reveal \textit{emergent} glassy behavior in a region of parameter space located between two valence bond solid phases. The extent of this glassy region is demarcated using the Edwards-Anderson order parameter, and its phase transitions to the two proximate valence bond solids -- as well as the crossover towards a trivial paramagnetic phase -- are identified. We demonstrate the intrinsically slow (imaginary) time dynamics deep inside the glassy phase and discuss experimental considerations for detecting such a quantum disordered phase with numerous nearly degenerate local minima. Our proposal paves a new route to the study of real-time glassy phenomena and highlights the potential for quantum simulation of a distinct phase of quantum matter beyond solids and liquids in current-generation Rydberg platforms.
翻訳日:2023-05-22 19:14:29 公開日:2023-05-18
# 拡散モデルはデータ多様体の次元をひそかに知っている

Your diffusion model secretly knows the dimension of the data manifold ( http://arxiv.org/abs/2212.12611v4 )

ライセンス: Link先を確認
Jan Stanczuk, Georgios Batzolis, Carola-Bibiane Sch\"onlieb(参考訳) 本研究では,訓練された拡散モデルを用いてデータ多様体の次元を推定する新しいフレームワークを提案する。 拡散モデルは、スコア関数、すなわち、ノイズ崩壊したターゲット分布のログ密度の勾配を、様々なレベルの破損に対して近似する。 高次元の周囲空間に埋め込まれた多様体の周りにデータが集中すると、崩壊のレベルが低下するにつれて、スコア関数は多様体の方向に向けられ、この方向が最大可能性増加の方向となる。 したがって、小さなレベルの腐敗に対して、拡散モデルはデータ多様体の正規バンドルの近似へのアクセスを提供する。 これにより、接空間の次元を推定できるので、データ多様体の内在次元を推定することができる。 本手法は, 拡散モデルに基づくデータ多様体次元の最初の推定器であり, ユークリッドデータと画像データの両方の制御実験において, 確立された統計推定器よりも優れている。

In this work, we propose a novel framework for estimating the dimension of the data manifold using a trained diffusion model. A diffusion model approximates the score function i.e. the gradient of the log density of a noise-corrupted version of the target distribution for varying levels of corruption. We prove that, if the data concentrates around a manifold embedded in the high-dimensional ambient space, then as the level of corruption decreases, the score function points towards the manifold, as this direction becomes the direction of maximal likelihood increase. Therefore, for small levels of corruption, the diffusion model provides us with access to an approximation of the normal bundle of the data manifold. This allows us to estimate the dimension of the tangent space, thus, the intrinsic dimension of the data manifold. To the best of our knowledge, our method is the first estimator of the data manifold dimension based on diffusion models and it outperforms well established statistical estimators in controlled experiments on both Euclidean and image data.
翻訳日:2023-05-22 19:13:21 公開日:2023-05-18
# DiSProD: 計画のための分布の微分可能なシンボル伝搬

DiSProD: Differentiable Symbolic Propagation of Distributions for Planning ( http://arxiv.org/abs/2302.01491v3 )

ライセンス: Link先を確認
Palash Chatterjee, Ashutosh Chapagain, Weizhe Chen and Roni Khardon(参考訳) 本稿では、連続状態と行動空間における確率的遷移を持つ環境向けに開発されたオンラインプランナーであるDiSProDを紹介する。 DiSProDは、独立性の仮定と分布の近似伝播を用いて、与えられたポリシーで条件付けられた将来の軌跡の分布をキャプチャするシンボリックグラフを構築する。 シンボリックグラフはポリシーの値の微分可能表現を提供し、ロングホリゾン探索の効率的な勾配に基づく最適化を可能にする。 近似分布の伝播は多くの軌道の集合と見なすことができ、スパース報酬や確率的環境を扱うのに適している。 ロボットシステムの離散時間計画とリアルタイム制御において,disprodと最先端プランナーの比較実験を行った。 提案手法は, 確率的環境, 探索深度に対する感度, 報酬の分散, 大規模行動空間の処理において, 既存のプランナーを改良する。 さらに実際の実験では、DiSProDが地上の車両や表面の船をコントロールして障害物を回避できることが示されている。

The paper introduces DiSProD, an online planner developed for environments with probabilistic transitions in continuous state and action spaces. DiSProD builds a symbolic graph that captures the distribution of future trajectories, conditioned on a given policy, using independence assumptions and approximate propagation of distributions. The symbolic graph provides a differentiable representation of the policy's value, enabling efficient gradient-based optimization for long-horizon search. The propagation of approximate distributions can be seen as an aggregation of many trajectories, making it well-suited for dealing with sparse rewards and stochastic environments. An extensive experimental evaluation compares DiSProD to state-of-the-art planners in discrete-time planning and real-time control of robotic systems. The proposed method improves over existing planners in handling stochastic environments, sensitivity to search depth, sparsity of rewards, and large action spaces. Additional real-world experiments demonstrate that DiSProD can control ground vehicles and surface vessels to successfully navigate around obstacles.
翻訳日:2023-05-22 19:05:40 公開日:2023-05-18
# 位置スケール騒音モデルにおける因果効果推定--最大確率と独立性テスト

Cause-Effect Inference in Location-Scale Noise Models: Maximum Likelihood vs. Independence Testing ( http://arxiv.org/abs/2301.12930v2 )

ライセンス: Link先を確認
Xiangyu Sun, Oliver Schulte(参考訳) 因果発見の根本的な問題は因果推論であり、2つの確率変数間の正しい因果方向を学習する。 原因関数と雑音項の関数としての効果をモデル化することで、生成関数のクラスに関する仮定を活用できる重要な進歩がなされた。 最近導入されたヘテロセダスティックな位置スケールノイズ汎関数モデル(LSNM)は、表現力と識別可能性を保証する。 最大化可能性に基づくLSNMモデル選択は、ノイズ分布が正しく特定されたときに最先端の精度を達成する。 しかし, 広範囲な実験的評価により, 雑音分布形態がユーザによって不特定化されると, 精度が著しく低下することを示す。 本分析は, 原因方向よりも反因果方向の条件分散が小さい場合に主に発生することを示す。 代替として、残差独立試験による因果モデル選択は、ノイズの特定や条件分散の誤解を招きやすいことを発見した。

A fundamental problem of causal discovery is cause-effect inference, learning the correct causal direction between two random variables. Significant progress has been made through modelling the effect as a function of its cause and a noise term, which allows us to leverage assumptions about the generating function class. The recently introduced heteroscedastic location-scale noise functional models (LSNMs) combine expressive power with identifiability guarantees. LSNM model selection based on maximizing likelihood achieves state-of-the-art accuracy, when the noise distributions are correctly specified. However, through an extensive empirical evaluation, we demonstrate that the accuracy deteriorates sharply when the form of the noise distribution is misspecified by the user. Our analysis shows that the failure occurs mainly when the conditional variance in the anti-causal direction is smaller than that in the causal direction. As an alternative, we find that causal model selection through residual independence testing is much more robust to noise misspecification and misleading conditional variance.
翻訳日:2023-05-22 19:05:07 公開日:2023-05-18
# 集合類似性行列を用いた多層ハイパーグラフクラスタリング

Multilayer hypergraph clustering using the aggregate similarity matrix ( http://arxiv.org/abs/2301.11657v2 )

ライセンス: Link先を確認
Kalle Alaluusua, Konstantin Avrachenkov, B. R. Vinay Kumar, Lasse Leskel\"a(参考訳) 我々は,ハイパーグラフ確率ブロックモデル (HSBM) の多層版におけるコミュニティ回復問題を考察する。 各層は、N頂点上のd-ユニフォームHSBMの独立実現と関連している。 一対の頂点に付随する超辺の集合数を含む類似性行列が与えられた場合、N頂点の非随伴群への分割を得ることが目的である。 本研究では,半定値プログラミング (sdp) の手法を調査し,モデルパラメータに関する情報理論的条件を得ることにより,アソートケースとディスソートケースの両方において,厳密なリカバリを保証する。

We consider the community recovery problem on a multilayer variant of the hypergraph stochastic block model (HSBM). Each layer is associated with an independent realization of a d-uniform HSBM on N vertices. Given the similarity matrix containing the aggregated number of hyperedges incident to each pair of vertices, the goal is to obtain a partition of the N vertices into disjoint communities. In this work, we investigate a semidefinite programming (SDP) approach and obtain information-theoretic conditions on the model parameters that guarantee exact recovery both in the assortative and the disassortative cases.
翻訳日:2023-05-22 19:04:07 公開日:2023-05-18
# SemEval-2023タスク4におけるエピキュラス:定義の活用による議論の背景にある人的価値の予測の改善

Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions ( http://arxiv.org/abs/2302.13925v2 )

ライセンス: Link先を確認
Christian Fang, Qixiang Fang, Dong Nguyen(参考訳) 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。 人的価値は正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人的価値の定義(アノテーション命令や検証済み調査項目の形で)を組み込むことで、より良い予測性能が得られるという仮説を立てる。 我々は,提案するモデルが主催者のベースラインよりも優れた性能を示し,マクロf1スコアを最大18%改善した。

We describe our experiments for SemEval-2023 Task 4 on the identification of human values behind arguments (ValueEval). Because human values are subjective concepts which require precise definitions, we hypothesize that incorporating the definitions of human values (in the form of annotation instructions and validated survey items) during model training can yield better prediction performance. We explore this idea and show that our proposed models perform better than the challenge organizers' baselines, with improvements in macro F1 scores of up to 18%.
翻訳日:2023-05-22 18:56:26 公開日:2023-05-18
# マルチモーダル画像合成のための事前学習拡散モデル

Modulating Pretrained Diffusion Models for Multimodal Image Synthesis ( http://arxiv.org/abs/2302.12764v2 )

ライセンス: Link先を確認
Cusuh Ham, James Hays, Jingwan Lu, Krishna Kumar Singh, Zhifei Zhang, Tobias Hinz(参考訳) 事前学習した拡散モデルを用いて条件付き画像合成を可能にするマルチモーダルコンディショニングモジュール(MCM)を提案する。 これまでのマルチモーダル合成作業は、スクラッチや微調整済みネットワークからのトレーニングネットワークに依存しており、どちらも大規模で最先端の拡散モデルでは計算コストがかかる。 提案手法は事前訓練ネットワークを用いるが, <textit{does> では拡散ネットワークのパラメータの更新は不要である。 MCMは、拡散モデルのオリジナルの訓練中に見つからなかった2Dモーダル(セマンティックセグメンテーションマップ、スケッチなど)を用いて、サンプリング中に拡散ネットワークの予測を変調する訓練を受けた小さなモジュールである。 その結果,mcmは画像の空間配置をユーザが制御でき,画像生成プロセスの制御性が向上することがわかった。 mcmのトレーニングは、元の拡散ネットからの勾配を必要としないため安価であり、ベース拡散モデルのパラメータの数のわずか$\sim$$$%$であり、限られた数のトレーニング例のみを使用してトレーニングされる。 本手法は,無条件およびテキスト条件モデルに関する評価を行い,生成画像の制御と条件付け入力に対するアライメントの改善を実証する。

We present multimodal conditioning modules (MCM) for enabling conditional image synthesis using pretrained diffusion models. Previous multimodal synthesis works rely on training networks from scratch or fine-tuning pretrained networks, both of which are computationally expensive for large, state-of-the-art diffusion models. Our method uses pretrained networks but \textit{does not require any updates to the diffusion network's parameters}. MCM is a small module trained to modulate the diffusion network's predictions during sampling using 2D modalities (e.g., semantic segmentation maps, sketches) that were unseen during the original training of the diffusion model. We show that MCM enables user control over the spatial layout of the image and leads to increased control over the image generation process. Training MCM is cheap as it does not require gradients from the original diffusion net, consists of only $\sim$1$\%$ of the number of parameters of the base diffusion model, and is trained using only a limited number of training examples. We evaluate our method on unconditional and text-conditional models to demonstrate the improved control over the generated images and their alignment with respect to the conditioning inputs.
翻訳日:2023-05-22 18:56:15 公開日:2023-05-18
# リパラメトリゼーションによるニューラルネットのパラメータ空間の幾何学

The Geometry of Neural Nets' Parameter Spaces Under Reparametrization ( http://arxiv.org/abs/2302.07384v2 )

ライセンス: Link先を確認
Agustinus Kristiadi and Felix Dangel and Philipp Hennig(参考訳) モデル再パラメータ化(model reparametrization)は、微積分の可変性規則に従い、ニューラルネットワークのトレーニングを改善する一般的な方法である。 しかし、ヘッセン系平坦度測度、最適化軌道、確率密度のモードなどの矛盾を誘発できるため、問題となることもある。 これは下流解析を複雑にする:例えば、任意の再パラメータ化がそれらの関係を変化させるので、平坦性と一般化を決定的に関連付けることはできない。 本研究では,再パラメータ化下でのニューラルネットの不変性について,リーマン幾何学の観点から検討する。 この観点から、不変性は、計量を明示的に表現し、正しい関連する変換規則を使用する場合、任意のニューラルネット固有の性質である。 これは、計量は常に存在するが、しばしば暗黙的に同一視と見なされ、記法から外され、再パラメータ化によって失われる。 ミニマムの平坦性の測定,最適化,確率密度の最大化について考察する。 最後に,不変性が役に立つ興味深い方向について考察する。

Model reparametrization, which follows the change-of-variable rule of calculus, is a popular way to improve the training of neural nets. But it can also be problematic since it can induce inconsistencies in, e.g., Hessian-based flatness measures, optimization trajectories, and modes of probability densities. This complicates downstream analyses: e.g. one cannot definitively relate flatness with generalization since arbitrary reparametrization changes their relationship. In this work, we study the invariance of neural nets under reparametrization from the perspective of Riemannian geometry. From this point of view, invariance is an inherent property of any neural net if one explicitly represents the metric and uses the correct associated transformation rules. This is important since although the metric is always present, it is often implicitly assumed as identity, and thus dropped from the notation, then lost under reparametrization. We discuss implications for measuring the flatness of minima, optimization, and for probability-density maximization. Finally, we explore some interesting directions where invariance is useful.
翻訳日:2023-05-22 18:54:04 公開日:2023-05-18
# XAIアライメント問題:人間中心のAI説明可能性技術をどのように評価すべきかを再考する

The XAI Alignment Problem: Rethinking How Should We Evaluate Human-Centered AI Explainability Techniques ( http://arxiv.org/abs/2303.17707v2 )

ライセンス: Link先を確認
Weina Jin and Xiaoxiao Li and Ghassan Hamarneh(参考訳) 説明可能な人工知能(XAI)のための適切な評価目標を設定することは、XAIアルゴリズムを人間のコミュニケーション規範に従い、人間の推論プロセスをサポートし、AI説明に対する人間の要求を満たすために不可欠である。 本稿では,XAI 評価において最も広範に普及した人為的な概念,説明可能性について検討する。 可視性は、機械の説明が人間の説明といかに妥当かを測定する。 可塑性は従来,AI説明可能性タスクの重要な評価対象として定式化されてきた。 我々は、この考え方に反対し、XAIの可視性に対する最適化と評価が有害である場合があり、モデル理解性、透明性、信頼性を達成する上では常に効果がないことを示す。 具体的には、XAIアルゴリズムの評価により、機械の説明が人間の説明と全く同じ内容を表現するように正規化され、人間の説明の基本的動機から逸脱する: 類似または代替的な推論軌跡を、理解可能な形式や言語に順応しながら表現する。 モデル決定の正確性に関わらず、XAIの妥当性を最適化することは、モデル信頼性を損なう。それは、人間と人間の説明において、もっともらしい説明が典型的に正しい決定を暗示する、という重要な仮定を破るからである。 XAI評価の最終目標である代わりに、XAIの有用性を最適化するために説明を解釈する人間のプロセスの中間的な計算プロキシとして機能することができる。 さらに、AI説明タスクとオブジェクトのローカライゼーションタスクを区別することで、説明可能性固有の評価対象の重要性を強調した。

Setting proper evaluation objectives for explainable artificial intelligence (XAI) is vital for making XAI algorithms follow human communication norms, support human reasoning processes, and fulfill human needs for AI explanations. In this position paper, we examine the most pervasive human-grounded concept in XAI evaluation, explanation plausibility. Plausibility measures how reasonable the machine explanation is compared to the human explanation. Plausibility has been conventionally formulated as an important evaluation objective for AI explainability tasks. We argue against this idea, and show how optimizing and evaluating XAI for plausibility is sometimes harmful, and always ineffective in achieving model understandability, transparency, and trustworthiness. Specifically, evaluating XAI algorithms for plausibility regularizes the machine explanation to express exactly the same content as human explanation, which deviates from the fundamental motivation for humans to explain: expressing similar or alternative reasoning trajectories while conforming to understandable forms or language. Optimizing XAI for plausibility regardless of the model decision correctness also jeopardizes model trustworthiness, because doing so breaks an important assumption in human-human explanation that plausible explanations typically imply correct decisions, and vice versa; and violating this assumption eventually leads to either undertrust or overtrust of AI models. Instead of being the end goal in XAI evaluation, plausibility can serve as an intermediate computational proxy for the human process of interpreting explanations to optimize the utility of XAI. We further highlight the importance of explainability-specific evaluation objectives by differentiating the AI explanation task from the object localization task.
翻訳日:2023-05-22 18:47:02 公開日:2023-05-18
# SPD多様体上のアダプティブリーマン計量

Adaptive Riemannian Metrics on SPD Manifolds ( http://arxiv.org/abs/2303.15477v3 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Tianyang Xu, Zhiwu Huang, Xiao-Jun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する本質的な能力のため、機械学習において広く注目を集めている。 SPD多様体の非ユークリッド幾何学を反映するために、多くのリーマン計量が提案されている。 しかし、既存の固定計量テンソルはSPD行列学習、特にSPDニューラルネットワークの準最適性能をもたらす可能性がある。 この制限を緩和するために、引き戻しの概念を活用し、SPD多様体に対する適応リーマン計量を提案する。 さらに,指標の包括的理論も提示する。 3つのデータセットによる実験により,提案手法により,SPDネットワークの性能が向上することが示された。

Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity of encoding underlying structural correlation in data. To reflect the non-Euclidean geometry of SPD manifolds, many successful Riemannian metrics have been proposed. However, existing fixed metric tensors might lead to sub-optimal performance for SPD matrices learning, especially for SPD neural networks. To remedy this limitation, we leverage the idea of pullback and propose adaptive Riemannian metrics for SPD manifolds. Moreover, we present comprehensive theories for our metrics. Experiments on three datasets demonstrate that equipped with the proposed metrics, SPD networks can exhibit superior performance.
翻訳日:2023-05-22 18:45:53 公開日:2023-05-18
# 人間中心人工知能ソフトウェアシステムのための要求工学フレームワーク

Requirements Engineering Framework for Human-centered Artificial Intelligence Software Systems ( http://arxiv.org/abs/2303.02920v2 )

ライセンス: Link先を確認
Khlood Ahmad, Mohamed Abdelrazek, Chetan Arora, Arbind Agrahari Baniya, Muneera Bano, John Grundy(参考訳) [文脈]ソフトウェアソリューション構築に使用される人工知能(AI)コンポーネントは近年著しく増加している。 しかしながら、これらのソリューションの多くは技術的な側面に注目し、人間中心の側面を無視する。 [目的]AIベースのソフトウェアを構築する際の要件エンジニアリング(RE)において、人間中心の側面を含めることによって、より責任を持ち、偏見がなく、包括的なAIベースのソフトウェアソリューションを達成することができます。 [方法]本論文では,人間中心型AIガイドラインに基づく新たなフレームワークと,人中心型AIソフトウェアに対する要件収集を支援するユーザサーベイを提案する。 これらの要件を明確化するためのカタログと、それらを視覚的に示すための概念モデルを提供します。 結果]バーチャルリアリティ(VR)ユーザを対象とした360度映像の品質向上のための要件を提示し,モデル化するためのケーススタディに適用した。 結論] 提案されたアプローチが,プロジェクトの人間中心のニーズを完全に理解する上で有効であることに気付きました。 さらに、このフレームワークは、AIベースのソフトウェアのエンジニアリングプロセスの後期段階に対して、初期段階で取得すべき要件を理解するのに役立った。

[Context] Artificial intelligence (AI) components used in building software solutions have substantially increased in recent years. However, many of these solutions focus on technical aspects and ignore critical human-centered aspects. [Objective] Including human-centered aspects during requirements engineering (RE) when building AI-based software can help achieve more responsible, unbiased, and inclusive AI-based software solutions. [Method] In this paper, we present a new framework developed based on human-centered AI guidelines and a user survey to aid in collecting requirements for human-centered AI-based software. We provide a catalog to elicit these requirements and a conceptual model to present them visually. [Results] The framework is applied to a case study to elicit and model requirements for enhancing the quality of 360 degree~videos intended for virtual reality (VR) users. [Conclusion] We found that our proposed approach helped the project team fully understand the human-centered needs of the project to deliver. Furthermore, the framework helped to understand what requirements need to be captured at the initial stages against later stages in the engineering process of AI-based software.
翻訳日:2023-05-22 18:45:19 公開日:2023-05-18
# 変分拡散オートエンコーダ:事前学習拡散モデルからの潜時空間抽出

Variational Diffusion Auto-encoder: Latent Space Extraction from Pre-trained Diffusion Models ( http://arxiv.org/abs/2304.12141v2 )

ライセンス: Link先を確認
Georgios Batzolis, Jan Stanczuk, Carola-Bibiane Sch\"onlieb(参考訳) 深層生成モデリングへの広く認識されているアプローチとして、変分オートエンコーダ(vaes)は依然として生成画像の品質に問題があり、しばしば目に見えるぼやけを呈する。 この問題は、等方性ガウス型として条件付きデータ分布を近似する非現実的な仮定である$p(\textbf{x} | \textbf{z})$に由来する。 本稿では,この問題に対処するための新しい解決法を提案する。 本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。 さらに,点数にベイズ則を適用した後エンコーダ学習を解析的に導出できることを実証する。 これは vae-esque の深い潜在変数モデルにつながり、$p(\textbf{x} | \textbf{z})$ 上のガウス仮定の必要性や、分離されたデコーダネットワークのトレーニングを廃止する。 本手法は, 事前学習した拡散モデルの強度を活かし, 潜伏空間に装備することにより, VAEの性能を著しく向上させる。

As a widely recognized approach to deep generative modeling, Variational Auto-Encoders (VAEs) still face challenges with the quality of generated images, often presenting noticeable blurriness. This issue stems from the unrealistic assumption that approximates the conditional data distribution, $p(\textbf{x} | \textbf{z})$, as an isotropic Gaussian. In this paper, we propose a novel solution to address these issues. We illustrate how one can extract a latent space from a pre-existing diffusion model by optimizing an encoder to maximize the marginal data log-likelihood. Furthermore, we demonstrate that a decoder can be analytically derived post encoder-training, employing the Bayes rule for scores. This leads to a VAE-esque deep latent variable model, which discards the need for Gaussian assumptions on $p(\textbf{x} | \textbf{z})$ or the training of a separate decoder network. Our method, which capitalizes on the strengths of pre-trained diffusion models and equips them with latent spaces, results in a significant enhancement to the performance of VAEs.
翻訳日:2023-05-22 18:38:32 公開日:2023-05-18
# カモフラージュの共進化

Coevolution of Camouflage ( http://arxiv.org/abs/2304.11793v2 )

ライセンス: Link先を確認
Craig Reynolds(参考訳) 自然界のカモフラージュは捕食者と獲物との競争から生じているようである。 生き残るためには捕食者は獲物を見つけなければならず、獲物は発見されないようにしなければならない。 この研究は、その敵対関係の抽象モデルをシミュレートする。 進化する捕食者視覚と競合して、獲物の迷彩パターン(色のテクスチャ)を進化させ、クライプシを見る。 その「終生」捕食者は、カモフラージュした獲物をよりよく見つけることを学ぶ。 この2Dシミュレーションの環境は、通常、自然のシーンの一連の写真によって提供される。 このモデルは、獲物と捕食者の2つの進化した個体群に基づいている。 これらの集団間の相互の対立は、効果的な捕食カモフラージュと「破壊」カモフラージュに熟練した捕食者の両方を生み出すことができる。 その結果、自然のカモフラージュや、カモフラージュの知覚現象をより一般的に研究するための、オープンソースの人工生命モデルが生まれました。

Camouflage in nature seems to arise from competition between predator and prey. To survive, predators must find prey, and prey must avoid being found. This work simulates an abstract model of that adversarial relationship. It looks at crypsis through evolving prey camouflage patterns (as color textures) in competition with evolving predator vision. During their "lifetime" predators learn to better locate camouflaged prey. The environment for this 2D simulation is provided by a set of photographs, typically of natural scenes. This model is based on two evolving populations, one of prey and another of predators. Mutual conflict between these populations can produce both effective prey camouflage and predators skilled at "breaking" camouflage. The result is an open source artificial life model to help study camouflage in nature, and the perceptual phenomenon of camouflage more generally.
翻訳日:2023-05-22 18:37:32 公開日:2023-05-18
# PersonaLLM:GPT-3.5の性格特性と性差の表現能力の検討

PersonaLLM: Investigating the Ability of GPT-3.5 to Express Personality Traits and Gender Differences ( http://arxiv.org/abs/2305.02547v2 )

ライセンス: Link先を確認
Hang Jiang, Xiajie Zhang, Xubo Cao, Jad Kabbara(参考訳) 様々な産業におけるチャットボットの設計における大規模言語モデル(LLM)の多くのユースケースや、異なる性格特性に対応するためにチャットボットをパーソナライズすることの重要性を示す研究にもかかわらず、パーソナライズされたLLMの挙動が特定の性格特性を正確に、一貫して反映できるかどうかを評価することはほとんど行われていない。 GPT-3.5(text-davinci-003)を用いたケーススタディを行い、大きな5人格と性別の役割を割り当てた場合、LLMが一貫した個性特性を持つコンテンツを生成できるかどうかを検討する。 われわれは320のLDMペルソナ(32のビッグファイブパーソナタイプで5人の女性と5人の男性)を作成し、44の古典的なビッグファイブインベントリ(BFI)を完成させ、その子供時代について800ワードの物語を書いた。 その結果、LLMペルソナの自己申告したBFIスコアは、割り当てられた性格タイプと一致しており、5つの特徴全てに大きな効果が認められた。 さらに、与えられたパーソナリティタイプと一部の言語調査と単語数(liwc)との間に有意な相関が認められた。 例えば、外向性は社会的・活動的な単語と関連しており、神経症は否定的な感情や精神健康に関連する単語と関連している。 また, LLM 生成した男女の人格記述において, 技術的, 文化的用語の使用に有意な差が認められた。 この研究は、パーソナライズされたLLMとそのヒューマンAI会話への応用について、さらなる研究のための第一歩となる。

Despite the many use cases for large language models (LLMs) in the design of chatbots in various industries and the research showing the importance of personalizing chatbots to cater to different personality traits, little work has been done to evaluate whether the behaviors of personalized LLMs can reflect certain personality traits accurately and consistently. We consider studying the behavior of LLM-based simulated agents which refer to as LLM personas and present a case study with GPT-3.5 (text-davinci-003) to investigate whether LLMs can generate content with consistent, personalized traits when assigned Big Five personality types and gender roles. We created 320 LLM personas (5 females and 5 males for each of the 32 Big Five personality types) and prompted them to complete the classic 44-item Big Five Inventory (BFI) and then write an 800-word story about their childhood. Results showed that LLM personas' self-reported BFI scores are consistent with their assigned personality types, with large effect sizes found on all five traits. Moreover, significant correlations were found between assigned personality types and some Linguistic Inquiry and Word Count (LIWC) psycholinguistic features of their writings. For instance, extroversion is associated with pro-social and active words, and neuroticism is associated with words related to negative emotions and mental health. Besides, we only found significant differences in using technological and cultural words in writing between LLM-generated female and male personas. This work provides a first step for further research on personalized LLMs and their applications in Human-AI conversation.
翻訳日:2023-05-22 18:27:51 公開日:2023-05-18
# 確率的プーリングを用いた証明可能なマルチインスタンス深層auc最大化

Provable Multi-instance Deep AUC Maximization with Stochastic Pooling ( http://arxiv.org/abs/2305.08040v2 )

ライセンス: Link先を確認
Dixain Zhu, Bokun Wang, Zhi Chen, Yaxing Wang, Milan Sonka, Xiaodong Wu, Tianbao Yang(参考訳) 本稿では,1つのクラスラベルをインスタンスの袋に割り当てるマルチインスタンス学習 (mil) に対する深層auc最大化 (dam) の新たな応用について検討する。 milの標準的なプーリングメソッドが要求する、バックプロパゲーションのための {gpu} メモリにバッグサイズがロードするには大きすぎる、という文脈で、無視されているが無視できない計算上の課題に対処します。 この課題に対処するために,多レベル構成関数としてプールド予測上の損失関数を定式化することにより,確率最適化の精神における分散還元確率プール法を提案する。 確率的合成最適化と非凸 min-max 最適化の手法を合成することにより,確率的スムーズドマックスプーリングや確率的アテンションベースプールを用いた統一的かつ証明可能なMIDAM (MIDAM) アルゴリズムを提案し,各バッグのいくつかのインスタンスをサンプリングし,確率的勾配推定器を計算し,モデルパラメータを更新する。 我々は,提案したMIDAMアルゴリズムと最先端DAMアルゴリズムとの類似の収束率を確立する。 従来のMILデータセットと医療データセットに関する広範な実験は、MIDAMアルゴリズムの優位性を実証している。

This paper considers a novel application of deep AUC maximization (DAM) for multi-instance learning (MIL), in which a single class label is assigned to a bag of instances (e.g., multiple 2D slices of a CT scan for a patient). We address a neglected yet non-negligible computational challenge of MIL in the context of DAM, i.e., bag size is too large to be loaded into {GPU} memory for backpropagation, which is required by the standard pooling methods of MIL. To tackle this challenge, we propose variance-reduced stochastic pooling methods in the spirit of stochastic optimization by formulating the loss function over the pooled prediction as a multi-level compositional function. By synthesizing techniques from stochastic compositional optimization and non-convex min-max optimization, we propose a unified and provable muli-instance DAM (MIDAM) algorithm with stochastic smoothed-max pooling or stochastic attention-based pooling, which only samples a few instances for each bag to compute a stochastic gradient estimator and to update the model parameter. We establish a similar convergence rate of the proposed MIDAM algorithm as the state-of-the-art DAM algorithms. Our extensive experiments on conventional MIL datasets and medical datasets demonstrate the superiority of our MIDAM algorithm.
翻訳日:2023-05-22 18:17:42 公開日:2023-05-18
# CPL-NoViD:オンラインコミュニティにおけるノーム違反検出のための文脈認識型プロンプト学習

CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities ( http://arxiv.org/abs/2305.09846v2 )

ライセンス: Link先を確認
Zihao He, Jonathan May, Kristina Lerman(参考訳) オンラインコミュニティにおける規範違反の検出は、オンライン議論のための健全で安全な空間を維持する上で重要である。 既存の機械学習のアプローチは、これらのコンテキスト固有のタスクの微調整モデルに固有の課題があるため、さまざまなコミュニティにわたる多様なルールや解釈に適応するのに苦労することが多い。 本稿では,様々なルールにまたがる規範違反を検出するために,プロンプトベース学習を用いる新しい手法である,規範違反検出のための文脈認識型プロンプトベース学習(cpl-novid)を提案する。 CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回り、異なるルールタイプにわたるパフォーマンスの向上を示す。 重要なことは、クロスルール型およびクロスコミュニティノルム違反検出に優れるだけでなく、数ショットの学習シナリオにも適応性を示す。 最も注目すべきは、既存のベンチマークを上回って、標準違反検出における新しい最先端の確立である。 我々の研究は、文脈に敏感な規範違反検出のための素早い学習の可能性を強調し、オンラインコミュニティモデレーターをより良いサポートするために、より適応性のある文脈認識モデルの研究の道を開く。

Detecting norm violations in online communities is critical to maintaining healthy and safe spaces for online discussions. Existing machine learning approaches often struggle to adapt to the diverse rules and interpretations across different communities due to the inherent challenges of fine-tuning models for such context-specific tasks. In this paper, we introduce Context-aware Prompt-based Learning for Norm Violation Detection (CPL-NoViD), a novel method that employs prompt-based learning to detect norm violations across various types of rules. CPL-NoViD outperforms the baseline by incorporating context through natural language prompts and demonstrates improved performance across different rule types. Significantly, it not only excels in cross-rule-type and cross-community norm violation detection but also exhibits adaptability in few-shot learning scenarios. Most notably, it establishes a new state-of-the-art in norm violation detection, surpassing existing benchmarks. Our work highlights the potential of prompt-based learning for context-sensitive norm violation detection and paves the way for future research on more adaptable, context-aware models to better support online community moderators.
翻訳日:2023-05-22 18:09:14 公開日:2023-05-18
# 微分可能な非線形最小二乗による対応不確かさの学習

Learning Correspondence Uncertainty via Differentiable Nonlinear Least Squares ( http://arxiv.org/abs/2305.09527v2 )

ライセンス: Link先を確認
Dominik Muhle, Lukas Koestler, Krishna Murthy Jatavallabhula, Daniel Cremers(参考訳) 特徴対応から相対ポーズ推定を行う際の不確実性を考慮した,微分可能な非線形最小二乗フレームワークを提案する。 具体的には,確率論的正規極性制約の対称バージョンを導入し,カメラポーズ推定手法を用いて特徴位置の共分散を推定する手法を提案する。 我々は、KITTIおよびEuRoC実世界のデータセットと同様に、我々の合成に対するアプローチを評価する。 合成データセットでは,学習した共分散が真の雑音分布を正確に近似していることを確認する。 実世界実験では, 特徴抽出アルゴリズムによらず, 最先端の非確率的, 確率的アプローチを一貫して上回っていることがわかった。

We propose a differentiable nonlinear least squares framework to account for uncertainty in relative pose estimation from feature correspondences. Specifically, we introduce a symmetric version of the probabilistic normal epipolar constraint, and an approach to estimate the covariance of feature positions by differentiating through the camera pose estimation procedure. We evaluate our approach on synthetic, as well as the KITTI and EuRoC real-world datasets. On the synthetic dataset, we confirm that our learned covariances accurately approximate the true noise distribution. In real world experiments, we find that our approach consistently outperforms state-of-the-art non-probabilistic and probabilistic approaches, regardless of the feature extraction algorithm of choice.
翻訳日:2023-05-22 18:08:52 公開日:2023-05-18
# ULIP-2:3次元理解のためのスケーラブルなマルチモーダル事前学習を目指して

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding ( http://arxiv.org/abs/2305.08275v2 )

ライセンス: Link先を確認
Le Xue, Ning Yu, Shu Zhang, Junnan Li, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 近年のマルチモーダル事前学習法は, 3次元形状, 2次元形状, 言語記述の多モーダル特徴の整合による3次元表現学習において有望な効果を示した。 しかし、3Dアプリケーションのためのマルチモーダルデータを収集するために既存のマルチモーダル事前学習フレームワークが使用している手法はスケーラビリティと包括性に欠けており、多モーダル学習の可能性を最大限に制限する可能性がある。 主なボトルネックは、言語モダリティのスケーラビリティと包括性にある。 そこで本研究では,最先端の大規模マルチモーダルモデルを利用して3次元オブジェクトの汎用言語を自動生成する,三モード事前学習フレームワークULIP-2を紹介する。 3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。 我々は,2つの大規模3DデータセットであるObjaverseとShapeNetで実験を行い,ULIP-2をトレーニングするための3Dポイントクラウド,画像,言語をトリモーダルデータセットで拡張した。 ULIP-2は、ModelNet40の下流ゼロショット分類(トップ1の精度で74.0%)を大幅に改善し、現実世界のScanObjectNNベンチマークでは91.5%の精度で14万のパラメータしか取得できず、人間の3Dアノテーションなしでスケーラブルなマルチモーダル3D表現学習のブレークスルーを示す。 生成されたトリモーダルデータセットとともに、コードはhttps://github.com/salesforce/ULIPで見ることができる。

Recent advancements in multimodal pre-training methods have shown promising efficacy in 3D representation learning by aligning multimodal features across 3D shapes, their 2D counterparts, and language descriptions. However, the methods used by existing multimodal pre-training frameworks to gather multimodal data for 3D applications lack scalability and comprehensiveness, potentially constraining the full potential of multimodal learning. The main bottleneck lies in the language modality's scalability and comprehensiveness. To address this, we introduce ULIP-2, a tri-modal pre-training framework that leverages state-of-the-art large multimodal models to automatically generate holistic language counterparts for 3D objects. It does not require any 3D annotations, and is therefore scalable to large datasets. We conduct experiments on two large-scale 3D datasets, Objaverse and ShapeNet, and augment them with tri-modal datasets of 3D point clouds, images, and language for training ULIP-2. ULIP-2 achieves significant improvements on downstream zero-shot classification on ModelNet40 (74.0% in top-1 accuracy); on the real-world ScanObjectNN benchmark, it obtains 91.5% in overall accuracy with only 1.4 million parameters, signifying a breakthrough in scalable multimodal 3D representation learning without human 3D annotations. The code, along with the generated tri-modal datasets, can be found at https://github.com/salesforce/ULIP.
翻訳日:2023-05-22 18:06:49 公開日:2023-05-18
# 統計的および機械学習によるcovid-19患者の死亡率と肺塞栓症のat-admission予測--国際コホート研究

At-Admission Prediction of Mortality and Pulmonary Embolism in COVID-19 Patients Using Statistical and Machine Learning Methods: An International Cohort Study ( http://arxiv.org/abs/2305.11199v1 )

ライセンス: Link先を確認
Munib Mesinovic, Xin Ci Wong, Giri Shan Rajahram, Barbara Wanjiru Citarella, Kalaiarasu M. Peariasamy, Frank van Someren Greve, Piero Olliaro, Laura Merson, Lei Clifton, Christiana Kartsonaki, ISARIC Characterisation Group(参考訳) 2022年9月までに、SARS-CoV-2感染の6億人以上が世界中で報告され、650万人以上の死者を出した。 しかし、covid-19死亡リスク推定器は、小さな非表現サンプルと方法論上の制限によってしばしば開発される。 感染症の最も重篤な予防的合併症の1つとして、covid-19患者の肺塞栓症(pe)予測ツールを開発することが極めて重要である。 国際的なコホートから80万人以上のcovid-19患者のデータセットを用いて,peの発生と入会時の死亡を予測する,コストに敏感な勾配強調型機械学習モデルを提案する。 PEと死の予測には,ロジスティック回帰,コックス比例ハザードモデル,シェープリー値を用いた。 予測モデルではAUROCは75.9%,74.2%,感度は67.5%,全死亡率は72.7%であった。 PE予測モデルは、イギリスとスペインで74.5%のAUROC、63.5%のAUROC、78.9%のAUROC、95.7%の感度で別々に評価された。 入院時, 年齢, 性別, 入院域, 肺疾患, 認知症, 糖尿病, 高血圧, 癌, 肥満, 喫煙) および症状 (混乱, 胸痛, 疲労, 発熱, 筋肉や関節痛, 呼吸の短さ) は, 入院時の最も重要な臨床予測因子であった。 国際的なコホートから開発した機械学習モデルは、リスクの高い患者の病院におけるリスク優先順位付けの制御に役立ちます。

By September, 2022, more than 600 million cases of SARS-CoV-2 infection have been reported globally, resulting in over 6.5 million deaths. COVID-19 mortality risk estimators are often, however, developed with small unrepresentative samples and with methodological limitations. It is highly important to develop predictive tools for pulmonary embolism (PE) in COVID-19 patients as one of the most severe preventable complications of COVID-19. Using a dataset of more than 800,000 COVID-19 patients from an international cohort, we propose a cost-sensitive gradient-boosted machine learning model that predicts occurrence of PE and death at admission. Logistic regression, Cox proportional hazards models, and Shapley values were used to identify key predictors for PE and death. Our prediction model had a test AUROC of 75.9% and 74.2%, and sensitivities of 67.5% and 72.7% for PE and all-cause mortality respectively on a highly diverse and held-out test set. The PE prediction model was also evaluated on patients in UK and Spain separately with test results of 74.5% AUROC, 63.5% sensitivity and 78.9% AUROC, 95.7% sensitivity. Age, sex, region of admission, comorbidities (chronic cardiac and pulmonary disease, dementia, diabetes, hypertension, cancer, obesity, smoking), and symptoms (any, confusion, chest pain, fatigue, headache, fever, muscle or joint pain, shortness of breath) were the most important clinical predictors at admission. Our machine learning model developed from an international cohort can serve to better regulate hospital risk prioritisation of at-risk patients.
翻訳日:2023-05-22 17:59:10 公開日:2023-05-18
# マスク分布シフトによる不完全データの予測

Prediction with Incomplete Data under Agnostic Mask Distribution Shift ( http://arxiv.org/abs/2305.11197v1 )

ライセンス: Link先を確認
Yichen Zhu, Jian Yuan, Bo Jiang, Tao Lin, Haiming Jin, Xinbing Wang, Chenghu Zhou(参考訳) 値が欠けているデータは、多くのアプリケーションでユビキタスです。 近年、観察された特徴と欠落パターンを示すマスクからなる不完全なデータのみによる予測に注目が集まっている。 既存の手法では、トレーニングとテストの分布は同じであり、実際のシナリオでは違反する可能性があると仮定している。 本稿では,分布シフトを考慮した不完全データを用いた予測について検討する。 完全特徴とラベルの結合分布が不変な場合に焦点を当てるが,マスク分布の欠如は,トレーニングとテストの間に不可知的に変化する可能性がある。 一般化を達成するために,各マスクに対して不変最適予測器が存在するという観測結果を活用する。 個別に学習する際の指数的爆発を避けるため, 2重パラメータ化手法を用いて最適予測器を共同で近似した。 これは、学習した予測者がマスク内相関と特徴とマスクの間の関係を頼れるようにすることで望ましくない副作用である。 我々はこの効果を最小限に抑えるために相関を解除する。 以上の手法を組み合わせることで,StableMissと呼ばれる新しい予測手法を提案する。 合成データと実世界のデータセットの両方に関する広範囲な実験により、stablemissは堅牢であり、マスクの分布シフトによらず最先端の手法よりも優れていることが示された。

Data with missing values is ubiquitous in many applications. Recent years have witnessed increasing attention on prediction with only incomplete data consisting of observed features and a mask that indicates the missing pattern. Existing methods assume that the training and testing distributions are the same, which may be violated in real-world scenarios. In this paper, we consider prediction with incomplete data in the presence of distribution shift. We focus on the case where the underlying joint distribution of complete features and label is invariant, but the missing pattern, i.e., mask distribution may shift agnostically between training and testing. To achieve generalization, we leverage the observation that for each mask, there is an invariant optimal predictor. To avoid the exponential explosion when learning them separately, we approximate the optimal predictors jointly using a double parameterization technique. This has the undesirable side effect of allowing the learned predictors to rely on the intra-mask correlation and that between features and mask. We perform decorrelation to minimize this effect. Combining the techniques above, we propose a novel prediction method called StableMiss. Extensive experiments on both synthetic and real-world datasets show that StableMiss is robust and outperforms state-of-the-art methods under agnostic mask distribution shift.
翻訳日:2023-05-22 17:58:39 公開日:2023-05-18
# DClEVerNet:大規模ネットワーク施設における効率的なEV充電スケジューリングのためのDeep Combinatorial Learning

DClEVerNet: Deep Combinatorial Learning for Efficient EV Charging Scheduling in Large-scale Networked Facilities ( http://arxiv.org/abs/2305.11195v1 )

ライセンス: Link先を確認
Bushra Alshehhi, Areg Karapetyan, Khaled Elbassioni, Sid Chi-Kin Chau, and Majid Khonji(参考訳) 輸送の電化により、電気自動車(EV)の上昇は配電網を著しく圧迫し、性能が低下し安定性が損なわれる可能性がある。 これらの新しい負荷を低コストで処理するために、現代の電力グリッドは、スケーラブルで効率的な方法でEV充電スケジューリングを最適化できるコーディネートまたは'smart''の充電戦略を必要とする。 この観点から,本研究は大規模ネットワーク型ev充電ステーションの予約管理プログラムに焦点を当てている。 ネットワークの利用可能な電力容量とステーションの占有限度を考慮しつつ、EV利用者の総福祉利益を最大化する時間結合二元最適化問題を定式化する。 解の質を高く保ちながら大規模に課題に取り組むために,ディープラーニングと近似アルゴリズムの分野からのテクニックを組み合わせたデータ駆動最適化フレームワークを導入する。 このフレームワークの重要な要素は、トレーニングセットに含まれるものよりもはるかに大きい問題サイズへの直接外挿を可能にするニューラルネットワークの新しい入出力処理スキームである。 合成および実世界のデータトレースに基づく大規模数値シミュレーションにより、2つの代表的なスケジューリングアルゴリズムに対する提案手法の有効性と優位性を検証する。 最後に、提案フレームワークの即時拡張をいくつかリストアップし、さらなる調査の展望を概説することで、コントリビューションをまとめます。

With the electrification of transportation, the rising uptake of electric vehicles (EVs) might stress distribution networks significantly, leaving their performance degraded and stability jeopardized. To accommodate these new loads cost-effectively, modern power grids require coordinated or ``smart'' charging strategies capable of optimizing EV charging scheduling in a scalable and efficient fashion. With this in view, the present work focuses on reservation management programs for large-scale, networked EV charging stations. We formulate a time-coupled binary optimization problem that maximizes EV users' total welfare gain while accounting for the network's available power capacity and stations' occupancy limits. To tackle the problem at scale while retaining high solution quality, a data-driven optimization framework combining techniques from the fields of Deep Learning and Approximation Algorithms is introduced. The framework's key ingredient is a novel input-output processing scheme for neural networks that allows direct extrapolation to problem sizes substantially larger than those included in the training set. Extensive numerical simulations based on synthetic and real-world data traces verify the effectiveness and superiority of the presented approach over two representative scheduling algorithms. Lastly, we round up the contributions by listing several immediate extensions to the proposed framework and outlining the prospects for further exploration.
翻訳日:2023-05-22 17:58:19 公開日:2023-05-18
# vaxformer:sars-cov-2ワクチン設計のための抗原性制御トランスフォーマー

Vaxformer: Antigenicity-controlled Transformer for Vaccine Design Against SARS-CoV-2 ( http://arxiv.org/abs/2305.11194v1 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Micha{\l} Kobiela, Achille Fraisse, Ajitha Rajan, Diego A. Oyarz\'un, Javier Antonio Alfaro(参考訳) SARS-CoV-2パンデミックは、ウイルスの現在および将来の変種から保護できる普遍的なワクチンを開発することの重要性を強調している。 本研究では, 天然の抗原性制御型SARS-CoV-2スパイクタンパク質の生産を目的とした, Vaxformer と呼ばれる新しい条件付きタンパク質言語モデルアーキテクチャを提案する。 ddgun protein stability measure, netmhcpan antigenicity score, and a structure fidelity score with alphafoldを用いてvaxformerモデルの生成したタンパク質配列を評価し,ワクチン開発における生存率を測定した。 以上の結果から,Vaxformerは既存の条件変化オートエンコーダモデルより優れており,抗原性制御型SARS-CoV-2スパイクタンパク質を生成することが示唆された。 これらの結果から,トランスフォーマーモデルがワクチン設計の理解を深め,世界保健の課題を緩和する役割を担っている可能性が示唆された。 この研究で使用されたコードはhttps://github.com/aryopg/vaxformer.orgで公開されている。

The SARS-CoV-2 pandemic has emphasised the importance of developing a universal vaccine that can protect against current and future variants of the virus. The present study proposes a novel conditional protein Language Model architecture, called Vaxformer, which is designed to produce natural-looking antigenicity-controlled SARS-CoV-2 spike proteins. We evaluate the generated protein sequences of the Vaxformer model using DDGun protein stability measure, netMHCpan antigenicity score, and a structure fidelity score with AlphaFold to gauge its viability for vaccine development. Our results show that Vaxformer outperforms the existing state-of-the-art Conditional Variational Autoencoder model to generate antigenicity-controlled SARS-CoV-2 spike proteins. These findings suggest promising opportunities for conditional Transformer models to expand our understanding of vaccine design and their role in mitigating global health challenges. The code used in this study is available at https://github.com/aryopg/vaxformer .
翻訳日:2023-05-22 17:57:58 公開日:2023-05-18
# 転送不能例を用いたデータ保護の一般化に向けて

Towards Generalizable Data Protection With Transferable Unlearnable Examples ( http://arxiv.org/abs/2305.11191v1 )

ライセンス: Link先を確認
Bin Fang and Bo Li and Shuang Wu and Tianyi Zheng and Shouhong Ding and Ran Yi and Lizhuang Ma(参考訳) 人工知能(AI)は、ほぼすべての領域で大きな影響を与えています。 この成功に寄与する重要な要因の1つは、機械学習モデルを構築するための高品質なデータへのアクセスである。 近年、人工知能におけるデータの役割は大幅に拡大されているため、データの安全な利用、特に不正なデータ利用に関して懸念が高まっている。 データエクスプロイトを軽減するために、データの非学習が導入された。 しかし、現在の理解不能な例は、幅広い適用性に必要な一般化を欠いている。 本稿では,転送不能な例を生成することにより,新たな汎用データ保護手法を提案する。 私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。 広範囲な実験を通じて,提案手法の一般化可能な保護能力の強化を実証する。

Artificial Intelligence (AI) is making a profound impact in almost every domain. One of the crucial factors contributing to this success has been the access to an abundance of high-quality data for constructing machine learning models. Lately, as the role of data in artificial intelligence has been significantly magnified, concerns have arisen regarding the secure utilization of data, particularly in the context of unauthorized data usage. To mitigate data exploitation, data unlearning have been introduced to render data unexploitable. However, current unlearnable examples lack the generalization required for wide applicability. In this paper, we present a novel, generalizable data protection method by generating transferable unlearnable examples. To the best of our knowledge, this is the first solution that examines data privacy from the perspective of data distribution. Through extensive experimentation, we substantiate the enhanced generalizable protection capabilities of our proposed method.
翻訳日:2023-05-22 17:57:38 公開日:2023-05-18
# クラウドベースの医療チャットボットにおけるAISecOps脅威モデリングの分類

Taxonomy of AISecOps Threat Modeling for Cloud Based Medical Chatbots ( http://arxiv.org/abs/2305.11189v1 )

ライセンス: Link先を確認
Ruby Annette J, Aisha Banu, Sharon Priya S, Subash Chandran(参考訳) 人工知能(AI)は、サイバーセキュリティを含む技術のあらゆる面で重要な役割を担っている。 チャットボットのような会話型aiの応用は、必要な患者にタイムリーかつ即時の医療支援を提供するため、医療分野でも非常に人気がある。 医療チャットボットは多くの機密情報を扱うので、これらのチャットボットのセキュリティは不可欠だ。 このようなクラウドにホストされた資産の機密性、完全性、可用性を確保するために、医療チャットボットはAISecOps(Artificial Intelligence for Secure IT Operations)を使用して監視することができる。 AISecOPsは、ITオペレーション、AI、セキュリティの3つの異なる相互関連ドメインをひとつのドメインとして統合する新興分野である。 クラウドの運用とセキュリティを総合的なフレームワークで考慮し、セキュリティの脅威を評価し、AIモデルに即時行動を取るためのトレーニングに必要なメトリクスを収集する。 この作業は、AISecOps技術を使用した自動脅威検出を可能にするために、チャットボットの各コンポーネントに関連する脅威をモデル化するためにSTRIDE脅威モデリングフレームワークを適用することに焦点を当てている。 この脅威モデリングフレームワークは、機密性の高いデータ共有を伴う医療チャットボットに合わせたものだが、セキュリティとコンプライアンスに関する金融サービス、公共セクター、政府セクターなど他のセクターで使用されているチャットボットにも適用することができる。

Artificial Intelligence (AI) is playing a vital role in all aspects of technology including cyber security. Application of Conversational AI like the chatbots are also becoming very popular in the medical field to provide timely and immediate medical assistance to patients in need. As medical chatbots deal with a lot of sensitive information, the security of these chatbots is crucial. To secure the confidentiality, integrity, and availability of cloud-hosted assets like these, medical chatbots can be monitored using AISecOps (Artificial Intelligence for Secure IT Operations). AISecOPs is an emerging field that integrates three different but interrelated domains like the IT operation, AI, and security as one domain, where the expertise from all these three domains are used cohesively to secure the cyber assets. It considers cloud operations and security in a holistic framework to collect the metrics required to assess the security threats and train the AI models to take immediate actions. This work is focused on applying the STRIDE threat modeling framework to model the possible threats involved in each component of the chatbot to enable the automatic threat detection using the AISecOps techniques. This threat modeling framework is tailored to the medical chatbots that involves sensitive data sharing but could also be applied for chatbots used in other sectors like the financial services, public sector, and government sectors that are concerned with security and compliance.
翻訳日:2023-05-22 17:57:29 公開日:2023-05-18
# 1次元対称性を保護した位相相の配列からキタエフハニカムスピン液体を組み立てる

Assembling Kitaev honeycomb spin liquids from arrays of 1D symmetry protected topological phases ( http://arxiv.org/abs/2305.11221v1 )

ライセンス: Link先を確認
Yue Liu, Nathanan Tantivasadakarn, Kevin Slagle, David F. Mross, Jason Alicea(参考訳) キタエフハニカムモデルは、大量の保存量によって正確に解くことができ、ギャップのない量子スピン液体相と、フォールトトレラント量子計算に関連するガッピングの子孫をサポートしている。 1次元クラスター状態様対称性保護トポロジー(SPT)相の異常エッジモードは, 保存量が少ない北エブモデルの変種に対して, 自然な構築ブロックを提供することを示す。 我々の変形の対称性は、キタエフ物質の文脈で研究された$\gamma$項の異方性バージョンに対応する単一の近近距離摂動を許容する。 正確な対角化を用いてモデルの位相図を決定する。 さらに、DMRGを用いて、基礎となる1次元SPTビルディングブロックが、ゼーマン場が補う2スピン相互作用のみを示すはしごハミルトンから現れることを示す。 このアプローチは、スピン軌道結合mott絶縁体においてキタエフハニカムスピン液体を実現するための新しい経路を示唆するかもしれない。

The Kitaev honeycomb model, which is exactly solvable by virtue of an extensive number of conserved quantities, supports a gapless quantum spin liquid phase as well as gapped descendants relevant for fault-tolerant quantum computation. We show that the anomalous edge modes of 1D cluster-state-like symmetry protected topological (SPT) phases provide natural building blocks for a variant of the Kitaev model that enjoys only a subextensive number of conserved quantities. The symmetry of our variant allows a single additional nearest-neighbor perturbation, corresponding to an anisotropic version of the $\Gamma$ term studied in the context of Kitaev materials. We determine the phase diagram of the model using exact diagonalization. Additionally, we use DMRG to show that the underlying 1D SPT building blocks can emerge from a ladder Hamiltonian exhibiting only two-spin interactions supplemented by a Zeeman field. Our approach may inform a new pathway toward realizing Kitaev honeycomb spin liquids in spin-orbit-coupled Mott insulators.
翻訳日:2023-05-22 17:50:36 公開日:2023-05-18
# 光ファイバーにおける量子モードの保護

Protecting quantum modes in optical fibres ( http://arxiv.org/abs/2305.11220v1 )

ライセンス: Link先を確認
M. A. T. Butt, P. Roth, G. K. L. Wong, M. H. Frosz, L. L. Sanchez-Soto, E. A. Anashkina, A. V. Andrianov, P. Banzer, P. S. J. Russell, G. Leuchs(参考訳) 偏光保存繊維は直交基底の2つの偏光状態を保持する。 しかし、量子通信は少なくとも2つの非直交状態を送る必要があり、どちらも保存できない。 本稿では,ファイバ内の偏光符号化を離散的だけでなく,連続変数のレジームにおいても使用可能な新しい方式を提案する。 ヘリカルにねじれたフォトニック結晶ファイバーの例として、偏光保存ファイバは適切な非直交モードを用いることで、全ポアンカー球上でこれらのモードを完全にスクランブルすることはなく、出力偏光は大円上に留まる、すなわち1次元の保護部分空間の中で、単一の変数でパラメータ化できることを示した。 これにより、nonorthogonalモードにおける量子励起のより効率的な測定が可能になる。

Polarization-preserving fibers maintain the two polarization states of an orthogonal basis. Quantum communication, however, requires sending at least two nonorthogonal states and these cannot both be preserved. We present a new scheme that allows for using polarization encoding in a fiber not only in the discrete, but also in the continuous-variable regime. For the example of a helically twisted photonic-crystal fibre, we experimentally demonstrate that using appropriate nonorthogonal modes, the polarization-preserving fiber does not fully scramble these modes over the full Poincar\'e sphere, but that the output polarization will stay on a great circle; that is, within a one-dimensional protected subspace, which can be parametrized by a single variable. This will allow for more efficient measurements of quantum excitations in nonorthogonal modes.
翻訳日:2023-05-22 17:50:19 公開日:2023-05-18
# ハイゼンベルク画像におけるテンソルネットワークによるガウスボソンサンプリングのシミュレーション

Simulating Gaussian Boson Sampling with Tensor Networks in the Heisenberg picture ( http://arxiv.org/abs/2305.11215v1 )

ライセンス: Link先を確認
Dario Cilluffo, Nicola Lorenzoni, Martin B. Plenio(参考訳) Schr\\odinger と Heisenberg の画像は量子力学の2つの等価な定式化であるが、一方を選択したシミュレーションは問題を解くのに必要な計算資源に大きな影響を与える。 ここでは,量子コンピューティングにおける中心的な問題であるガウス・ボーソンサンプリングにおいて,表現のよい選択が,実現可能かつ実現不可能な数値シミュレーション可能性の境界をシフトできることを実証する。 そこで本研究では,ハイゼンベルク画像におけるテンソルネットワークの時間発展に基づくボゾンサンプリングの確率分布を計算する新しい手法を提案する。 このアプローチは既存の方法の限界を克服し、例えば不均一光子損失の影響を受ける現実的なセットアップのシミュレーションを可能にする。 本研究では,本手法の有効性と量子コンピューティング研究の進展の可能性を示す。

Although the Schr\"odinger and Heisenberg pictures are two equivalent formulations of quantum mechanics, simulations performed choosing one over the other can greatly impact the computational resources required to solve a problem. Here we demonstrate that in Gaussian boson sampling, a central problem in quantum computing, a good choice of representation can shift the boundary between feasible and infeasible numerical simulability. To achieve this, we introduce a novel method for computing the probability distribution of boson sampling based on the time evolution of tensor networks in the Heisenberg picture. This approach overcomes limitations of existing methods and enables, for example, simulations of realistic setups affected by non-uniform photon losses. Our results demonstrate the effectiveness of the method and its potential to advance quantum computing research.
翻訳日:2023-05-22 17:50:04 公開日:2023-05-18
# 適応意味圧縮のための情報順序付きボトルネック

Information-Ordered Bottlenecks for Adaptive Semantic Compression ( http://arxiv.org/abs/2305.11213v1 )

ライセンス: Link先を確認
Matthew Ho, Xiaosheng Zhao, Benjamin Wandelt(参考訳) 情報順序付きボトルネック(iob, information-ordered bottleneck)は,データを最大化によって順序付けられた潜在変数に適応的に圧縮するように設計された神経層である。 再トレーニングなしでは、IOBノードは任意のボトルネック幅で切り離され、最初の潜伏変数で最も重要な情報をキャプチャすることができる。 複数のアプローチを統合することで、iobは与えられたエンコーディングアーキテクチャでほぼ最適の圧縮を実現し、意味的に意味のある方法で潜在信号に順序付けを割り当てることができることを示した。 iobsは、cnn、トランスフォーマー、拡散モデルといったsomaアーキテクチャの性能を活用することで、画像やテキストデータの埋め込みを圧縮する驚くべき能力を示している。 さらに, IOBを用いて大域的固有次元を推定する新たな理論を導入し, 複雑な合成データのSOTA次元推定を復元することを示す。 さらに,ヘテロジニアスデータセット上のアプリケーションを通して探索分析を行うためのモデルの有用性を提示し,データ複雑性のコンピュータ支援による発見を可能にした。

We present the information-ordered bottleneck (IOB), a neural layer designed to adaptively compress data into latent variables ordered by likelihood maximization. Without retraining, IOB nodes can be truncated at any bottleneck width, capturing the most crucial information in the first latent variables. Unifying several previous approaches, we show that IOBs achieve near-optimal compression for a given encoding architecture and can assign ordering to latent signals in a manner that is semantically meaningful. IOBs demonstrate a remarkable ability to compress embeddings of image and text data, leveraging the performance of SOTA architectures such as CNNs, transformers, and diffusion models. Moreover, we introduce a novel theory for estimating global intrinsic dimensionality with IOBs and show that they recover SOTA dimensionality estimates for complex synthetic data. Furthermore, we showcase the utility of these models for exploratory analysis through applications on heterogeneous datasets, enabling computer-aided discovery of dataset complexity.
翻訳日:2023-05-22 17:49:50 公開日:2023-05-18
# 量子計算のエネルギー消費性

Energy-Consumption Advantage of Quantum Computation ( http://arxiv.org/abs/2305.11212v1 )

ライセンス: Link先を確認
Florian Meier, Hayata Yamasaki(参考訳) コンピュータの性能測定の一環として,計算問題の解決におけるエネルギー消費が注目されている。 量子計算は、様々な計算資源の観点から古典計算よりも優れていることが知られているが、エネルギー消費におけるその利点は、エネルギーの物理的概念と有限の計算資源を持つ量子計算の複雑性のコンピュータ科学的概念を関連付ける理論的基礎が欠如しているため、分析が困難である。 このギャップを埋めるために,計算複雑性理論におけるクエリ複雑性の研究に従来用いられてきた,ブラックボックス・オラクルを用いた計算モデルに基づく量子計算と古典計算のエネルギー消費を研究する汎用フレームワークを提案する。 この枠組みにより、初期化、制御、量子誤り補正を含む全てのコストをカバーし、量子計算のエネルギー消費の上限を導出する。 また,エネルギー保存則とランダウアー・エミッション・バウンドに基づく古典計算のエネルギー消費の低限界を証明する技術も開発している。 これらの一般的な境界に基づいて、量子計算がサイモン問題に対する古典計算よりも指数関数エネルギー消費の利点を達成することを厳密に証明する。 これらの結果は、エネルギー消費に基づくクエリ・複雑度設定における量子優位性の物理的意義を探求する基本的な枠組みと技術を提供し、量子計算の利点を研究する代替の方法を開く。

Energy consumption in solving computational problems has been gaining growing attention as a part of the performance measures of computers. Quantum computation is known to offer advantages over classical computation in terms of various computational resources; however, its advantage in energy consumption has been challenging to analyze due to the lack of a theoretical foundation to relate the physical notion of energy and the computer-scientific notion of complexity for quantum computation with finite computational resources. To bridge this gap, we introduce a general framework for studying energy consumption of quantum and classical computation based on a computational model with a black-box oracle, as conventionally used for studying query complexity in computational complexity theory. With this framework, we derive an upper bound of energy consumption of quantum computation with covering all costs, including those of initialization, control, and quantum error correction; in particular, our analysis shows an energy-consumption bound for a finite-step Landauer-erasure protocol, progressing beyond the existing asymptotic bound. We also develop techniques for proving a lower bound of energy consumption of classical computation based on the energy-conservation law and the Landauer-erasure bound; significantly, our lower bound can be gapped away from zero no matter how energy-efficiently we implement the computation and is free from the computational hardness assumptions. Based on these general bounds, we rigorously prove that quantum computation achieves an exponential energy-consumption advantage over classical computation for Simon's problem. These results provide a fundamental framework and techniques to explore the physical meaning of quantum advantage in the query-complexity setting based on energy consumption, opening an alternative way to study the advantages of quantum computation.
翻訳日:2023-05-22 17:49:33 公開日:2023-05-18
# SU(2)対称性を持つスピン1/2系における平均純状態エンタングルメントエントロピー

Average Pure-State Entanglement Entropy in Spin 1/2 Systems with SU(2) Symmetry ( http://arxiv.org/abs/2305.11211v1 )

ライセンス: Link先を確認
Rohit Patil, Lucas Hackl, Marcos Rigol(参考訳) 非可換対称性は物理学の多くの分野において中心的な役割を担っており、近年は量子力学と熱化の区別が議論されている。 ここでは、非アーベルSU(2)対称性とそれがスピン1/2系に対して生成するリッチヒルベルト空間構造が、ランダム純状態と高励起ハミルトニアン固有状態の平均絡み合いエントロピーに作用することを示した。 異なる固定スピン J に対するゼロ磁化セクター (J_z=0) に着目して、エントロピーは、係数 s_A がスピン密度 j=2J/L と s_A(j --> 0)=ln(2) と s_A(j --> 1)=0 に依存する主体積法則項を持つことを示す。 また、第1次減算補正の挙動についても論じる。

Non-abelian symmetries play a central role in many areas in physics, and have been recently argued to result in distinct quantum dynamics and thermalization. Here we unveil the effect that the non-abelian SU(2) symmetry, and the rich Hilbert space structure that it generates for spin 1/2 systems, has on the average entanglement entropy of random pure states and of highly-excited Hamiltonian eigenstates. Focusing on the zero magnetization sector (J_z=0) for different fixed spin J, we show that the entanglement entropy has a leading volume law term whose coefficient s_A depends on the spin density j=2J/L, with s_A(j --> 0)=ln(2) and s_A(j --> 1)=0. We also discuss the behavior of the first subleading corrections.
翻訳日:2023-05-22 17:48:59 公開日:2023-05-18
# LIMA:アライメントにはあまり役に立たない

LIMA: Less Is More for Alignment ( http://arxiv.org/abs/2305.11206v1 )

ライセンス: Link先を確認
Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy(参考訳) 大規模言語モデルは,(1)原文からの教師なし事前学習,(2)汎用表現の学習,(2)大規模命令チューニングと強化学習,(2)エンドタスクとユーザの嗜好の整合性向上,の2段階で訓練される。 この2つのステージの相対的重要性を、強化学習や人間の嗜好モデリングを必要とせず、1000個の注意深くキュレートされたプロンプトとレスポンスで、標準的な教師付き損失に微調整された65bのパラメータラマ言語モデルであるlimaの訓練によって測定する。 limaは極めて強力なパフォーマンスを示しており、トレーニングデータのほんの一握りの例から、トリップイテナリの計画から代替履歴の推測まで、複雑なクエリまで、特定のレスポンス形式を学習している。 さらに、モデルはトレーニングデータに現れない未確認のタスクに対してうまく一般化する傾向がある。 制御されたヒトの研究では、limaからの反応は43%でgpt-4と同等か厳密に好ましいが、bardと比較して58%、人間のフィードバックで訓練されたdavinci003に対して65%である。 これらの結果から,大言語モデルにおける知識のほとんどすべてが事前学習中に学習されることが示唆され,高品質なアウトプットを生成するためにモデルを教えるためには限られた命令チューニングデータのみが必要である。

Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better align to end tasks and user preferences. We measure the relative importance of these two stages by training LIMA, a 65B parameter LLaMa language model fine-tuned with the standard supervised loss on only 1,000 carefully curated prompts and responses, without any reinforcement learning or human preference modeling. LIMA demonstrates remarkably strong performance, learning to follow specific response formats from only a handful of examples in the training data, including complex queries that range from planning trip itineraries to speculating about alternate history. Moreover, the model tends to generalize well to unseen tasks that did not appear in the training data. In a controlled human study, responses from LIMA are either equivalent or strictly preferred to GPT-4 in 43% of cases; this statistic is as high as 58% when compared to Bard and 65% versus DaVinci003, which was trained with human feedback. Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.
翻訳日:2023-05-22 17:48:42 公開日:2023-05-18
# 光ファイバーを用いた超軽量暗黒物質の探索

Searching for Scalar Ultralight Dark Matter with Optical Fibers ( http://arxiv.org/abs/2305.11205v1 )

ライセンス: Link先を確認
J. Manley and R. Stump and R. Petery and and S. Singh(参考訳) 我々は、光ファイバをスカラー超光暗黒物質(UDM)検出器とみなし、繊維ベースの干渉計を用いて10^{-17} - 10^{-13}$ eV/$c^2$ $\left(10^{-3}10 \text{ Hz}\right)$の粒子質量を持つスカラーUDMを探索する。 ソリッドコアと中空コアファイバから構成されるこの検出器は、微細構造定数$\alpha$のスカラーUDMによる変調により、繊維の屈折率の相対的な振動に敏感である。 我々は, 検出器アレイの実装や低温冷却により, 光ファイバベースのスカラーudm探索がパラメータ空間の新しい領域に到達する可能性を示唆する。 このような探索は、それまでのdmによる粒子質量範囲(7\times 10^{-17} - 2\times 10^{-14}$ ev/$c^2$)よりも高い感度でダークマターの太陽ハロを探すのに特に適している。

We consider optical fibers as detectors for scalar ultralight dark matter (UDM) and propose using a fiber-based interferometer to search for scalar UDM with particle mass in the range $10^{-17} - 10^{-13}$ eV/$c^2$ $\left(10^{-3}- 10 \text{ Hz}\right)$. Composed of a solid core and a hollow core fiber, the proposed detector would be sensitive to relative oscillations in the fibers' refractive indices due to scalar UDM-induced modulations in the fine-structure constant $\alpha$. We predict that, implementing detector arrays or cryogenic cooling, the proposed optical fiber-based scalar UDM search has the potential to reach new regions of the parameter space. Such a search would be particularly well-suited to probe for a Solar halo of dark matter with a sensitivity exceeding that of previous DM searches over the particle mass range $7\times 10^{-17} - 2\times 10^{-14}$ eV/$c^2$.
翻訳日:2023-05-22 17:48:15 公開日:2023-05-18
# データ駆動アプローチによる太陽系外惑星の居住性評価--包括的な文献レビュー

Assessing Exoplanet Habitability through Data-driven Approaches: A Comprehensive Literature Review ( http://arxiv.org/abs/2305.11204v1 )

ライセンス: Link先を確認
Mithil Sai Jakka(参考訳) 太陽系外惑星の探査と研究は、天文学研究の最前線に留まっており、これらの天体が生み出す膨大な複雑なデータを探索するために、科学者が継続的に手法を革新し洗練するよう挑戦している。 このレビューは、外惑星の検出、分類、可視化、そして機械学習と計算モデルのますます重要な役割の間の相互作用に焦点を当て、この領域における新たなトレンドと進歩を照らすことを目的としている。 この分野における15の精巧に選択された学術論文を包括的に分析し、この探究の領域を旅する。 これらの論文は、それぞれ外惑星研究の異なる側面を表しており、総じて場の現在の状態に関する多次元的な視点を提供している。 彼らは天文学データの分析と解釈によって生じる課題を克服するために、機械学習技術の革新的応用に対する貴重な洞察を提供する。 Support Vector Machines (SVM) の応用からディープラーニングモデルまで、このレビューは外惑星研究で使用される機械学習アプローチの幅広いスペクトルをカプセル化している。 レビューはまた、これらの論文のデータによって織り込まれた物語を解明し、フィールドの勝利とトリビュールを詳述することを目指している。 KeplerやTESSといった多様なデータセットへの依存度の増加と、太陽系外惑星の検出と分類モデルにおける精度向上の推進を強調している。 物語は重要な内容と洞察で締めくくり、研究の糸をまとめて、フィールドが動いている方向の密集した絵を描いている。 したがって、この文献レビューは、学術的な探究だけでなく、我々の宇宙近辺を理解するための探究における科学的発見と革新の物語としても役立つ。

The exploration and study of exoplanets remain at the frontier of astronomical research, challenging scientists to continuously innovate and refine methodologies to navigate the vast, complex data these celestial bodies produce. This literature the review aims to illuminate the emerging trends and advancements within this sphere, specifically focusing on the interplay between exoplanet detection, classification, and visualization, and the the increasingly pivotal role of machine learning and computational models. Our journey through this realm of exploration commences with a comprehensive analysis of fifteen meticulously selected, seminal papers in the field. These papers, each representing a distinct facet of exoplanet research, collectively offer a multi-dimensional perspective on the current state of the field. They provide valuable insights into the innovative application of machine learning techniques to overcome the challenges posed by the analysis and interpretation of astronomical data. From the application of Support Vector Machines (SVM) to Deep Learning models, the review encapsulates the broad spectrum of machine learning approaches employed in exoplanet research. The review also seeks to unravel the story woven by the data within these papers, detailing the triumphs and tribulations of the field. It highlights the increasing reliance on diverse datasets, such as Kepler and TESS, and the push for improved accuracy in exoplanet detection and classification models. The narrative concludes with key takeaways and insights, drawing together the threads of research to present a cohesive picture of the direction in which the field is moving. This literature review, therefore, serves not just as an academic exploration, but also as a narrative of scientific discovery and innovation in the quest to understand our cosmic neighborhood.
翻訳日:2023-05-22 17:47:54 公開日:2023-05-18
# PDP:パラメータフリーで微分可能なプルーニング

PDP: Parameter-free Differentiable Pruning is All You Need ( http://arxiv.org/abs/2305.11203v1 )

ライセンス: Link先を確認
Minsik Cho, Saurabh Adya, Devang Naik(参考訳) DNNプルーニングは、モデルのサイズを小さくし、推論遅延を改善し、DNNアクセラレータの消費電力を最小化する一般的な方法である。 しかし、既存のアプローチは複雑すぎる、高価すぎる、あるいは不効率すぎるため、様々な視覚/言語タスク、DNNアーキテクチャ、構造化プルーニング制約に対処できない。 本稿では, モデルサイズ, 精度, トレーニングコストの最先端性を提供する, 効率的かつ効果的な列車時プルーニング手法であるパラメータフリー微分可能プルーニング(PDP)を提案する。 PDPはトレーニング中に重量の動的関数を使用して、所定のプルーニング対象に対してパラメータフリーな方法で重量の軟式プルーニングマスクを生成する。 微分可能ではあるが、PDPの単純さと効率性により、様々な視覚や自然言語のタスクに対して最先端のランダム/構造化/チャネルプルーニング結果を提供することができる。 例えば、MobileNet-v1では、PDPは86.6%の間隔で68.2%のトップ-1 ImageNet1kの精度を達成できる。 また、PDPはマルチジェネラル言語推論において83.1%以上の精度が得られ、BERTでは90%の精度が得られたが、既存の手法では81.5%の精度が得られた。 さらに、PDPはN:Mプルーニングやチャネルプルーニングなどの構造化プルーニングにも適用できる。 ResNet18の1:4構造化プルーニングでは、PDPは最先端のImageNet1kの精度を3.6%以上改善した。 ResNet50のチャネルプルーニングでは、PDPは最先端のImageNet1kの精度を0.6%削減した。

DNN pruning is a popular way to reduce the size of a model, improve the inference latency, and minimize the power consumption on DNN accelerators. However, existing approaches might be too complex, expensive or ineffective to apply to a variety of vision/language tasks, DNN architectures and to honor structured pruning constraints. In this paper, we propose an efficient yet effective train-time pruning scheme, Parameter-free Differentiable Pruning (PDP), which offers state-of-the-art qualities in model size, accuracy, and training cost. PDP uses a dynamic function of weights during training to generate soft pruning masks for the weights in a parameter-free manner for a given pruning target. While differentiable, the simplicity and efficiency of PDP make it universal enough to deliver state-of-the-art random/structured/channel pruning results on various vision and natural language tasks. For example, for MobileNet-v1, PDP can achieve 68.2% top-1 ImageNet1k accuracy at 86.6% sparsity, which is 1.7% higher accuracy than those from the state-of-the-art algorithms. Also, PDP yields over 83.1% accuracy on Multi-Genre Natural Language Inference with 90% sparsity for BERT, while the next best from the existing techniques shows 81.5% accuracy. In addition, PDP can be applied to structured pruning, such as N:M pruning and channel pruning. For 1:4 structured pruning of ResNet18, PDP improved the top-1 ImageNet1k accuracy by over 3.6% over the state-of-the-art. For channel pruning of ResNet50, PDP reduced the top-1 ImageNet1k accuracy by 0.6% from the state-of-the-art.
翻訳日:2023-05-22 17:47:28 公開日:2023-05-18
# ニューラルネットワークにおける脳にインスパイアされた学習

Brain-inspired learning in artificial neural networks: a review ( http://arxiv.org/abs/2305.11252v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Jascha Achterberg, Thomas Miconi, Louis Kirsch, Rojin Ziaei, S. Pardis Hajiseyedrazi, Jason Eshraghian(参考訳) ANN(Artificial Neural Network)は、機械学習において不可欠なツールとして登場し、画像や音声の生成、ゲームプレイ、ロボット工学など、さまざまな領域で顕著な成功を収めている。 しかし、アンの動作メカニズムと生物学的脳の動作、特に学習過程には根本的な違いがある。 本稿では,ニューラルネットワークにおける脳にインスパイアされた現在の学習表現について概説する。 シナプス可塑性など,より生物学的に有理な機構の統合を検討し,ネットワークの能力を高める。 さらに,このアプローチに伴う潜在的なメリットと課題についても検討した。 最終的には、この急速に進歩する分野における将来的な研究の道のりを見極め、知性の本質を理解することにつながるかもしれない。

Artificial neural networks (ANNs) have emerged as an essential tool in machine learning, achieving remarkable success across diverse domains, including image and speech generation, game playing, and robotics. However, there exist fundamental differences between ANNs' operating mechanisms and those of the biological brain, particularly concerning learning processes. This paper presents a comprehensive review of current brain-inspired learning representations in artificial neural networks. We investigate the integration of more biologically plausible mechanisms, such as synaptic plasticity, to enhance these networks' capabilities. Moreover, we delve into the potential advantages and challenges accompanying this approach. Ultimately, we pinpoint promising avenues for future research in this rapidly advancing field, which could bring us closer to understanding the essence of intelligence.
翻訳日:2023-05-22 17:39:50 公開日:2023-05-18
# 計算システマティクス:文学小説のジャンルをクラスタ化するアルゴリズムの比較

Computational thematics: Comparing algorithms for clustering the genres of literary fiction ( http://arxiv.org/abs/2305.11251v1 )

ライセンス: Link先を確認
Oleg Sobchuk, Artjoms \v{S}e\c{l}a(参考訳) 文学テキスト間の主題的類似性を捉える最良の方法は何か? この質問に対する答えを知ることは、本ジャンルの自動クラスタリングや、他のテーマグループ化に役立ちます。 本稿では,テキスト間の主題的類似性の教師なし学習のための様々なアルゴリズムを比較し,これを「計算的主題」と呼ぶ。 これらのアルゴリズムは、テキスト前処理、テキスト特徴の抽出、特徴リスト間の距離測定という3つの分析段階に属する。 それぞれのステップにはさまざまなオプションが含まれている。 アルゴリズムのあらゆる組み合わせは、事前にタグづけされた4つのジャンルのフィクションに属する本のコーパスをクラスタ化するタスクを与えられます。 このクラスタリングは"ground truth"というジャンルのラベルに対して検証される。 このようなアルゴリズムの比較により、計算テーマ解析の最良の組み合わせと最悪の組み合わせを学習することができる。 最高の方法と最悪の方法の鋭い違いを説明するために、hathitrust corpus of fictionから5000のランダム小説を集結させました。

What are the best methods of capturing thematic similarity between literary texts? Knowing the answer to this question would be useful for automatic clustering of book genres, or any other thematic grouping. This paper compares a variety of algorithms for unsupervised learning of thematic similarities between texts, which we call "computational thematics". These algorithms belong to three steps of analysis: text preprocessing, extraction of text features, and measuring distances between the lists of features. Each of these steps includes a variety of options. We test all the possible combinations of these options: every combination of algorithms is given a task to cluster a corpus of books belonging to four pre-tagged genres of fiction. This clustering is then validated against the "ground truth" genre labels. Such comparison of algorithms allows us to learn the best and the worst combinations for computational thematic analysis. To illustrate the sharp difference between the best and the worst methods, we then cluster 5000 random novels from the HathiTrust corpus of fiction.
翻訳日:2023-05-22 17:39:38 公開日:2023-05-18
# インターセクション・モデレーションに向けて:ケアとパワーを基盤としたモデレーションの代替モデル

Towards Intersectional Moderation: An Alternative Model of Moderation Built on Care and Power ( http://arxiv.org/abs/2305.11250v1 )

ライセンス: Link先を確認
Sarah A. Gilbert(参考訳) 現在のモデレーションモデルの欠点は、政策立案者、学者、技術者がコンテンツモデレーションの代替モデルについて推測することを促した。 代替モデルはオンラインスペースの将来への希望を提供するが、適切な足場なしでは失敗する可能性がある。 コミュニティモデレーターは、同様の問題に直面し、これらの課題をナビゲートするための創造的な方法を見つけました。 これらのモデレーターが行う決定、直面している課題、そして成功している場所についてさらに学ぶことで、代替モデレーションモデルの成功を確実にする方法に関する貴重な洞察を得ることができる。 本研究では、代替モデレーションモデルを用いたコミュニティであるr/AskHistoriansのモデレーターと共同でエスノグラフィを行い、モデレーションにおけるパワーの説明の重要性を強調した。 ブラックフェミニストの理論から、私はこれを「断続的モデレーション」と呼んでいる。 r/AskHistorianの別のモデレーションモデルに対する議論は、モデレーション決定に対する意見の相違、Redditで人種差別と戦うためのコラボレーション、激しい混乱と政策への影響の3つに焦点を合わせています。 この証拠を通じて、ボランティアのモデレーターが、ケアワークを通じて複数のパワー層をナビゲートしたことを示す。 交差点のモデレーションの実施が成功するためには、設計者は意思決定プロセスをサポートし、政策立案者はモデレーターが機能する社会技術システムの影響を考慮すべきである。

Shortcomings of current models of moderation have driven policy makers, scholars, and technologists to speculate about alternative models of content moderation. While alternative models provide hope for the future of online spaces, they can fail without proper scaffolding. Community moderators are routinely confronted with similar issues and have therefore found creative ways to navigate these challenges. Learning more about the decisions these moderators make, the challenges they face, and where they are successful can provide valuable insight into how to ensure alternative moderation models are successful. In this study, I perform a collaborative ethnography with moderators of r/AskHistorians, a community that uses an alternative moderation model, highlighting the importance of accounting for power in moderation. Drawing from Black feminist theory, I call this "intersectional moderation." I focus on three controversies emblematic of r/AskHistorians' alternative model of moderation: a disagreement over a moderation decision; a collaboration to fight racism on Reddit; and a period of intense turmoil and its impact on policy. Through this evidence I show how volunteer moderators navigated multiple layers of power through care work. To ensure the successful implementation of intersectional moderation, I argue that designers should support decision-making processes and policy makers should account for the impact of the sociotechnical systems in which moderators work.
翻訳日:2023-05-22 17:39:21 公開日:2023-05-18
# 事前学習汎用音声モデルを用いたアラビア方言識別のためのパラメータ効率よい学習手法

A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model ( http://arxiv.org/abs/2305.11244v1 )

ライセンス: Link先を確認
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner(参考訳) 本研究では、アラビア方言識別(ADI)のための一般目的音声(GSM)モデルを応用するためのパラメータ効率学習(PEL)手法について検討する。 具体的には,多層エンコーダ・デコーダgsm定式化にトレーニング可能な機能を組み込むための,既定の凍結条件下での異なる設定について検討する。 私たちのアーキテクチャには、残余のアダプタとモデル再プログラミング(インプットプロンプティング)が含まれています。 アラビア語方言識別のためのgsmを条件としてトークンレベルラベルマッピングを設計する。 これは、多くの方言の中で語彙や発音のばらつきが高いためである。 我々は,バニラ微調整により,ADI-17データセットの最先端性を実現する。 さらに,ネットワークトレーニング可能なパラメータの2.5%しか使用せず,1.86%の精度で微調整を行うPEL法のトレーニング予算を削減した。 本研究は,オープンソースコードと事前学習モデルを用いて,小さなデータセットと限られた計算量を用いてアラビア方言を識別する方法を示す。

In this work, we explore Parameter-Efficient-Learning (PEL) techniques to repurpose a General-Purpose-Speech (GSM) model for Arabic dialect identification (ADI). Specifically, we investigate different setups to incorporate trainable features into a multi-layer encoder-decoder GSM formulation under frozen pre-trained settings. Our architecture includes residual adapter and model reprogramming (input-prompting). We design a token-level label mapping to condition the GSM for Arabic Dialect Identification (ADI). This is challenging due to the high variation in vocabulary and pronunciation among the numerous regional dialects. We achieve new state-of-the-art accuracy on the ADI-17 dataset by vanilla fine-tuning. We further reduce the training budgets with the PEL method, which performs within 1.86% accuracy to fine-tuning using only 2.5% of (extra) network trainable parameters. Our study demonstrates how to identify Arabic dialects using a small dataset and limited computation with open source code and pre-trained models.
翻訳日:2023-05-22 17:38:50 公開日:2023-05-18
# 機械と子どもの比較:発達心理学実験を用いてLaMDA反応の強さと弱さを評価する

Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses ( http://arxiv.org/abs/2305.11243v1 )

ライセンス: Link先を確認
Eliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik and Danielle Krettek Cobb(参考訳) 発達心理学者は、幼児や子供の知性と知識をテストする実験を数十年かけて開発し、重要な概念と能力の起源を辿ってきた。 さらに、発達心理学における実験技術は、特定の行動の根底にある認知能力を識別するために慎重に設計されている。 本稿では,子どもの発達における古典的実験の利用が,AIモデル,特にLLMの計算能力の探究に特に有効な方法であることを示す。 第一に, 発達心理学の方法論的手法として, 子どもが単純な関連性を用いているかどうかを判断するために, 過去の経験や制御条件の制御に新規刺激を用いることは, LLMの能力を評価する上でも同様に有用である。 この方法でLCMをテストすることで、テキストにエンコードされた情報が、特定の応答を可能にするのに十分かどうか、あるいは物理世界探索の情報など他の種類の情報に依存するかどうかを知ることができる。 本研究では,Googleの大規模言語モデルであるLaMDAの能力を評価するために,古典的な開発実験を適用する。 本稿では, GPT などの他の言語モデルの評価に使用できる新しい LLM Response Score (LRS) メトリクスを提案する。 社会的理解に関する実験において,LaMDAは子どもに類似した適切な反応を生じさせ,これらの領域の知識が言語を通して発見されることを示す。 一方、初期の対象と行動理解におけるLaMDAの反応、心の理論、特に因果推論タスクは、幼児のそれとは大きく異なり、おそらくこれらのドメインはより現実的で自己開始型の探索を必要としており、言語入力のパターンから単に学ぶことができないことを示している。

Developmental psychologists have spent decades devising experiments to test the intelligence and knowledge of infants and children, tracing the origin of crucial concepts and capacities. Moreover, experimental techniques in developmental psychology have been carefully designed to discriminate the cognitive capacities that underlie particular behaviors. We propose that using classical experiments from child development is a particularly effective way to probe the computational abilities of AI models, in general, and LLMs in particular. First, the methodological techniques of developmental psychology, such as the use of novel stimuli to control for past experience or control conditions to determine whether children are using simple associations, can be equally helpful for assessing the capacities of LLMs. In parallel, testing LLMs in this way can tell us whether the information that is encoded in text is sufficient to enable particular responses, or whether those responses depend on other kinds of information, such as information from exploration of the physical world. In this work we adapt classical developmental experiments to evaluate the capabilities of LaMDA, a large language model from Google. We propose a novel LLM Response Score (LRS) metric which can be used to evaluate other language models, such as GPT. We find that LaMDA generates appropriate responses that are similar to those of children in experiments involving social understanding, perhaps providing evidence that knowledge of these domains is discovered through language. On the other hand, LaMDA's responses in early object and action understanding, theory of mind, and especially causal reasoning tasks are very different from those of young children, perhaps showing that these domains require more real-world, self-initiated exploration and cannot simply be learned from patterns in language input.
翻訳日:2023-05-22 17:38:37 公開日:2023-05-18
# 複数の言語にまたがる多言語学習のバイアスと影響の比較

Comparing Biases and the Impact of Multilingual Training across Multiple Languages ( http://arxiv.org/abs/2305.11242v1 )

ライセンス: Link先を確認
Sharon Levy, Neha Anna John, Ling Liu, Yogarshi Vyas, Jie Ma, Yoshinari Fujinuma, Miguel Ballesteros, Vittorio Castelli, Dan Roth(参考訳) 自然言語処理におけるバイアスと公平性の研究は、主に単一の言語といくつかの属性(例えば性別、人種)における社会的バイアスを調査してきた。 しかし、バイアスは個々の属性に対して様々な言語で異なる形で現れる。 結果として、各言語と属性内のバイアスを調べることが重要となる。 等しく重要であるのは、これらのバイアスが言語間でどのように比較され、多言語データと単言語データでモデルをトレーニングする際にバイアスがどのように影響を受けるかを研究することである。 我々は、特定の人口層がより肯定的に見られているかどうかを確認するために、下流の感情分析タスクにおいて、イタリア語、中国語、英語、ヘブライ語、スペイン語の偏見分析を行う。 これらの言語におけるバイアスの類似性と相違について検討し,多言語対単言語訓練データの影響について検討した。 我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。 その結果,各言語の文化(多数派宗教や国籍など)に支配的な集団の優越性など,バイアス表現の類似性を明らかにした。 さらに,保護群間での予測のばらつきが増大し,多言語前訓練と比較して,多言語微調整後のバイアス増幅がみられた。

Studies in bias and fairness in natural language processing have primarily examined social biases within a single language and/or across few attributes (e.g. gender, race). However, biases can manifest differently across various languages for individual attributes. As a result, it is critical to examine biases within each language and attribute. Of equal importance is to study how these biases compare across languages and how the biases are affected when training a model on multilingual data versus monolingual data. We present a bias analysis across Italian, Chinese, English, Hebrew, and Spanish on the downstream sentiment analysis task to observe whether specific demographics are viewed more positively. We study bias similarities and differences across these languages and investigate the impact of multilingual vs. monolingual training data. We adapt existing sentiment bias templates in English to Italian, Chinese, Hebrew, and Spanish for four attributes: race, religion, nationality, and gender. Our results reveal similarities in bias expression such as favoritism of groups that are dominant in each language's culture (e.g. majority religions and nationalities). Additionally, we find an increased variation in predictions across protected groups, indicating bias amplification, after multilingual finetuning in comparison to multilingual pretraining.
翻訳日:2023-05-22 17:38:07 公開日:2023-05-18
# Evidence Networks: 高速、アモート化、ニューラルベイズモデルの比較のための単純な損失

Evidence Networks: simple losses for fast, amortized, neural Bayesian model comparison ( http://arxiv.org/abs/2305.11241v1 )

ライセンス: Link先を確認
Niall Jeffrey, Benjamin D. Wandelt(参考訳) エビデンスネットワークは、最先端の方法(例えばネストサンプリング)が失敗したときや、可能性や事前が難解であったり、未知であるときでも、ベイズモデルの比較を可能にする。 ベイズモデルの比較、すなわちベイズ因子やエビデンス比の計算は最適化問題として考えられる。 最適分類のベイズ解釈はよく知られているが、ここではベイズ因子の便利関数を直接推定する、素早い非モルト化ニューラルネットワーク推定器のパースペクティブと損失関数のクラスを変更する。 これにより、個々のモデル確率の推定に伴う数値的不正確さが軽減される。 リークパリティオードパワー (l-POP) 変換を導入し, 新規な「l-POP-Exponential」損失関数を導出する。 異なるモデルにおけるデータ確率のニューラル密度推定について検討し、Evidence Networksよりも正確でスケーラブルであることを示す。 複数の実世界および合成例は、エビデンスネットワークがパラメータ空間の次元性から明確に独立しており、後続確率密度関数の複雑さと軽度にスケールしていることを示している。 このシンプルで強力なアプローチは、モデル推論タスクに広く影響します。 実世界のデータに対するエビデンスネットワークの応用として、ダークエネルギーサーベイの重力レンズデータを持つ2つのモデルのベイズ係数を計算する。 我々は,暗黙的推論設定におけるモデル比較と評価の他の関連する問題に対する手法の適用について簡単に論じる。

Evidence Networks can enable Bayesian model comparison when state-of-the-art methods (e.g. nested sampling) fail and even when likelihoods or priors are intractable or unknown. Bayesian model comparison, i.e. the computation of Bayes factors or evidence ratios, can be cast as an optimization problem. Though the Bayesian interpretation of optimal classification is well-known, here we change perspective and present classes of loss functions that result in fast, amortized neural estimators that directly estimate convenient functions of the Bayes factor. This mitigates numerical inaccuracies associated with estimating individual model probabilities. We introduce the leaky parity-odd power (l-POP) transform, leading to the novel ``l-POP-Exponential'' loss function. We explore neural density estimation for data probability in different models, showing it to be less accurate and scalable than Evidence Networks. Multiple real-world and synthetic examples illustrate that Evidence Networks are explicitly independent of dimensionality of the parameter space and scale mildly with the complexity of the posterior probability density function. This simple yet powerful approach has broad implications for model inference tasks. As an application of Evidence Networks to real-world data we compute the Bayes factor for two models with gravitational lensing data of the Dark Energy Survey. We briefly discuss applications of our methods to other, related problems of model comparison and evaluation in implicit inference settings.
翻訳日:2023-05-22 17:37:49 公開日:2023-05-18
# セキュアアグリゲーションを用いた高効率垂直フェデレーション学習

Efficient Vertical Federated Learning with Secure Aggregation ( http://arxiv.org/abs/2305.11236v1 )

ライセンス: Link先を確認
Xinchi Qiu, Heng Pan, Wanru Zhao, Chenyang Ma, Pedro Porto Buarque de Gusm\~ao, Nicholas D. Lane(参考訳) プライバシ保護連合学習(fl)における作業の大部分は、クライアントが同じ機能セットを共有し、完全なモデルを独立してトレーニング可能な、水平分割データセットに注目している。 しかし,金融詐欺検出や疾患検出など,多くの興味深い問題において,垂直連合学習において,個々のデータポイントが異なるクライアント/組織に分散している。 この種のflのソリューションには、参加者間の勾配の交換が必要であり、プライバシーやセキュリティに関する懸念をほとんど考慮しない。 本稿では,セキュアアグリゲーションのための最先端セキュリティモジュールを用いて,垂直flを安全かつ効率的にトレーニングするための新しい設計を提案する。 本手法は,準同型暗号 (he) と比較して 9.1e2 ~3.8e4 高速化が得られながら,トレーニング性能に影響を与えないことを示す。

The majority of work in privacy-preserving federated learning (FL) has been focusing on horizontally partitioned datasets where clients share the same sets of features and can train complete models independently. However, in many interesting problems, such as financial fraud detection and disease detection, individual data points are scattered across different clients/organizations in vertical federated learning. Solutions for this type of FL require the exchange of gradients between participants and rarely consider privacy and security concerns, posing a potential risk of privacy leakage. In this work, we present a novel design for training vertical FL securely and efficiently using state-of-the-art security modules for secure aggregation. We demonstrate empirically that our method does not impact training performance whilst obtaining 9.1e2 ~3.8e4 speedup compared to homomorphic encryption (HE).
翻訳日:2023-05-22 17:37:25 公開日:2023-05-18
# 教師なし要約の最近の動向

Recent Trends in Unsupervised Summarization ( http://arxiv.org/abs/2305.11231v1 )

ライセンス: Link先を確認
Mohammad Khosravani, Amine Trabelsi(参考訳) 教師なし要約(unsupervised summarization)は、ラベル付きデータセットを必要とせずにモデルの要約をトレーニングできる強力なテクニックである。 この調査は、教師なしの要約に使われる様々な最近の技術とモデルを扱っている。 我々は,教師なし要約を実現するために使用される抽出的,抽象的,ハイブリッドなモデルと戦略について述べる。 この調査の主な焦点は最近の研究であるが、過去の重要な研究についても紹介する。 さらに,教師なしトレーニングへのアプローチに基づいて異なる研究を分類する分類法を提案する。 最後に,現在のアプローチについて論じ,いくつかのデータセットと評価手法について述べる。

Unsupervised summarization is a powerful technique that enables training summarizing models without requiring labeled datasets. This survey covers different recent techniques and models used for unsupervised summarization. We cover extractive, abstractive, and hybrid models and strategies used to achieve unsupervised summarization. While the main focus of this survey is on recent research, we also cover some of the important previous research. We additionally introduce a taxonomy, classifying different research based on their approach to unsupervised training. Finally, we discuss the current approaches and mention some datasets and evaluation methods.
翻訳日:2023-05-22 17:37:01 公開日:2023-05-18
# 非エルミート系における点ギャップ境界状態

Point-Gap Bound States in Non-Hermitian Systems ( http://arxiv.org/abs/2305.11227v1 )

ライセンス: Link先を確認
Zixi Fang, Chen Fang, and Kai Zhang(参考訳) 本稿では,1次元非エルミート系における不純物誘起境界状態について系統的に検討する。 不純物ポテンシャルと有界エネルギーの正確な関係を確立することにより、各点エネルギーギャップ内の有界状態を生成するために必要な最小不純物ポテンシャルを決定する。 ブロッホ・サドル点の存在は不純物ポテンシャルの有限しきい値を必要とすることを示し、そうでなければ無限小不純物ポテンシャルは境界状態を生成する。 さらに、非零スペクトル巻線を持つ点ギャップに存在する境界状態は境界条件に感度を示し、境界が開いているときにエッジに向かって絞り込まれることを示し、点-ギャップトポロジーの観点からはバルク-バウンダリー対応を示す。

In this paper, we systematically investigate the impurity-induced bound states in 1D non-Hermitian systems. By establishing an exact relationship between impurity potential and bound-state energy, we determine the minimum impurity potential required to generate bound states within each point energy gap. We demonstrate that the presence of Bloch saddle points necessitates a finite threshold of impurity potential; otherwise, infinitesimal impurity potential can create bound states. Furthermore, we show that the bound states residing in the point gaps with nonzero spectral winding exhibit sensitivity to boundary conditions and will be squeezed towards the edges when the boundaries are opened, indicating the bulk-boundary correspondence in terms of point-gap topology.
翻訳日:2023-05-22 17:36:49 公開日:2023-05-18
# 一般関数近似を用いた平均場強化学習の統計的効率について

On the Statistical Efficiency of Mean Field Reinforcement Learning with General Function Approximation ( http://arxiv.org/abs/2305.11283v1 )

ライセンス: Link先を確認
Jiawei Huang, Batuhan Yardim, Niao He(参考訳) 本稿では,平均場制御(MFC)および平均場制御(MFG)における強化学習の統計的効率を一般関数近似を用いて検討する。 平均場モデルに基づくエルダー次元 (mbed) と呼ばれる新しい概念を導入し, 平均場 rl 問題の豊富な族を仮定した。 さらに, mfc の $\epsilon$-optimal policy や mfg の $\epsilon$-nash equilibrium policy を,関連するパラメータのサンプル複雑性多項式 w.r.t を用いて返却し,状態数,アクション数,エージェント数に依存しない楽観的最大値推定アルゴリズムを提案する。 特に,我々は遷移ダイナミクスに対するリプシッツ連続性の軽度な仮定と,前回の作業における強固な構造的仮定のみを必要とする。 最後に、生成モデルへのアクセスを前提として、MFC設定の指数的下限を確立するとともに、MFG設定における平衡を近似する新しいサンプル効率モデル除去アルゴリズムを提供する。 以上の結果から, 単エージェント, MFC, MFGに対するRLの分離は, 試料効率の観点から明らかにされた。

In this paper, we study the statistical efficiency of Reinforcement Learning in Mean-Field Control (MFC) and Mean-Field Game (MFG) with general function approximation. We introduce a new concept called Mean-Field Model-Based Eluder Dimension (MBED), which subsumes a rich family of Mean-Field RL problems. Additionally, we propose algorithms based on Optimistic Maximal Likelihood Estimation, which can return an $\epsilon$-optimal policy for MFC or an $\epsilon$-Nash Equilibrium policy for MFG, with sample complexity polynomial w.r.t. relevant parameters and independent of the number of states, actions and the number of agents. Notably, our results only require a mild assumption of Lipschitz continuity on transition dynamics and avoid strong structural assumptions in previous work. Finally, in the tabular setting, given the access to a generative model, we establish an exponential lower bound for MFC setting, while providing a novel sample-efficient model elimination algorithm to approximate equilibrium in MFG setting. Our results reveal a fundamental separation between RL for single-agent, MFC, and MFG from the sample efficiency perspective.
翻訳日:2023-05-22 17:31:01 公開日:2023-05-18
# slotdiffusion:拡散モデルを用いたオブジェクト中心生成モデル

SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models ( http://arxiv.org/abs/2305.11281v1 )

ライセンス: Link先を確認
Ziyi Wu, Jingyu Hu, Wuyue Lu, Igor Gilitschenski, Animesh Garg(参考訳) オブジェクト中心学習は、視覚データを一連のオブジェクトエンティティ(つまりスロット)で表現することを目的としており、体系的な一般化を可能にする構造化表現を提供する。 トランスフォーマーのような高度なアーキテクチャを活用することで、最近のアプローチは教師なしオブジェクト発見において大きな進歩を遂げている。 さらに、スロットベースの表現は、制御可能な画像生成や画像編集におけるオブジェクト操作など、生成モデルに大きな可能性を秘めている。 しかし、現在のスロットベースの方法は、しばしばぼやけた画像や歪んだオブジェクトを生成し、生成的モデリング能力に乏しい。 本稿では,高品質な視覚生成のための重要な側面であるスロット・ツー・イメージデコードの改善に焦点をあてる。 SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。 LDMの強力なモデリング能力のおかげで、SlotDiffusionは6つのデータセットにわたる教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。 さらに,学習対象の特徴を既存のオブジェクト中心ダイナミクスモデルで活用し,映像予測品質と下流時間推論タスクを改善する。 最後に,自己教師付き事前学習画像エンコーダと統合した場合,pascal vocやcocoなどの無拘束実世界データセットへのslotdiffusionのスケーラビリティを示す。

Object-centric learning aims to represent visual data with a set of object entities (a.k.a. slots), providing structured representations that enable systematic generalization. Leveraging advanced architectures like Transformers, recent approaches have made significant progress in unsupervised object discovery. In addition, slot-based representations hold great potential for generative modeling, such as controllable image generation and object manipulation in image editing. However, current slot-based methods often produce blurry images and distorted objects, exhibiting poor generative modeling capabilities. In this paper, we focus on improving slot-to-image decoding, a crucial aspect for high-quality visual generation. We introduce SlotDiffusion -- an object-centric Latent Diffusion Model (LDM) designed for both image and video data. Thanks to the powerful modeling capacity of LDMs, SlotDiffusion surpasses previous slot models in unsupervised object segmentation and visual generation across six datasets. Furthermore, our learned object features can be utilized by existing object-centric dynamics models, improving video prediction quality and downstream temporal reasoning tasks. Finally, we demonstrate the scalability of SlotDiffusion to unconstrained real-world datasets such as PASCAL VOC and COCO, when integrated with self-supervised pre-trained image encoders.
翻訳日:2023-05-22 17:30:35 公開日:2023-05-18
# 神経軌道学習のためのリアルタイム変分法とそのダイナミクス

Real-Time Variational Method for Learning Neural Trajectory and its Dynamics ( http://arxiv.org/abs/2305.11278v1 )

ライセンス: Link先を確認
Matthew Dowling, Yuan Zhao, Il Memming Park(参考訳) 潜在変数モデルは、神経計算に関する推論のために計算神経科学に役立っている。 これにより、神経記録から潜在性神経路を抽出する強力なオフラインアルゴリズムの開発が進められた。 しかし、実験者に即時フィードバックを与え、実験設計を強化するリアルタイム代替案の可能性にもかかわらず、彼らは著しく注意を引いている。 本研究では,指数関数型家族変動カルマンフィルタ (eVKF) を導入する。これは潜在軌道の推論を目的としたオンライン再帰的ベイズ法であり,同時にそれらを生成する力学系を学習する。 eVKF は任意の確率で作用し、定数基底測度指数族を用いて潜在状態確率をモデル化する。 我々は、カルマンフィルタの予測ステップに対する閉形式の変分類似を導出し、他のオンライン変分法と比較してELBOの強固な境界を導出する。 本手法を総合的および実世界データで検証し,特に競争的性能を発揮できることを示す。

Latent variable models have become instrumental in computational neuroscience for reasoning about neural computation. This has fostered the development of powerful offline algorithms for extracting latent neural trajectories from neural recordings. However, despite the potential of real time alternatives to give immediate feedback to experimentalists, and enhance experimental design, they have received markedly less attention. In this work, we introduce the exponential family variational Kalman filter (eVKF), an online recursive Bayesian method aimed at inferring latent trajectories while simultaneously learning the dynamical system generating them. eVKF works for arbitrary likelihoods and utilizes the constant base measure exponential family to model the latent state stochasticity. We derive a closed-form variational analogue to the predict step of the Kalman filter which leads to a provably tighter bound on the ELBO compared to another online variational method. We validate our method on synthetic and real-world data, and, notably, show that it achieves competitive performance
翻訳日:2023-05-22 17:30:13 公開日:2023-05-18
# 生物学的制約のあるディープラーニングアーキテクチャによるV1特性の説明

Explaining V1 Properties with a Biologically Constrained Deep Learning Architecture ( http://arxiv.org/abs/2305.11275v1 )

ライセンス: Link先を確認
Galen Pogoncheff, Jacob Granley, Michael Beyeler(参考訳) 畳み込みニューラルネットワーク(CNN)は、生物学的特異性の欠如にもかかわらず、最近、腹側視覚の流れの有望なモデルとして登場した。 一次視覚野(v1)の現在の最先端モデルは、敵対的な例と広範囲な拡張データによる訓練から表面化しているが、これらのモデルは、生物学的回路から生じるv1で観察される重要な神経特性を説明することができない。 このギャップに対処するため、我々は神経科学由来のアーキテクチャコンポーネントをCNNに体系的に組み込んで、V1における神経活動を包括的に説明するメカニズムとアーキテクチャのセットを特定した。 モデルv1アライメントの大幅な改善は,中心回りのアンタゴニズム,局所受容場,調律正規化,皮質拡大をシミュレートするアーキテクチャコンポーネントの統合によるものである。 タスク駆動型CNNをこれらの特殊なコンポーネントの集合で強化すると、V1神経活動とチューニング特性の最先端の説明をもたらす潜在表現を持つモデルを明らかにする。 我々は,これまでにないV1の説明に寄与するアーキテクチャ要素の集合を体系的に確立し,NeuroAIの分野における重要な進歩を浮き彫りにした。 脳のシリコン内モデルから得られる神経科学の洞察は、神経科学と人工知能の両方の分野を大きく前進させる可能性がある。

Convolutional neural networks (CNNs) have recently emerged as promising models of the ventral visual stream, despite their lack of biological specificity. While current state-of-the-art models of the primary visual cortex (V1) have surfaced from training with adversarial examples and extensively augmented data, these models are still unable to explain key neural properties observed in V1 that arise from biological circuitry. To address this gap, we systematically incorporated neuroscience-derived architectural components into CNNs to identify a set of mechanisms and architectures that comprehensively explain neural activity in V1. We show drastic improvements in model-V1 alignment driven by the integration of architectural components that simulate center-surround antagonism, local receptive fields, tuned normalization, and cortical magnification. Upon enhancing task-driven CNNs with a collection of these specialized components, we uncover models with latent representations that yield state-of-the-art explanation of V1 neural activity and tuning properties. Our results highlight an important advancement in the field of NeuroAI, as we systematically establish a set of architectural components that contribute to unprecedented explanation of V1. The neuroscience insights that could be gleaned from increasingly accurate in-silico models of the brain have the potential to greatly advance the fields of both neuroscience and artificial intelligence.
翻訳日:2023-05-22 17:29:57 公開日:2023-05-18
# 仮定対話におけるマインドモデリング理論による協調的プラン獲得に向けて

Towards Collaborative Plan Acquisition through Theory of Mind Modeling in Situated Dialogue ( http://arxiv.org/abs/2305.11271v1 )

ライセンス: Link先を確認
Cristian-Paul Bara, Ziqiao Ma, Yingzhuo Yu, Julie Shah, Joyce Chai(参考訳) 共同作業は、各パートナによる部分的なタスク知識と不完全な初期計画から始まることが多い。 これらのタスクを完了させるためには、エージェントはパートナーとの位置通信を行い、共通のタスク目標を達成するための完全な計画に向けて部分的な計画を調整する必要がある。 このようなコラボレーションは、人間とAIのコラボレーションにとって非常に難しいものです。 この制限に対処するため,人間とエージェントが相互に学習し,コミュニケーションし,共同作業のための完全な計画を取得するための共同計画獲得に向けて一歩踏み出した。 具体的には、エージェントが自分自身のタスク知識の不足を予測し、豊富な知覚と対話履歴に基づいてパートナーに対して新たな問題を定式化する。 3dブロック世界における対称協調作業のための位置対話ベンチマークを拡張し,計画獲得のための計算戦略を検討する。 実験の結果から,相手の知識の欠如を予測することは,相手自身の知識の予測よりも有効なアプローチであることが示唆された。 パートナーの対話行動と精神状態の明示的なモデリングは、無関係よりも改善され、より安定した結果をもたらすことを示す。 これらの結果は、パートナーが欠けている知識を予測できる将来のaiエージェントに洞察を与え、したがって、パートナーがこのような知識を身につけるのに役立つような情報を積極的に伝達し、共同タスクの共通理解に役立てることができる。

Collaborative tasks often begin with partial task knowledge and incomplete initial plans from each partner. To complete these tasks, agents need to engage in situated communication with their partners and coordinate their partial plans towards a complete plan to achieve a joint task goal. While such collaboration seems effortless in a human-human team, it is highly challenging for human-AI collaboration. To address this limitation, this paper takes a step towards collaborative plan acquisition, where humans and agents strive to learn and communicate with each other to acquire a complete plan for joint tasks. Specifically, we formulate a novel problem for agents to predict the missing task knowledge for themselves and for their partners based on rich perceptual and dialogue history. We extend a situated dialogue benchmark for symmetric collaborative tasks in a 3D blocks world and investigate computational strategies for plan acquisition. Our empirical results suggest that predicting the partner's missing knowledge is a more viable approach than predicting one's own. We show that explicit modeling of the partner's dialogue moves and mental states produces improved and more stable results than without. These results provide insight for future AI agents that can predict what knowledge their partner is missing and, therefore, can proactively communicate such information to help their partner acquire such missing knowledge toward a common understanding of joint tasks.
翻訳日:2023-05-22 17:29:29 公開日:2023-05-18
# DCT領域における空間周波数(SF)と一貫性検証(CV)に基づく多焦点画像融合

Multi-Focus Image Fusion Based on Spatial Frequency(SF) and Consistency Verification(CV) in DCT Domain ( http://arxiv.org/abs/2305.11265v1 )

ライセンス: Link先を確認
Krishnendu K. S.(参考訳) マルチフォーカス(multi-focus)は、特定のオブジェクトやシーンの異なる側面に焦点を当てるテクニックである。 Wireless Visual Sensor Networks (WVSN) は、2つ以上の画像を組み合わせて、個々の入力画像よりもより正確な出力画像を生成するマルチフォーカス画像融合を使用する。 wvsnにはビデオ監視、監視、トラッキングを含む様々なアプリケーションがある。 したがって、これらのネットワークの高レベルな分析はバイオメトリックスの恩恵を受けることができる。 本稿では、離散コサイン変換(DCT)標準を用いて、WVSNのマルチフォーカス画像を融合するアルゴリズムを提案する。 ソース画像から対応するブロックの空間周波数(SF)が融合基準を決定する。 空間周波数の高いブロックは、融合画像のdct表示を構成し、一貫性検証(cv)手順は、出力画像品質を向上させるために使用される。 提案手法はJPEG標準で符号化された複数対のマルチフォーカス画像に対して,融合性能を評価するために試験を行い,その結果から,出力画像の視覚的品質を改善し,他のDCT技術より優れていることを示す。

Multi-focus is a technique of focusing on different aspects of a particular object or scene. Wireless Visual Sensor Networks (WVSN) use multi-focus image fusion, which combines two or more images to create a more accurate output image that describes the scene better than any individual input image. WVSN has various applications, including video surveillance, monitoring, and tracking. Therefore, a high-level analysis of these networks can benefit Biometrics. This paper introduces an algorithm that utilizes discrete cosine transform (DCT) standards to fuse multi-focus images in WVSNs. The spatial frequency (SF) of the corresponding blocks from the source images determines the fusion criterion. The blocks with higher spatial frequencies make up the DCT presentation of the fused image, and the Consistency Verification (CV) procedure is used to enhance the output image quality. The proposed fusion method was tested on multiple pairs of multi-focus images coded on JPEG standard to evaluate the fusion performance, and the results indicate that it improves the visual quality of the output image and outperforms other DCT-based techniques.
翻訳日:2023-05-22 17:29:07 公開日:2023-05-18
# CHBias:中国語会話言語モデルのバイアス評価と緩和

CHBias: Bias Evaluation and Mitigation of Chinese Conversational Language Models ( http://arxiv.org/abs/2305.11262v1 )

ライセンス: Link先を確認
Jiaxu Zhao, Meng Fang, Zijing Shi, Yitong Li, Ling Chen, Mykola Pechenizkiy(参考訳) \textit{\textbf{\textcolor{red}{warning}:} この論文は攻撃的あるいは不安定なコンテンツを含んでいる。 事前訓練された会話エージェントは安全性の問題に晒され、性別バイアスなどのステレオタイプな人間のバイアスが現れる。 しかし、現在の研究にはまだバイアスのカテゴリーが限られており、そのほとんどは英語のみに焦点を当てている。 本稿では,中国語会話言語モデルのバイアス評価と緩和を目的とした新しい中国語データセットchbiasを提案する。 これまでのよく調査されたバイアスカテゴリとは別に、CHBiasには年齢や外観バイアスといった未調査のバイアスカテゴリが含まれており、あまり注目を集めていない。 chbias を用いた中国語会話モデル cdial-gpt と eva2.0 の評価を行った。 さらに,異なるバイアスを緩和するために,いくつかのデバイアス手法を中国の事前学習モデルに適用した。 実験の結果、これらの中国語事前学習されたモデルは、社会的バイアスを含むテキストを生成するのに潜在的に危険であることを示し、提案するデータセットを用いたデバイアス手法は、モデルの会話能力を維持しながら、応答生成のバイアスを軽減することができる。

\textit{\textbf{\textcolor{red}{Warning}:} This paper contains content that may be offensive or upsetting.} Pretrained conversational agents have been exposed to safety issues, exhibiting a range of stereotypical human biases such as gender bias. However, there are still limited bias categories in current research, and most of them only focus on English. In this paper, we introduce a new Chinese dataset, CHBias, for bias evaluation and mitigation of Chinese conversational language models. Apart from those previous well-explored bias categories, CHBias includes under-explored bias categories, such as ageism and appearance biases, which received less attention. We evaluate two popular pretrained Chinese conversational models, CDial-GPT and EVA2.0, using CHBias. Furthermore, to mitigate different biases, we apply several debiasing methods to the Chinese pretrained models. Experimental results show that these Chinese pretrained models are potentially risky for generating texts that contain social biases, and debiasing methods using the proposed dataset can make response generation less biased while preserving the models' conversational capabilities.
翻訳日:2023-05-22 17:28:48 公開日:2023-05-18
# 優先型マルチエージェントナビゲーションのための制約付き環境最適化

Constrained Environment Optimization for Prioritized Multi-Agent Navigation ( http://arxiv.org/abs/2305.11260v1 )

ライセンス: Link先を確認
Zhan Gao and Amanda Prorok(参考訳) マルチエージェントナビゲーションアルゴリズムの設計への伝統的なアプローチは、空間的制約がエージェントの性能に与える影響にもかかわらず、環境を固定的な制約と考える。 しかし、手動設計による環境レイアウトは非効率であり、潜在的に高価である。 本研究の目的は,エージェント性能と環境コストの両方を組み込んだシステムレベルの最適化問題において,環境を決定変数として考えることである。 この目的に向けて,前者はエージェントを偏りなく考慮し,後者はエージェントの優先順位を考慮し,非優先的かつ優先順位付けされた環境最適化の新たな問題を提案する。 我々は,完全性(すなわち,すべてのエージェントが目標に達する)を保証しながら,環境が変化する条件下での形式的証明を行い,環境最適化におけるエージェント優先度の役割を分析する。 実世界の制約を環境最適化に課し,制約付き確率最適化問題として数学的に定式化する。 エージェント, 環境, 性能の関係はモデル化が難しいため, 強化学習を活用して, 制約に対処するモデルフリーソリューションと原始双対機構を開発する。 個別情報処理アーキテクチャは、オンライン/オフライン最適化や離散/連続環境など、様々な実装シナリオで統合されている。 数値的な結果は理論を裏付け、我々のアプローチの有効性と適応性を示す。

Traditional approaches to the design of multi-agent navigation algorithms consider the environment as a fixed constraint, despite the influence of spatial constraints on agents' performance. Yet hand-designing conducive environment layouts is inefficient and potentially expensive. The goal of this paper is to consider the environment as a decision variable in a system-level optimization problem, where both agent performance and environment cost are incorporated. Towards this end, we propose novel problems of unprioritized and prioritized environment optimization, where the former considers agents unbiasedly and the latter accounts for agent priorities. We show, through formal proofs, under which conditions the environment can change while guaranteeing completeness (i.e., all agents reach goals), and analyze the role of agent priorities in the environment optimization. We proceed to impose real-world constraints on the environment optimization and formulate it mathematically as a constrained stochastic optimization problem. Since the relation between agents, environment and performance is challenging to model, we leverage reinforcement learning to develop a model-free solution and a primal-dual mechanism to handle constraints. Distinct information processing architectures are integrated for various implementation scenarios, including online/offline optimization and discrete/continuous environment. Numerical results corroborate the theory and demonstrate the validity and adaptability of our approach.
翻訳日:2023-05-22 17:28:31 公開日:2023-05-18
# Chain-of-Thought Prompting による無作為感の推論

Reasoning Implicit Sentiment with Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.11255v1 )

ライセンス: Link先を確認
Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua(参考訳) 感情分析システムは、入力テキストにおける主要な意見表現に基づいて、与えられた目標の感情極性を決定する一方で、暗黙的な感情分析(ISA)では、意見の手がかりは暗黙的で曖昧な方法で現れる。 したがって、暗黙の感情を検出するには、意見の潜在意図を推測する常識とマルチホップ推論能力が必要である。 最近のチェーン・オブ・思想(CoT)のアイデアにインスパイアされた本研究では、ISAの人間的な推論プロセスを模倣するThree-hop Reasoning(THOR) CoTフレームワークを紹介します。 我々は、THORが暗黙の側面、意見、そして最後に感情の極性を段階的に誘導する3段階の原理を設計する。 我々のTHOR+Flan-T5 (11B)は、監督設定で最先端(SoTA)を6%以上押し上げます。 さらに驚くべきことに、THOR+GPT3 (175B)はゼロショット設定でSoTAを50%以上押し上げる。 私たちのコードはhttps://github.com/scofield7419/THOR-ISAにあります。

While sentiment analysis systems try to determine the sentiment polarities of given targets based on the key opinion expressions in input texts, in implicit sentiment analysis (ISA) the opinion cues come in an implicit and obscure manner. Thus detecting implicit sentiment requires the common-sense and multi-hop reasoning ability to infer the latent intent of opinion. Inspired by the recent chain-of-thought (CoT) idea, in this work we introduce a Three-hop Reasoning (THOR) CoT framework to mimic the human-like reasoning process for ISA. We design a three-step prompting principle for THOR to step-by-step induce the implicit aspect, opinion, and finally the sentiment polarity. Our THOR+Flan-T5 (11B) pushes the state-of-the-art (SoTA) by over 6% F1 on supervised setup. More strikingly, THOR+GPT3 (175B) boosts the SoTA by over 50% F1 on zero-shot setting. Our code is at https://github.com/scofield7419/THOR-ISA.
翻訳日:2023-05-22 17:28:11 公開日:2023-05-18
# ロバストな量子制御系:量子情報 -- 量子ソフトコンピューティングに基づくインテリジェントロボティクスにおける熱力学隠れ力制御

Robust Quantum Controllers: Quantum Information -- Thermodynamic Hidden Force Control in Intelligent Robotics based on Quantum Soft Computing ( http://arxiv.org/abs/2305.11254v1 )

ライセンス: Link先を確認
Sergey V. Ulyanov, Viktor S. Ulyanov and Takakhide Hagiwara(参考訳) 量子・ソフトコンピューティング技術に基づく知的ロバスト制御系の設計のための一般的な戦略について述べる。 ハイブリッドインテリジェントコントローラの信頼性は、不完全な知識ベースを自己組織化する能力を提供することによって向上する。 予測不能な制御状況下での知的制御システムの堅牢性のレベル向上に主な注意が払われる。 古典的コンピュータ上で量子アルゴリズムをモデル化するためのSW&HWプラットフォームとスーパーコンピュータアクセラレータのサポートツールについて述べる。

A generalized strategy for the design of intelligent robust control systems based on quantum / soft computing technologies is described. The reliability of hybrid intelligent controllers increase by providing the ability to self-organize of imperfect knowledge bases. The main attention is paid to increasing the level of robustness of intelligent control systems in unpredictable control situations with the demonstration by illustrative examples. A SW & HW platform and support tools for a supercomputer accelerator for modeling quantum algorithms on a classical computer are described.
翻訳日:2023-05-22 17:27:52 公開日:2023-05-18
# AMII:適応行動合成のための適応的マルチモーダル対人・対人モデル

AMII: Adaptive Multimodal Inter-personal and Intra-personal Model for Adapted Behavior Synthesis ( http://arxiv.org/abs/2305.11310v1 )

ライセンス: Link先を確認
Jieyeon Woo, Mireille Fares, Catherine Pelachaud, Catherine Achard(参考訳) ソーシャル・インタラクティブ・エージェント(Socially Interactive Agents, SIAs)は、人間のマルチモーダル行動と同様の振る舞いを示す物理的または仮想的なエンボディエージェントである。 siaが話者や聞き手の役割を担うことができるため、話し言葉や顔のジェスチャーなど、シアスの非言語的行動のモデル化は、常に困難な課題であった。 SIAは、自身の発言に適合した適切な行動、以前の行動(対人的)、および両方の役割に対するユーザの行動(対人的)を発行しなければならない。 本研究では、ユーザと対話しながら、話者やリスナーとして交互に行動しながら、SIAに対して適応的な顔ジェスチャーを合成する新しいアプローチAMIIを提案する。 AMIIの特徴は、モダリティが音声または顔のジェスチャーに対応し、対人関係と対人関係を捉えるために注意機構を利用する、モダリティメモリ符号化スキーマである。 客観的な評価を行い,最先端のアプローチと比較することで,我々のアプローチを検証する。

Socially Interactive Agents (SIAs) are physical or virtual embodied agents that display similar behavior as human multimodal behavior. Modeling SIAs' non-verbal behavior, such as speech and facial gestures, has always been a challenging task, given that a SIA can take the role of a speaker or a listener. A SIA must emit appropriate behavior adapted to its own speech, its previous behaviors (intra-personal), and the User's behaviors (inter-personal) for both roles. We propose AMII, a novel approach to synthesize adaptive facial gestures for SIAs while interacting with Users and acting interchangeably as a speaker or as a listener. AMII is characterized by modality memory encoding schema - where modality corresponds to either speech or facial gestures - and makes use of attention mechanisms to capture the intra-personal and inter-personal relationships. We validate our approach by conducting objective evaluations and comparing it with the state-of-the-art approaches.
翻訳日:2023-05-22 17:20:34 公開日:2023-05-18
# デザインのファクトファクト:設計勧告のモデルに依存しない方法

Counterfactuals for Design: A Model-Agnostic Method For Design Recommendations ( http://arxiv.org/abs/2305.11308v1 )

ライセンス: Link先を確認
Lyle Regenwetter, Yazan Abu Obaideh, Faez Ahmed(参考訳) 本稿では,設計問題における非現実的最適化手法であるMCD(Multi-Objective Counterfactuals for Design)を紹介する。 反事実は、異なる決定や選択につながる仮定的な状況である。 本稿では,設計の修正を識別し,機能性能の向上につながる設計推薦ツールとして,ファクトファクトファクト検索問題を考察する。 mcdは、設計問題において重要な多目的クエリをサポートし、逆目的検索とサンプリングプロセスを分離することにより、効率を高め、客観的なトレードオフ可視化を容易にすることにより、既存の逆目的検索方法を改善している。 本論文は,2次元テストケースを用いてmcdのコア機能を実証し,さらに自転車設計の3つのケーススタディを行い,実世界設計問題におけるmcdの有効性を示す。 最初のケーススタディでは、MCDは、重量削減や構造安全因子の改善など、機能性能を大幅に向上させるクエリ設計の修正を推奨している。 第2のケーススタディは、mcdが事前学習した言語モデルを使って、主観的なテキストに基づいてデザインの変更を効果的に提案できることを示しています。 最後に、著者らは、重み付けと構造性能の改善を同時に行い、複雑なマルチモーダルクエリ上でのMCDの性能を実証しながら、クエリ設計とターゲット画像とテキストプロンプトとの類似性を高めることに取り組む。 全体として、mcdは実践者やデザイン自動化研究者に対して、仮説的な設計変更と、複数の設計目標に対する影響を探求することで、‘what if’の質問に対する答えを求める貴重な推奨を提供する可能性がある。 論文で使われているコード、テスト問題、データセットはdecode.mit.edu/projects/counterfactuals/で公開されている。

We introduce Multi-Objective Counterfactuals for Design (MCD), a novel method for counterfactual optimization in design problems. Counterfactuals are hypothetical situations that can lead to a different decision or choice. In this paper, the authors frame the counterfactual search problem as a design recommendation tool that can help identify modifications to a design, leading to better functional performance. MCD improves upon existing counterfactual search methods by supporting multi-objective queries, which are crucial in design problems, and by decoupling the counterfactual search and sampling processes, thus enhancing efficiency and facilitating objective tradeoff visualization. The paper demonstrates MCD's core functionality using a two-dimensional test case, followed by three case studies of bicycle design that showcase MCD's effectiveness in real-world design problems. In the first case study, MCD excels at recommending modifications to query designs that can significantly enhance functional performance, such as weight savings and improvements to the structural safety factor. The second case study demonstrates that MCD can work with a pre-trained language model to suggest design changes based on a subjective text prompt effectively. Lastly, the authors task MCD with increasing a query design's similarity to a target image and text prompt while simultaneously reducing weight and improving structural performance, demonstrating MCD's performance on a complex multimodal query. Overall, MCD has the potential to provide valuable recommendations for practitioners and design automation researchers looking for answers to their ``What if'' questions by exploring hypothetical design modifications and their impact on multiple design objectives. The code, test problems, and datasets used in the paper are available to the public at decode.mit.edu/projects/counterfactuals/.
翻訳日:2023-05-22 17:20:15 公開日:2023-05-18
# toffoli-hadamard回路の改良

Improved Synthesis of Toffoli-Hadamard Circuits ( http://arxiv.org/abs/2305.11305v1 )

ライセンス: Link先を確認
Matthew Amy, Andrew N. Glaudell, Sarah Meng Li, Neil J. Ross(参考訳) Toffoli-Hadamard ゲート集合上の回路で正確に表現できる行列は、$M/ \sqrt{2}{}^k$ という形の直交行列であり、$M$ は整数行列であり、$k$ は非負の整数である。 このゲート集合の正確な合成問題は、与えられた行列に対する回路を構成する問題である。 既存の方法は、$O(2^n \log(n)k)$ゲートからなる回路を生成し、$n$は行列の次元である。 本稿では,2つの改良された合成法を提案する。 まず、クリフニコフが2013年に導入したclifford+$t$回路の手法をトッフォリ・ハダマール回路に容易に適用でき、合成回路の複雑さを$o(2^n \log(n)k)$から$o(n^2 \log(n)k)$に低減できることを示した。 次に、同様のコスト改善の代替合成法を提案するが、その適用範囲は3量子ビット以下の回路に限られる。 また,dyadic分数上の直交行列についても適用し,通常の1量子ゲート$h$ではなく2量子ビットゲート$h\otimes h$を用いた回路に対応する。

The matrices that can be exactly represented by a circuit over the Toffoli-Hadamard gate set are the orthogonal matrices of the form $M/ \sqrt{2}{}^k$, where $M$ is an integer matrix and $k$ is a nonnegative integer. The exact synthesis problem for this gate set is the problem of constructing a circuit for a given such matrix. Existing methods produce circuits consisting of $O(2^n \log(n)k)$ gates, where $n$ is the dimension of the matrix. In this paper, we provide two improved synthesis methods. First, we show that a technique introduced by Kliuchnikov in 2013 for Clifford+$T$ circuits can be straightforwardly adapted to Toffoli-Hadamard circuits, reducing the complexity of the synthesized circuit from $O(2^n \log(n)k)$ to $O(n^2 \log(n)k)$. Then, we present an alternative synthesis method of similarly improved cost, but whose application is restricted to circuits on no more than three qubits. Our results also apply to orthogonal matrices over the dyadic fractions, which correspond to circuits using the 2-qubit gate $H\otimes H$, rather than the usual single-qubit Hadamard gate $H$.
翻訳日:2023-05-22 17:19:44 公開日:2023-05-18
# ストリーミング観測によるベイズリスクの逆Q-Learning

Bayesian Risk-Averse Q-Learning with Streaming Observations ( http://arxiv.org/abs/2305.11300v1 )

ライセンス: Link先を確認
Yuhao Wang, Enlu Zhou(参考訳) 我々は,学習エージェントが模擬学習環境から学習する,堅牢な強化学習問題を考える。 データ不足によるトレーニング環境と実環境とのモデル不特定さを考慮し,無限地平線を持つベイズリスクmdp(brmdp)の定式化を行い,移行モデルの推定にベイズ後方法を用い,モデル不確実性を考慮したリスク関数を課す。 エージェントの制御外にある実環境からの観測が定期的に到着し、エージェントがベイズの後部を更新してモデルの不確実性を減少させる。 理論的には、BRMDPはロバスト性と保守性の間のトレードオフのバランスを保ち、BRMDPを実環境からのストリーミング観測で解くための多段階ベイズリスク逆Q-ラーニングアルゴリズムをさらに発展させる。 提案手法は,実世界観測の可利用性に依存するリスク回避かつ最適方針を学習する。 提案するアルゴリズムに対して強い収束の理論的保証を提供する。

We consider a robust reinforcement learning problem, where a learning agent learns from a simulated training environment. To account for the model mis-specification between this training environment and the real environment due to lack of data, we adopt a formulation of Bayesian risk MDP (BRMDP) with infinite horizon, which uses Bayesian posterior to estimate the transition model and impose a risk functional to account for the model uncertainty. Observations from the real environment that is out of the agent's control arrive periodically and are utilized by the agent to update the Bayesian posterior to reduce model uncertainty. We theoretically demonstrate that BRMDP balances the trade-off between robustness and conservativeness, and we further develop a multi-stage Bayesian risk-averse Q-learning algorithm to solve BRMDP with streaming observations from real environment. The proposed algorithm learns a risk-averse yet optimal policy that depends on the availability of real-world observations. We provide a theoretical guarantee of strong convergence for the proposed algorithm.
翻訳日:2023-05-22 17:19:18 公開日:2023-05-18
# 安全自律システムのための集団推論

Collective Reasoning for Safe Autonomous Systems ( http://arxiv.org/abs/2305.11295v1 )

ライセンス: Link先を確認
Selma Saidi (TU Dortmund University, Dortmund, Germany)(参考訳) マルチエージェント自律システムにおけるコラボレーションは、安全性を確保しながらパフォーマンスを向上させるために重要である。 しかしながら、知覚品質などの特徴の不均一性のため、いくつかの自律システムは、特に不確実性の下で、共通の環境モデルの構築に協力する際、他のシステムよりも信頼性が高いとみなす必要がある。 本稿では,集合的知性に頼って自律システムの信頼性を高めるという考え方を紹介する。 社会認識学から概念を借りて、自律システムの個々の特性を活用し、協調的に安全性、信頼性、良い意思決定を達成するために、集合的推論のための設計ルールを定義し、定式化します。

Collaboration in multi-agent autonomous systems is critical to increase performance while ensuring safety. However, due to heterogeneity of their features in, e.g., perception qualities, some autonomous systems have to be considered more trustworthy than others when contributing to collaboratively build a common environmental model, especially under uncertainty. In this paper, we introduce the idea of increasing the reliability of autonomous systems by relying on collective intelligence. We borrow concepts from social epistemology to exploit individual characteristics of autonomous systems, and define and formalize at design rules for collective reasoning to achieve collaboratively increased safety, trustworthiness and good decision making.
翻訳日:2023-05-22 17:18:58 公開日:2023-05-18
# logic toolkitによる確率パズルの解法

Solving probability puzzles with logic toolkit ( http://arxiv.org/abs/2305.11294v1 )

ライセンス: Link先を確認
Adrian Groza(参考訳) 提案手法は方程式FOLにおける確率論的パズルの定式化である。 与えられたパズルのすべてのモデルに対する1つの理論と、好ましいモデルに対する2つ目の理論である。 次に、FOL理論のすべての解釈モデルを計算する Mace4 を2回呼び出す。 まず、可能なすべてのモデル Mp を計算するように要求される。 第二に、追加の制約が追加され、Mace4は優先モデルMfのみを算出する。 最後に、確率の定義が適用され、好ましいモデルの数は可能なモデルの数で分割される。 提案手法は,確率論的集団からのパズルの正しい解を見つけるために,論理的集団の学生に,モデリングと形式化という,彼らの好む道具を用いて提案する。 ここでは5つの確率的パズルを例示し、min folを翻訳して対応する解釈モデルを見つけることでどのように解くかを示します。 Mace4はここで選ぶツールだった。 確率論的パズルの様々なコレクションにおけるこの手法の限界についての研究

The proposed approach is to formalise the probabilistic puzzle in equational FOL. Two formalisations are needed: one theory for all models of the given puzzle, and a second theory for the favorable models. Then Mace4 - that computes all the interpretation models of a FOL theory - is called twice. First, it is asked to compute all the possible models M p .Second, the additional constraint is added, and Mace4 computes only favourabile models M f. Finally, the definition of probability is applied: the number of favorable models is divided by the number of possible models. The proposed approach equips students from the logic tribe to find the correct solution for puzzles from the probabilitistic tribe, by using their favourite instruments: modelling and formalisation. I have exemplified here five probabilistic puzzles and how they can be solved by translating the min FOL and then find the corresponding interpretation models. Mace4 was the tool of choice here. Ongoing work is investigating the limits of this method on various collections of probabilistic puzzles
翻訳日:2023-05-22 17:18:46 公開日:2023-05-18
# 分子の励起状態エネルギーに対する多要素機械学習

Multi-Fidelity Machine Learning for Excited State Energies of Molecules ( http://arxiv.org/abs/2305.11292v1 )

ライセンス: Link先を確認
Vivin Vinod, Sayan Maity, Peter Zaspel, Ulrich Kleinekath\"ofer(参考訳) 分子励起状態の正確かつ高速な計算は、いまだに非常に難しいトピックである。 多くの応用において、より大きな分子集合体におけるエネルギーファンネルの詳細な知識は、高精度の励起状態エネルギーを必要とする重要な重要性である。 この目的のために、機械学習技術は極めて有用なツールであるが、高精度なトレーニングデータセットを生成するコストは依然として厳しい課題である。 このハードルを克服するため,本研究では,高い精度のトレーニングデータと安価で精度の低いデータを組み合わせることで,高コストレベルの精度を実現するマルチ忠実度機械学習の利用を提案する。 本研究は, ベンゼン, ナフタレン, アントラセンの3つの分子について, 初めて励起状態エネルギーを予測する手法である。 エネルギーは、古典的分子動力学シミュレーションやリアルタイム密度汎関数的タイト結合計算から生じるコンフォメーションのために訓練され、テストされる。 マルチフィデリティ機械学習モデルは、高コストトレーニングデータのみに基づいて構築された機械学習モデルと同等の精度を実現できると同時に、データ生成のための計算労力がはるかに少ないことを示すことができる。 これらのベンチマークテスト計算で得られた数値利得は30以上であったが、精度の高いデータでは間違いなくはるかに高い。

The accurate but fast calculation of molecular excited states is still a very challenging topic. For many applications, detailed knowledge of the energy funnel in larger molecular aggregates is of key importance requiring highly accurate excited state energies. To this end, machine learning techniques can be an extremely useful tool though the cost of generating highly accurate training datasets still remains a severe challenge. To overcome this hurdle, this work proposes the use of multi-fidelity machine learning where very little training data from high accuracies is combined with cheaper and less accurate data to achieve the accuracy of the costlier level. In the present study, the approach is employed to predict the first excited state energies for three molecules of increasing size, namely, benzene, naphthalene, and anthracene. The energies are trained and tested for conformations stemming from classical molecular dynamics simulations and from real-time density functional tight-binding calculations. It can be shown that the multi-fidelity machine learning model can achieve the same accuracy as a machine learning model built only on high cost training data while having a much lower computational effort to generate the data. The numerical gain observed in these benchmark test calculations was over a factor of 30 but certainly can be much higher for high accuracy data.
翻訳日:2023-05-22 17:18:31 公開日:2023-05-18
# Google Mapsにおける超スケーラブルな逆強化学習

Massively Scalable Inverse Reinforcement Learning in Google Maps ( http://arxiv.org/abs/2305.11290v1 )

ライセンス: Link先を確認
Matt Barnes, Matthew Abueg, Oliver F. Lange, Matt Deeds, Jason Trader, Denali Molitor, Markus Wulfmeier, Shawn O'Banion(参考訳) 人間の潜在選好を最適化することは、グローバルスケーラブルなソリューションが依然としてオープンな問題であるルートレコメンデーションにおいて大きな課題である。 過去の研究は、逆強化学習(IRL)の適用に対する一般的な解決策をますます生み出しているが、これらは世界規模のMDP、大規模なデータセット、高度パラメータ化モデル(それぞれ数億の状態、軌道、パラメータ)に拡張されることはなかった。 本研究では,グラフ圧縮,並列化,問題初期化に主観的固有ベクトルに基づく一連の進歩を通して,これまでの限界を克服する。 我々は,既存の作業を一般化し,計画地平線を介して重要なパフォーマンストレードオフを制御できるreceeding horizon inverse planning (rhip)を導入する。 当社の方針は,世界ルート品質の16~24%向上を実現しており,我々の知る限り,IRLが現在までの現実世界における最大の事例である。 その結果,より持続可能な交通手段(二輪車など)に対して,走行時間以外の要因(ルート安全性など)が重要な役割を担っている。 結論として,キーコンポーネントのアブレーション,最先端の固有値ソルバに対する負の結果,irl固有のバッチ戦略によるスケーラビリティ向上の機会を見出した。

Optimizing for humans' latent preferences is a grand challenge in route recommendation, where globally-scalable solutions remain an open problem. Although past work created increasingly general solutions for the application of inverse reinforcement learning (IRL), these have not been successfully scaled to world-sized MDPs, large datasets, and highly parameterized models; respectively hundreds of millions of states, trajectories, and parameters. In this work, we surpass previous limitations through a series of advancements focused on graph compression, parallelization, and problem initialization based on dominant eigenvectors. We introduce Receding Horizon Inverse Planning (RHIP), which generalizes existing work and enables control of key performance trade-offs via its planning horizon. Our policy achieves a 16-24% improvement in global route quality, and, to our knowledge, represents the largest instance of IRL in a real-world setting to date. Our results show critical benefits to more sustainable modes of transportation (e.g. two-wheelers), where factors beyond journey time (e.g. route safety) play a substantial role. We conclude with ablations of key components, negative results on state-of-the-art eigenvalue solvers, and identify future opportunities to improve scalability via IRL-specific batching strategies.
翻訳日:2023-05-22 17:18:09 公開日:2023-05-18
# spdニューラルネットワークのためのリーマン多層ロジスティクス回帰

Riemannian Multiclass Logistics Regression for SPD Neural Networks ( http://arxiv.org/abs/2305.11288v1 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Gaowen Liu, Ramana Rao Kompella, Xiaojun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)を学習するためのディープニューラルネットワークは、機械学習において注目を集めている。 かなりの進歩にもかかわらず、既存のSPDネットワークのほとんどは、SPD多様体の幾何を正確に捉える固有の分類器ではなく、近似空間上の伝統的なユークリッド分類器を使用している。 双曲型ニューラルネットワーク(HNN)の成功に触発されて,SPDネットワークのためのリーマン型マルチクラスロジスティクスレグレッション(RMLR)を提案する。 我々は、SPD多様体上のリーマン計量の族に対する一般化されたフレームワークを導入し、SPDネットワークに対する特定の$\orth{n}$-invariant Log-Euclidean Metricsを示す。 さらに、既存のSPDネットワークにおいて最も人気のある分類器をフレームワークの特別なケースとして取り上げる。 一般的なSPD学習ベンチマークの大規模な実験は、分類器の優位性を示している。

Deep neural networks for learning symmetric positive definite (SPD) matrices are gaining increasing attention in machine learning. Despite the significant progress, most existing SPD networks use traditional Euclidean classifiers on approximated spaces rather than intrinsic classifiers that accurately capture the geometry of SPD manifolds. Inspired by the success of hyperbolic neural networks (HNNs), we propose Riemannian multiclass logistics regression (RMLR) for SPD networks. We introduce a general unified framework for a family of Riemannian metrics on SPD manifolds and showcase the specific $\orth{n}$-invariant Log-Euclidean Metrics for SPD networks. Moreover, we encompass the most popular classifier in existing SPD networks as a special case of our framework. Extensive experiments on popular SPD learning benchmarks demonstrate the superiority of our classifiers.
翻訳日:2023-05-22 17:17:45 公開日:2023-05-18
# 異なる言語からの音声を用いたパーキンソン病検出のためのaiモデルの安全な開発のための連合学習

Federated learning for secure development of AI models for Parkinson's disease detection using speech from different languages ( http://arxiv.org/abs/2305.11284v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Cristian David Rios-Urrego, Elmar Noeth, Andreas Maier, Seung Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、人の発話に影響を与える神経疾患である。 pd自動評価手法では,ディープラーニングモデルが特に注目されている。 近年,診断精度をさらに向上させるクロスパス学とクロス言語モデルが検討されている。 しかし、厳格な患者データプライバシー規制は、医療機関が患者データの共有をほとんど妨げている。 本稿では,ドイツ,スペイン,チェコの3つの実世界の言語コーパスから発せられる音声信号を用いて,PD検出にフェデレートラーニング(FL)を用いる。 その結果, FLモデルでは, 全局所モデルで診断精度が向上する一方で, 協調作業者間のデータ共有を不要とする利点もあり, 集中的に組み合わせた学習セットに基づくモデルとは全く異なる性能が得られないことが示唆された。 これにより、制度間協力が簡単になり、患者の成果が向上する。

Parkinson's disease (PD) is a neurological disorder impacting a person's speech. Among automatic PD assessment methods, deep learning models have gained particular interest. Recently, the community has explored cross-pathology and cross-language models which can improve diagnostic accuracy even further. However, strict patient data privacy regulations largely prevent institutions from sharing patient speech data with each other. In this paper, we employ federated learning (FL) for PD detection using speech signals from 3 real-world language corpora of German, Spanish, and Czech, each from a separate institution. Our results indicate that the FL model outperforms all the local models in terms of diagnostic accuracy, while not performing very differently from the model based on centrally combined training sets, with the advantage of not requiring any data sharing among collaborators. This will simplify inter-institutional collaborations, resulting in enhancement of patient outcomes.
翻訳日:2023-05-22 17:17:31 公開日:2023-05-18
# MALM: マスク強化による食品レシピ検索のための局所マッチング

MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval ( http://arxiv.org/abs/2305.11327v1 )

ライセンス: Link先を確認
Bhanu Prakash Voutharoja and Peng Wang and Lei Wang and Vivienne Guan(参考訳) 画像からレシピへの検索は、重要な実用価値を持つ視覚から言語への課題である。 このタスクの主な課題は、長いレシピにおける超高冗長性と、食品の組み合わせと食品の外観の両方に反映される大きなバリエーションにある。 この課題に対処するデファクトのアイデアは、食品イメージが他のレシピよりもペアのレシピに合致する共有機能埋め込みスペースを学ぶことである。 しかし、そのような教師付きグローバルマッチングは監督の崩壊を招きやすい、すなわち、トレーニングペアを識別するのに必要な部分的な情報のみを識別できる一方、一般化において潜在的に有用な他の情報は失われる可能性がある。 そこで,本稿では,画像テキストマッチングモジュールとマスキング自己蒸留モジュールが相互に利益を享受し,一般化可能なクロスモダリティ表現を学習する仮面提示型局所マッチングネットワーク(malm)を提案する。 一方,画像とテキストのトークン化された表現間の局所マッチングを行い,きめ細かなクロスモダリティ対応を明示的に見つける。 このプロセスでは,特に食品が不足している場合の局所的マッチングによる過度な適合を軽減するために,マスク画像パッチの表現が関与する。 一方, マスク付きパッチの隠蔽表現を自己蒸留で予測することは, より汎用的な画像表現の学習に役立つ。 そして、このモデルのマルチタスク性により、マスクされたパッチの表現をテキスト認識することができ、情報の再構成が容易になる。 Recipe1Mデータセットによる実験結果から,本手法は最先端(SOTA)手法よりも優れていることが示された。 私たちのコードはhttps://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie valで利用可能になります。

Image-to-recipe retrieval is a challenging vision-to-language task of significant practical value. The main challenge of the task lies in the ultra-high redundancy in the long recipe and the large variation reflected in both food item combination and food item appearance. A de-facto idea to address this task is to learn a shared feature embedding space in which a food image is aligned better to its paired recipe than other recipes. However, such supervised global matching is prone to supervision collapse, i.e., only partial information that is necessary for distinguishing training pairs can be identified, while other information that is potentially useful in generalization could be lost. To mitigate such a problem, we propose a mask-augmentation-based local matching network (MALM), where an image-text matching module and a masked self-distillation module benefit each other mutually to learn generalizable cross-modality representations. On one hand, we perform local matching between the tokenized representations of image and text to locate fine-grained cross-modality correspondence explicitly. We involve representations of masked image patches in this process to alleviate overfitting resulting from local matching especially when some food items are underrepresented. On the other hand, predicting the hidden representations of the masked patches through self-distillation helps to learn general-purpose image representations that are expected to generalize better. And the multi-task nature of the model enables the representations of masked patches to be text-aware and thus facilitates the lost information reconstruction. Experimental results on Recipe1M dataset show our method can clearly outperform state-of-the-art (SOTA) methods. Our code will be available at https://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie val
翻訳日:2023-05-22 17:12:32 公開日:2023-05-18
# 表データ探索を容易にする対話型インタフェースの自動生成に向けて

Towards the Automatic Generation of Conversational Interfaces to Facilitate the Exploration of Tabular Data ( http://arxiv.org/abs/2305.11326v1 )

ライセンス: Link先を確認
Marcos Gomez, Jordi Cabot, Robert Claris\'o(参考訳) タブラルデータは、構造化されたデータをオンラインで公開し、交換する最も一般的なフォーマットである。 明らかな例は、あらゆる種類の行政機関が公開するオープンデータポータルの数の増加である。 しかし、これらのデータソースの利用は現在、プログラムでデータを操作し、消化できる技術系の人々に限られている。 その代替として,表形式のデータソースの探索を容易にする対話インタフェースを提供するチャットボットを提案する。 私たちのアプローチでは、普通の市民なら誰でもそのメリットを享受できます。 さらに、私たちのチャットボットは手動で作られていません。代わりに、設定可能な会話パターンのコレクションのインスタンス化によって、データソース自身から自動的に生成されます。

Tabular data is the most common format to publish and exchange structured data online. A clear example is the growing number of open data portals published by all types of public administrations. However, exploitation of these data sources is currently limited to technical people able to programmatically manipulate and digest such data. As an alternative, we propose the use of chatbots to offer a conversational interface to facilitate the exploration of tabular data sources. With our approach, any regular citizen can benefit and leverage them. Moreover, our chatbots are not manually created: instead, they are automatically generated from the data source itself thanks to the instantiation of a configurable collection of conversation patterns.
翻訳日:2023-05-22 17:11:44 公開日:2023-05-18
# 弱可積分境界不純物モデルにおけるゆっくりと崩壊するゼロモード

Slowly decaying zero mode in a weakly non-integrable boundary impurity model ( http://arxiv.org/abs/2305.11325v1 )

ライセンス: Link先を確認
Hsiu-Chung Yeh, Gabriel Cardoso, Leonid Korneev, Dries Sels, Alexander G. Abanov, Aditi Mitra(参考訳) 半無限鎖上の横フィールドイジングモデル(TFIM)は、エッジゼロモードを持つ。 本研究は、境界可積分分解相互作用によって摂動される不純物モデルを考える。 十分に大きな横磁場に対しては、tfimの順序相ではゼロモードが崩壊することが観測される。 崩壊は、鎖に沿って可積分分解相互作用がゼロでないゼロモードと定性的に異なる。 不純物モデルでは、零モードは非局所準保存作用素に緩和することで減衰し、後者は、チェーンの対向端がスペクトルの完全な縮退を保証するために非可換摂動を持たないときに正確に保存される。 熱力学の極限において、準保存作用素は消滅し、零モードの崩壊がフェルミの黄金律に従う状態が特定される。 崩壊のおもちゃモデルがクリロフ空間で構築され、フェルミの黄金律がこのおもちゃモデルからどのように回収されるかが強調されている。

The transverse field Ising model (TFIM) on the half-infinite chain possesses an edge zero mode. This work considers an impurity model -- TFIM perturbed by a boundary integrability breaking interaction. For sufficiently large transverse field, but in the ordered phase of the TFIM, the zero mode is observed to decay. The decay is qualitatively different from zero modes where the integrability breaking interactions are non-zero all along the chain. It is shown that for the impurity model, the zero mode decays by relaxing to a non-local quasi-conserved operator, the latter being exactly conserved when the opposite edge of the chain has no non-commuting perturbations so as to ensure perfect degeneracy of the spectrum. In the thermodynamic limit, the quasi-conserved operator vanishes, and a regime is identified where the decay of the zero mode obeys Fermi's Golden Rule. A toy model for the decay is constructed in Krylov space and it is highlighted how Fermi's Golden Rule may be recovered from this toy model.
翻訳日:2023-05-22 17:11:26 公開日:2023-05-18
# ペア標本間の累積差

Cumulative differences between paired samples ( http://arxiv.org/abs/2305.11323v1 )

ライセンス: Link先を確認
Isabel Kloumann, Hannah Korevaar, Chris McConnell, Mark Tygert, and Jessica Zhao(参考訳) 最も単純な、最も一般的なペアのサンプルは、2つの集団からの観測であり、それぞれの観測された応答は、他の集団からの観測された応答に対応する。 共変量の同じ値の観測された応答の対(各集団から1つずつ)は「一致した対」として知られる(同変量の値に基づく一致)。 2つの集団間の累積差のグラフは、共変量関数としての反応の差を示す。 実際、グラフ上の2つの点を結ぶ分離線の傾きは、2つの点の間の共変量の値の広い間隔の平均差、すなわち、グラフの傾きは応答の平均差となる。 (「平均」とは、試料を重み付けした場合の重み付け平均のこと。) さらに、カイパー計量として知られる単純な統計学は、共変量のすべての値に対する全体的な違いを単一のスカラーにまとめる。 クイパー計量 (kuiper metric) は、2つの集団間の応答の合計差の絶対値であり、総数の絶対値が最も大きい共変量の値の間隔で合計される。 トータルは、トータルが取られる間隔がコ変量の範囲全体である場合、コ変量全体の(重み付け)平均となるように正規化されるべきである(すなわち、トータルの和は、サンプルが重み付けされていない場合、またはトータル重量で割られる場合、トータルの合計は、トータルの観測数で割られる)。 この累積的アプローチは完全に非パラメトリックで一意に定義されており(グラフとスカラーの要約統計を組み立てる正しい方法が1つしかない)、信頼性図やパラメトリックあるいは半パラメトリック回帰のような伝統的な手法とは異なり、パラメータ設定によって典型的に顕著な違いがある。

The simplest, most common paired samples consist of observations from two populations, with each observed response from one population corresponding to an observed response from the other population at the same value of an ordinal covariate. The pair of observed responses (one from each population) at the same value of the covariate is known as a "matched pair" (with the matching based on the value of the covariate). A graph of cumulative differences between the two populations reveals differences in responses as a function of the covariate. Indeed, the slope of the secant line connecting two points on the graph becomes the average difference over the wide interval of values of the covariate between the two points; i.e., slope of the graph is the average difference in responses. ("Average" refers to the weighted average if the samples are weighted.) Moreover, a simple statistic known as the Kuiper metric summarizes into a single scalar the overall differences over all values of the covariate. The Kuiper metric is the absolute value of the total difference in responses between the two populations, totaled over the interval of values of the covariate for which the absolute value of the total is greatest. The total should be normalized such that it becomes the (weighted) average over all values of the covariate when the interval over which the total is taken is the entire range of the covariate (i.e., the sum for the total gets divided by the total number of observations, if the samples are unweighted, or divided by the total weight, if the samples are weighted). This cumulative approach is fully nonparametric and uniquely defined (with only one right way to construct the graphs and scalar summary statistics), unlike traditional methods such as reliability diagrams or parametric or semi-parametric regressions, which typically obscure significant differences due to their parameter settings.
翻訳日:2023-05-22 17:11:05 公開日:2023-05-18
# SpikeCP: コンフォーマル予測による遅延適応型信頼性スパイクニューラルネットワーク

SpikeCP: Delay-Adaptive Reliable Spiking Neural Networks via Conformal Prediction ( http://arxiv.org/abs/2305.11322v1 )

ライセンス: Link先を確認
Jiechen Chen, Sangwoo Park, Osvaldo Simeone(参考訳) spiking neural networks (snns)は、入力提示の過程でニューロン間で交換されるスパイクの数にエネルギーが依存する内部イベント駆動ニューラルダイナミクスを介して時系列データを処理する。 snn分類器の典型的な実装では、入力シーケンス全体が処理された後に決定が生成され、入力間でかなり均一なレイテンシとエネルギー消費レベルが発生する。 最近導入された遅延適応型SNNは、SNNモデルが十分に 'confident'' である場合の早期決定を生成することで、各例の難易度に応じて、推論レイテンシーとそれに伴うエネルギー消費を調整している。 本稿では,SNNが入力サンプルを処理しているため,その分類決定はまず不信であり,その後,決定の根本的真理,未知,テスト精度に関して過信される傾向にあることを示す。 これにより、望ましいレベルの精度を保証する停止時間を決定することが困難になる。 そこで本研究では,事前学習したSNN分類器をラップすることで,入力依存の停止時に発生する決定に対して信頼性が保証される新しい遅延適応型SNN推論手法を提案する。 このアプローチは、基礎となるSNNと比較して最小限の複雑さを伴い、実行時にしきい値の設定とカウントのみを必要とし、整合予測(CP)からツールを活用する。

Spiking neural networks (SNNs) process time-series data via internal event-driven neural dynamics whose energy consumption depends on the number of spikes exchanged between neurons over the course of the input presentation. In typical implementations of an SNN classifier, decisions are produced after the entire input sequence has been processed, resulting in latency and energy consumption levels that are fairly uniform across inputs. Recently introduced delay-adaptive SNNs tailor the inference latency -- and, with it, the energy consumption -- to the difficulty of each example, by producing an early decision when the SNN model is sufficiently ``confident''. In this paper, we start by observing that, as an SNN processes input samples, its classification decisions tend to be first under-confident and then over-confident with respect to the decision's ground-truth, unknown, test accuracy. This makes it difficult to determine a stopping time that ensures a desired level of accuracy. To address this problem, we introduce a novel delay-adaptive SNN-based inference methodology that, wrapping around any pre-trained SNN classifier, provides guaranteed reliability for the decisions produced at input-dependent stopping times. The approach entails minimal added complexity as compared to the underlying SNN, requiring only thresholding and counting operations at run time, and it leverages tools from conformal prediction (CP).
翻訳日:2023-05-22 17:10:33 公開日:2023-05-18
# Join: 固有の画像分解のための共同GANインバージョン

JoIN: Joint GANs Inversion for Intrinsic Image Decomposition ( http://arxiv.org/abs/2305.11321v1 )

ライセンス: Link先を確認
Viraj Shah, Svetlana Lazebnik, Julien Philip(参考訳) 本稿では,gan(generative adversarial network)のバンクを先行として,不適切な逆画像問題を解くことを提案し,本手法を顔や素材の固有画像分解に適用する。 提案手法は,複雑な画像分布をキャプチャするGANの実証的な成功に基づいている。 我々のアプローチの核心は、GANの潜伏空間が逆問題を解決するのに適した最適化領域であるという考えである。 入力画像が与えられた場合、GANの集合の潜在符号を共同で反転させ、それらの出力を組み合わせて入力を再生する。 1つのGANのみを反転させるのに制限のあるほとんどのGAN反転法とは対照的に、複数のGANを共同で反転させながら、分布前を維持できることを実証する。 提案手法はモジュラーであり,様々なフォワードイメージングモデルを実現するとともに,合成画像と実画像の両方を分解し,GANラテント空間の特性を画像のリライティングに活用するといった付加的な利点を提供する。

In this work, we propose to solve ill-posed inverse imaging problems using a bank of Generative Adversarial Networks (GAN) as a prior and apply our method to the case of Intrinsic Image Decomposition for faces and materials. Our method builds on the demonstrated success of GANs to capture complex image distributions. At the core of our approach is the idea that the latent space of a GAN is a well-suited optimization domain to solve inverse problems. Given an input image, we propose to jointly inverse the latent codes of a set of GANs and combine their outputs to reproduce the input. Contrary to most GAN inversion methods which are limited to inverting only a single GAN, we demonstrate that it is possible to maintain distribution priors while inverting several GANs jointly. We show that our approach is modular, allowing various forward imaging models, that it can successfully decompose both synthetic and real images, and provides additional advantages such as leveraging properties of GAN latent space for image relighting.
翻訳日:2023-05-22 17:10:07 公開日:2023-05-18
# テキストから音声へのアクセント適応のためのパラメータ効率向上学習

Parameter-Efficient Learning for Text-to-Speech Accent Adaptation ( http://arxiv.org/abs/2305.11320v1 )

ライセンス: Link先を確認
Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien(参考訳) 本稿では,テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。 従来のトレーニング可能なパラメータの1.2~0.8%しか使用せず, 音声合成における競合性能を実現することにより, 冷凍前訓練TSモデルからの資源効率の向上を実現した。 本研究は, 最適輸送(OT)の理論的基礎を基礎として, OTに基づく補助的非教師的損失を導入し, 教師付きトレーニング損失に加えて, 事前訓練されたソースドメインと(見えない)ターゲットドメインとの差を最大化する。 さらに,この教師なしの損失改善を生かして,スライスワッセルスタイン距離と最大平均差のどちらかを介してシステム性能を向上させる。 本研究のメリットは,残差アダプタ学習に基づくpelソリューションの実現と,マンダリンアクセント適応評価時のモデル再プログラミングによって実証される。 実験の結果,提案手法はパラメータ効率の良いデコーダの微調整により競合自然性を達成でき,補助的な教師なし損失はモデル性能を経験的に向上できることがわかった。

This paper presents a parameter-efficient learning (PEL) to develop a low-resource accent adaptation for text-to-speech (TTS). A resource-efficient adaptation from a frozen pre-trained TTS model is developed by using only 1.2\% to 0.8\% of original trainable parameters to achieve competitive performance in voice synthesis. Motivated by a theoretical foundation of optimal transport (OT), this study carries out PEL for TTS where an auxiliary unsupervised loss based on OT is introduced to maximize a difference between the pre-trained source domain and the (unseen) target domain, in addition to its supervised training loss. Further, we leverage upon this unsupervised loss refinement to boost system performance via either sliced Wasserstein distance or maximum mean discrepancy. The merit of this work is demonstrated by fulfilling PEL solutions based on residual adapter learning, and model reprogramming when evaluating the Mandarin accent adaptation. Experiment results show that the proposed methods can achieve competitive naturalness with parameter-efficient decoder fine-tuning, and the auxiliary unsupervised loss improves model performance empirically.
翻訳日:2023-05-22 17:09:48 公開日:2023-05-18
# 協調生成AI:テキストから画像への効率的な編集のためのGPT-kの統合

Collaborative Generative AI: Integrating GPT-k for Efficient Editing in Text-to-Image Generation ( http://arxiv.org/abs/2305.11317v1 )

ライセンス: Link先を確認
Wanrong Zhu, Xinyi Wang, Yujie Lu, Tsu-Jui Fu, Xin Eric Wang, Miguel Eckstein and William Yang Wang(参考訳) text-to-image(t2i)生成の分野は、研究コミュニティと日々のユーザの両方で大きな注目を集めている。 t2iモデルの進歩にもかかわらず、ユーザが遭遇する一般的な問題は、入力プロンプトを反復的に編集して満足のいく画像を受け取る必要があることである。 GPT-kのような大規模言語モデルのテキスト生成能力の実証から,このようなモデルを用いてT2I生成の迅速な編集プロセスを改善する可能性を検討する。 我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。 その結果, GPT-k モデルは修飾詞の挿入に重点を置いているのに対し, 人間は語句を置き換えがちであることがわかった。 実験の結果, GPT-kは主主題の自然変化を予測するよりも, 修飾体の調整に有効であることが示唆された。 gpt-kモデルが提案する編集を採用すると、残りの編集の割合を20-30%削減できる。

The field of text-to-image (T2I) generation has garnered significant attention both within the research community and among everyday users. Despite the advancements of T2I models, a common issue encountered by users is the need for repetitive editing of input prompts in order to receive a satisfactory image, which is time-consuming and labor-intensive. Given the demonstrated text generation power of large-scale language models, such as GPT-k, we investigate the potential of utilizing such models to improve the prompt editing process for T2I generation. We conduct a series of experiments to compare the common edits made by humans and GPT-k, evaluate the performance of GPT-k in prompting T2I, and examine factors that may influence this process. We found that GPT-k models focus more on inserting modifiers while humans tend to replace words and phrases, which includes changes to the subject matter. Experimental results show that GPT-k are more effective in adjusting modifiers rather than predicting spontaneous changes in the primary subject matters. Adopting the edit suggested by GPT-k models may reduce the percentage of remaining edits by 20-30%.
翻訳日:2023-05-22 17:09:26 公開日:2023-05-18
# 候補生成、トランスフォーマーベースのリランキング、および2段階の解像度を改良したtoponym resolutionの改善

Improving Toponym Resolution with Better Candidate Generation, Transformer-based Reranking, and Two-Stage Resolution ( http://arxiv.org/abs/2305.11315v1 )

ライセンス: Link先を確認
Zeyu Zhang and Steven Bethard(参考訳) ジオコーディングは、テキスト中の位置参照を地理空間意味論をエンコードする構造化データに変換するタスクである。 我々はジオコーディングのための新しいアーキテクチャGeoNormを提案する。 GeoNormはまず、地理空間オントロジーから候補項目のリストを生成するために情報検索技術を使用する。 その後、トランスフォーマーベースのニューラルネットワークを使用して候補エントリをリランクし、エントリの人口などのオントロジーからの情報を組み込む。 この生成と参照のプロセスは、まず、曖昧でない国、州、郡を解決し、次に、特定された国、州、郡をコンテキストとして、残りの場所の言及を解決します。 提案手法は,複数データセット上での最先端性能を実現する。 コードとモデルは \url{https://github.com/clulab/geonorm} で利用可能である。

Geocoding is the task of converting location mentions in text into structured data that encodes the geospatial semantics. We propose a new architecture for geocoding, GeoNorm. GeoNorm first uses information retrieval techniques to generate a list of candidate entries from the geospatial ontology. Then it reranks the candidate entries using a transformer-based neural network that incorporates information from the ontology such as the entry's population. This generate-and-rerank process is applied twice: first to resolve the less ambiguous countries, states, and counties, and second to resolve the remaining location mentions, using the identified countries, states, and counties as context. Our proposed toponym resolution framework achieves state-of-the-art performance on multiple datasets. Code and models are available at \url{https://github.com/clulab/geonorm}.
翻訳日:2023-05-22 17:09:07 公開日:2023-05-18
# BELLA:局所線形近似によるブラックボックスモデル説明

BELLA: Black box model Explanations by Local Linear Approximations ( http://arxiv.org/abs/2305.11311v1 )

ライセンス: Link先を確認
Nedeljko Radulovic, Albert Bifet, Fabian Suchanek(参考訳) 近年,ブラックボックスモデルの意思決定プロセスの理解は法的要件だけでなく,その性能を評価する新たな方法にもなっている。 しかし、ポストホックな解釈手法の状況は、合成データ生成に依存している。 これは不確実性をもたらし、解釈の信頼性を損なう可能性がある。 さらに、非常に少ないデータポイントにのみ適用される説明を生成する傾向がある。 これにより説明が不安定になり、範囲が制限される。 最後に、直接検証可能な意味を持たないスコアを提供する。 本稿では,回帰ブラックボックスモデルの個別予測を説明するための決定論的モデル非依存ポストホックアプローチであるbellaを提案する。 BELLAは特徴空間で訓練された線形モデルという形で説明を提供する。 したがって、その係数は、その特徴値から予測値を計算するために直接使用できる。 さらに、BELLAは線形モデルが適用する近傍の大きさを最大化し、説明が正確で、単純で、汎用的で、堅牢である。 BELLAは事実と反事実の両方を説明することができる。 ユーザスタディでは,最適なデシダラタの重要性を確認し,BELLAがこれらのデシダラタに対して最先端のアプローチよりも優れていることを示す。

In recent years, understanding the decision-making process of black-box models has become not only a legal requirement but also an additional way to assess their performance. However, the state of the art post-hoc interpretation approaches rely on synthetic data generation. This introduces uncertainty and can hurt the reliability of the interpretations. Furthermore, they tend to produce explanations that apply to only very few data points. This makes the explanations brittle and limited in scope. Finally, they provide scores that have no direct verifiable meaning. In this paper, we present BELLA, a deterministic model-agnostic post-hoc approach for explaining the individual predictions of regression black-box models. BELLA provides explanations in the form of a linear model trained in the feature space. Thus, its coefficients can be used directly to compute the predicted value from the feature values. Furthermore, BELLA maximizes the size of the neighborhood to which the linear model applies, so that the explanations are accurate, simple, general, and robust. BELLA can produce both factual and counterfactual explanations. Our user study confirms the importance of the desiderata we optimize, and our experiments show that BELLA outperforms the state-of-the-art approaches on these desiderata.
翻訳日:2023-05-22 17:08:50 公開日:2023-05-18
# 条件付き生成モデルからのデータリアクション

Data Redaction from Conditional Generative Models ( http://arxiv.org/abs/2305.11351v1 )

ライセンス: Link先を確認
Zhifeng Kong and Kamalika Chaudhuri(参考訳) 深層生成モデルは有害な内容などの望ましくないサンプルを生成することが知られている。 従来の緩和方法には、スクラッチから再トレーニング、フィルタリング、編集が含まれるが、これらは計算コストが高いか、第三者が回避できる。 本稿では, 条件付き生成モデルについて異なるアプローチを採り, 学習済み条件付き生成モデルを用いて, 高い確率で, 望ましくないコンテンツに導く条件を再現する方法について検討する。 これはモデルにコンディショニングネットワークを蒸留することで実現され、深層生成モデルのクラスに対して効率的、効率的、制御可能、普遍的なソリューションを提供する。 テキスト対画像モデルにおけるプロンプトの再現実験と、テキスト対音声モデルにおける音声の再現実験を行った。 本手法は, 計算量的に軽量であり, 高い世代品質を維持しつつ, ベースライン法よりも高い再現性と頑健性をもたらす。

Deep generative models are known to produce undesirable samples such as harmful content. Traditional mitigation methods include re-training from scratch, filtering, or editing; however, these are either computationally expensive or can be circumvented by third parties. In this paper, we take a different approach and study how to post-edit an already-trained conditional generative model so that it redacts certain conditionals that will, with high probability, lead to undesirable content. This is done by distilling the conditioning network in the models, giving a solution that is effective, efficient, controllable, and universal for a class of deep generative models. We conduct experiments on redacting prompts in text-to-image models and redacting voices in text-to-speech models. Our method is computationally light, leads to better redaction quality and robustness than baseline methods while still retaining high generation quality.
翻訳日:2023-05-22 17:01:39 公開日:2023-05-18
# マルチモーダル弱信号を用いた非教師なしドメイン非依存偽ニュース検出

Unsupervised Domain-agnostic Fake News Detection using Multi-modal Weak Signals ( http://arxiv.org/abs/2305.11349v1 )

ライセンス: Link先を確認
Amila Silva, Ling Luo, Shanika Karunasekera, Christopher Leckie(参考訳) ニュースにアクセスするための主要なプラットフォームの一つとしてソーシャルメディアが出現したことで、フェイクニュースが広く普及した。 これは偽ニュース検出の自動化に関する多くの研究を動機付けている。 教師なしの偽ニュース検出の試みは限られているが、その性能は、ニュース記録に関連する様々なモダリティの知識を活用せず、既存のニュースデータセットに様々な潜在バイアスが存在するためである。 そこで本研究では,非教師付き偽ニュース検出のための効果的なフレームワークを提案する。まず,ニュースレコードの4つのモダリティに利用可能な知識を組込み,次に,マルチモーダル組込みからニュースレコードの有効性を識別する,ノイズロバスト自己教師付き学習手法を提案する。 また,既存のニュースデータセットの潜在バイアスを最小化するニュースデータセットを構築する新しい手法を提案する。 提案手法に従って,LUND-COVIDと略される新型コロナウイルス関連ニュース記事419,351件からなる大規模未ラベルニュースデータセットを作成した。 LUND-COVIDを用いて提案した教師なしフレームワークをトレーニングし,既存のラベル付きデータセットを用いて評価した。 提案手法は,マルチモーダルなフェイクニュース検出,フェイクニュース早期検出,数発のフェイクニュース検出など,既存の教師なしベースラインよりも優れており,トレーニング中に未確認領域に顕著な改善が得られた。

The emergence of social media as one of the main platforms for people to access news has enabled the wide dissemination of fake news. This has motivated numerous studies on automating fake news detection. Although there have been limited attempts at unsupervised fake news detection, their performance suffers due to not exploiting the knowledge from various modalities related to news records and due to the presence of various latent biases in the existing news datasets. To address these limitations, this work proposes an effective framework for unsupervised fake news detection, which first embeds the knowledge available in four modalities in news records and then proposes a novel noise-robust self-supervised learning technique to identify the veracity of news records from the multi-modal embeddings. Also, we propose a novel technique to construct news datasets minimizing the latent biases in existing news datasets. Following the proposed approach for dataset construction, we produce a Large-scale Unlabelled News Dataset consisting 419,351 news articles related to COVID-19, acronymed as LUND-COVID. We trained the proposed unsupervised framework using LUND-COVID to exploit the potential of large datasets, and evaluate it using a set of existing labelled datasets. Our results show that the proposed unsupervised framework largely outperforms existing unsupervised baselines for different tasks such as multi-modal fake news detection, fake news early detection and few-shot fake news detection, while yielding notable improvements for unseen domains during training.
翻訳日:2023-05-22 17:01:24 公開日:2023-05-18
# フェアネスの名において:臨床記録の同定におけるバイアスの評価

In the Name of Fairness: Assessing the Bias in Clinical Record De-identification ( http://arxiv.org/abs/2305.11348v1 )

ライセンス: Link先を確認
Yuxin Xiao, Shulammite Lim, Tom Joseph Pollard, Marzyeh Ghassemi(参考訳) オープンサイエンスと再現可能な研究にはデータ共有が不可欠であるが、臨床データの法的共有には、電子健康記録から保護された健康情報を取り除く必要がある。 このプロセスはde-identificationとして知られ、多くの商用およびオープンソースシステムで機械学習アルゴリズムを使用することでしばしば達成される。 これらのシステムは, 平均的に有意な結果を示しているが, 異なる集団間での成績のばらつきについては, 十分に検討されていない。 本研究は, 大規模実験分析を用いて, 臨床メモにおける名前の同定システムに対するバイアスについて検討する。 これを実現するために、性別、人種、名前の人気、そして人気の10年という4つの年齢層で異なる16の名前セットを作成します。 それらの名称を手作業による治験テンプレート100個に挿入し,9つの公衆・個人識別手法の性能評価を行った。 以上の結果から,ほとんどの方法において,統計学的に有意な性能差があることが判明した。 さらに, 名前, 性別, 臨床ノートの特徴において, 脱識別品質がポリセミーの影響を受けていることを示す。 特定されたギャップを緩和するために,臨床状況と多様な名前の微調整による簡易かつ方法に依存しない解法を提案する。 全体としては、下流の利害関係者がすべての人口構成政党に公平にサービスを提供する高品質なシステムを構築することができるように、既存の方法のバイアスに即座に対処することが不可欠である。

Data sharing is crucial for open science and reproducible research, but the legal sharing of clinical data requires the removal of protected health information from electronic health records. This process, known as de-identification, is often achieved through the use of machine learning algorithms by many commercial and open-source systems. While these systems have shown compelling results on average, the variation in their performance across different demographic groups has not been thoroughly examined. In this work, we investigate the bias of de-identification systems on names in clinical notes via a large-scale empirical analysis. To achieve this, we create 16 name sets that vary along four demographic dimensions: gender, race, name popularity, and the decade of popularity. We insert these names into 100 manually curated clinical templates and evaluate the performance of nine public and private de-identification methods. Our findings reveal that there are statistically significant performance gaps along a majority of the demographic dimensions in most methods. We further illustrate that de-identification quality is affected by polysemy in names, gender context, and clinical note characteristics. To mitigate the identified gaps, we propose a simple and method-agnostic solution by fine-tuning de-identification methods with clinical context and diverse names. Overall, it is imperative to address the bias in existing methods immediately so that downstream stakeholders can build high-quality systems to serve all demographic parties fairly.
翻訳日:2023-05-22 17:00:58 公開日:2023-05-18
# 自然摂動とデータ中毒に対する深層多スペクトルセグメンテーションモデルの堅牢性の定量化

Quantifying the robustness of deep multispectral segmentation models against natural perturbations and data poisoning ( http://arxiv.org/abs/2305.11347v1 )

ライセンス: Link先を確認
Elise Bishoff, Charles Godfrey, Myles McKay, Eleanor Byler(参考訳) オーバヘッドイメージセグメンテーションタスクでは、従来のRGBチャネル以外のスペクトル帯域を追加すれば、モデルのパフォーマンスが向上する。 しかし、この追加データの導入が、敵攻撃や自然摂動に対するモデル堅牢性にどのように影響するかは、まだ不明である。 敵対的な堅牢性のために、追加情報はモデルの悪意のある入力を識別する能力を改善するか、単に新しい攻撃経路と脆弱性を提供する。 自然摂動の場合、追加の情報はモデル決定により良い情報を与え、摂動効果を弱めるか、全く大きな影響を与えない。 本研究では,敵対的攻撃や自然摂動を受けるマルチスペクトル(RGBおよび近赤外線)画像分割モデルの性能とロバスト性を特徴付ける。 既存の敵対的・自然的堅牢性の研究は、主にデジタル摂動に焦点を当てているが、我々は物理的な世界条件を念頭に設計された現実的な摂動の創造に重点を置いている。 対向的ロバスト性については,データ中毒攻撃に注目する一方で,自然のロバスト性については,imagenet-cによる霧と雪の一般的な腐敗の拡大に注目する。 全体としては、RGBモデルとマルチスペクトルモデルの両方が、入力や融合アーキテクチャに関わらずデータ中毒攻撃に対して脆弱であり、物理的に実現可能な自然摂動はモデル性能を低下させるが、その影響は融合アーキテクチャと入力データによって異なる。

In overhead image segmentation tasks, including additional spectral bands beyond the traditional RGB channels can improve model performance. However, it is still unclear how incorporating this additional data impacts model robustness to adversarial attacks and natural perturbations. For adversarial robustness, the additional information could improve the model's ability to distinguish malicious inputs, or simply provide new attack avenues and vulnerabilities. For natural perturbations, the additional information could better inform model decisions and weaken perturbation effects or have no significant influence at all. In this work, we seek to characterize the performance and robustness of a multispectral (RGB and near infrared) image segmentation model subjected to adversarial attacks and natural perturbations. While existing adversarial and natural robustness research has focused primarily on digital perturbations, we prioritize on creating realistic perturbations designed with physical world conditions in mind. For adversarial robustness, we focus on data poisoning attacks whereas for natural robustness, we focus on extending ImageNet-C common corruptions for fog and snow that coherently and self-consistently perturbs the input data. Overall, we find both RGB and multispectral models are vulnerable to data poisoning attacks regardless of input or fusion architectures and that while physically realizable natural perturbations still degrade model performance, the impact differs based on fusion architecture and input data.
翻訳日:2023-05-22 17:00:36 公開日:2023-05-18
# エネルギーモデルを用いた報酬条件強化学習のベイズ再パラメータ化

Bayesian Reparameterization of Reward-Conditioned Reinforcement Learning with Energy-based Models ( http://arxiv.org/abs/2305.11340v1 )

ライセンス: Link先を確認
Wenhao Ding, Tong Che, Ding Zhao, Marco Pavone(参考訳) 近年、報酬条件強化学習(RCRL)は、その単純さ、柔軟性、および非政治性から人気を集めている。 しかし、現在のRCRLアプローチは基本的に限定的であり、RCRLの2つの重要な課題、すなわち高報酬対ゴー(RTG)入力の一般化の改善、テスト期間中のアウト・オブ・ディストリビューション(OOD)RTGクエリの回避に対処できないことを示す。 バニラRCRLアーキテクチャを訓練する際のこれらの課題を解決するため、ベイズの定理に触発されたRCRLの新しい帰納バイアスであるベイズ再パラメータ化RCRL(BR-RCRL)を提案する。 BR-RCRLは、バニラRCRLが高RTG入力を一般化することを防ぐコア障害を取り除く。 br-rcrlはまた、バニラrcrlメソッドで予測不能な振る舞いをもたらすoodクエリを避けながら、総リターンを最大化する適応的推論方法を設計できる。 BR-RCRL は Gym-Mujoco と Atari のオフライン RL ベンチマークで最先端性能を実現し,バニラ RCRL を最大 11% 改善した。

Recently, reward-conditioned reinforcement learning (RCRL) has gained popularity due to its simplicity, flexibility, and off-policy nature. However, we will show that current RCRL approaches are fundamentally limited and fail to address two critical challenges of RCRL -- improving generalization on high reward-to-go (RTG) inputs, and avoiding out-of-distribution (OOD) RTG queries during testing time. To address these challenges when training vanilla RCRL architectures, we propose Bayesian Reparameterized RCRL (BR-RCRL), a novel set of inductive biases for RCRL inspired by Bayes' theorem. BR-RCRL removes a core obstacle preventing vanilla RCRL from generalizing on high RTG inputs -- a tendency that the model treats different RTG inputs as independent values, which we term ``RTG Independence". BR-RCRL also allows us to design an accompanying adaptive inference method, which maximizes total returns while avoiding OOD queries that yield unpredictable behaviors in vanilla RCRL methods. We show that BR-RCRL achieves state-of-the-art performance on the Gym-Mujoco and Atari offline RL benchmarks, improving upon vanilla RCRL by up to 11%.
翻訳日:2023-05-22 17:00:11 公開日:2023-05-18
# 解剖学的ランドマーク検出のための位置印とサンプル認識中央損失の協調変換器

Coordinated Transformer with Position \& Sample-aware Central Loss for Anatomical Landmark Detection ( http://arxiv.org/abs/2305.11338v1 )

ライセンス: Link先を確認
Qikui Zhu, Yihui Bi, Danxin Wang, Xiangpeng Chu, Jie Chen, Yanqing Wang(参考訳) 熱マップに基づく解剖学的ランドマーク検出はまだ2つの未解決課題に直面している。 1) ヒートマップの分布を正確に評価できないこと 2)グローバル空間構造情報を効果的に活用できない。 計算不能問題に対処するために,新しい位置認識およびサンプル認識中心損失を提案する。 具体的には、中央損失は位置情報を吸収し、ヒートマップ分布の正確な評価を可能にする。 これにより、ランドマークと非ランドマークの極端な不均衡という課題を解決しつつ、簡単でハードなサンプルを適応的に区別し、ハードなサンプルにもっと集中させることができる。 構造情報の無視という課題に対処するため,CoorTransformerと呼ばれるコーディネートトランスフォーマーが,ランドマーク調整情報の指導の下で長距離依存を確立し,グローバル空間構造を生かしつつ,スパークランドマークに注目する。 さらに、coortransformerはコンバージェンスを高速化でき、トランスフォーマがスパース表現学習で収束しにくい欠陥を効果的に回避できる。 先進的なCoorTransformerと中心的損失を用いて,ランドマーク間の基盤となる関係を本質的に活用し,ターゲットランドマーク周辺の豊富な構造的知識を取り入れた,様々なシナリオを処理可能な一般化検出モデルを提案する。 3つの困難なランドマーク検出タスクにおいて, coortransformer と central loss を分析し, 評価した。 実験の結果,CoorTransformerは最先端の手法よりも優れており,中心的な損失はp値0.05のモデルの性能を著しく向上させることがわかった。

Heatmap-based anatomical landmark detection is still facing two unresolved challenges: 1) inability to accurately evaluate the distribution of heatmap; 2) inability to effectively exploit global spatial structure information. To address the computational inability challenge, we propose a novel position-aware and sample-aware central loss. Specifically, our central loss can absorb position information, enabling accurate evaluation of the heatmap distribution. More advanced is that our central loss is sample-aware, which can adaptively distinguish easy and hard samples and make the model more focused on hard samples while solving the challenge of extreme imbalance between landmarks and non-landmarks. To address the challenge of ignoring structure information, a Coordinated Transformer, called CoorTransformer, is proposed, which establishes long-range dependencies under the guidance of landmark coordination information, making the attention more focused on the sparse landmarks while taking advantage of global spatial structure. Furthermore, CoorTransformer can speed up convergence, effectively avoiding the defect that Transformers have difficulty converging in sparse representation learning. Using the advanced CoorTransformer and central loss, we propose a generalized detection model that can handle various scenarios, inherently exploiting the underlying relationship between landmarks and incorporating rich structural knowledge around the target landmarks. We analyzed and evaluated CoorTransformer and central loss on three challenging landmark detection tasks. The experimental results show that our CoorTransformer outperforms state-of-the-art methods, and the central loss significantly improves the performance of the model with p-values< 0.05.
翻訳日:2023-05-22 16:59:43 公開日:2023-05-18
# roomdreamer:コヒーレントな幾何学とテクスチャを用いたテキスト駆動3次元室内シーン合成

RoomDreamer: Text-Driven 3D Indoor Scene Synthesis with Coherent Geometry and Texture ( http://arxiv.org/abs/2305.11337v1 )

ライセンス: Link先を確認
Liangchen Song, Liangliang Cao, Hongyu Xu, Kai Kang, Feng Tang, Junsong Yuan, Yang Zhao(参考訳) 3次元屋内シーン撮影技術は広く用いられているが、メッシュが作り出すものは多く望まれる。 本稿では,強力な自然言語を用いて異なるスタイルで新しい部屋を合成する「roomdreamer」を提案する。 既存の画像合成法とは違って,図形とテクスチャを入力シーン構造に整合させ,同時にプロンプトするという課題に対処する。 重要な洞察は、シーンのテクスチャと幾何学の両方を考慮して、シーン全体を扱うべきだということだ。 提案するフレームワークは,幾何誘導拡散とメッシュ最適化という2つの重要なコンポーネントで構成されている。 Geometry Guided Diffusion for 3D Sceneは、シーン全体に対して2Dを同時に適用することにより、シーンスタイルの整合性を保証する。 メッシュ最適化は、幾何学とテクスチャを共同で改善し、スキャンされたシーンのアーティファクトを除去する。 提案手法を検証するために,スマートフォンでスキャンした実室内シーンを広範囲に実験し,本手法の有効性を実証した。

The techniques for 3D indoor scene capturing are widely used, but the meshes produced leave much to be desired. In this paper, we propose "RoomDreamer", which leverages powerful natural language to synthesize a new room with a different style. Unlike existing image synthesis methods, our work addresses the challenge of synthesizing both geometry and texture aligned to the input scene structure and prompt simultaneously. The key insight is that a scene should be treated as a whole, taking into account both scene texture and geometry. The proposed framework consists of two significant components: Geometry Guided Diffusion and Mesh Optimization. Geometry Guided Diffusion for 3D Scene guarantees the consistency of the scene style by applying the 2D prior to the entire scene simultaneously. Mesh Optimization improves the geometry and texture jointly and eliminates the artifacts in the scanned scene. To validate the proposed method, real indoor scenes scanned with smartphones are used for extensive experiments, through which the effectiveness of our method is demonstrated.
翻訳日:2023-05-22 16:59:14 公開日:2023-05-18
# 自分の本を書く: 小さなLLMの堅牢性とパフォーマンスを改善するために、クローズドからオープンな本QAに進む方法

Writing your own book: A method for going from closed to open book QA to improve robustness and performance of smaller LLMs ( http://arxiv.org/abs/2305.11334v1 )

ライセンス: Link先を確認
Giorgi Kokaia, Pratyush Sinha, Yutong Jiang, Nozha Boujemaa(参考訳) 本稿では,問合せタスクにおける大規模言語モデル(LLM)の性能向上を目的とした,木探索と自己記述型QAという2つの新しい手法を紹介する。 Tree-Searchは、特定のプロンプトのためにLLMから多様な情報を抽出するために特別に作られたサンプリング技術である。 自己コンテキスト化 qaはツリー検索を利用して、モデルがプロンプトに関連する幅広い情報を使用して独自のコンテキストを作成し、明示的に評価し、最初のプロンプトにオープンブックの回答を返す。 GPT3.5(text-davinci-003) で評価した結果, 精度, 情報性, コヒーレンス, 一貫性など, 様々な指標により, 結果の質が向上することを示した。 さらに,本手法は強靭性を高め,木の大きさと正の相関性を示し,応答品質と強靭性の両方に寄与することを示した。 最後に、tree-searchの他の有望な応用について論じ、質問応答以外の幅広いタスクの拡張の可能性を強調した。 木探索および自己文脈化QA手法の精錬、生成したコンテキストのコヒーレンスの改善、ブートストラップがモデルロバスト性に与える影響など、今後の課題についても検討する。

We introduce two novel methods, Tree-Search and Self-contextualizing QA, designed to enhance the performance of large language models (LLMs) in question-answering tasks. Tree-Search is a sampling technique specifically created to extract diverse information from an LLM for a given prompt. Self-contextualizing QA leverages Tree-Search to enable the model to create its own context using a wide range of information relevant to the prompt, evaluate it explicitly and return a open book answer to the initial prompt . We demonstrate that the quality of generated answers improves according to various metrics, including accuracy, informativeness, coherence, and consistency, as evaluated by GPT3.5(text-davinci-003). Furthermore, we show that our methods result in increased robustness and that performance is positively correlated with tree size, benefiting both answer quality and robustness. Finally, we discuss other promising applications of Tree-Search, highlighting its potential to enhance a broad range of tasks beyond question-answering. \noindent We also discuss several areas for future work, including refining the Tree-Search and Self-Contextualizing QA methods, improving the coherence of the generated context, and investigating the impact of bootstrapping on model robustness
翻訳日:2023-05-22 16:58:57 公開日:2023-05-18
# フェルミオン作用素を用いた格子実験と量子コンピュータにおける変分固有解法

Lattice Experiments using Fermionic Operators and the Variational Eigensolver in a Quantum Computer ( http://arxiv.org/abs/2305.11329v1 )

ライセンス: Link先を確認
Wladimir Silva(参考訳) この研究は、IBMの16キュービットのグアダルーペ量子プロセッサにおいて、様々な格子系の基底状態を見つけるための一連の実験について述べる。 我々は,雑音に耐性を持ち,格子内の頂点数に依存しない変分量子固有ソルバ(qve)の設計を目指す。 さらに, 磁気システムの臨界点と相転移, 高温超伝導体, 量子磁性, 電荷密度の研究において, 2つのIsingモデルに対して, 解法を検証した。 最終エネルギー、精度パーセンテージ、実行時間、角パラメータ、実験用のソースコードを含む完全な結果メトリクスを提供する。

This work describes a series of experiments in IBM's 16-qubit Guadalupe quantum processor to find the ground state of various lattice systems implemented in the Qiskit library. We aim to design a Variational Quantum Eigensolver (QVE) resistant to noise and independent of the number of vertices in the lattice. Furthermore, we test our solution against two Ising models very important in the study of critical points and phase transitions of magnetic systems as well as high-temperature superconductors, and quantum magnetism and charge density. We provide complete result metrics including final energies, precision percentages, execution times, angular parameters and source code for experimentation.
翻訳日:2023-05-22 16:58:30 公開日:2023-05-18
# SuSana Distanciaが必要なのは、距離に基づく2つの新しい損失関数による距離学習におけるクラス分離可能性の強化

SuSana Distancia is all you need: Enforcing class separability in metric learning via two novel distance-based loss functions for few-shot image classification ( http://arxiv.org/abs/2305.09062v3 )

ライセンス: Link先を確認
Mauricio Mendez-Ruiz, Jorge Gonzalez-Zapata, Ivan Reyes-Amezcua, Daniel Flores-Araiza, Francisco Lopez-Tiro, Andres Mendez-Vazquez, Gilberto Ochoa-Ruiz(参考訳) 少数ショット学習は、いくつかのラベル付きデータサンプルだけで新しい概念を学ぶことを目的とした、困難な研究分野である。 メトリック学習アプローチに基づく最近の研究は、サポート(トレーニング)とクエリセット(テスト)を使用して、それらのセット間の類似性比較メトリックを学習する、エピソディクスタスクを包含するメタラーニングアプローチを活用している。 データ不足のため、埋め込みネットワークの学習プロセスは、数発のタスクの重要な部分となる。 これまでの研究では、メトリック学習のアプローチを用いてこの問題に対処していたが、基礎となる潜在空間の性質と差分クラスの分離性は完全に強制されたわけではない。 本研究では,少数のデータ間のクラス内距離とクラス間距離に着目し,組込みベクトルの重要性を考慮した2つの異なる損失関数を提案する。 最初の損失関数はプロト三重項損失(proto-triplet loss)である。 ICNNの損失を補う第2の損失関数は、訓練されたネットワークから得られる埋め込みの質を評価するのに役立つ、クラス内およびクラス内隣人のスコアに基づいている。 実験で得られた結果から,miniimagennetベンチマークの精度は,他のメトリックベースのマイノリティ学習法に比べて2%向上し,ネットワークがこれまで認識されていなかったクラスに汎用化できるように,損失関数の能力が実証された。 実験では,Caltech CUB, Dogs, Carsといった他のドメインに対して,最先端技術と比較して競合的な一般化能力を実証した。

Few-shot learning is a challenging area of research that aims to learn new concepts with only a few labeled samples of data. Recent works based on metric-learning approaches leverage the meta-learning approach, which is encompassed by episodic tasks that make use a support (training) and query set (test) with the objective of learning a similarity comparison metric between those sets. Due to the lack of data, the learning process of the embedding network becomes an important part of the few-shot task. Previous works have addressed this problem using metric learning approaches, but the properties of the underlying latent space and the separability of the difference classes on it was not entirely enforced. In this work, we propose two different loss functions which consider the importance of the embedding vectors by looking at the intra-class and inter-class distance between the few data. The first loss function is the Proto-Triplet Loss, which is based on the original triplet loss with the modifications needed to better work on few-shot scenarios. The second loss function, which we dub ICNN loss is based on an inter and intra class nearest neighbors score, which help us to assess the quality of embeddings obtained from the trained network. Our results, obtained from a extensive experimental setup show a significant improvement in accuracy in the miniImagenNet benchmark compared to other metric-based few-shot learning methods by a margin of 2%, demonstrating the capability of these loss functions to allow the network to generalize better to previously unseen classes. In our experiments, we demonstrate competitive generalization capabilities to other domains, such as the Caltech CUB, Dogs and Cars datasets compared with the state of the art.
翻訳日:2023-05-22 10:38:21 公開日:2023-05-18
# tsallis $q$-gaussianの特性関数とその計測・計測への応用

Characteristic Function of the Tsallis $q$-Gaussian and Its Applications in Measurement and Metrology ( http://arxiv.org/abs/2303.08615v2 )

ライセンス: Link先を確認
Viktor Witkovsk\'y(参考訳) tsallis $q$-gaussian 分布は標準ガウス分布の強力な一般化であり、非拡張統計力学、金融市場、画像処理など様々な分野で一般的に用いられている。 これは$q$-distributionファミリーに属し、非付加エントロピーによって特徴づけられる。 汎用性と実用性のため、$q$-Gaussian は測定モデルの入力量をモデル化するための自然な選択である。 本稿では,独立な$q$-Gauss的確率変数の線形結合の特性関数を提案し,その逆解析法を提案する。 提案手法により、線形計測モデルにおける出力量の正確な確率分布を、独立な$q$-gaussian確率変数としてモデル化した入力量で決定することができる。 これは分布の伝播による不確実性解析のためのモンテカルロ法に代わる計算手順を提供する。

The Tsallis $q$-Gaussian distribution is a powerful generalization of the standard Gaussian distribution and is commonly used in various fields, including non-extensive statistical mechanics, financial markets and image processing. It belongs to the $q$-distribution family, which is characterized by a non-additive entropy. Due to their versatility and practicality, $q$-Gaussians are a natural choice for modeling input quantities in measurement models. This paper presents the characteristic function of a linear combination of independent $q$-Gaussian random variables and proposes a numerical method for its inversion. The proposed technique makes it possible to determine the exact probability distribution of the output quantity in linear measurement models, with the input quantities modeled as independent $q$-Gaussian random variables. It provides an alternative computational procedure to the Monte Carlo method for uncertainty analysis through the propagation of distributions.
翻訳日:2023-05-20 01:02:38 公開日:2023-05-18
# 非感染性疾患の有病率と主なリスク要因--機械学習に基づく横断的研究

Prevalence and Major Risk Factors of Non-communicable Diseases: A Machine Learning based Cross-Sectional Study ( http://arxiv.org/abs/2303.04808v3 )

ライセンス: Link先を確認
Mrinmoy Roy, Anica Tasnim Protity, Srabonti Das, Porarthi Dhar(参考訳) 目的:バングラデシュのダッカで栄養指導を求める成人患者を対象に,いくつかの非感染性疾患(NCD)の頻度を判定し,リスク要因を分析した。 結果: 性別, 年齢, 肥満, NCD (DM, CKD, IBS, CVD, CRD, 甲状腺) の関係について検討した。 最も頻度の高いNCDは心血管疾患(CVD)であり,全症例の83.56%にみられた。 CVDは男性より多かった。 その結果、男性参加者は女性よりも血圧分布が高かった。 一方,糖尿病(dm)では,性別による傾向は認められなかった。 CVD,DMともに加齢による進行を認めた。 その結果,中高年者では若年者よりも慢性呼吸器疾患が多かった。 データによると、入院患者5人に1人が肥満だった。 共同調査の結果、人口の31.5%がNCDを1つ、30.1%がNCDを2つ、38.3%がNCDを2つ以上持っていることがわかった。 さらに、糖尿病患者の86.25%が心血管障害を患っていた。 全甲状腺患者にCVDを施行した。 t-testを用いてckdと甲状腺(p-value 0.061)の関係を見いだした。 35歳未満の男性は甲状腺と慢性呼吸器疾患(p値0.018)の間に統計的に有意な関係がある。 また,65歳以上 (p-value 0.038) におけるdmとckdとの関連も見いだした。 さらに,35~35~65歳未満では,ckdと甲状腺 (p < 0.05) との間に有意な相関が認められた。 心臓疾患と慢性呼吸器疾患の統計学的に有意な相互作用を,糖尿病と組み合わせてanova試験を行った。 DMとRTIの組み合わせは,65歳以上の男性患者のCKDにも影響した。

Objective: The study aimed to determine the prevalence of several non-communicable diseases (NCD) and analyze risk factors among adult patients seeking nutritional guidance in Dhaka, Bangladesh. Result: Our study observed the relationships between gender, age groups, obesity, and NCDs (DM, CKD, IBS, CVD, CRD, thyroid). The most frequently reported NCD was cardiovascular issues (CVD), which was present in 83.56% of all participants. CVD was more common in male participants. Consequently, male participants had a higher blood pressure distribution than females. Diabetes mellitus (DM), on the other hand, did not have a gender-based inclination. Both CVD and DM had an age-based progression. Our study showed that chronic respiratory illness was more frequent in middle-aged participants than in younger or elderly individuals. Based on the data, every one in five hospitalized patients was obese. We analyzed the co-morbidities and found that 31.5% of the population has only one NCD, 30.1% has two NCDs, and 38.3% has more than two NCDs. Besides, 86.25% of all diabetic patients had cardiovascular issues. All thyroid patients in our study had CVD. Using a t-test, we found a relationship between CKD and thyroid (p-value 0.061). Males under 35 years have a statistically significant relationship between thyroid and chronic respiratory diseases (p-value 0.018). We also found an association between DM and CKD among patients over 65 (p-value 0.038). Moreover, there has been a statistically significant relationship between CKD and Thyroid (P < 0.05) for those below 35 and 35-65. We used a two-way ANOVA test to find the statistically significant interaction of heart issues and chronic respiratory illness, in combination with diabetes. The combination of DM and RTI also affected CKD in male patients over 65 years old.
翻訳日:2023-05-20 01:02:23 公開日:2023-05-18
# 太陽放射圧下での変換可能な宇宙船の体構成と関節駆動姿勢安定化の最適化

Optimization of body configuration and joint-driven attitude stabilization for transformable spacecrafts under solar radiation pressure ( http://arxiv.org/abs/2301.08435v2 )

ライセンス: Link先を確認
Yuki Kubo, Toshihiro Chujo(参考訳) 太陽セイルは、理論上は太陽放射圧(SRP)を用いた特異なインパルスのため、最も有望な宇宙探査システムの一つである。 近年、一部の研究者は、アクチュアブルジョイントで身体構成を積極的に再構成できる「トランスフォーマブル宇宙船」を提案している。 変換可能な宇宙船は、太陽帆のように使用される場合の自由度を制御する高い冗長性のため、軌道と姿勢制御能力を大きく向上することが期待されている。 しかし、その大量の入力は制御に困難をもたらすため、以前の研究者は制御能力を制限するために強い制約を課した。 本稿では,SRPによるトランスフォーマブル宇宙船の姿勢制御技術について述べる。 著者らは, 任意のsrp力とトルクを得るための関節角度最適化と, 関節角度の揺らぎによって駆動される運動量減衰制御の2つの方法を提案している。 提案手法は一般的な形態で定式化され,各体にSRPを優先的に受け取ることができる前面を持つ変換可能な宇宙船に適用できる。 数値シミュレーションにより,提案手法の有効性を確認した。 本報告は, 軌道・姿勢制御能力の大幅な向上を期待できる拡張可能な推進剤を使わずに, トランスフォーマブル宇宙船の高制御冗長化に寄与する。

A solar sail is one of the most promising space exploration system because of its theoretically infinite specific impulse using solar radiation pressure (SRP). Recently, some researchers proposed "transformable spacecrafts" that can actively reconfigure their body configurations with actuatable joints. The transformable spacecrafts are expected to greatly enhance orbit and attitude control capability due to its high redundancy in control degree of freedom if they are used like solar sails. However, its large number of input poses difficulties in control, and therefore, previous researchers imposed strong constraints to limit its potential control capabilities. This paper addresses novel attitude control techniques for the transformable spacecrafts under SRP. The authors have constructed two proposed methods; one of those is a joint angle optimization to acquire arbitrary SRP force and torque, and the other is a momentum damping control driven by joint angle actuation. Our proposed methods are formulated in general forms and applicable to any transformable spacecraft that has front faces that can dominantly receive SRP on each body. Validity of the proposed methods are confirmed by numerical simulations. This paper contributes to making most of the high control redundancy of transformable spacecrafts without consuming any expendable propellants, which is expected to greatly enhance orbit and attitude control capability.
翻訳日:2023-05-20 01:01:53 公開日:2023-05-18
# 解釈可能な一般化ニューラルクロージャモデル

Generalized Neural Closure Models with Interpretability ( http://arxiv.org/abs/2301.06198v2 )

ライセンス: Link先を確認
Abhinav Gupta and Pierre F.J. Lermusiaux(参考訳) 動的モデルの予測能力と計算コストの改善は、機械学習(ML)による計算物理学の強化の中心にあることが多い。 しかし、ほとんどの学習結果は、異なる計算グリッド解像度、初期および境界条件、ドメインジオメトリ、物理または問題固有のパラメータに対する解釈可能性と一般化に制限されている。 本研究では, ニューラル偏差微分方程式の新規かつ汎用的な手法を開発することにより, これらの課題を同時に解決する。 マルコフ型および非マルコフ型ニューラルネットワーク(NN)の閉包パラメータ化を用いて, 偏微分方程式(PDE)における既存/低忠実度力学モデルを直接拡張する。 連続時空間におけるnnsと既存のモデルの融合と数値的離散化は、自動的に所望の一般化を可能にする。 マルコフ項は解析形式の抽出を可能にし、解釈可能性を提供するように設計されている。 非マルコフ項は、現実世界を表すのに必要な本質的に欠落した時間遅延を説明できる。 連続形式で随伴pdesを得ることにより、微分可能および非微分可能計算物理符号、異なるmlフレームワーク、非一様空間時空間トレーニングデータの処理を直接実装することができる。 本稿では,非線形波,衝撃波,海洋酸性化モデルに基づく4つの実験セットを用いて,ニューラルクロージャモデル(gncms)フレームワークを実証する。 学習したgncmsは、物理の欠如を発見し、主要な数値的誤り項を発見し、解釈可能な方法で関数型候補を判別し、一般化し、より単純なモデルにおける複雑さの欠如を補償する。 最後に、新しいフレームワークの計算上の利点を分析する。

Improving the predictive capability and computational cost of dynamical models is often at the heart of augmenting computational physics with machine learning (ML). However, most learning results are limited in interpretability and generalization over different computational grid resolutions, initial and boundary conditions, domain geometries, and physical or problem-specific parameters. In the present study, we simultaneously address all these challenges by developing the novel and versatile methodology of unified neural partial delay differential equations. We augment existing/low-fidelity dynamical models directly in their partial differential equation (PDE) forms with both Markovian and non-Markovian neural network (NN) closure parameterizations. The melding of the existing models with NNs in the continuous spatiotemporal space followed by numerical discretization automatically allows for the desired generalizability. The Markovian term is designed to enable extraction of its analytical form and thus provides interpretability. The non-Markovian terms allow accounting for inherently missing time delays needed to represent the real world. We obtain adjoint PDEs in the continuous form, thus enabling direct implementation across differentiable and non-differentiable computational physics codes, different ML frameworks, and treatment of nonuniformly-spaced spatiotemporal training data. We demonstrate the new generalized neural closure models (gnCMs) framework using four sets of experiments based on advecting nonlinear waves, shocks, and ocean acidification models. Our learned gnCMs discover missing physics, find leading numerical error terms, discriminate among candidate functional forms in an interpretable fashion, achieve generalization, and compensate for the lack of complexity in simpler models. Finally, we analyze the computational advantages of our new framework.
翻訳日:2023-05-20 01:01:33 公開日:2023-05-18
# Masked Autoencodersはアート学習者。

Masked Autoencoders Are Articulatory Learners ( http://arxiv.org/abs/2210.15195v3 )

ライセンス: Link先を確認
Ahmed Adel Attia, Carol Espy-Wilson(参考訳) 調音録音は声道に沿った異なる調音器の位置と動きを追跡し、音声生成の研究や調音ベースの音声合成装置や音声インバージョンシステムといった音声技術の開発に広く用いられている。 ウィスコンシン大学x線マイクロビーム(xrmb)データセットは、音声録音と同期した調音記録を提供する様々なデータセットの1つである。 xrmbの調音録音では、マイクロビームで追跡できる多数の調音器にペレットが配置されている。 しかし、録音のかなりの部分は誤トラックされており、これまでは使用不可能であった。 本研究では,マスキングオートエンコーダを用いて,xrmbデータセットの話者47名中41名を対象に,誤追跡された調音録音を正確に再構成する深層学習手法を提案する。 従来使用できなかった3.4時間のうち3.28時間程度を収集し,8つの調音器のうち3つが誤追跡された場合でも,実感に合致した調音軌跡を再現することができる。

Articulatory recordings track the positions and motion of different articulators along the vocal tract and are widely used to study speech production and to develop speech technologies such as articulatory based speech synthesizers and speech inversion systems. The University of Wisconsin X-Ray microbeam (XRMB) dataset is one of various datasets that provide articulatory recordings synced with audio recordings. The XRMB articulatory recordings employ pellets placed on a number of articulators which can be tracked by the microbeam. However, a significant portion of the articulatory recordings are mistracked, and have been so far unsuable. In this work, we present a deep learning based approach using Masked Autoencoders to accurately reconstruct the mistracked articulatory recordings for 41 out of 47 speakers of the XRMB dataset. Our model is able to reconstruct articulatory trajectories that closely match ground truth, even when three out of eight articulators are mistracked, and retrieve 3.28 out of 3.4 hours of previously unusable recordings.
翻訳日:2023-05-20 01:00:43 公開日:2023-05-18
# 離散pdesにおける神経閉鎖モデルの比較

Comparison of neural closure models for discretised PDEs ( http://arxiv.org/abs/2210.14675v2 )

ライセンス: Link先を確認
Hugo Melchers, Daan Crommelin, Barry Koren, Vlado Menkovski, Benjamin Sanderse(参考訳) 近年,ニューラルネットワークを用いたマルチスケールシステムにおいて,小さなスケールを効率的に近似する手法として,ニューラルクロージャモデルが提案されている。 損失関数の選択と関連するトレーニング手順は、結果として生じる神経閉鎖モデルの精度と安定性に大きな影響を及ぼす。 本研究では,「導出的適合性」,「軌道的適合性」,「離散的最適化」,「軌道的適合性」の3つの異なる手順を体系的に比較した。 導出的フィッティングは概念的には最も単純で計算学的に最も効率的なアプローチであり、テスト問題の一つ(Kuramoto-Sivashinsky)では合理的に機能するが、他方(Burgers)では不十分である。 軌道フィッティングは計算コストが高いが、より堅牢であり、したがって好ましいアプローチである。 2つの軌道フィッティング手順のうち、離散化最適化アプローチは、最適化最適化最適化アプローチよりも正確なモデルを生成する。 最適化・then-discretiseアプローチはまだ正確なモデルを生成することができるが、トレーニング中に適度に正確な勾配を生成しながら、長期的行動に関するモデルを訓練するために、トレーニングに使用される軌道の長さを選択することに注意する必要がある。 既存の2つの定理は、その短期的正確性に基づいて、神経閉鎖モデルの長期的な正確性に関する洞察を与える新しい方法で解釈される。

Neural closure models have recently been proposed as a method for efficiently approximating small scales in multiscale systems with neural networks. The choice of loss function and associated training procedure has a large effect on the accuracy and stability of the resulting neural closure model. In this work, we systematically compare three distinct procedures: "derivative fitting", "trajectory fitting" with discretise-then-optimise, and "trajectory fitting" with optimise-then-discretise. Derivative fitting is conceptually the simplest and computationally the most efficient approach and is found to perform reasonably well on one of the test problems (Kuramoto-Sivashinsky) but poorly on the other (Burgers). Trajectory fitting is computationally more expensive but is more robust and is therefore the preferred approach. Of the two trajectory fitting procedures, the discretise-then-optimise approach produces more accurate models than the optimise-then-discretise approach. While the optimise-then-discretise approach can still produce accurate models, care must be taken in choosing the length of the trajectories used for training, in order to train the models on long-term behaviour while still producing reasonably accurate gradients during training. Two existing theorems are interpreted in a novel way that gives insight into the long-term accuracy of a neural closure model based on how accurate it is in the short term.
翻訳日:2023-05-20 01:00:26 公開日:2023-05-18
# ヒッグスポテンシャルのないモデルによるスセイ破砕における放射質量増加の量子シミュレーション

A Model without Higgs Potential for Quantum Simulation of Radiative Mass-Enhancement in SUSY Breaking ( http://arxiv.org/abs/2210.02778v5 )

ライセンス: Link先を確認
Masao Hirokawa(参考訳) 超対称性量子力学におけるフェルミオン状態およびボゾン状態における質量増強の量子シミュレーションモデルについて検討する。 ボソニック状態とフェルミオン状態はキュービットで分類される。 このモデルは非常に単純であり、超対称性(susy)が自発的に破られるときに起こる質量拡張の量子シミュレーションとして実装できる。 ここでは、量子シミュレーションは、物理現実としていくつかの量子情報デバイスを用いたターゲット量子現象の実現を意味する。 このモデルでは、1モードのスカラーボソンの消滅と生成からなる準粒子がXゲートのスピン効果をいかに食し、自発性SUSY破壊におけるフェルミオン状態の質量増強を得るかを記述している。 我々のモデルの相互作用にはヒッグスポテンシャルがない。 代わりに、クォービットは二重井戸ポテンシャルの2レベルの近似によってヒッグスポテンシャルの代用として作用し、自発的なSUSY破壊が起こり、質量が増大する。

We study a quantum-simulation model of a mass enhancement in the fermionic states, as well as in the bosonic ones, of the supersymmetric quantum mechanics. The bosonic and fermionic states are graded by a qubit. This model is so simple that it may be implemented as a quantum simulation of the mass enhancement taking place when supersymmetry (SUSY) is spontaneously broken. Here, our quantum simulation means the realization of the target quantum phenomenon with some quantum-information devices as a physical reality. The model describes how the quasi-particle consisting of the annihilation and creation of 1-mode scalar bosons eats the spin effect given by the X-gate, and how it acquires the mass enhancement in the fermionic states in the spontaneous SUSY breaking. Our model's interaction does not have any Higgs potential. Instead, the qubit acts as a substitute for the Higgs potential by the 2-level-system approximation of the double-well potential, and then, the spontaneous SUSY breaking takes place and the mass is enhanced.
翻訳日:2023-05-20 01:00:00 公開日:2023-05-18
# gLaSDI:パラメトリック物理インフォームドグレディ遅延宇宙ダイナミクスの同定

gLaSDI: Parametric Physics-informed Greedy Latent Space Dynamics Identification ( http://arxiv.org/abs/2204.12005v2 )

ライセンス: Link先を確認
Xiaolong He, Youngsoo Choi, William D. Fries, Jon Belof, Jiun-Shyan Chen(参考訳) 高次元非線形力学系の高精度, 効率的, 堅牢なデータ駆動還元次数モデリングのために, パラメトリック適応物理学インフォームドグレディ遅延宇宙ダイナミクス同定法(gLaSDI)を提案する。 提案したgLaSDIフレームワークでは、オートエンコーダが高次元データの固有非線形潜在表現を発見し、ダイナミックス識別(DI)モデルが局所潜在空間のダイナミクスをキャプチャする。 オートエンコーダとローカルDIモデルにインタラクティブなトレーニングアルゴリズムが採用され、単純な潜時空間のダイナミクスの識別が可能となり、データ駆動の低次モデリングの精度と効率が向上する。 最適モデル性能のためのパラメータ空間の探索を最大化し、高速化するために、物理インフォームド残差ベースエラーインジケータと統合された適応グリーディサンプリングアルゴリズムを導入し、ハエの最適なトレーニングサンプルを探すためにランダムサブセット評価を導入する。 さらに、パラメータ空間内の最小の局所diモデル数によるモデリング精度の向上のために、局所diモデルでキャプチャされた局所潜在空間ダイナミクスを利用するため、k-nearest近傍凸補間スキームを用いる。 提案手法の有効性は, バーガーズ方程式, 非線形熱伝導, 放射対流など, 様々な非線形力学問題をモデル化することによって実証される。 提案する適応グリーディサンプリングは, 従来の一様サンプリングよりも精度が優れる。 高忠実度モデルと比較して、gLaSDIは1から5%の相対誤差で17から2,658倍のスピードアップを達成する。

A parametric adaptive physics-informed greedy Latent Space Dynamics Identification (gLaSDI) method is proposed for accurate, efficient, and robust data-driven reduced-order modeling of high-dimensional nonlinear dynamical systems. In the proposed gLaSDI framework, an autoencoder discovers intrinsic nonlinear latent representations of high-dimensional data, while dynamics identification (DI) models capture local latent-space dynamics. An interactive training algorithm is adopted for the autoencoder and local DI models, which enables identification of simple latent-space dynamics and enhances accuracy and efficiency of data-driven reduced-order modeling. To maximize and accelerate the exploration of the parameter space for the optimal model performance, an adaptive greedy sampling algorithm integrated with a physics-informed residual-based error indicator and random-subset evaluation is introduced to search for the optimal training samples on the fly. Further, to exploit local latent-space dynamics captured by the local DI models for an improved modeling accuracy with a minimum number of local DI models in the parameter space, a k-nearest neighbor convex interpolation scheme is employed. The effectiveness of the proposed framework is demonstrated by modeling various nonlinear dynamical problems, including Burgers equations, nonlinear heat conduction, and radial advection. The proposed adaptive greedy sampling outperforms the conventional predefined uniform sampling in terms of accuracy. Compared with the high-fidelity models, gLaSDI achieves 17 to 2,658x speed-up with 1 to 5% relative errors.
翻訳日:2023-05-20 00:59:42 公開日:2023-05-18
# 繰り返し第一価格オークションにおける最適ノンレグレット学習

Optimal No-regret Learning in Repeated First-price Auctions ( http://arxiv.org/abs/2003.09795v6 )

ライセンス: Link先を確認
Yanjun Han, Zhengyuan Zhou, Tsachy Weissman(参考訳) オンライン学習は,競売の終了時にのみ入賞者を観察し,その累積利益を最大化するために適応入札を学習する,繰り返し第1価格オークションにおいて学習する。 この目標を達成するために、入札者は検閲されたフィードバックに直面する: 彼女が入札に勝った場合、彼女は他の入札者の最も高い入札を見ることができず、それは未知の分布から引き出された「textit{iid}」であると仮定する。 本稿では,1価オークションの2つの構造的性質,すなわち,フィードバック構造とペイオフ関数を活用し,ほぼ最適に近い$\widetilde{o}(\sqrt{t})$ regretboundを実現する最初の学習アルゴリズムを開発した。 第一価格オークションのフィードバックは、アクション(bid)間のグラフフィードバック、コンテキスト間のクロスラーニング(private value)、コンテキスト上の部分順序を組み合わせ、部分的に順序付けられたコンテキストの包帯として一般化する。 我々は、この枠組みの強みと弱みの両立を立証し、反逆的文脈では不可能でありながら、アクション/コンテキストサイズからほぼ独立している後悔が可能であることを示す。 特に、このフレームワークは、入札者のプライベート値が \emph{iid} である場合、最初の価格のオークションに対して$O(\sqrt{T}\log^{2.5}T)$ regret をもたらす。 上記のフレームワークの限界にもかかわらず、一価オークションの特別報酬関数を更に活用し、反対に生成されたプライベート値が存在する場合でもサンプル効率のよいアルゴリズムを開発する。 我々は,このアルゴリズムに対して$O(\sqrt{T}\log^3 T)$ regret boundを定め,第一価格オークションにおける最適学習保証の完全な評価を提供する。

We study online learning in repeated first-price auctions where a bidder, only observing the winning bid at the end of each auction, learns to adaptively bid in order to maximize her cumulative payoff. To achieve this goal, the bidder faces a censored feedback: if she wins the bid, then she is not able to observe the highest bid of the other bidders, which we assume is \textit{iid} drawn from an unknown distribution. In this paper, we develop the first learning algorithm that achieves a near-optimal $\widetilde{O}(\sqrt{T})$ regret bound, by exploiting two structural properties of first-price auctions, i.e. the specific feedback structure and payoff function. The feedback in first-price auctions combines the graph feedback across actions (bids), the cross learning across contexts (private values), and a partial order over the contexts; we generalize it as the partially ordered contextual bandits. We establish both strengths and weaknesses of this framework, by showing a curious separation that a regret nearly independent of the action/context sizes is possible under stochastic contexts, but is impossible under adversarial contexts. In particular, this framework leads to an $O(\sqrt{T}\log^{2.5}T)$ regret for first-price auctions when the bidder's private values are \emph{iid}. Despite the limitation of the above framework, we further exploit the special payoff function of first-price auctions to develop a sample-efficient algorithm even in the presence of adversarially generated private values. We establish an $O(\sqrt{T}\log^3 T)$ regret bound for this algorithm, hence providing a complete characterization of optimal learning guarantees for first-price auctions.
翻訳日:2023-05-19 23:11:35 公開日:2023-05-18
# unified machine learning: unlabelled data(open-lacu)を活用した拡張カテゴリによるオープンセット学習

Unified machine learning: Open-set learning with augmented category by exploiting unlabelled data (Open-LACU) ( http://arxiv.org/abs/2002.01368v6 )

ライセンス: Link先を確認
Emile R. Engelbrecht, Johan A. du Preez(参考訳) 半教師付き学習(SSL)とオープンセット認識を単一の学習ポリシーに統合することで、コスト効率とアプリケーショングレードの分類器の開発が容易になる。 しかし、これまでの試みでは、未観測の新規カテゴリー(試験中にのみ見られる)と観察された新規カテゴリ(未学習のトレーニングデータに存在するもの)の違いは明らかになっていない。 本研究は,2つの新しいカテゴリタイプを一般化する最初の政策であるOpen-LACU(Exploiting Unlabelled Data)によるAugmented Categoryを用いたオープンセット学習を紹介する。 我々は、Margin-GAN(Margin Generative Adversarial Networks)の最先端OSR手法をいくつかのOpen-LACU構成に適応させ、Open-LACUのベンチマークを設定し、Margin-GANを用いた新規検出に関するユニークな洞察を提供する。 最後に,遠隔センシングにおけるセマンティクスセグメンテーションの応用,放射線学におけるオブジェクト検出,cough解析による疾患識別について論じ,オープン・ラキュー政策の意義を強調する。 これらの応用には観察および観測されていない新しいカテゴリが含まれており、これらのビッグデータ領域における分類器のトレーニングにOpen-LACUが不可欠である。

Unifying semi-supervised learning (SSL) and open-set recognition into a single learning policy would facilitate the development of cost-efficient and application-grade classifiers. However, previous attempts do not clarify the difference between unobserved novel categories (those only seen during testing) and observed novel categories (those present in unlabelled training data). This study introduces Open-Set Learning with Augmented Category by Exploiting Unlabelled Data (Open-LACU), the first policy that generalises between both novel category types. We adapt the state-of-the-art OSR method of Margin Generative Adversarial Networks (Margin-GANs) into several Open-LACU configurations, setting the benchmarks for Open-LACU and offering unique insights into novelty detection using Margin-GANs. Finally, we highlight the significance of the Open-LACU policy by discussing the applications of semantic segmentation in remote sensing, object detection in radiology and disease identification through cough analysis. These applications include observed and unobserved novel categories, making Open-LACU essential for training classifiers in these big data domains.
翻訳日:2023-05-19 23:11:05 公開日:2023-05-18
# 可変性を利用した多層パーセプトロントレーサビリティ

Multi-layer Perceptron Trainability Explained via Variability ( http://arxiv.org/abs/2105.08911v3 )

ライセンス: Link先を確認
Yueyao Yu and Yin Zhang(参考訳) 様々なアプリケーションでディープニューラルネットワーク(DNN)が驚くほど成功したにもかかわらず、ディープラーニングの基本的側面は、DNNのトレーニング容易性など不完全なままである。 トレーサビリティスタディでは、比較条件下で、あるdnnモデルを訓練しやすくする要因を識別することを目的としている。 特に,同じ数のパラメータを持つ多層パーセプトロン(MLP)モデルについて検討した。 深層学習の利点と深層学習の難しさを説明するために,可変性という新しい概念を導入する。 簡単に言えば、ニューラルネットワークの可変性は、よくスケールされたランダムな重みに関するデータ空間におけるランドスケープパターンの豊かさを表している。 変動性はアクティベーションの数と正の相関を示し、また「定数の崩壊」と呼ばれる現象と負の相関を示すが、これはよく知られた消滅する勾配現象とは一致しない。 小さなスタイリッシュモデル問題に関する実験により、変動性は正確にmlpトレーサビリティを予測できることが確認された。 さらに, MLPモデルにおけるアクティベーション関数として, 絶対値関数は, 一般的なReLU関数よりも可変性がよいことを示す。

Despite the tremendous successes of deep neural networks (DNNs) in various applications, many fundamental aspects of deep learning remain incompletely understood, including DNN trainability. In a trainability study, one aims to discern what makes one DNN model easier to train than another under comparable conditions. In particular, our study focuses on multi-layer perceptron (MLP) models equipped with the same number of parameters. We introduce a new notion called variability to help explain the benefits of deep learning and the difficulties in training very deep MLPs. Simply put, variability of a neural network represents the richness of landscape patterns in the data space with respect to well-scaled random weights. We empirically show that variability is positively correlated to the number of activations and negatively correlated to a phenomenon called "Collapse to Constant", which is related but not identical to the well-known vanishing gradient phenomenon. Experiments on a small stylized model problem confirm that variability can indeed accurately predict MLP trainability. In addition, we demonstrate that, as an activation function in MLP models, the absolute value function can offer better variability than the popular ReLU function can.
翻訳日:2023-05-19 21:21:30 公開日:2023-05-18
# 部分的多視点学習

Few-shot Partial Multi-view Learning ( http://arxiv.org/abs/2105.02046v4 )

ライセンス: Link先を確認
Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Jiebo Luo(参考訳) 実世界のアプリケーションでは、データが複数のビューを持つことが多い。 各ビューの情報を完全に探索することは、データをより代表的にする上で重要である。 しかしながら、データ収集や前処理のさまざまな制限や障害のため、実際のデータが欠如やデータの不足に苦しむことは避けられない。 これら2つの課題の共存により、パターン分類タスクの達成がより困難になる。 現在、私たちの知る限り、これらの2つの問題を同時に解決できる適切な方法はほとんどない。 本論文では,この課題に対するコミュニティの注目度を高めるために,低データ体制における視点欠落問題に対するネガティブな影響を克服することを目的とした,少数ショット部分的多視点学習という新たな課題を提案する。 このタスクの課題は2つあります。 (i)欠落した見解の干渉によるデータ不足の影響を克服することは困難である。 (ii) 限られたデータ数が情報不足を悪化させるため、ビューミス問題に対処するのが難しくなる。 これらの課題に対処するため,新しいガウス密度アンコール法を提案する。 限られた部分的多視点データに対して統一的密集アンカーを学習し、データ不足やビュー不足の影響を緩和できる統一的密集表現空間に固定する。 提案手法を評価するために広範な実験を行う。 Cub-googlenet-doc2vec, Hand written, Caltech102, Scene15, Animal, ORL, tieredImagenet, Birds-200-2011 のデータセットの結果は,その有効性を検証する。

It is often the case that data are with multiple views in real-world applications. Fully exploring the information of each view is significant for making data more representative. However, due to various limitations and failures in data collection and pre-processing, it is inevitable for real data to suffer from view missing and data scarcity. The coexistence of these two issues makes it more challenging to achieve the pattern classification task. Currently, to our best knowledge, few appropriate methods can well-handle these two issues simultaneously. Aiming to draw more attention from the community to this challenge, we propose a new task in this paper, called few-shot partial multi-view learning, which focuses on overcoming the negative impact of the view-missing issue in the low-data regime. The challenges of this task are twofold: (i) it is difficult to overcome the impact of data scarcity under the interference of missing views; (ii) the limited number of data exacerbates information scarcity, thus making it harder to address the view-missing issue in turn. To address these challenges, we propose a new unified Gaussian dense-anchoring method. The unified dense anchors are learned for the limited partial multi-view data, thereby anchoring them into a unified dense representation space where the influence of data scarcity and view missing can be alleviated. We conduct extensive experiments to evaluate our method. The results on Cub-googlenet-doc2vec, Handwritten, Caltech102, Scene15, Animal, ORL, tieredImagenet, and Birds-200-2011 datasets validate its effectiveness.
翻訳日:2023-05-19 21:21:09 公開日:2023-05-18
# 二重ロバスト半教師付き平均推定:MARラベルによる選択バイアスの減少

Double Robust Semi-Supervised Inference for the Mean: Selection Bias under MAR Labeling with Decaying Overlap ( http://arxiv.org/abs/2104.06667v2 )

ライセンス: Link先を確認
Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic(参考訳) 近年,半教師付き推論 (SS) が注目されている。 U| >> |L| の設定は、SS推論を、いわゆる「肯定性」や「オーバーラップ」の仮定に自然に違反するため、標準の欠落したデータ問題とは異なるものにしている。 しかし、SSの文献の多くは、L と U が等しく分布している、すなわちラベリングにおいて選択バイアスがないと暗黙に仮定している。 選択バイアスを許容するランダム (MAR) 型ラベルの欠落は, 確率スコア (PS) の減衰特性によって必然的に悪化する。 本稿では, このギャップを, 試作問題, 応答平均の推定に対処する。 二重ロバスト ss (drss) 平均推定器を提案し,その漸近特性の完全なキャラクタリゼーションを与える。 提案した推定器は、結果またはPSモデルが正しく指定されている限り一貫している。 両モデルが正しく指定されると、より小さいサイズ |l| に依存する非標準一貫性率で推論結果を提供する。 結果は不均衡治療群による因果推論にも拡張される。 さらに,新しいオフセットロジスティックモデルや階層化されたラベリングモデルなど,減衰するpsのモデルと推定器の新たな選択肢をいくつか提示する。 それらの特性を高次元と低次元の両方で示す。 これらは独立した関心事である。 最後に,広範囲なシミュレーションと実データアプリケーションを提案する。

Semi-supervised (SS) inference has received much attention in recent years. Apart from a moderate-sized labeled data, L, the SS setting is characterized by an additional, much larger sized, unlabeled data, U. The setting of |U| >> |L|, makes SS inference unique and different from the standard missing data problems, owing to natural violation of the so-called "positivity" or "overlap" assumption. However, most of the SS literature implicitly assumes L and U to be equally distributed, i.e., no selection bias in the labeling. Inferential challenges in missing at random (MAR) type labeling allowing for selection bias, are inevitably exacerbated by the decaying nature of the propensity score (PS). We address this gap for a prototype problem, the estimation of the response's mean. We propose a double robust SS (DRSS) mean estimator and give a complete characterization of its asymptotic properties. The proposed estimator is consistent as long as either the outcome or the PS model is correctly specified. When both models are correctly specified, we provide inference results with a non-standard consistency rate that depends on the smaller size |L|. The results are also extended to causal inference with imbalanced treatment groups. Further, we provide several novel choices of models and estimators of the decaying PS, including a novel offset logistic model and a stratified labeling model. We present their properties under both high and low dimensional settings. These may be of independent interest. Lastly, we present extensive simulations and also a real data application.
翻訳日:2023-05-19 21:20:42 公開日:2023-05-18
# ODENetとResNetの普遍近似特性:数学的解析と数値実験

Universal Approximation Properties for an ODENet and a ResNet: Mathematical Analysis and Numerical Experiments ( http://arxiv.org/abs/2101.10229v3 )

ライセンス: Link先を確認
Yuto Aizawa, Masato Kimura, and Kazunori Matsui(参考訳) スキップ接続を持つ深層学習システムのための簡易な数学的モデルであるODENetのクラスとResNetのクラスに対する普遍近似特性(UAP)を証明した。 UAPは次のように述べている。 n$ と $m$ を入力および出力データの次元とし、$m\leq n$ と仮定する。 すると、任意の非多項連続活性化関数を持つ幅$n+m$のオデネットは、$\mathbb{r}^n$ 上のコンパクト部分集合上の任意の連続関数を近似できることを示す。 また,resnet は深さが無限になるのと同じ性質を持つことを示した。 さらに、ある種のチューニング変数に関して損失関数の勾配を明示的に導出する。 これを用いてODENetの学習アルゴリズムを構築する。 このアルゴリズムの有用性を実証するために、回帰問題、二項分類、MNISTにおける多項分類に適用する。

We prove a universal approximation property (UAP) for a class of ODENet and a class of ResNet, which are simplified mathematical models for deep learning systems with skip connections. The UAP can be stated as follows. Let $n$ and $m$ be the dimension of input and output data, and assume $m\leq n$. Then we show that ODENet of width $n+m$ with any non-polynomial continuous activation function can approximate any continuous function on a compact subset on $\mathbb{R}^n$. We also show that ResNet has the same property as the depth tends to infinity. Furthermore, we derive the gradient of a loss function explicitly with respect to a certain tuning variable. We use this to construct a learning algorithm for ODENet. To demonstrate the usefulness of this algorithm, we apply it to a regression problem, a binary classification, and a multinomial classification in MNIST.
翻訳日:2023-05-19 21:20:15 公開日:2023-05-18
# 単ショット物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク

Parallel Residual Bi-Fusion Feature Pyramid Network for Accurate Single-Shot Object Detection ( http://arxiv.org/abs/2012.01724v5 )

ライセンス: Link先を確認
Ping-Yang Chen, Ming-Ching Chang, Jun-Wei Hsieh, Yong-Sheng Chen(参考訳) 本稿では,高速かつ高精度な単発物体検出のための並列残差二フュージョン特徴ピラミッドネットワーク(PRB-FPN)を提案する。 特徴ピラミッド (FP) は近年の視覚的検出において広く用いられているが, FP のトップダウン経路はプールシフトによる正確な位置決めを保たない。 FPの利点は、より多くの層を持つ深いバックボーンを使用することによって弱まる。 また、小型物体と大型物体の両方を同時に正確に検出することは不可能である。 これらの問題に対処するために、双方向(トップダウンおよびボトムアップ)融合とそれに伴う改善により、高精度なローカライズのための高品質な特徴を維持するための新しい並列FP構造を提案する。 1) ボトムアップ融合モジュール (BFM) を用いた並列拡散FP構造を用いて, 小型・大型両方の物体を同時に高精度に検出する。 2) 結合再編成(core)モジュールは,機能融合のためのボトムアップ経路を提供し,低層特徴マップから失われた情報を復元する双方向融合fpを実現する。 (3) CORE 機能はよりリッチなコンテキスト情報を保持するためにさらに浄化される。 トップダウン経路とボトムアップ経路の両方でのCORE浄化は、ほんの数イテレーションで完了する。 (4) COREに残留設計を追加することで、より深い、より軽いバックボーンでのトレーニングや統合が容易になる新しいRe-COREモジュールが実現される。 提案するネットワークは,UAVDT17およびMS COCOデータセット上での最先端性能を実現する。 コードはhttps://github.com/pingyang1117/prbnet_pytorchで入手できる。

This paper proposes the Parallel Residual Bi-Fusion Feature Pyramid Network (PRB-FPN) for fast and accurate single-shot object detection. Feature Pyramid (FP) is widely used in recent visual detection, however the top-down pathway of FP cannot preserve accurate localization due to pooling shifting. The advantage of FP is weakened as deeper backbones with more layers are used. In addition, it cannot keep up accurate detection of both small and large objects at the same time. To address these issues, we propose a new parallel FP structure with bi-directional (top-down and bottom-up) fusion and associated improvements to retain high-quality features for accurate localization. We provide the following design improvements: (1) A parallel bifusion FP structure with a bottom-up fusion module (BFM) to detect both small and large objects at once with high accuracy. (2) A concatenation and re-organization (CORE) module provides a bottom-up pathway for feature fusion, which leads to the bi-directional fusion FP that can recover lost information from lower-layer feature maps. (3) The CORE feature is further purified to retain richer contextual information. Such CORE purification in both top-down and bottom-up pathways can be finished in only a few iterations. (4) The adding of a residual design to CORE leads to a new Re-CORE module that enables easy training and integration with a wide range of deeper or lighter backbones. The proposed network achieves state-of-the-art performance on the UAVDT17 and MS COCO datasets. Code is available at https://github.com/pingyang1117/PRBNet_PyTorch.
翻訳日:2023-05-19 21:19:59 公開日:2023-05-18
# ハーディ型・ハーディ型関係を用いたデバイス非依存的ランダム性・非局所性・絡み合いの再現性の検討

Revealing Incommensurability between Device-Independent Randomness, Nonlocality, and Entanglement using Hardy and Hardy-type Relations ( http://arxiv.org/abs/2011.12518v3 )

ライセンス: Link先を確認
Souradeep Sasmal, Ashutosh Rai, Sayan Gangopadhyay, Dipankar Home, Urbasi Sinha(参考訳) ハーディ・アンド・カベロ・リアング・リ (cll) の非局所性関係を用いた無作為性認定装置非依存的定量化の包括的処理は、当事者1人当たり2つの測定結果、1人当たり2つの結果 (2-2-2) シナリオで提供される。 ハーディ非局所性について、ハーディパラメータの特定の非ゼロ値で表される与えられた非局所性に対して、ハーディ証明可能なランダム性の量はCHSH非局所性と関連しているのとは異なり、一意ではないことが明らかになった。 これは、ハーディ非局所性パラメータの任意の指定された非最大値が量子極値分布の集合を特徴付けるためである。 そして、与えられたハーディパラメータに対応する検証可能な量のランダムネスの範囲に繋がる。 一方、所定の量のCLL非局所性に対して、証明可能なランダム性はCHSH非局所性と同様にユニークである。 さらに,Hardy と CLL の関係の保証境界を評価する解析的処理の厳密性は,半定値法に基づく計算境界との正確な一致によって証明される。 興味深いことに、解析的に評価されたハーディおよびCLL認定ランダム性は、ハーディとCLLの非局所性パラメータの非最大値に対して実現可能である。 特に, CLL非局所パラメータの小さい値に対応する, 最大2ビットに近い最大2ビットのランダム性でも, 非最大絡み合った純2ビット状態から実現可能であることを示す。 したがって、これはランダム性、非局所性、絡み合いの間の量的不調和性をはっきりと示している。

A comprehensive treatment of the quantification of randomness certified device-independently by using the Hardy and Cabello-Liang-Li (CLL) nonlocality relations is provided in the two parties - two measurements per party - two outcomes per measurement (2-2-2) scenario. For the Hardy nonlocality, it is revealed that for a given amount of nonlocality signified by a particular non-zero value of the Hardy parameter, the amount of Hardy-certifiable randomness is not unique, unlike the way the amount of certifiable randomness is related to the CHSH nonlocality. This is because any specified non-maximal value of Hardy nonlocality parameter characterises a set of quantum extremal distributions. Then this leads to a range of certifiable amounts of randomness corresponding to a given Hardy parameter. On the other hand, for a given amount of CLL-nonlocality, the certifiable randomness is unique, similar to that for the CHSH nonlocality. Furthermore, the tightness of our analytical treatment evaluating the respective guaranteed bounds for the Hardy and CLL relations is demonstrated by their exact agreement with the Semi-Definite-Programming based computed bounds. Interestingly, the analytically evaluated maximum achievable bounds of both Hardy and CLL-certified randomness have been found to be realisable for non-maximal values of the Hardy and CLL nonlocality parameters. In particular, we have shown that even close to the maximum 2 bits of CLL-certified randomness can be realised from non-maximally entangled pure two-qubit states corresponding to small values of the CLL nonlocal parameter. This, therefore, clearly illustrates the quantitative incommensurability between randomness, nonlocality and entanglement.
翻訳日:2023-05-19 21:19:35 公開日:2023-05-18
# GAP: 知識グラフからテキスト生成のためのグラフ対応言語モデルフレームワーク

GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2204.06674v4 )

ライセンス: Link先を確認
Anthony Colas, Mehrdad Alvandipour, Daisy Zhe Wang(参考訳) KG-to-text生成の最近の改良は、微調整タスクの性能向上を図った補助的な事前訓練タスクによるものである。 これらのタスクは広範な計算資源を必要とするが、限界的な改善を示唆しているだけである。 ここでは,既存の事前学習済み言語モデルにグラフ認識要素を組み込むことにより,最先端モデルよりも優れており,追加事前学習タスクによって生じるギャップを解消できることを実証する。 本研究では, 周辺情報を捕捉するマスク構造と, 接続型に依存したグラフ注意重みにバイアスを与える新しい型エンコーダを提案する。 2つのKG-to-textベンチマークデータセットの実験は、我々のモデルは、少ないパラメータと追加の事前トレーニングタスクを伴いながら競合することを示している。 問題をフレームワークとして定式化することにより、提案した様々なコンポーネントを交換し、グラフにあるトポロジおよび型情報に基づいて、KG-to-text生成モデルを解釈し始めることができる。

Recent improvements in KG-to-text generation are due to additional auxiliary pre-training tasks designed to give the fine-tune task a boost in performance. These tasks require extensive computational resources while only suggesting marginal improvements. Here, we demonstrate that by fusing graph-aware elements into existing pre-trained language models, we are able to outperform state-of-the-art models and close the gap imposed by additional pre-training tasks. We do so by proposing a mask structure to capture neighborhood information and a novel type encoder that adds a bias to the graph-attention weights depending on the connection type. Experiments on two KG-to-text benchmark datasets show our models are competitive while involving fewer parameters and no additional pre-training tasks. By formulating the problem as a framework, we can interchange the various proposed components and begin interpreting KG-to-text generative models based on the topological and type information found in a graph.
翻訳日:2023-05-19 21:11:38 公開日:2023-05-18
# PyDTS: 競合するリスクを伴う離散時間生存(正規化)回帰のためのPythonパッケージ

PyDTS: A Python Package for Discrete-Time Survival (Regularized) Regression with Competing Risks ( http://arxiv.org/abs/2204.05731v4 )

ライセンス: Link先を確認
Tomer Meir, Rom Gutman, and Malka Gorfine(参考訳) 時系列分析(生存分析)は、関心の反応が予め特定された事象が起こるまでの時間であるときに用いられる。 時間から時間へのデータは、時間自体が離散的であるか、障害時間を間隔にグループ化したり、測定を丸めるため、時に離散される。 さらに、個人の失敗は、競合するリスク(イベント)として知られる、いくつかの異なる障害タイプのひとつになり得る。 生存回帰分析のためのほとんどの方法とソフトウェアパッケージは、時間が連続的なスケールで測定されると仮定している。 離散時間データを用いた標準的な連続時間モデルの適用により、離散時間モデルの偏り推定が生じることはよく知られている。 離散時間生存データに対する半パラメトリック競合リスクモデルをシミュレーション、推定、評価するためのPythonパッケージPyDTSを紹介する。 このパッケージは、LASSOや弾性ネットなどの規則化された回帰方法を含む高速な手順を実装している。 シミュレーション研究はパッケージの柔軟性と正確性を示す。 このパッケージの有用性は、入院期間を予測するためのMIMIC (Medicical Information Mart for Intensive Care) - IVデータセットを分析して実証される。

Time-to-event analysis (survival analysis) is used when the response of interest is the time until a pre-specified event occurs. Time-to-event data are sometimes discrete either because time itself is discrete or due to grouping of failure times into intervals or rounding off measurements. In addition, the failure of an individual could be one of several distinct failure types, known as competing risks (events). Most methods and software packages for survival regression analysis assume that time is measured on a continuous scale. It is well-known that naively applying standard continuous-time models with discrete-time data may result in biased estimators of the discrete-time models. The Python package PyDTS, for simulating, estimating and evaluating semi-parametric competing-risks models for discrete-time survival data, is introduced. The package implements a fast procedure that enables including regularized regression methods, such as LASSO and elastic net, among others. A simulation study showcases flexibility and accuracy of the package. The utility of the package is demonstrated by analysing the Medical Information Mart for Intensive Care (MIMIC) - IV dataset for prediction of hospitalization length of stay.
翻訳日:2023-05-19 21:11:21 公開日:2023-05-18
# PALBERT:AlbertをPonderに教える

PALBERT: Teaching ALBERT to Ponder ( http://arxiv.org/abs/2204.03276v4 )

ライセンス: Link先を確認
Nikita Balagansky, Daniil Gavrilov(参考訳) 現在、事前訓練されたモデルは幅広いNLPタスクのデフォルト選択と見なすことができる。 sotaの結果にもかかわらず、これらのモデルは異なる入力シーケンスに対して異なる数の計算層を必要とする可能性があるという実用的な証拠がある。 この問題は、最初に推論速度を改善するために設計された適応計算時間アプローチを実装することで解決できる。 最近提案されたPonderNetは、出口層のインデックスを潜伏変数として扱うことで早期出口を実行するための有望なソリューションであるかもしれない。 しかし、当初提案された出口基準は、i$-th層からの出口確率に基づいて訓練後分布からのサンプリングに依存するため、出口層の指標に大きなばらつきが生じ、結果として得られるモデルの性能が大幅に低下する。 本稿では,新しい決定論的q-exit基準と再訪モデルアーキテクチャを用いて, pondernetの改良を提案する。 提案手法をALBERTとRoBERTaに適用し,近年の早期出口法と比較した。 提案した変更は,オリジナルのPonderNetアーキテクチャにおいて大幅に改善され,幅広いGLUEタスクにおいてPABEEを上回っていると考えられる。 さらに,ラムダ層とその性能をより深く理解するために,提案するアーキテクチャの詳細なアブレーション実験を行った。

Currently, pre-trained models can be considered the default choice for a wide range of NLP tasks. Despite their SoTA results, there is practical evidence that these models may require a different number of computing layers for different input sequences, since evaluating all layers leads to overconfidence in wrong predictions (namely overthinking). This problem can potentially be solved by implementing adaptive computation time approaches, which were first designed to improve inference speed. Recently proposed PonderNet may be a promising solution for performing an early exit by treating the exit layer's index as a latent variable. However, the originally proposed exit criterion, relying on sampling from trained posterior distribution on the probability of exiting from the $i$-th layer, introduces major variance in exit layer indices, significantly reducing the resulting model's performance. In this paper, we propose improving PonderNet with a novel deterministic Q-exit criterion and a revisited model architecture. We adapted the proposed mechanism to ALBERT and RoBERTa and compared it with recent methods for performing an early exit. We observed that the proposed changes can be considered significant improvements on the original PonderNet architecture and outperform PABEE on a wide range of GLUE tasks. In addition, we also performed an in-depth ablation study of the proposed architecture to further understand Lambda layers and their performance.
翻訳日:2023-05-19 21:11:01 公開日:2023-05-18
# 視覚障害者のディープフェイク検出

Audio-Visual Person-of-Interest DeepFake Detection ( http://arxiv.org/abs/2204.03083v3 )

ライセンス: Link先を確認
Davide Cozzolino, Alessandro Pianese, Matthias Nie{\ss}ner, Luisa Verdoliva(参考訳) 顔操作技術は非常に急速に進歩しており、新しい手法が日々提案されている。 本研究の目的は,現実世界で遭遇する多種多様な操作方法やシナリオに対応可能なディープフェイク検出器を提案することである。 私たちの重要な洞察は、合成発電機が再生できない可能性のある特定の特徴を持っていることです。 そこで我々は,人物の身元を特徴付ける音響視覚的特徴を抽出し,それを応用して個人関心深度検出器(POI)を作成する。 我々は、各アイデンティティに対して最も差別的な移動面と音声セグメント埋め込みを学ぶために、対照的な学習パラダイムを利用する。 その結果、人のビデオや音声が操作されると、埋め込み空間におけるその表現は実際のアイデンティティと矛盾し、信頼できる検出が可能となる。 訓練は実際の音声映像のみで行われるため、検出器は特定の操作方法に依存しず、最高の一般化能力が得られる。 さらに,シングルモダリティ攻撃(オーディオのみ,ビデオのみ)とマルチモダリティ攻撃(オーディオビデオ)の両方を検出でき,低品質ビデオや腐敗ビデオに対して堅牢である。 各種データセットに対する実験により,SOTAの性能,特に低品質ビデオにおける性能が保証されることを確認した。 コードはhttps://github.com/grip-unina/poi-forensicsで公開されている。

Face manipulation technology is advancing very rapidly, and new methods are being proposed day by day. The aim of this work is to propose a deepfake detector that can cope with the wide variety of manipulation methods and scenarios encountered in the real world. Our key insight is that each person has specific characteristics that a synthetic generator likely cannot reproduce. Accordingly, we extract audio-visual features which characterize the identity of a person, and use them to create a person-of-interest (POI) deepfake detector. We leverage a contrastive learning paradigm to learn the moving-face and audio segment embeddings that are most discriminative for each identity. As a result, when the video and/or audio of a person is manipulated, its representation in the embedding space becomes inconsistent with the real identity, allowing reliable detection. Training is carried out exclusively on real talking-face video; thus, the detector does not depend on any specific manipulation method and yields the highest generalization ability. In addition, our method can detect both single-modality (audio-only, video-only) and multi-modality (audio-video) attacks, and is robust to low-quality or corrupted videos. Experiments on a wide variety of datasets confirm that our method ensures a SOTA performance, especially on low quality videos. Code is publicly available on-line at https://github.com/grip-unina/poi-forensics.
翻訳日:2023-05-19 21:10:37 公開日:2023-05-18
# 進化的計算に基づく筋電制御器の電力効率設計に向けて

Towards Power-Efficient Design of Myoelectric Controller based on Evolutionary Computation ( http://arxiv.org/abs/2204.02179v2 )

ライセンス: Link先を確認
Ahmed Aqeel Shaikh, Anand Kumar Mukhopadhyay, Soumyajit Poddar, and Suman Samui(参考訳) 筋電図認識は上肢義肢や生体ロボティックハンドムーブメントシステムを含む様々な応用のための制御戦略の設計において重要な側面の1つである。 本研究は, 表面筋電図(SEMG)信号の復号化のためのSVM分類器を用いた教師あり学習フレームワークを応用して, 筋運動を推定し, エネルギー効率の高いEMGベースのコントローラを設計する手法を提案する。 EMGをベースとした制御器の最適化性能を達成するため,分類器設計の主な戦略は,システム全体の誤動作を低減することである(EMGをベースとした制御器が'Rest'位置にある場合)。 この目的のために,従来のソフトマージンカーネル化svmの単一学習目標とは異なり,提案する教師付き学習システムの学習アルゴリズムを,汎用的な制約付き多目的最適化問題として定式化した。 SVMハイパーパラメータのチューニングには、非支配的なソート遺伝的アルゴリズムNSGA-II(Non-Maninated sorting genetic algorithm II)が使用される。 5つの異なる上肢位置において11名の被験者から収集したsEMG信号からなるデータセットを用いて実験を行った。 提案手法は,emgベースの制御器のエネルギー効率を最適化するための分類器のパラメータ選択において,設計者にはるかに柔軟性を与える。

Myoelectric pattern recognition is one of the important aspects in the design of the control strategy for various applications including upper-limb prostheses and bio-robotic hand movement systems. The current work has proposed an approach to design an energy-efficient EMG-based controller by considering a supervised learning framework using a kernelized SVM classifier for decoding the information of surface electromyography (sEMG) signals to infer the underlying muscle movements. In order to achieve the optimized performance of the EMG-based controller, our main strategy of classifier design is to reduce the false movements of the overall system (when the EMG-based controller is at the `Rest' position). To this end, unlike the traditional single training objective of soft margin kernelized SVM, we have formulated the training algorithm of the proposed supervised learning system as a general constrained multi-objective optimization problem. An elitist multi-objective evolutionary algorithm $-$ the non-dominated sorting genetic algorithm II (NSGA-II) has been used for the tuning of SVM hyperparameters. We have presented the experimental results by performing the experiments on a dataset consisting of the sEMG signals collected from eleven subjects at five different upper limb positions. It is evident from the presented result that the proposed approach provides much more flexibility to the designer in selecting the parameters of the classifier to optimize the energy efficiency of the EMG-based controller.
翻訳日:2023-05-19 21:10:13 公開日:2023-05-18
# 自己教師付き事前学習表現の有用性に影響を及ぼす要因の分析

Analyzing the factors affecting usefulness of Self-Supervised Pre-trained Representations for Speech Recognition ( http://arxiv.org/abs/2203.16973v4 )

ライセンス: Link先を確認
Ashish Seth and Lodagala V S V Durga Prasad and Sreyan Ghosh and S. Umesh(参考訳) 高レベルの音声表現を学習するための自己教師付き学習(SSL)は、低リソース環境で自動音声認識(ASR)システムを構築するための一般的なアプローチである。 しかし、文献では、SSL事前トレーニングに活用できる同一のドメインや言語に対して、かなりの量のラベルのないデータが利用できるという仮定が一般的であり、現実の環境では実現不可能であることを認めている。 本稿では,この間欠的なgram vaani asrチャレンジの一環として,openstream pre-training sslデータのドメイン,言語,データセットサイズ,その他の側面が,最終パフォーマンスの低リソースダウンストリームasrタスクに与える影響について検討する。 また、SSLを用いてトレーニングされたモデルが持つ事前知識の効果を研究するために、継続した事前学習パラダイムを構築した。 大規模な実験と研究により、ASRシステムの性能はSSL事前トレーニングに使用されるデータに影響を受けやすいことが明らかとなった。 彼らのパフォーマンスは、事前トレーニングデータの類似性とボリュームの増加によって向上する。 我々の研究は、低リソース環境でのより良いASRシステムの構築と、SSLベースの音声システムのための事前学習の一般化に向けたステアリサーチにおいて、音声コミュニティに役立ちます。

Self-supervised learning (SSL) to learn high-level speech representations has been a popular approach to building Automatic Speech Recognition (ASR) systems in low-resource settings. However, the common assumption made in literature is that a considerable amount of unlabeled data is available for the same domain or language that can be leveraged for SSL pre-training, which we acknowledge is not feasible in a real-world setting. In this paper, as part of the Interspeech Gram Vaani ASR challenge, we try to study the effect of domain, language, dataset size, and other aspects of our upstream pre-training SSL data on the final performance low-resource downstream ASR task. We also build on the continued pre-training paradigm to study the effect of prior knowledge possessed by models trained using SSL. Extensive experiments and studies reveal that the performance of ASR systems is susceptible to the data used for SSL pre-training. Their performance improves with an increase in similarity and volume of pre-training data. We believe our work will be helpful to the speech community in building better ASR systems in low-resource settings and steer research towards improving generalization in SSL-based pre-training for speech systems.
翻訳日:2023-05-19 21:09:50 公開日:2023-05-18
# AugESC:感情支援会話のための大規模言語モデルによる対話強化

AugESC: Dialogue Augmentation with Large Language Models for Emotional Support Conversation ( http://arxiv.org/abs/2202.13047v3 )

ライセンス: Link先を確認
Chujie Zheng, Sahand Sabour, Jiaxin Wen, Zheng Zhang, Minlie Huang(参考訳) クラウドソースによる対話コーパスは通常、データキュレーションのコストがかかるため、規模やトピックのカバレッジが制限される。 これにより、ダウンストリーム対話モデルのオープンドメイントピックへの一般化が妨げられる。 本研究では,感情支援会話(ESC)の課題において,対話強化のための大規模言語モデルを活用する。 対話強化を対話完了タスクとして扱うことにより、様々なトピックの利用可能な対話投稿から完全な対話を完遂するよう、微調整言語モデルに促す。 このアプローチを適用して,クラウドソース型ESConvコーパスのスケールとトピックカバレッジを大きく拡張した,ESCタスク用の拡張データセットであるAugESCを構築した。 包括的人間評価を通じて,本手法は対話強化の強力なベースラインよりも優れており,augescはクラウドソースコーパスと同等の対話品質を有することを示す。 また,人間の対話的評価を行い,augesc上での学習が,下流対話モデルのオープンドメイントピックへの一般化能力を向上させることを証明した。 これらの結果は、AugESCの有用性を示唆し、データスカース対話タスクの改善における大規模言語モデルの可能性を強調している。

Crowdsourced dialogue corpora are usually limited in scale and topic coverage due to the expensive cost of data curation. This would hinder the generalization of downstream dialogue models to open-domain topics. In this work, we leverage large language models for dialogue augmentation in the task of emotional support conversation (ESC). By treating dialogue augmentation as a dialogue completion task, we prompt a fine-tuned language model to complete full dialogues from available dialogue posts of various topics, which are then postprocessed based on heuristics. Applying this approach, we construct AugESC, an augmented dataset for the ESC task, which largely extends the scale and topic coverage of the crowdsourced ESConv corpus. Through comprehensive human evaluation, we demonstrate that our approach is superior to strong baselines of dialogue augmentation and that AugESC has comparable dialogue quality to the crowdsourced corpus. We also conduct human interactive evaluation and prove that post-training on AugESC improves downstream dialogue models' generalization ability to open-domain topics. These results suggest the utility of AugESC and highlight the potential of large language models in improving data-scarce dialogue generation tasks.
翻訳日:2023-05-19 21:09:29 公開日:2023-05-18
# AutoTriggER:補助トリガー抽出によるラベル効率とロバスト名称のエンティティ認識

AutoTriggER: Label-Efficient and Robust Named Entity Recognition with Auxiliary Trigger Extraction ( http://arxiv.org/abs/2109.04726v3 )

ライセンス: Link先を確認
Dong-Ho Lee, Ravi Kiran Selvam, Sheikh Muhammad Sarwar, Bill Yuchen Lin, Fred Morstatter, Jay Pujara, Elizabeth Boschee, James Allan and Xiang Ren(参考訳) 名前付きエンティティ認識(ner)のための深層ニューラルネットワークは、ラベル不足を克服し、遠方の監督と説明などの補助情報を活用することで、未知のエンティティに一般化する素晴らしい結果を示している。 しかし、こうした追加情報を取得する費用は一般的に禁止されている。 本稿では,テキスト中の人間の読みやすい手がかりである '`entity triggers'' を自動生成し,活用することにより,NERの性能を向上させるための新しい2段階フレームワーク(AutoTriggER)を提案する。 本フレームワークは, 埋め込み補間手法を用いて, モデルに先行する知識を強化する。 このアプローチにより、モデルがトリガを利用してエンティティのバウンダリと型を推論することが可能になる。 3つのよく研究されたNERデータセットの実験を通じて、AutoTriggERは強力なラベル効率を示し、目に見えないエンティティに一般化でき、RoBERTa-CRFベースラインを平均0.5F1ポイント上回っている。

Deep neural models for named entity recognition (NER) have shown impressive results in overcoming label scarcity and generalizing to unseen entities by leveraging distant supervision and auxiliary information such as explanations. However, the costs of acquiring such additional information are generally prohibitive. In this paper, we present a novel two-stage framework (AutoTriggER) to improve NER performance by automatically generating and leveraging ``entity triggers'' which are human-readable cues in the text that help guide the model to make better decisions. Our framework leverages post-hoc explanation to generate rationales and strengthens a model's prior knowledge using an embedding interpolation technique. This approach allows models to exploit triggers to infer entity boundaries and types instead of solely memorizing the entity words themselves. Through experiments on three well-studied NER datasets, AutoTriggER shows strong label-efficiency, is capable of generalizing to unseen entities, and outperforms the RoBERTa-CRF baseline by nearly 0.5 F1 points on average.
翻訳日:2023-05-19 21:08:50 公開日:2023-05-18
# ランダム投影による分類の最適性と複雑さ

Optimality and complexity of classification by random projection ( http://arxiv.org/abs/2108.06339v3 )

ライセンス: Link先を確認
Mireille Boutin, Evzenie Coupkova(参考訳) 分類器の一般化誤差は、分類器が選択される関数の集合の複雑さに関連している。 ランダムな一次元特徴を閾値付けした低複雑性分類器群について検討する。 この特徴は、データを無作為直線上に投影し、それをk までの順序の単項によってパラメトリ化された高次元空間に埋め込むことにより得られる。 より具体的には、拡張データをn時間に投影し、トレーニングデータのパフォーマンスに基づいて、これらのnの中で最良の分類器を選択する。 このタイプの分類器は、任意の精度で、コンパクト集合上の任意の連続函数と、そのサポートを可測部分集合に分割するコンパクト集合上のブール関数とに非常に柔軟であることが示される。 特に、クラス条件密度の完全な知識が与えられたとき、これらの低複素度分類器の誤差は k と n が無限大になるときの最適(ベイズ)誤差に収束する。 一方、トレーニングデータセットのみを与えると、分類器がすべてのトレーニングポイントを完全に分類し、k と n が無限大になることを示す。 また、ランダム分類器の一般化誤差も有界である。 一般に、我々の境界は、vc次元がo(ln n)よりも大きいどの分類器よりも優れている。 特に、我々の境界は、射影 n の数が非常に大きい場合を除き、ランダム射影アプローチの一般化誤差と拡張空間における線形分類器の間には大きな利点があることを意味する。 漸近的に、サンプル数が無限に近づくにつれて、ギャップはそのような n に対して持続する。 したがって、最適化ではなくランダムにパラメータを選択することで一般化特性に大きな利益をもたらす可能性がある。

The generalization error of a classifier is related to the complexity of the set of functions among which the classifier is chosen. We study a family of low-complexity classifiers consisting of thresholding a random one-dimensional feature. The feature is obtained by projecting the data on a random line after embedding it into a higher-dimensional space parametrized by monomials of order up to k. More specifically, the extended data is projected n-times and the best classifier among those n, based on its performance on training data, is chosen. We show that this type of classifier is extremely flexible, as it is likely to approximate, to an arbitrary precision, any continuous function on a compact set as well as any boolean function on a compact set that splits the support into measurable subsets. In particular, given full knowledge of the class conditional densities, the error of these low-complexity classifiers would converge to the optimal (Bayes) error as k and n go to infinity. On the other hand, if only a training dataset is given, we show that the classifiers will perfectly classify all the training points as k and n go to infinity. We also bound the generalization error of our random classifiers. In general, our bounds are better than those for any classifier with VC dimension greater than O (ln n) . In particular, our bounds imply that, unless the number of projections n is extremely large, there is a significant advantageous gap between the generalization error of the random projection approach and that of a linear classifier in the extended space. Asymptotically, as the number of samples approaches infinity, the gap persists for any such n. Thus, there is a potentially large gain in generalization properties by selecting parameters at random, rather than optimization.
翻訳日:2023-05-19 21:08:31 公開日:2023-05-18
# スパイクニューラルネットワークによる動的グラフ表現学習のスケールアップ

Scaling Up Dynamic Graph Representation Learning via Spiking Neural Networks ( http://arxiv.org/abs/2208.10364v3 )

ライセンス: Link先を確認
Jintang Li, Zhouxin Yu, Zulun Zhu, Liang Chen, Qi Yu, Zibin Zheng, Sheng Tian, Ruofan Wu, Changhua Meng(参考訳) 近年、動的で経時的に進化する時相グラフをモデル化することを目的として、動的グラフ表現学習の研究が急増している。 しかしながら、現在の研究は通常、リカレントニューラルネットワーク(RNN)でグラフダイナミクスをモデル化し、大きな時間グラフ上の計算とメモリオーバーヘッドに深刻な負担を被る。 これまでのところ、大きな時間グラフ上での動的グラフ表現学習のスケーラビリティは、大きな課題の1つである。 本稿では,時間グラフの時間的および構造的パターンを効率的に捉えるために,スケーラブルなフレームワークspikenetを提案する。 我々は、RNNの代わりにスパイクニューラルネットワーク(SNN)を用いて、時間グラフの進化するダイナミクスを捉えることができる新しい方向を探究する。 RNNに代わる低消費電力の代替として、SNNは明らかにグラフ力学をニューロンのスパイクトレインとしてモデル化し、スパイクベースの効率的な伝播を可能にする。 3つの大規模実世界時相グラフデータセットの実験により、spikenetは計算コストが低い時相ノード分類タスクの強いベースラインを上回ることが示されている。 特にSpikeNetは、パラメータと計算オーバーヘッドが大幅に少ない巨大な時間グラフ(2.7Mノードと13.9Mエッジ)に一般化している。

Recent years have seen a surge in research on dynamic graph representation learning, which aims to model temporal graphs that are dynamic and evolving constantly over time. However, current work typically models graph dynamics with recurrent neural networks (RNNs), making them suffer seriously from computation and memory overheads on large temporal graphs. So far, scalability of dynamic graph representation learning on large temporal graphs remains one of the major challenges. In this paper, we present a scalable framework, namely SpikeNet, to efficiently capture the temporal and structural patterns of temporal graphs. We explore a new direction in that we can capture the evolving dynamics of temporal graphs with spiking neural networks (SNNs) instead of RNNs. As a low-power alternative to RNNs, SNNs explicitly model graph dynamics as spike trains of neuron populations and enable spike-based propagation in an efficient way. Experiments on three large real-world temporal graph datasets demonstrate that SpikeNet outperforms strong baselines on the temporal node classification task with lower computational costs. Particularly, SpikeNet generalizes to a large temporal graph (2.7M nodes and 13.9M edges) with significantly fewer parameters and computation overheads.Our code is publicly available at \url{https://github.com/EdisonLeeeee/SpikeNet}.
翻訳日:2023-05-19 21:03:06 公開日:2023-05-18
# ランドマークの学習による複数4次元表現遷移の生成

Generating Multiple 4D Expression Transitions by Learning Face Landmark Trajectories ( http://arxiv.org/abs/2208.00050v2 )

ライセンス: Link先を確認
Naima Otberdout, Claudio Ferrari, Mohamed Daoudi, Stefano Berretti, Alberto Del Bimbo(参考訳) 本稿では,4次元表情生成の問題点について述べる。 これは通常、中性3d顔をアニメーション化して表現ピークに達し、その後中立状態に戻ることで対処される。 しかし現実の世界では、人々はより複雑な表現を示し、ある表現から別の表現に切り替える。 そこで我々は,異なる表現間の遷移を生成し,長大で構成された4次元表現を合成する新しいモデルを提案する。 これには3つのサブプロブレムが含まれる。 (i)表現の時間的ダイナミクスをモデル化すること。 (ii)それらの間の学習の遷移、 (iii)ジェネリックメッシュを変形させる。 本研究では,多様体値gan(motion3dgan)を訓練することで生成する3次元ランドマークの集合の運動を用いて,表現の時間的発展をエンコードする。 合成式の生成を可能にするため、このモデルは開始式と終了式をエンコードする2つのラベルを受け入れる。 メッシュの最終的なシーケンスは、sparse2denseメッシュデコーダ(s2d-dec)によって生成される。 動きの軌跡を明示的に扱うことにより、モデルはアイデンティティから完全に独立する。 5つの公開データセットに関する広範囲な実験により,提案手法が従来のソリューションに対して大幅な改善をもたらすと同時に,未発見のデータに対する優れた一般化が維持されることが示された。

In this work, we address the problem of 4D facial expressions generation. This is usually addressed by animating a neutral 3D face to reach an expression peak, and then get back to the neutral state. In the real world though, people show more complex expressions, and switch from one expression to another. We thus propose a new model that generates transitions between different expressions, and synthesizes long and composed 4D expressions. This involves three sub-problems: (i) modeling the temporal dynamics of expressions, (ii) learning transitions between them, and (iii) deforming a generic mesh. We propose to encode the temporal evolution of expressions using the motion of a set of 3D landmarks, that we learn to generate by training a manifold-valued GAN (Motion3DGAN). To allow the generation of composed expressions, this model accepts two labels encoding the starting and the ending expressions. The final sequence of meshes is generated by a Sparse2Dense mesh Decoder (S2D-Dec) that maps the landmark displacements to a dense, per-vertex displacement of a known mesh topology. By explicitly working with motion trajectories, the model is totally independent from the identity. Extensive experiments on five public datasets show that our proposed approach brings significant improvements with respect to previous solutions, while retaining good generalization to unseen data.
翻訳日:2023-05-19 21:02:27 公開日:2023-05-18
# DGPO:多様性誘導政策最適化による複数戦略の発見

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization ( http://arxiv.org/abs/2207.05631v2 )

ライセンス: Link先を確認
Wenze Chen, Shiyu Huang, Yuan Chiang, Tim Pearce, Wei-Wei Tu, Ting Chen, Jun Zhu(参考訳) ほとんどの強化学習アルゴリズムは、与えられたタスクを解決する単一の最適戦略を求める。 しかし、エージェントとユーザとのインタラクションをより活発にしたり、あるいは予期せぬ摂動に対するポリシーの堅牢性を改善するために、多様なソリューションセットを学ぶことは、しばしば有用である。 本稿では,特定の課題を解決するための複数の戦略を見出すオンポリシーアルゴリズムであるdgpoを提案する。 以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。 具体的には,情報理論の多様性目標に基づく本質的な報酬を設計する。 最終目標は戦略の多様性と外的報酬を交互に制約することであった。 制約付き最適化問題を確率的推論タスクとして解き、導出した下限を最大化するためにポリシー反復を用いる。 実験の結果,多種多様な強化学習タスクにおいて,多様な戦略を効率的に発見できることがわかった。 ベースライン法と比較して、DGPOはより多様な戦略を発見し、しばしばより良いサンプル効率で同等の報酬を得る。

Most reinforcement learning algorithms seek a single optimal strategy that solves a given task. However, it can often be valuable to learn a diverse set of solutions, for instance, to make an agent's interaction with users more engaging, or improve the robustness of a policy to an unexpected perturbance. We propose Diversity-Guided Policy Optimization (DGPO), an on-policy algorithm that discovers multiple strategies for solving a given task. Unlike prior work, it achieves this with a shared policy network trained over a single run. Specifically, we design an intrinsic reward based on an information-theoretic diversity objective. Our final objective alternately constraints on the diversity of the strategies and on the extrinsic reward. We solve the constrained optimization problem by casting it as a probabilistic inference task and use policy iteration to maximize the derived lower bound. Experimental results show that our method efficiently discovers diverse strategies in a wide variety of reinforcement learning tasks. Compared to baseline methods, DGPO achieves comparable rewards, while discovering more diverse strategies, and often with better sample efficiency.
翻訳日:2023-05-19 21:02:03 公開日:2023-05-18
# グラフコントラスト学習のための対実的ハード負サンプルの生成

Generating Counterfactual Hard Negative Samples for Graph Contrastive Learning ( http://arxiv.org/abs/2207.00148v3 )

ライセンス: Link先を確認
Haoran Yang, Hongxu Chen, Sixiao Zhang, Xiangguo Sun, Qian Li, Xiangyu Zhao, Guandong Xu(参考訳) グラフコントラスト学習は教師なしグラフ表現学習の強力なツールとして登場した。 グラフコントラスト学習の成功の鍵は、入力グラフの構造的意味論を学習するために、ペアを対比する高品質な正と負のサンプルを取得することである。 最近の研究は通常、同じトレーニングバッチから正のサンプルまたは外部の無関係グラフで負のサンプルをサンプリングする。 しかし、そのような戦略には重大な制限があり、これは偽陰性サンプルをサンプリングすることの避けられない問題である。 本稿では,これらのサンプリングベース戦略と異なる視点を持つ<textbf{c>ounterfactual mechanismを用いて,<textbf{g>raph \textbf{c}ontrastive learning,すなわち<textbf{cgc}</textbf{c>ontrastive learningの人工的ハード・ネガティブなサンプルを生成する新しい手法を提案する。 偽りのメカニズムを利用して, 硬い負のサンプルを生成し, 生成したサンプルが類似していることを保証するが, 正のサンプルとは異なるラベルを持つことを保証する。 提案手法は,従来の教師なしグラフ学習法とsomaグラフコントラスト学習法と比較して,複数のデータセットで結果を満たす。 また, 異なる硬い負の試料を用いたcgcの性能評価や, 異なる類似度測定による硬い負の試料の評価など, 提案手法の詳細な説明を行うため, 補足実験を行った。

Graph contrastive learning has emerged as a powerful tool for unsupervised graph representation learning. The key to the success of graph contrastive learning is to acquire high-quality positive and negative samples as contrasting pairs for the purpose of learning underlying structural semantics of the input graph. Recent works usually sample negative samples from the same training batch with the positive samples, or from an external irrelevant graph. However, a significant limitation lies in such strategies, which is the unavoidable problem of sampling false negative samples. In this paper, we propose a novel method to utilize \textbf{C}ounterfactual mechanism to generate artificial hard negative samples for \textbf{G}raph \textbf{C}ontrastive learning, namely \textbf{CGC}, which has a different perspective compared to those sampling-based strategies. We utilize counterfactual mechanism to produce hard negative samples, which ensures that the generated samples are similar to, but have labels that different from the positive sample. The proposed method achieves satisfying results on several datasets compared to some traditional unsupervised graph learning methods and some SOTA graph contrastive learning methods. We also conduct some supplementary experiments to give an extensive illustration of the proposed method, including the performances of CGC with different hard negative samples and evaluations for hard negative samples generated with different similarity measurements.
翻訳日:2023-05-19 21:01:47 公開日:2023-05-18
# 変圧器の構成と訓練目的に関する研究

A Study on Transformer Configuration and Training Objective ( http://arxiv.org/abs/2205.10505v3 )

ライセンス: Link先を確認
Fuzhao Xue, Jianghai Chen, Aixin Sun, Xiaozhe Ren, Zangwei Zheng, Xiaoxin He, Yongming Chen, Xin Jiang, Yang You(参考訳) トランスフォーマーベースのモデルは、多くのタスク、特にビジョンと言語タスクで印象的な結果をもたらしました。 多くのモデルトレーニングでは、通常、従来の構成が採用される。 例えば、隠れた次元(すなわちモデル幅)のベースモデルを 768 に設定し、トランスフォーマー層(すなわちモデル深さ)を 12 に設定することが多い。 本稿では,従来の構成を再考する。 理論的解析と実験的評価により, マスク付きオートエンコーダは, 深部変圧器訓練における過密問題を緩和するのに有効であることを示す。 そこで本研究では,より深く狭いトランスフォーマー構成をマスキングオートエンコーダのトレーニングに利用するbambooを提案する。 ImageNetでは、そのような構成の変更により、再設計されたモデルは87.1%のトップ1の精度を実現し、MAEやBEiTのようなSoTAモデルより優れている。 言語タスクでは、再設計されたモデルは、GLUEデータセット上で、デフォルト設定でBERTを平均1.1ポイント上回る。

Transformer-based models have delivered impressive results on many tasks, particularly vision and language tasks. In many model training situations, conventional configurations are typically adopted. For example, we often set the base model with hidden dimensions (i.e. model width) to be 768 and the number of transformer layers (i.e. model depth) to be 12. In this paper, we revisit these conventional configurations. Through theoretical analysis and experimental evaluation, we show that the masked autoencoder is effective in alleviating the over-smoothing issue in deep transformer training. Based on this finding, we propose Bamboo, an idea of using deeper and narrower transformer configurations, for masked autoencoder training. On ImageNet, with such a simple change in configuration, re-designed model achieves 87.1% top-1 accuracy and outperforms SoTA models like MAE and BEiT. On language tasks, re-designed model outperforms BERT with default setting by 1.1 points on average, on GLUE datasets.
翻訳日:2023-05-19 20:59:53 公開日:2023-05-18
# Adversarial Scratches: CNN分類器へのデプロイ可能なアタック

Adversarial Scratches: Deployable Attacks to CNN Classifiers ( http://arxiv.org/abs/2204.09397v3 )

ライセンス: Link先を確認
Loris Giulivi, Malhar Jere, Loris Rossi, Farinaz Koushanfar, Gabriela Ciocarlie, Briland Hitaj, Giacomo Boracchi(参考訳) 研究の活発化により、ディープニューラルネットワークは敵の例に影響を受けやすいことが示されている。 これらはモデルの入力に適用される小さな摂動の形をとり、誤った予測につながる。 残念なことに、ほとんどの文献では、視覚的に知覚できない摂動に焦点をあてて、多くの場合、物理的ターゲットにデプロイできないデジタル画像に適用している。 我々は、画像の傷の形を取り、他の最先端の攻撃よりもはるかに高い展開性を持つ新しいL0ブラックボックス攻撃であるAdversarial Scratchesを提示する。 敵対的スクラッチはB\'ezier Curvesを利用して検索空間の次元を減らし、攻撃を特定の場所に制限する。 公開APIや交通標識の画像など,いくつかのシナリオでAdversarial Scratchesをテストしています。 その結果、攻撃は多くの場合、他のデプロイ可能なstate-of-the-artメソッドよりも高い騙し率を達成でき、クエリの大幅な削減とごくわずかなピクセルの変更が必要となる。

A growing body of work has shown that deep neural networks are susceptible to adversarial examples. These take the form of small perturbations applied to the model's input which lead to incorrect predictions. Unfortunately, most literature focuses on visually imperceivable perturbations to be applied to digital images that often are, by design, impossible to be deployed to physical targets. We present Adversarial Scratches: a novel L0 black-box attack, which takes the form of scratches in images, and which possesses much greater deployability than other state-of-the-art attacks. Adversarial Scratches leverage B\'ezier Curves to reduce the dimension of the search space and possibly constrain the attack to a specific location. We test Adversarial Scratches in several scenarios, including a publicly available API and images of traffic signs. Results show that, often, our attack achieves higher fooling rate than other deployable state-of-the-art methods, while requiring significantly fewer queries and modifying very few pixels.
翻訳日:2023-05-19 20:59:36 公開日:2023-05-18
# REV:自由テキスト合理化の情報理論評価

REV: Information-Theoretic Evaluation of Free-Text Rationales ( http://arxiv.org/abs/2210.04982v3 )

ライセンス: Link先を確認
Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha Swayamdipta(参考訳) 自由文有理数の生成は、説明可能なNLPへの有望なステップであるが、そのような有理数の評価は依然として課題である。 既存のメトリクスは主に、合理的性と与えられたラベルの関係を測定することに重点を置いています。 理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである。 本研究は,条件付きV情報を用いた情報理論の観点から検討する(Hewitt et al., 2021)。 より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外の理性理論において,ラベル関連情報量の定量化を行う。 思考の連鎖を含む推論タスクを伴う4つのベンチマーク実験は、既存のメトリクスと比較して合理性とラベルのペアを評価する上でのREVの有効性を示す。 さらに、REVは、有理性評価に関する人間の判断と整合性を示し、自由文有理性における新しい情報のより敏感な測定を提供する。 従来のパフォーマンス指標と並行して使用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。

Generating free-text rationales is a promising step towards explainable NLP, yet evaluating such rationales remains a challenge. Existing metrics have mostly focused on measuring the association between the rationale and a given label. We argue that an ideal metric should focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using conditional V-information (Hewitt et al., 2021). More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), to quantify the amount of new, label-relevant information in a rationale beyond the information already available in the input or the label. Experiments across four benchmarks with reasoning tasks, including chain-of-thought, demonstrate the effectiveness of REV in evaluating rationale-label pairs, compared to existing metrics. We further demonstrate REV is consistent with human judgments on rationale evaluations and provides more sensitive measurements of new information in free-text rationales. When used alongside traditional performance metrics, REV provides deeper insights into models' reasoning and prediction processes.
翻訳日:2023-05-19 20:52:31 公開日:2023-05-18
# 未ロール圧縮ブラインドデコンボリューション

Unrolled Compressed Blind-Deconvolution ( http://arxiv.org/abs/2209.14165v2 )

ライセンス: Link先を確認
Bahareh Tolooshams, Satish Mulleti, Demba Ba, Yonina C. Eldar(参考訳) マルチチャネルブラインドデコンボリューション(S-MBD)の問題は、レーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。 計算と実装のコストを削減するため,本研究では,受信した全信号に対してはるかに少ない測定値からブラインドリカバリが可能な圧縮手法を提案する。 提案した圧縮は、フィルタを介して信号を測定し、次にサブサンプリングを行い、実装コストを大幅に削減する。 圧縮された測定値からスパースフィルタの識別性と回復を理論的に保証する。 この結果から,広範囲の圧縮フィルタの設計が可能となった。 そこで我々は,圧縮フィルタを学習し,S-MBD問題を解くために,データ駆動型アンロール学習フレームワークを提案する。 エンコーダはリカレント推論ネットワークであり、圧縮された測定値をスパースフィルタの推定にマッピングする。 提案手法はソース形状の選択に対して頑健であり,最適化に基づく手法に比べて回復性能が向上することを示す。 最後に,データ制限型アプリケーション (fewshot learning) では,従来のディープラーニングと比較して,未ロール学習の優れた一般化能力を強調した。

The problem of sparse multichannel blind deconvolution (S-MBD) arises frequently in many engineering applications such as radar/sonar/ultrasound imaging. To reduce its computational and implementation cost, we propose a compression method that enables blind recovery from much fewer measurements with respect to the full received signal in time. The proposed compression measures the signal through a filter followed by a subsampling, allowing for a significant reduction in implementation cost. We derive theoretical guarantees for the identifiability and recovery of a sparse filter from compressed measurements. Our results allow for the design of a wide class of compression filters. We, then, propose a data-driven unrolled learning framework to learn the compression filter and solve the S-MBD problem. The encoder is a recurrent inference network that maps compressed measurements into an estimate of sparse filters. We demonstrate that our unrolled learning method is more robust to choices of source shapes and has better recovery performance compared to optimization-based methods. Finally, in data-limited applications (fewshot learning), we highlight the superior generalization capability of unrolled learning compared to conventional deep learning.
翻訳日:2023-05-19 20:52:10 公開日:2023-05-18
# 医療・医用画像分析における公正性の進展と展望

Progress and Prospects for Fairness in Healthcare and Medical Image Analysis ( http://arxiv.org/abs/2209.13177v4 )

ライセンス: Link先を確認
Zikang Xu, Yongshuo Zong, Jun Li, Qingsong Yao, S. Kevin Zhou(参考訳) 機械学習を利用した医療画像解析は、現在の自動診断システムにおいて重要な部分となっている。 しかし、機械学習モデルは、例えば、年配の女性に悪い予測性能を与えるような、ある種のサブグループに対する体系的な偏見を示すことが示されている。 このような敏感な領域では有害で危険であるため、研究者は一般的な機械学習分野における公平性問題に対処するバイアス軽減アルゴリズムの開発に取り組んでいる。 しかし, 医用画像の特徴を考慮すれば, 医療用画像解析(MedIA)の公平性にはさらなる努力が必要である。 そこで本調査では, フェアネス研究の現在の動向と, メディアにおけるその状況について概観する。 具体的には、まず公平さの定義を議論し、医療画像におけるバイアスの原因を分析する。 そこで我々は,MedIAの公正性に関する現在の研究について論じ,また,MedIAの公正性を評価するために利用可能な公開医療画像データセットのコレクションについて述べる。 さらに, 分類, 物体検出, ランドマーク検出など, 医療画像における様々なタスクの公平性を評価するために, 広範囲にわたる実験を行った。 最後に,フェアメディア開発における課題と今後の方向性について論じる。

Machine learning-enabled medical imaging analysis has become a vital part of the current automatic diagnosis system. However, machine learning models have been shown to demonstrate a systematic bias towards certain subgroups of people, e.g., giving a worse predictive performance to old females. It is harmful and dangerous in such a sensitive area and therefore researchers have been working on developing bias mitigation algorithms to address the fairness issue in the general machine learning field. However, given the specific characteristics of medical imaging, fairness in medical image analysis (MedIA) requires additional efforts. Hence, in this survey, we give a comprehensive review of the current progress of fairness study and that in MedIA. Specifically, we first discuss the definitions of fairness and analyze the source of bias in medical imaging. Then, we discuss current research on fairness for MedIA and present a collection of public medical imaging datasets that can be used for evaluating fairness in MedIA. Furthermore, we conduct extensive experiments to evaluate the fairness of several different tasks for medical imaging, including classification, object detection, and landmark detection. Finally, we discuss the challenges and potential future directions in developing fair MedIA.
翻訳日:2023-05-19 20:51:52 公開日:2023-05-18
# 視野限定型カメラによる広域地すべり化

Wide-Area Geolocalization with a Limited Field of View Camera ( http://arxiv.org/abs/2209.11854v2 )

ライセンス: Link先を確認
Lena M. Downes, Ted J. Steiner, Rebecca L. Russell, and Jonathan P. How(参考訳) GPSの補足または置換であるクロスビュージオローカライゼーションは、地上カメラから撮影した画像と衛星や航空機から撮影した画像とをマッチングすることにより、検索エリア内のエージェントをローカライズする。 地表面画像と地表面画像との視線差は、地表面の地形化を難しくするが、地表面のエージェントがパノラマカメラにアクセスできると仮定すると、大きな進歩が見られる。 例えば、我々の以前の研究(WAG)では、都市規模のパノラマ・クロスビュー・ジオローカライゼーションを可能にする探索領域の離散化、トレーニング損失、粒子フィルタ重み付けが導入された。 しかし、パノラマカメラはその複雑さとコストのために既存のロボットプラットフォームでは広く使われていない。 非パノラマ・クロスビュー・ジオローカライゼーションはロボット工学にも適用できるが、さらに難しい。 提案するRestricted FOV Wide-Area Geolocalization (ReWAG)は,標準の非パノラマ地上カメラを用いてWAGを一般化し,ポーズ対応の埋め込みを作成し,シムズネットワークに粒子ポーズを組み込む戦略を提供する。 ReWAGは、オドメトリーと90度のFOVカメラのみで、GPSで移動エージェントをグローバルにローカライズすることができ、パノラマカメラでWAGが達成したものと同じようなローカライズ精度を実現し、ベースラインビジョントランスフォーマー(ViT)アプローチと比較して100倍のローカライズ精度を向上させることができるニューラルネットワークとパーティクルフィルタシステムである。 ReWAGの数十kmのテストパスへの収束を示すビデオハイライトがhttps://youtu.be/U_OBQrt8qCEで公開されている。

Cross-view geolocalization, a supplement or replacement for GPS, localizes an agent within a search area by matching images taken from a ground-view camera to overhead images taken from satellites or aircraft. Although the viewpoint disparity between ground and overhead images makes cross-view geolocalization challenging, significant progress has been made assuming that the ground agent has access to a panoramic camera. For example, our prior work (WAG) introduced changes in search area discretization, training loss, and particle filter weighting that enabled city-scale panoramic cross-view geolocalization. However, panoramic cameras are not widely used in existing robotic platforms due to their complexity and cost. Non-panoramic cross-view geolocalization is more applicable for robotics, but is also more challenging. This paper presents Restricted FOV Wide-Area Geolocalization (ReWAG), a cross-view geolocalization approach that generalizes WAG for use with standard, non-panoramic ground cameras by creating pose-aware embeddings and providing a strategy to incorporate particle pose into the Siamese network. ReWAG is a neural network and particle filter system that is able to globally localize a mobile agent in a GPS-denied environment with only odometry and a 90 degree FOV camera, achieving similar localization accuracy as what WAG achieved with a panoramic camera and improving localization accuracy by a factor of 100 compared to a baseline vision transformer (ViT) approach. A video highlight that demonstrates ReWAG's convergence on a test path of several dozen kilometers is available at https://youtu.be/U_OBQrt8qCE.
翻訳日:2023-05-19 20:51:36 公開日:2023-05-18
# 文脈自由言語と正規言語の交叉について

On the Intersection of Context-Free and Regular Languages ( http://arxiv.org/abs/2209.06809v2 )

ライセンス: Link先を確認
Clemente Pasti, Andreas Opedal, Tiago Pimentel, Tim Vieira, Jason Eisner, Ryan Cotterell(参考訳) バーヒルル構成は形式言語理論の古典的な結果である。 単純な構成により、文脈自由言語と正規言語との交点自体が文脈自由であることを示している。 構成においては、正規言語は有限状態オートマトンによって指定される。 しかし、オリジナルの構成 (Bar-Hillel et al., 1961) もその重み付き拡張 (Nederhof and Satta, 2003) も、$\varepsilon$-arcs で有限状態オートマトンを扱うことはできない。 言語を変更することなく、有限状態オートマトンから$\varepsilon$-arcsを効率的に取り除くことができるが、そのような操作はオートマトンのパスセットを修正する。 我々は、所望のオートマトンが$\varepsilon$-arcsである場合にバーヒルルを一般化する構成を示し、さらに、我々の一般化された構成が、入力オートマトンと文法の両方の構造を符号化し、元の構成の漸近的なサイズを保った文法に導くことを証明する。

The Bar-Hillel construction is a classic result in formal language theory. It shows, by a simple construction, that the intersection of a context-free language and a regular language is itself context-free. In the construction, the regular language is specified by a finite-state automaton. However, neither the original construction (Bar-Hillel et al., 1961) nor its weighted extension (Nederhof and Satta, 2003) can handle finite-state automata with $\varepsilon$-arcs. While it is possible to remove $\varepsilon$-arcs from a finite-state automaton efficiently without modifying the language, such an operation modifies the automaton's set of paths. We give a construction that generalizes the Bar-Hillel in the case where the desired automaton has $\varepsilon$-arcs, and further prove that our generalized construction leads to a grammar that encodes the structure of both the input automaton and grammar while retaining the asymptotic size of the original construction.
翻訳日:2023-05-19 20:50:22 公開日:2023-05-18
# 円錐型プログラミングによるマルチパラメータ量子メソロジーのためのタイトクイッククレージュ'{e}r-rao型境界

Tight Cram\'{e}r-Rao type bounds for multiparameter quantum metrology through conic programming ( http://arxiv.org/abs/2209.05218v4 )

ライセンス: Link先を確認
Masahito Hayashi and Yingkai Ouyang(参考訳) 量子センサの最大ポテンシャルを解き放つために、最善の精度で互換性のないパラメータを推定できる実用的な測定戦略を持つことが重要となる。 しかし、プローブ状態上の相関のない測定であっても、最適な精度で実用的な測定方法はまだ分かっていない。 ここでは、最適な精度で相関のない計測戦略を見つけるための具体的な方法を示す。 本研究では,マルチパラメータ推定のための精度境界の理論を統一したコニックプログラミングの枠組みを導入することで,この基本的な問題を解決する。 すなわち、行列のテンソル積空間上で定義される様々な円錐上の線型プログラムから生じる、分離可能な行列の特定の円錐を含む精度境界を与える。 その後,本理論は,これらの境界を密接化できる非相関計測戦略の最終的な精度境界に対して,上界と下界の両方を計算する効率的なアルゴリズムを開発することを可能にする。 特に、我々の理論から生じる無相関な測定戦略は、上限から究極の精度境界まで飽和させる。 また,従来の計算可能境界と最終精度境界との間には厳密なギャップがあることを数値的に示す。

In the quest to unlock the maximum potential of quantum sensors, it is of paramount importance to have practical measurement strategies that can estimate incompatible parameters with best precisions possible. However, it is still not known how to find practical measurements with optimal precisions, even for uncorrelated measurements over probe states. Here, we give a concrete way to find uncorrelated measurement strategies with optimal precisions. We solve this fundamental problem by introducing a framework of conic programming that unifies the theory of precision bounds for multiparameter estimates for uncorrelated and correlated measurement strategies under a common umbrella. Namely, we give precision bounds that arise from linear programs on various cones defined on a tensor product space of matrices, including a particular cone of separable matrices. Subsequently, our theory allows us to develop an efficient algorithm that calculates both upper and lower bounds for the ultimate precision bound for uncorrelated measurement strategies, where these bounds can be tight. In particular, the uncorrelated measurement strategy that arises from our theory saturates the upper bound to the ultimate precision bound. Also, we show numerically that there is a strict gap between the previous efficiently computable bounds and the ultimate precision bound.
翻訳日:2023-05-19 20:49:51 公開日:2023-05-18
# 凸強凸サドル点問題の加速原始双対法

Accelerated Primal-Dual Methods for Convex-Strongly-Concave Saddle Point Problems ( http://arxiv.org/abs/2209.04604v2 )

ライセンス: Link先を確認
Mohammad Khalafi, Digvijay Boob(参考訳) 本研究では,標準近位ステップの代わりに一次関数の線形近似を用いたサドル点問題 (SPP) に対する原始双対 (PD) 法を検討した結果,線形化 PD (LPD) 法が得られた。 凸強凹 SPP に対して,LPD 法は主関数のリプシッツ定数に最適値に依存することが観察された。 この問題を解決するために, 加速度勾配Descent とLPD法を組み合わせることで, 単ループ線形化Primal-Dual (ALPD) 法を実現する。 ALPD法は、SPPが半線形結合関数を持つ場合、最適勾配複雑性を実現する。 また,本手法は,主成分の最適勾配評価を保ち,alpd法と比較して結合項の勾配評価を著しく改善する汎用非線形カップリング関数を有するsps用不適合alpd法を提案する。 我々は数値実験でこの結果を検証する。

We investigate a primal-dual (PD) method for the saddle point problem (SPP) that uses a linear approximation of the primal function instead of the standard proximal step, resulting in a linearized PD (LPD) method. For convex-strongly concave SPP, we observe that the LPD method has a suboptimal dependence on the Lipschitz constant of the primal function. To fix this issue, we combine features of Accelerated Gradient Descent with the LPD method resulting in a single-loop Accelerated Linearized Primal-Dual (ALPD) method. ALPD method achieves the optimal gradient complexity when the SPP has a semi-linear coupling function. We also present an inexact ALPD method for SPPs with a general nonlinear coupling function that maintains the optimal gradient evaluations of the primal parts and significantly improves the gradient evaluations of the coupling term compared to the ALPD method. We verify our findings with numerical experiments.
翻訳日:2023-05-19 20:49:31 公開日:2023-05-18
# ランキング強化型教師なし文表現学習

Ranking-Enhanced Unsupervised Sentence Representation Learning ( http://arxiv.org/abs/2209.04333v3 )

ライセンス: Link先を確認
Yeon Seonwoo, Guoyin Wang, Changmin Seo, Sajal Choudhary, Jiwei Li, Xiang Li, Puyang Xu, Sunghyun Park, Alice Oh(参考訳) 教師なし文表現学習は、対照的な学習と、ドロップアウトマスキングのようなデータ拡張手法を通じて進歩している。 この進歩にもかかわらず、文エンコーダは意味的ベクトルを予測する際に入力文のみを使用することに制限される。 本研究では,文の意味が,入力文と類似した最寄りの文によっても決定されることを示す。 そこで本研究では,教師なしの文エンコーダである RankEncoder を提案する。 RankEncoderは、入力文自体だけでなく、外部コーパス内の他の文との関係を利用して、入力文の意味ベクトルを予測する。 我々はsemantic textual benchmarkデータセット上でrankencoderを評価する。 実験結果から検証する。 1) RankEncoderは80.07%のSpearman相関を実現している。 2) RankEncoderは、既存の教師なし文の埋め込み方法に普遍的に適用でき、 3)rankencoderは類似文対の類似度スコアの予測に特に有効である。

Unsupervised sentence representation learning has progressed through contrastive learning and data augmentation methods such as dropout masking. Despite this progress, sentence encoders are still limited to using only an input sentence when predicting its semantic vector. In this work, we show that the semantic meaning of a sentence is also determined by nearest-neighbor sentences that are similar to the input sentence. Based on this finding, we propose a novel unsupervised sentence encoder, RankEncoder. RankEncoder predicts the semantic vector of an input sentence by leveraging its relationship with other sentences in an external corpus, as well as the input sentence itself. We evaluate RankEncoder on semantic textual benchmark datasets. From the experimental results, we verify that 1) RankEncoder achieves 80.07% Spearman's correlation, a 1.1% absolute improvement compared to the previous state-of-the-art performance, 2) RankEncoder is universally applicable to existing unsupervised sentence embedding methods, and 3) RankEncoder is specifically effective for predicting the similarity scores of similar sentence pairs.
翻訳日:2023-05-19 20:49:10 公開日:2023-05-18
# adatask:マルチタスク学習のためのタスク認識適応学習率アプローチ

AdaTask: A Task-aware Adaptive Learning Rate Approach to Multi-task Learning ( http://arxiv.org/abs/2211.15055v2 )

ライセンス: Link先を確認
Enneng Yang, Junwei Pan, Ximei Wang, Haibin Yu, Li Shen, Xihua Chen, Lei Xiao, Jie Jiang, Guibing Guo(参考訳) マルチタスク学習(MTL)モデルは、コンピュータビジョン、自然言語処理、レコメンダシステムにおいて印象的な結果を示している。 多くのアプローチが提案されているが、それぞれのパラメータでどのように異なるタスクをバランスさせるかはまだ不明である。 本稿では,このパラメータ上の各タスクの総更新によって,パラメータのタスク支配度を測定することを提案する。 具体的には、対応するタスクからパラメータの2乗更新(au)を指数関数的に減少させる平均値で総更新を計算する。この新しいメトリックに基づいて、既存のmtlメソッドの多くのパラメータ、特に高い共有層におけるパラメータが、1つまたは複数のタスクで支配されていることを観測する。 AUの優位は、主に1つまたは複数のタスクからの累積勾配の優位性に起因する。 そこで本研究では,適応学習率のアプローチにおいて,各パラメータに対する各タスクの学習率を<emph{accumulative gradients}>と分離するタスク単位適応学習率アプローチ adatask を提案する。 コンピュータビジョンとレコメンダシステムMTLデータセットに関する総合的な実験は、AdaTaskが支配的なタスクのパフォーマンスを大幅に改善し、SOTAの平均タスク性能が向上することを示した。 合成データと実世界のデータセットの両方の分析は、共有層ごとにadatask balanceパラメータをよく示している。

Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.
翻訳日:2023-05-19 20:43:25 公開日:2023-05-18
# 深層完全畳み込みニューラルネットワークの普遍近似特性について

On the Universal Approximation Property of Deep Fully Convolutional Neural Networks ( http://arxiv.org/abs/2211.14047v2 )

ライセンス: Link先を確認
Ting Lin, Zuowei Shen, Qianxiao Li(参考訳) 動的システムの観点からの深部完全畳み込みネットワークによるシフト不変あるいは同変関数の近似について検討する。 我々は, 深い残差完全畳み込みネットワークとその連続層ネットワークが, 一定のチャネル幅でこれらの対称関数の普遍近似を達成できることを証明した。 さらに、各層に少なくとも2つのチャネルを持ち、少なくとも2つの畳み込みカーネルサイズを持つ非残留変種でも同じことができることを示す。 さらに,チャネルが少ないネットワークやカーネルが少ないネットワークが普遍的な近似器にならないという意味では,これらの要件が必要であることを示す。

We study the approximation of shift-invariant or equivariant functions by deep fully convolutional networks from the dynamical systems perspective. We prove that deep residual fully convolutional networks and their continuous-layer counterpart can achieve universal approximation of these symmetric functions at constant channel width. Moreover, we show that the same can be achieved by non-residual variants with at least 2 channels in each layer and convolutional kernel size of at least 2. In addition, we show that these requirements are necessary, in the sense that networks with fewer channels or smaller kernels fail to be universal approximators.
翻訳日:2023-05-19 20:42:59 公開日:2023-05-18
# SPCXR: ドメイン固有基礎モデルに向けた胸部X線を用いた自己教師型プレトレーニング

SPCXR: Self-supervised Pretraining using Chest X-rays Towards a Domain Specific Foundation Model ( http://arxiv.org/abs/2211.12944v2 )

ライセンス: Link先を確認
Syed Muhammad Anwar, Abhijeet Parida, Sara Atito, Muhammad Awais, Gustavo Nino, Josef Kitler, Marius George Linguraru(参考訳) 胸部X線(CXR)は肺疾患の診断と予後のための画像モダリティとして広く用いられている。 画像解析のタスクは様々です。 例えば、病理診断や肺分画がある。 機械学習アルゴリズムが特定のタスクのために開発される大規模な作業がある。 最近の顕著な例は、CXRデータを用いたコロナウイルス(covid-19)の検出である。 しかしながら、教師付き学習に基づく従来の診断ツール設計手法は、より良い臨床結果を得るために良質なトレーニングデータアノテーションの必要性によって負担されている。 本稿では,cxrsの汎用表現をグループマスク型自己教師付きフレームワークを用いて学習する,新しい自己教師付きパラダイムを提案する。 事前訓練されたモデルは、コビッド19、肺炎の検出、一般的な健康スクリーニングといったドメイン固有のタスクのために微調整される。 肺の分節作業には,同じ事前訓練が有効であることを示す。 提案手法は,複数のダウンストリームタスクにおいて,事前学習の成功を示すロバストな性能を示す。 さらに、テスト期間中に大きなドリフトを持つデータ上での事前学習モデルの性能は、より汎用的な表現を学ぶことを証明している。 これらの方法は、ユニークな小規模の小児用データセットにおいて、covid-19検出によってさらに検証される。 教師付き変圧器方式と比較した場合, 精度(約25%)は有意であった。 これは、提案するフレームワークの強度と信頼性と事前学習戦略に信頼性を与えます。

Chest X-rays (CXRs) are a widely used imaging modality for the diagnosis and prognosis of lung disease. The image analysis tasks vary. Examples include pathology detection and lung segmentation. There is a large body of work where machine learning algorithms are developed for specific tasks. A significant recent example is Coronavirus disease (covid-19) detection using CXR data. However, the traditional diagnostic tool design methods based on supervised learning are burdened by the need to provide training data annotation, which should be of good quality for better clinical outcomes. Here, we propose an alternative solution, a new self-supervised paradigm, where a general representation from CXRs is learned using a group-masked self-supervised framework. The pre-trained model is then fine-tuned for domain-specific tasks such as covid-19, pneumonia detection, and general health screening. We show that the same pre-training can be used for the lung segmentation task. Our proposed paradigm shows robust performance in multiple downstream tasks which demonstrates the success of the pre-training. Moreover, the performance of the pre-trained models on data with significant drift during test time proves the learning of a better generic representation. The methods are further validated by covid-19 detection in a unique small-scale pediatric data set. The performance gain in accuracy (~25%) is significant when compared to a supervised transformer-based method. This adds credence to the strength and reliability of our proposed framework and pre-training strategy.
翻訳日:2023-05-19 20:42:51 公開日:2023-05-18
# deanthropomorphising nlp: 言語モデルは意識できるのか?

Deanthropomorphising NLP: Can a Language Model Be Conscious? ( http://arxiv.org/abs/2211.11483v2 )

ライセンス: Link先を確認
Matthew Shardlow and Piotr Przyby{\l}a(参考訳) この作業は、Transformerモデルアーキテクチャに基づいた事前訓練された言語モデルであるLaMDAがセンシティブである、という最近の主張に関する議論の中で、声高に意図されている。 この主張が確認できれば、同様のモデルが広く使われているため、自然言語処理(nlp)コミュニティに深刻な影響が及ぶだろう。 しかし、ここでは、このような言語モデルは、感性や意識に欠けるものではなく、特にlamdaは、それを許容する他の類似のモデルに対して進歩を示さないという立場を取る。 統合情報理論を用いてトランスフォーマーアーキテクチャを分析することでこれを正当化する。 われわれは意識の主張を,NLP報告において人為的言語を使用する傾向の広さの一部として捉えている。 主張の妥当性にかかわらず、私たちはこの瞬間を言語モデリングの進歩を積み重ね、そのタスクの倫理的意味を考察する機会と捉えています。 この作業をNLPコミュニティ以外の読者にとって役立つものにするため、言語モデリングにおける必要な背景も提示する。

This work is intended as a voice in the discussion over the recent claims that LaMDA, a pretrained language model based on the Transformer model architecture, is sentient. This claim, if confirmed, would have serious ramifications in the Natural Language Processing (NLP) community due to wide-spread use of similar models. However, here we take the position that such a language model cannot be sentient, or conscious, and that LaMDA in particular exhibits no advances over other similar models that would qualify it. We justify this by analysing the Transformer architecture through Integrated Information Theory. We see the claims of consciousness as part of a wider tendency to use anthropomorphic language in NLP reporting. Regardless of the veracity of the claims, we consider this an opportune moment to take stock of progress in language modelling and consider the ethical implications of the task. In order to make this work helpful for readers outside the NLP community, we also present the necessary background in language modelling.
翻訳日:2023-05-19 20:42:33 公開日:2023-05-18
# SLICER:低リソース自己教師型事前学習によるユニバーサル音声表現の学習

SLICER: Learning universal audio representations using low-resource self-supervised pre-training ( http://arxiv.org/abs/2211.01519v2 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,未ラベル音声データに対する事前学習エンコーダに対して,音声と音声の分類のための大量のラベル付きデータの必要性を低減するための,新たな自己教師付き学習(SSL)手法を提案する。 私たちの主な目標は、低リソースの非ラベルオーディオプリトレーニング環境で、さまざまな音声や非音声タスクにまたがる音声表現を学習することです。 近年、sslベースの音声表現学習におけるクラスタリングとコントラスト学習パラダイムの成功に触発されて、スライサ(インスタンスとクラスタレベルの効率的な表現の対称学習)を提案し、クラスタリングとコントラスト学習パラダイムの両方のベストをまとめる。 生徒と教師のエンコーダからの潜在表現を対称的に失われ、インスタンスとクラスタレベルのコントラスト学習タスクを同時に解決する。 入力スペクトログラムをクラスタ数に等しい次元の出力部分空間に投影するだけで、クラスタ表現をオンラインで得る。 さらに,ラベルを必要とせず,教師なしの音声表現学習を支援するため,ミキサップに基づく新しいメル・スペクトログラム拡張手法k-mixを提案する。 全体として、SLICERはLAPE Benchmark \cite{9868132}で最先端の結果を達成し、DeLoRes-Mや他の以前のアプローチよりも大幅に上回っている。 すべてのコードをgithubで公開します。

We present a new Self-Supervised Learning (SSL) approach to pre-train encoders on unlabeled audio data that reduces the need for large amounts of labeled data for audio and speech classification. Our primary aim is to learn audio representations that can generalize across a large variety of speech and non-speech tasks in a low-resource un-labeled audio pre-training setting. Inspired by the recent success of clustering and contrasting learning paradigms for SSL-based speech representation learning, we propose SLICER (Symmetrical Learning of Instance and Cluster-level Efficient Representations), which brings together the best of both clustering and contrasting learning paradigms. We use a symmetric loss between latent representations from student and teacher encoders and simultaneously solve instance and cluster-level contrastive learning tasks. We obtain cluster representations online by just projecting the input spectrogram into an output subspace with dimensions equal to the number of clusters. In addition, we propose a novel mel-spectrogram augmentation procedure, k-mix, based on mixup, which does not require labels and aids unsupervised representation learning for audio. Overall, SLICER achieves state-of-the-art results on the LAPE Benchmark \cite{9868132}, significantly outperforming DeLoRes-M and other prior approaches, which are pre-trained on $10\times$ larger of unsupervised data. We will make all our codes available on GitHub.
翻訳日:2023-05-19 20:42:17 公開日:2023-05-18
# mast:マルチスケールオーディオスペクトログラムトランスフォーマー

MAST: Multiscale Audio Spectrogram Transformers ( http://arxiv.org/abs/2211.01515v2 )

ライセンス: Link先を確認
Sreyan Ghosh and Ashish Seth and S. Umesh and Dinesh Manocha(参考訳) 本稿では,MAST(Multiscale Audio Spectrogram Transformer)を音響分類に適用し,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に導入する。 入力音声スペクトログラムが与えられたとき、まずパッチを当てて初期時間分解能と埋め込み次元に投影し、マストの複数のステージが徐々に埋め込み次元を拡大し、入力の時間分解能を低減させる。 我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いて,単純な低レベル音響情報をモデル化し,高次元埋め込みを用いて高レベル音響情報をモデル化する。 我々はまた、学生と教師エンコーダの潜在表現間の対称的なコントラスト損失を計算し、パッチ・ドロップを利用するSS-MASTと呼ばれる新しい自己監督学習(SSL)手法を提案するために、我々のアプローチを拡張した。 実際に、MASTは、LAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回り、音声コマンドにおけるキーワードスポッティングの最先端の結果を得る。 さらに,提案したSS-MASTは,提案したSSASTよりも平均2.6%向上した。

We present Multiscale Audio Spectrogram Transformer (MAST) for audio classification, which brings the concept of multiscale feature hierarchies to the Audio Spectrogram Transformer (AST). Given an input audio spectrogram, we first patchify and project it into an initial temporal resolution and embedding dimension, post which the multiple stages in MAST progressively expand the embedding dimension while reducing the temporal resolution of the input. We use a pyramid structure that allows early layers of MAST operating at a high temporal resolution but low embedding space to model simple low-level acoustic information and deeper temporally coarse layers to model high-level acoustic information with high-dimensional embeddings. We also extend our approach to present a new Self-Supervised Learning (SSL) method called SS-MAST, which calculates a symmetric contrastive loss between latent representations from a student and a teacher encoder, leveraging patch-drop, a novel audio augmentation approach that we introduce. In practice, MAST significantly outperforms AST by an average accuracy of 3.4% across 8 speech and non-speech tasks from the LAPE Benchmark, achieving state-of-the-art results on keyword spotting in Speech Commands. Additionally, our proposed SS-MAST achieves an absolute average improvement of 2.6% over the previously proposed SSAST.
翻訳日:2023-05-19 20:41:49 公開日:2023-05-18
# PeerDA:スパン識別タスクにおけるピア関係のモデル化によるデータ拡張

PeerDA: Data Augmentation via Modeling Peer Relation for Span Identification Tasks ( http://arxiv.org/abs/2210.08855v2 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Yang Deng, Wai Lam, Lidong Bing(参考訳) span identificationは、テキスト入力から特定のテキストスパンを特定し、それらを予め定義されたカテゴリに分類することを目的としている。 モデルのトレーニングに置換(Subordinate)関係(つまり、スパンが特定のカテゴリのインスタンスである場合)を単に活用する以前の研究とは異なり、本論文はピア(PR)関係を初めて探求し、2つのスパンが同じカテゴリのインスタンスであることを示し、類似した特徴を共有する。 具体的には,pr関係のスパン対をトレーニングの強化データとして用いる新しいpeerda(peerda)アプローチを提案する。 PeerDAには2つのユニークな利点がある。(1)トレーニングデータを増やすためのPRスパンペアが多数存在する。 2)拡張データは,モデルにスパンセマンティクスを活用させることにより,訓練されたモデルが表面的なスパンカテゴリマッピングを過剰に適合することを防止することができる。 7つの領域にわたる4つの多様なタスクにまたがる10のデータセットの実験結果は、PeerDAの有効性を示している。 特に、PeerDAは6つの最先端の結果を達成する。

Span identification aims at identifying specific text spans from text input and classifying them into pre-defined categories. Different from previous works that merely leverage the Subordinate (SUB) relation (i.e. if a span is an instance of a certain category) to train models, this paper for the first time explores the Peer (PR) relation, which indicates that two spans are instances of the same category and share similar features. Specifically, a novel Peer Data Augmentation (PeerDA) approach is proposed which employs span pairs with the PR relation as the augmentation data for training. PeerDA has two unique advantages: (1) There are a large number of PR span pairs for augmenting the training data. (2) The augmented data can prevent the trained model from over-fitting the superficial span-category mapping by pushing the model to leverage the span semantics. Experimental results on ten datasets over four diverse tasks across seven domains demonstrate the effectiveness of PeerDA. Notably, PeerDA achieves state-of-the-art results on six of them.
翻訳日:2023-05-19 20:41:07 公開日:2023-05-18
# インベントリは暗く、誤った情報で溢れている:広告技術サプライチェーンにおける広告インベントリプールの濫用を理解する

The Inventory is Dark and Full of Misinformation: Understanding the Abuse of Ad Inventory Pooling in the Ad-Tech Supply Chain ( http://arxiv.org/abs/2210.06654v2 )

ライセンス: Link先を確認
Yash Vekaria (1), Rishab Nithyanand (2), Zubair Shafiq (1) ((1) University of California, Davis, (2) University of Iowa)(参考訳) 広告技術により、パブリッシャーは複雑なサプライチェーンを通じて何百万もの需要パートナーに広告インベントリをプログラム的に販売できる。 Bogusや低品質パブリッシャーは、広告技術の不透明な性質を利用して、広告在庫を欺いて収益化することができる。 本稿では,広告技術の透明性基準に反する誤報サイトが,無関係サイトと広告インベントリを結びつけてブランドの安全性を回避した事例を初めて調査する。 誤情報サイトによって悪用されるダークプールに対して、いくつかの主要な広告取引所が不当に責任を負っていることがわかった。 さらに、ダークプーリングによって偽情報サイトが広告の在庫を信用できるブランドに偽装できるという証拠も見つかる。 最後に、広告交換パートナーのベッティングの改善、広告技術サプライチェーンのエンドツーエンド検証を可能にする新しい広告技術透明性標準の採用、および当社のような独立した監査の広範な展開といった潜在的な対策について論じる。

Ad-tech enables publishers to programmatically sell their ad inventory to millions of demand partners through a complex supply chain. Bogus or low quality publishers can exploit the opaque nature of the ad-tech to deceptively monetize their ad inventory. In this paper, we investigate for the first time how misinformation sites subvert the ad-tech transparency standards and pool their ad inventory with unrelated sites to circumvent brand safety protections. We find that a few major ad exchanges are disproportionately responsible for the dark pools that are exploited by misinformation websites. We further find evidence that dark pooling allows misinformation sites to deceptively sell their ad inventory to reputable brands. We conclude with a discussion of potential countermeasures such as better vetting of ad exchange partners, adoption of new ad-tech transparency standards that enable end-to-end validation of the ad-tech supply chain, as well as widespread deployment of independent audits like ours.
翻訳日:2023-05-19 20:40:48 公開日:2023-05-18
# EC-NAS:ニューラルネットワーク検索のためのタブラルベンチマークを意識したエネルギー消費

EC-NAS: Energy Consumption Aware Tabular Benchmarks for Neural Architecture Search ( http://arxiv.org/abs/2210.06015v2 )

ライセンス: Link先を確認
Pedram Bakhtiarifard, Christian Igel, Raghavendra Selvan(参考訳) ディープラーニングモデルの選択、トレーニング、デプロイによるエネルギー消費は、ここ数年も増加を続けている。 この研究の目標は、低消費電力の計算リソースで訓練しやすく、現実のエッジ/モバイルコンピューティング環境にデプロイし、環境に優しいエネルギー効率のディープラーニングモデルの設計を支援することです。 ニューラルネットワーク探索(NAS)のためのタブラルベンチマークでは、事前計算された性能統計を提供することで、NAS戦略をより低い計算コストで評価することができる。 そこで本研究では,nasの性能基準としてエネルギー効率を含め,異なるアーキテクチャのエネルギー消費とカーボンフットプリントに関する情報を含め,表式ベンチマークの更新を提案する。 EC-NASと呼ばれるベンチマークは、エネルギー消費を意識したNAS研究をサポートするためにオープンソースにされている。 EC-NASはまた、エネルギー消費を予測する代理モデルを含み、このデータセットを作成する際の全体的なエネルギーコストを削減するのに役立ちます。 エネルギー消費と精度のトレードオフを明らかにする多目的最適化アルゴリズムを適用することで,ec-nasの有用性を実証する。

Energy consumption from selecting, training and deploying deep learning models has continued to increase over the past few years. Our goal in this work is to support the design of energy-efficient deep learning models that are easier to train with lower compute resources, practical to deploy in real-world edge/mobile computing settings and environmentally sustainable. Tabular benchmarks for neural architecture search (NAS) allow the evaluation of NAS strategies at lower computational cost by providing pre-computed performance statistics. In this work, we suggest including energy efficiency as an additional performance criterion to NAS and present an updated tabular benchmark by including information on energy consumption and carbon footprint for different architectures. The benchmark called EC-NAS is made available open-source to support energy consumption-aware NAS research. EC-NAS also includes a surrogate model for predicting energy consumption, and helps us reduce the overall energy cost of creating this dataset. We demonstrate the usefulness of EC-NAS by applying multi-objective optimisation algorithms that reveal the trade-off between energy consumption and accuracy, showing that it is possible to discover energy-efficient architectures with little to no loss in performance.
翻訳日:2023-05-19 20:40:28 公開日:2023-05-18
# 非エルミート位相:原理と展望

Non-Hermitian Topological Phases: Principles and Prospects ( http://arxiv.org/abs/2212.06478v4 )

ライセンス: Link先を確認
Ayan Banerjee, Ronika Sarkar, Soumi Dey, Awadhesh Narayan(参考訳) 非エルミート的概念と位相的概念の相乗効果は近年非常に実りある活動へと繋がった。 これらの相互作用により、様々な新しい非エルミート位相現象が発見されている。 本稿では,非エルミート位相の位相的特徴を支える重要な原理について述べる。 Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger および non-Hermitian Chern insulator というパラダイムモデルを用いて、例外点、複素エネルギーギャップ、非Hermitian対称性分類を含む非Hermitian topological system の中心的な特徴を説明する。 非エルミート皮膚効果と、バルク境界対応の復元を可能にする一般化ブリルアンゾーンの概念について議論する。 具体例を用いて障害の役割を考察し,線形応答枠組みを示し,非エルミート位相系のホール輸送特性を解析した。 また、この分野の急速な実験的進歩についても調査する。 最後に、近い将来の探査に有望である可能性のある方向を強調することで締めくくります。

The synergy between non-Hermitian concepts and topological ideas have led to very fruitful activity in the recent years. Their interplay has resulted in a wide variety of new non-Hermitian topological phenomena being discovered. In this review, we present the key principles underpinning the topological features of non-Hermitian phases. Using paradigmatic models -- Hatano-Helson, non-Hermitian Su-Schrieffer-Heeger and non-Hermitian Chern insulator -- we illustrate the central features of non-Hermitian topological systems, including exceptional points, complex energy gaps and non-Hermitian symmetry classification. We discuss the non-Hermitian skin effect and the notion of the generalized Brillouin zone, which allows restoring the bulk-boundary correspondence. Using concrete examples, we examine the role of disorder, present the linear response framework, and analyze the Hall transport properties of non-Hermitian topological systems. We also survey the rapidly growing experimental advances in this field. Finally, we end by highlighting possible directions which, in our view, may be promising for explorations in the near future.
翻訳日:2023-05-19 20:33:48 公開日:2023-05-18
# clozingからcomprehendingへ - トレーニング済みのマスク付き言語モデルからトレーニング済みマシンリーダへ

From Clozing to Comprehending: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader ( http://arxiv.org/abs/2212.04755v2 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Wenxuan Zhang, Meng Zhou, Wai Lam, Luo Si, Lidong Bing(参考訳) ラベル付きデータを取得することなく、事前学習された機械読解(MRC)モデルにMLM(pre-trained masked language model)を適合させる新しい手法であるPMRを提案する。 PMRは、既存のMLMのモデル事前学習と下流微調整の相違を解決することができる。 提案したPMRを構築するために,ウィキペディアハイパーリンクを用いて多量の汎用的で高品質なMRCスタイルのトレーニングデータを構築し,MRCスタイルの事前学習をガイドするWikiアンカー抽出タスクを設計した。 その単純さとは別に、PMRは抽出質問回答や名前付きエンティティ認識などの抽出タスクを効果的に解決する。 PMRは、特に低リソースのシナリオにおいて、既存のアプローチよりも大幅に改善されている。 MRC定式化におけるシーケンス分類タスクに適用すると、PMRは高品質な有理数の抽出を可能とし、分類過程を説明し、予測説明可能性を高める。 PMRはまた、MRCの定式化において様々な抽出および分類タスクに取り組む統一モデルとして機能する可能性がある。

We present Pre-trained Machine Reader (PMR), a novel method for retrofitting pre-trained masked language models (MLMs) to pre-trained machine reading comprehension (MRC) models without acquiring labeled data. PMR can resolve the discrepancy between model pre-training and downstream fine-tuning of existing MLMs. To build the proposed PMR, we constructed a large volume of general-purpose and high-quality MRC-style training data by using Wikipedia hyperlinks and designed a Wiki Anchor Extraction task to guide the MRC-style pre-training. Apart from its simplicity, PMR effectively solves extraction tasks, such as Extractive Question Answering and Named Entity Recognition. PMR shows tremendous improvements over existing approaches, especially in low-resource scenarios. When applied to the sequence classification task in the MRC formulation, PMR enables the extraction of high-quality rationales to explain the classification process, thereby providing greater prediction explainability. PMR also has the potential to serve as a unified model for tackling various extraction and classification tasks in the MRC formulation.
翻訳日:2023-05-19 20:32:53 公開日:2023-05-18
# DC-MBR:最小ベイズリスク復号のための分散冷却

DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding ( http://arxiv.org/abs/2212.04205v2 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) 最小ベイズリスク復号(MBR)はニューラルネットワーク翻訳において有望な復号アルゴリズムとして現れる。 しかし,MBRではラベルの平滑化が不十分であり,ビームサーチによる良好な改善と各種タスクの汎用性の向上が期待できる。 本研究では,トークンレベルとシーケンスレベル分布のラベル平滑化の不整合が問題の原因であることを示す。 ラベル平滑化はトークンレベルではわずかな変化しか生じないが,シーケンスレベルの分布は非常に歪んでいることを示す。 問題を emph{autoregressive over-smoothness} と呼ぶ。 この問題に対処するために,ソフトマックス温度を調整して出力分布のエントロピーを制御する,シンプルで効果的な分散冷却MBR(DC-MBR)を提案する。 理論上,事前調整ラベル平滑化係数と分布冷却の等価性を証明する。 NMTベンチマークの大規模な実験は、分布冷却が様々な環境でMBRを改善することを検証する。

Minimum Bayesian Risk Decoding (MBR) emerges as a promising decoding algorithm in Neural Machine Translation. However, MBR performs poorly with label smoothing, which is surprising as label smoothing provides decent improvement with beam search and improves generality in various tasks. In this work, we show that the issue arises from the un-consistency of label smoothing on the token-level and sequence-level distributions. We demonstrate that even though label smoothing only causes a slight change in the token-level, the sequence-level distribution is highly skewed. We coin the issue \emph{autoregressive over-smoothness}. To address this issue, we propose a simple and effective method, Distributional Cooling MBR (DC-MBR), which manipulates the entropy of output distributions by tuning down the Softmax temperature. We theoretically prove the equivalence between pre-tuning label smoothing factor and distributional cooling. Extensive experiments on NMT benchmarks validate that distributional cooling improves MBR in various settings.
翻訳日:2023-05-19 20:32:36 公開日:2023-05-18
# 逆負のサンプルを持つグラフ畳み込みニューラルネットワークの分解決定点過程

Graph Convolutional Neural Networks with Diverse Negative Samples via Decomposed Determinant Point Processes ( http://arxiv.org/abs/2212.02055v2 )

ライセンス: Link先を確認
Wei Duan, Junyu Xuan, Maoying Qiao, Jie Lu(参考訳) グラフ畳み込みネットワーク(GCN)は,ノードとそのトポロジから高レベル特徴を抽出することにより,グラフ表現学習において大きな成功を収めている。 GCNは一般的にメッセージパッシング機構に従うため、各ノードはその表現を更新するためにその1階目の隣人からの情報を集約する。 結果として、エッジを持つノードの表現は正の相関関係を持つべきであり、したがって正のサンプルと見なすことができる。 しかし、グラフ全体の非隣接ノードはより多く存在し、表現更新に多様で有用な情報を提供する。 2つの非隣接ノードは通常異なる表現を持ち、負のサンプルと見なすことができる。 ノード表現以外にも、グラフの構造情報は学習にも不可欠である。 本稿では,DPP(Determinant point process)における品質多様性分解を用いて,様々な負のサンプルを得た。 非隣接ノードの様々な部分集合上の分布を定義する際、グラフ構造情報とノード表現の両方を組み込む。 DPPサンプリングは行列固有値分解を必要とするため,計算効率を向上させるための最短パスベース法を提案する。 最後に,得られた負のサンプルをグラフ畳み込み演算に組み込む。 これらのアイデアは、ノード分類タスクの実験で実証的に評価される。 これらの実験により, 提案手法は, 標準表現学習の全体的な性能を向上させるだけでなく, 過小評価問題を大幅に軽減することを示した。

Graph convolutional networks (GCNs) have achieved great success in graph representation learning by extracting high-level features from nodes and their topology. Since GCNs generally follow a message-passing mechanism, each node aggregates information from its first-order neighbour to update its representation. As a result, the representations of nodes with edges between them should be positively correlated and thus can be considered positive samples. However, there are more non-neighbour nodes in the whole graph, which provide diverse and useful information for the representation update. Two non-adjacent nodes usually have different representations, which can be seen as negative samples. Besides the node representations, the structural information of the graph is also crucial for learning. In this paper, we used quality-diversity decomposition in determinant point processes (DPP) to obtain diverse negative samples. When defining a distribution on diverse subsets of all non-neighbouring nodes, we incorporate both graph structure information and node representations. Since the DPP sampling process requires matrix eigenvalue decomposition, we propose a new shortest-path-base method to improve computational efficiency. Finally, we incorporate the obtained negative samples into the graph convolution operation. The ideas are evaluated empirically in experiments on node classification tasks. These experiments show that the newly proposed methods not only improve the overall performance of standard representation learning but also significantly alleviate over-smoothing problems.
翻訳日:2023-05-19 20:32:17 公開日:2023-05-18
# より小さな言語モデルへの蒸留推論能力

Distilling Reasoning Capabilities into Smaller Language Models ( http://arxiv.org/abs/2212.00193v2 )

ライセンス: Link先を確認
Kumar Shridhar, Alessandro Stolfo, Mrinmaya Sachan(参考訳) 思考の連鎖(CoT)のようなステップバイステップの推論アプローチは、大規模言語モデルにおける推論能力の誘導に非常に効果的であることが証明されている。 しかし、CoTアプローチの成功は基本的にモデルのサイズに結びついており、CoTを機能させるためには数十億のパラメータスケールモデルが必要であることが多い。 本稿では,大規模モデルのCoT推論能力を段階的に活用し,これらの能力をより小さなモデルに蒸留する知識蒸留手法を提案する。 そこで本研究では,元の問題を一連の部分問題に分解し,それを用いて中間的推論ステップを導く,代替的推論スキームであるsocratic cotを提案する。 我々は、Socratic CoTを使って、2つの小さな蒸留モデル(問題解法とサブプロブレム解法)を訓練する。 実際には、新しい問題が発生すると、2つの蒸留モデルが同期して、複雑な問題を分解し、解決する。 複数の推論データセット(GSM8K,StrategyQA,SVAMP)では,提案した蒸留手法により,ベースラインに比べて70%以上の小型モデルの性能が向上する。 最後に,Socratic CoTがCoTの有効な代替品である場合について検討し,より小さなモデル (GPT-2 large) が10倍のモデル (GPT-3 6B) より優れていることを示す。 私たちのコードはこちらで入手可能です。

Step-by-step reasoning approaches like chain of thought (CoT) have proved to be very effective in inducing reasoning capabilities in large language models. However, the success of the CoT approach is fundamentally tied to the model size, and billion parameter-scale models are often needed to get CoT to work. In this paper, we propose a knowledge distillation approach that leverages the step-by-step CoT reasoning capabilities of larger models and distills these abilities into smaller models. In this work, we propose an alternative reasoning scheme, Socratic CoT, that learns a decomposition of the original problem into a sequence of subproblems and uses it to guide the intermediate reasoning steps. We use Socratic CoT to train a combination of two small distilled models: a problem decomposer and a subproblem solver. In practice, given a new problem, the two distilled models work in sync to decompose and solve complex problems. On multiple reasoning datasets (GSM8K, StrategyQA, and SVAMP), our proposed distillation strategies boosts the performance of smaller models over 70% compared to the baselines. Finally, we investigate when Socratic CoT is an effective alternative to CoT, demonstrating cases where a much smaller model (GPT-2 large) can outperform a 10X larger model (GPT-3 6B). Our code is available here: https://github.com/kumar-shridhar/Distiiling-LM
翻訳日:2023-05-19 20:31:57 公開日:2023-05-18
# 因果グラフにおけるフロントドア調整のための線形時間アルゴリズム

Linear-Time Algorithms for Front-Door Adjustment in Causal Graphs ( http://arxiv.org/abs/2211.16468v2 )

ライセンス: Link先を確認
Marcel Wien\"obst, Benito van der Zander, Maciej Li\'skiewicz(参考訳) 観測データから因果効果を推定することは経験科学の基本的な課題である。 保守されていない共同ファウンダーがシステムに関わると、特に困難になる。 本論文は, 観測メディエータを用いて, 未観測のコンバウンドの存在下においても因果関係を識別できる古典的な手法である, 正面調整に焦点を当てたものである。 フロントドア推定の統計的特性はかなりよく理解されているが、アルゴリズム的な側面は長い間解明されていない。 最近、Jeong, Tian, and Barenboim [NeurIPS 2022] は、与えられた有向非巡回グラフ (DAG) におけるフロントドア基準を満たす集合を、$O(n^3(n+m))$ run time で見つけるための最初の多項式時間アルゴリズムを提示した。 我々の研究では、このタスクに対する最初の線形時間、すなわち$O(n+m)$のアルゴリズムを与え、漸近的に最適な時間複雑性に達する。 この結果は全てのフロントドア調整セットの$o(n(n+m))$遅延列挙アルゴリズムを意味し、jeongらによる以前の作業も改善された。 は$n^3$である。 さらに, 最小のフロントドア調整セットを求める最初の線形時間アルゴリズムを提案する。 提案するアルゴリズムを複数のプログラミング言語に実装することで,実使用を容易にし,その実現性を実証的に検証する。

Causal effect estimation from observational data is a fundamental task in empirical sciences. It becomes particularly challenging when unobserved confounders are involved in a system. This paper focuses on front-door adjustment -- a classic technique which, using observed mediators allows to identify causal effects even in the presence of unobserved confounding. While the statistical properties of the front-door estimation are quite well understood, its algorithmic aspects remained unexplored for a long time. Recently, Jeong, Tian, and Barenboim [NeurIPS 2022] have presented the first polynomial-time algorithm for finding sets satisfying the front-door criterion in a given directed acyclic graph (DAG), with an $O(n^3(n+m))$ run time, where $n$ denotes the number of variables and $m$ the number of edges of the causal graph. In our work, we give the first linear-time, i.e., $O(n+m)$, algorithm for this task, which thus reaches the asymptotically optimal time complexity. This result implies an $O(n(n+m))$ delay enumeration algorithm of all front-door adjustment sets, again improving previous work by Jeong et al.\ by a factor of $n^3$. Moreover, we provide the first linear-time algorithm for finding a minimal front-door adjustment set. We offer implementations of our algorithms in multiple programming languages to facilitate practical usage and empirically validate their feasibility, even for large graphs.
翻訳日:2023-05-19 20:31:05 公開日:2023-05-18
# CIM:スパース逆連続制御のための制約付き固有モチベーション

CIM: Constrained Intrinsic Motivation for Sparse-Reward Continuous Control ( http://arxiv.org/abs/2211.15205v2 )

ライセンス: Link先を確認
Xiang Zheng, Xingjun Ma, Cong Wang(参考訳) 内在的動機付けは、希薄な報酬または欠如した報酬で強化学習タスクを解決するための有望な探索技術である。 固有のモチベーションを実装するには2つの技術的課題があります。 1)効率的な探査を促進するための適切な本質的目標の設計方法 2)本質的な目的と外生的な目的を組み合わせて、より良い解決策を見つける方法。 現在の文献では、本質的な目的はすべてタスクに依存しない方法で設計され、単純な追加(あるいは報酬のない事前訓練に自身で使用する)によって外生的な目的と組み合わせられている。 本研究では、これらの設計が典型的なスパース逆連続制御タスクで失敗することを示す。 そこで本研究では,制約付き本質的目標を構築するために,容易に達成可能なタスクプリエントを活用するための制約付き本質的モチベーション(cim)を提案し,同時に,本質的目標と外生的目標を同時最大化フレームワークで適応的にバランスさせるラグランジアン法を活用した。 我々は、複数のスパース逆連続制御タスクにおいて、CIM手法が最先端手法よりも性能とサンプル効率を大幅に向上させることを示す。 さらに、CIMの重要なテクニックを既存のメソッドにプラグインしてパフォーマンスを向上させることも可能です。

Intrinsic motivation is a promising exploration technique for solving reinforcement learning tasks with sparse or absent extrinsic rewards. There exist two technical challenges in implementing intrinsic motivation: 1) how to design a proper intrinsic objective to facilitate efficient exploration; and 2) how to combine the intrinsic objective with the extrinsic objective to help find better solutions. In the current literature, the intrinsic objectives are all designed in a task-agnostic manner and combined with the extrinsic objective via simple addition (or used by itself for reward-free pre-training). In this work, we show that these designs would fail in typical sparse-reward continuous control tasks. To address the problem, we propose Constrained Intrinsic Motivation (CIM) to leverage readily attainable task priors to construct a constrained intrinsic objective, and at the same time, exploit the Lagrangian method to adaptively balance the intrinsic and extrinsic objectives via a simultaneous-maximization framework. We empirically show, on multiple sparse-reward continuous control tasks, that our CIM approach achieves greatly improved performance and sample efficiency over state-of-the-art methods. Moreover, the key techniques of our CIM can also be plugged into existing methods to boost their performances.
翻訳日:2023-05-19 20:30:09 公開日:2023-05-18
# sensorx2car: 道路シナリオにおける自動運転のためのセンサツーカーキャリブレーション

SensorX2car: Sensors-to-car calibration for autonomous driving in road scenarios ( http://arxiv.org/abs/2301.07279v2 )

ライセンス: Link先を確認
Guohang Yan, Zhaotong Luo, Zhuochun Liu and Yikang Li(参考訳) 適切に調整されたセンサーは、信頼できる自動運転システムの前提条件である。 しかし,従来の手法ではセンサ間の外在的な校正に重点を置いており,センサと車両座標系とのミスアライメントにはほとんど焦点が当てられていない。 既存の標的のないアプローチは、このミスアライメントを扱うために、ルートや道路の特徴といった特定の事前知識に依存している。 この研究はこれらの制限を取り除き、カメラ、LiDAR、GNSS/INS、ミリ波レーダーの4つの一般的な校正法を提案する。 画像特徴, 3D LiDAR点, GNSS/INS解決ポーズ, レーダ速度といったセンサ固有のパターンを利用して, 通常の運転中, センサから車への回転を数分で調整し, SensorX2car というツールボックスを構成する。 実世界のシミュレーション実験により提案手法の実用性を実証した。 一方、関連するコードはコミュニティに利益をもたらすためにオープンソース化されている。 私たちの知る限りでは、sensorx2carは最初のオープンソースのセンサーから車へのキャリブレーションツールボックスです。 コードはhttps://github.com/OpenCalib/SensorX2carで入手できる。

Properly-calibrated sensors are the prerequisite for a dependable autonomous driving system. However, most prior methods focus on extrinsic calibration between sensors, and few focus on the misalignment between the sensors and the vehicle coordinate system. Existing targetless approaches rely on specific prior knowledge, such as driving routes and road features, to handle this misalignment. This work removes these limitations and proposes more general calibration methods for four commonly used sensors: Camera, LiDAR, GNSS/INS, and millimeter-wave Radar. By utilizing sensor-specific patterns: image feature, 3D LiDAR points, GNSS/INS solved pose, and radar speed, we design four corresponding methods to mainly calibrate the rotation from sensor to car during normal driving within minutes, composing a toolbox named SensorX2car. Real-world and simulated experiments demonstrate the practicality of our proposed methods. Meanwhile, the related codes have been open-sourced to benefit the community. To the best of our knowledge, SensorX2car is the first open-source sensor-to-car calibration toolbox. The code is available at https://github.com/OpenCalib/SensorX2car.
翻訳日:2023-05-19 20:24:19 公開日:2023-05-18
# 最大化ネットワークの予測勾配とパラメータ初期化への適用

Expected Gradients of Maxout Networks and Consequences to Parameter Initialization ( http://arxiv.org/abs/2301.06956v2 )

ライセンス: Link先を確認
Hanna Tseran, Guido Mont\'ufar(参考訳) 本稿では,最大化ネットワークの入力とパラメータに対する勾配について検討し,アーキテクチャやパラメータ分布に依存するモーメントの境界値を求める。 我々は、入力出力ヤコビアンの分布が、安定なパラメータの初期化を複雑にする入力に依存することを観察する。 勾配のモーメントに基づいて,パラメータ初期化戦略を定式化し,広域ネットワークにおける勾配の消失や爆発を回避する。 深層完全接続ネットワークと畳み込みネットワークの実験により、この戦略が深層最大化ネットワークのSGDとAdamトレーニングを改善することが示されている。 さらに, 線形領域の期待値, 曲線長歪みの予測値, NTKの予測値について, 洗練された境界を求める。

We study the gradients of a maxout network with respect to inputs and parameters and obtain bounds for the moments depending on the architecture and the parameter distribution. We observe that the distribution of the input-output Jacobian depends on the input, which complicates a stable parameter initialization. Based on the moments of the gradients, we formulate parameter initialization strategies that avoid vanishing and exploding gradients in wide networks. Experiments with deep fully-connected and convolutional networks show that this strategy improves SGD and Adam training of deep maxout networks. In addition, we obtain refined bounds on the expected number of linear regions, results on the expected curve length distortion, and results on the NTK.
翻訳日:2023-05-19 20:23:58 公開日:2023-05-18
# 永遠のワームホールとノイジー・シカモアの永遠の物語

The Neverending Story of the Eternal Wormhole and the Noisy Sycamore ( http://arxiv.org/abs/2301.03522v3 )

ライセンス: Link先を確認
Galina Weinstein(参考訳) daniel jafferisらによる最新のnature論文"traversable wormhole dynamics on a quantum processor"(量子プロセッサ上での可逆ワームホールダイナミクス)が話題になっている。 nature の論文では、google の sycamore 量子プロセッサを使って 5 項のスパース n = 7 syk モデルをシミュレートする実験について論じている。 自然の論文は、学習されたハミルトニアンが210項の n = 10 syk モデルの重要な重力特性を保ち、可逆的なワームホール挙動を生成するのに十分であることを示した。 実験について検討し、イアン・ハッキングを記憶した実験に関する哲学的課題について議論する。 最近、ノーマン・ヤオと2人の大学院生は、jafferis et al.のlearning hamiltonianに複数の欠陥を発見し、nature paperにコメントを投稿した。 予想通り、Jafferis氏と彼のチームは誤解を明らかにする簡単な方法を見つけた。 彼らは問題を回避できる物理的正当性を見出した。 本稿では、ヤオとその学生が育てた主な議論と、ジャフェリスらが学んだハミルトニアンを救った方法を明らかにする。 私はこの論文を、学習されたハミルトンの文脈におけるこの最近の発展に関する哲学的なコメントで締めくくります。

There has been a great buzz surrounding Daniel Jafferis et al.'s latest Nature paper, "Traversable wormhole dynamics on a quantum processor". The Nature paper discusses an experiment in which Google's Sycamore quantum processor is used to simulate a sparse N = 7 SYK model with 5 terms (a learned Hamiltonian). The Nature paper shows that the learned Hamiltonian preserves the key gravitational characteristics of an N = 10 SYK model with 210 terms and is sufficient to produce a traversable wormhole behavior. I will examine the experiment and discuss some philosophical challenges concerning the experiment in memory of Ian Hacking. Recently, Norman Yao and two graduate students discovered multiple flaws in Jafferis et al.'s learned Hamiltonian and uploaded a comment on the Nature paper. As expected, Jafferis and his team found a simple way to clarify the misunderstanding. They found a physical justification that allowed them to avoid the problem. In this paper, I elucidate the main arguments Yao and his students raised and the way Jafferis et al. found to save their learned Hamiltonian. I will end this paper with a philosophical comment on this recent development in the context of the learned Hamiltonian.
翻訳日:2023-05-19 20:23:31 公開日:2023-05-18
# 境界パワースペクトルを持つ自由および相互作用スカラー場理論におけるクリロフ複素性

Krylov Complexity in Free and Interacting Scalar Field Theories with Bounded Power Spectrum ( http://arxiv.org/abs/2212.14702v3 )

ライセンス: Link先を確認
Hugo A. Camargo, Viktor Jahnke, Keun-Young Kim, Mitsuhiro Nishida(参考訳) 有限温度での$d$次元における自由および相互作用する巨大なスカラー場の量子論において、Krylov複雑性として知られる作用素成長の概念を研究する。 連続運動量空間における質量,摂動相互作用による一ループ自己エネルギー,有限紫外遮断の影響を考察する。 これらの変形は、ランチョス係数とクリロフ複雑性の挙動を変化させ、前者の「スタガー」を2つのファミリーに、後者の指数的成長率を減少させ、漸近的な振る舞いの遷移を誘導する。 また,質量ギャップの存在とスタガリングの性質との関係,および連続理論における紫外カットオフと格子理論との関係についても考察した。

We study a notion of operator growth known as Krylov complexity in free and interacting massive scalar quantum field theories in $d$-dimensions at finite temperature. We consider the effects of mass, one-loop self-energy due to perturbative interactions, and finite ultraviolet cutoffs in continuous momentum space. These deformations change the behavior of Lanczos coefficients and Krylov complexity and induce effects such as the "staggering" of the former into two families, a decrease in the exponential growth rate of the latter, and transitions in their asymptotic behavior. We also discuss the relation between the existence of a mass gap and the property of staggering, and the relation between our ultraviolet cutoffs in continuous theories and lattice theories.
翻訳日:2023-05-19 20:23:08 公開日:2023-05-18
# 作用素緩和と古典的影の最適深さ

Operator relaxation and the optimal depth of classical shadows ( http://arxiv.org/abs/2212.11963v3 )

ライセンス: Link先を確認
Matteo Ippoliti, Yaodong Li, Tibor Rakovszky, Vedika Khemani(参考訳) 古典的影はランダム化測定を用いることで、サンプル効率の良い方法で量子状態の多くの性質を学習する強力な方法である。 ここでは,確率化ステップが可変深さ$t$の局所ユニタリ回路に作用する,最近提案されている古典影のバージョンである ``shallow shadows'' を用いて,ポーリ作用素の期待値を学ぶサンプル複雑性について検討する。 シャドウノルム(サンプルの複雑さを制御する量)は、ランダム化(``twirling'')回路の下での作用素のハイゼンベルク時間発展の特性、すなわち、作用素が非自明に作用する部位の数を特徴付ける重み分布の進化によって表されることを示す。 空間的に連続した重量$k$のパウリ作用素の場合、これは作用素の拡散(作用素の支持が時間とともに増大し、その重量が増加する)と作用素緩和(作用素の大多数が恒等作用素の平衡密度を発達し、その重量を減少させる)という2つの過程の競合を含む。 この単純な絵から導き出す (i) 奥行き $t\sim \log(k)$ に対して任意の空間次元における$t=0$ プロトコルに対するサンプル複雑性の指数関数的な増加を保証する影ノルム上の上限 (ii) 平均場近似における一次元の定量的結果、例えば、最適深さへの普遍部分リード補正は、無限行列積状態の数値シミュレーションとよく一致することが判明した。 我々の研究は量子多体力学の基本的な考え方と量子情報科学の応用を結びつけ、量子状態の異なる性質を学ぶための高度に最適化されたプロトコルへの道を開く。

Classical shadows are a powerful method for learning many properties of quantum states in a sample-efficient manner, by making use of randomized measurements. Here we study the sample complexity of learning the expectation value of Pauli operators via ``shallow shadows'', a recently-proposed version of classical shadows in which the randomization step is effected by a local unitary circuit of variable depth $t$. We show that the shadow norm (the quantity controlling the sample complexity) is expressed in terms of properties of the Heisenberg time evolution of operators under the randomizing (``twirling'') circuit -- namely the evolution of the weight distribution characterizing the number of sites on which an operator acts nontrivially. For spatially-contiguous Pauli operators of weight $k$, this entails a competition between two processes: operator spreading (whereby the support of an operator grows over time, increasing its weight) and operator relaxation (whereby the bulk of the operator develops an equilibrium density of identity operators, decreasing its weight). From this simple picture we derive (i) an upper bound on the shadow norm which, for depth $t\sim \log(k)$, guarantees an exponential gain in sample complexity over the $t=0$ protocol in any spatial dimension, and (ii) quantitative results in one dimension within a mean-field approximation, including a universal subleading correction to the optimal depth, found to be in excellent agreement with infinite matrix product state numerical simulations. Our work connects fundamental ideas in quantum many-body dynamics to applications in quantum information science, and paves the way to highly-optimized protocols for learning different properties of quantum states.
翻訳日:2023-05-19 20:22:54 公開日:2023-05-18
# 有効薄膜トーラス限界からのチャーン絶縁体の断熱的調製

Adiabatic preparation of fractional Chern insulators from an effective thin-torus limit ( http://arxiv.org/abs/2212.11294v2 )

ライセンス: Link先を確認
Benjamin Michen, C\'ecile Repellin, and Jan Carl Budich(参考訳) 量子シミュレータにおける断熱合成の出発点として,分数チャーン絶縁体(fcis)の準一次元(thin torus,tt)極限を探索する。 本手法は,一方向のホッピング振幅を実験的に制御可能なノブとして調整し,システムの有効アスペクト比を動的に変化させる。 連続体における分数量子ホール(FQH)系のTT制限と同様に、ホッピング誘起TT制限はFCI状態と自明な電荷密度波(CDW)基底状態とを断熱的に結合する。 この断熱経路は、cdw状態の初期化とホッピング異方性の断熱的減少に依存する状態形成スキームに利用することができる。 以上の結果は,格子上および結合線からなる複数のfciモデルにおける励起ギャップの計算に基づく。 強い異方性ホッピング限界のギャップを解析的に計算することにより,そのスケーリングが十分に大きなホッピング異方性のための大規模FCIの生成と相容れないことを示す。 正確な対角化の枠組みにおける数値シミュレーションは、これらの結果を裏付ける完全な異方性範囲を探索する。

We explore the quasi one-dimensional (thin torus, or TT) limit of fractional Chern insulators (FCIs) as a starting point for their adiabatic preparation in quantum simulators. Our approach is based on tuning the hopping amplitude in one direction as an experimentally amenable knob to dynamically change the effective aspect ratio of the system. Similar to the TT limit of fractional quantum Hall (FQH) systems in the continuum, we find that the hopping-induced TT limit adiabatically connects the FCI state to a trivial charge density wave (CDW) ground state. This adiabatic path may be harnessed for state preparation schemes relying on the initialization of a CDW state followed by the adiabatic decrease of a hopping anisotropy. Our findings are based on the calculation of the excitation gap in a number of FCI models, both on a lattice and consisting of coupled wires. By analytical calculation of the gap in the limit of strongly anisotropic hopping, we show that its scaling is compatible with the preparation of large size FCIs for sufficiently large hopping anisotropy. Our numerical simulations in the framework of exact diagonalization explore the full anisotropy range to corroborate these results.
翻訳日:2023-05-19 20:22:18 公開日:2023-05-18
# ClarifyDelphi: 社会的・道徳的状況に対する理解度を低下させる質問

ClarifyDelphi: Reinforced Clarification Questions with Defeasibility Rewards for Social and Moral Situations ( http://arxiv.org/abs/2212.10409v2 )

ライセンス: Link先を確認
Valentina Pyatkin, Jena D. Hwang, Vivek Srikumar, Ximing Lu, Liwei Jiang, Yejin Choi, Chandra Bhagavatula(参考訳) コンテキストは、常識的な道徳的推論でさえ、すべてです。 文脈の変化は、行動の道徳的判断を覆す可能性がある;「友人に嘘をつく」ことは一般に間違っているが、もしそれが彼らの人生を守ることを意図しているなら、道徳的に受け入れられるかもしれない。 我々はClarifyDelphiという対話型システムを紹介し、社会的または道徳的な状況の付加的な状況を引き出すために、明確化の質問(例えば、なぜ友達に嘘をついたのか? 我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。 そこで本稿では,質問に対する仮説的回答の道徳的判断の偏りを最大化することを目的とした,実現可能性報酬付き強化学習フレームワークを提案する。 人的評価により,本システムは,競争ベースラインと比較して,より関連性の高い,有益で難解な質問を生成できることが示される。 我々の研究は、究極的には、道徳的認知の柔軟性(道徳的規則が曲げられる様々な文脈)を研究してきた認知科学の研究に触発され、この方向の研究が道徳的判断の認知的および計算的調査の両方に役立つことを願っている。

Context is everything, even in commonsense moral reasoning. Changing contexts can flip the moral judgment of an action; "Lying to a friend" is wrong in general, but may be morally acceptable if it is intended to protect their life. We present ClarifyDelphi, an interactive system that learns to ask clarification questions (e.g., why did you lie to your friend?) in order to elicit additional salient contexts of a social or moral situation. We posit that questions whose potential answers lead to diverging moral judgments are the most informative. Thus, we propose a reinforcement learning framework with a defeasibility reward that aims to maximize the divergence between moral judgments of hypothetical answers to a question. Human evaluation demonstrates that our system generates more relevant, informative and defeasible questions compared to competitive baselines. Our work is ultimately inspired by studies in cognitive science that have investigated the flexibility in moral cognition (i.e., the diverse contexts in which moral rules can be bent), and we hope that research in this direction can assist both cognitive and computational investigations of moral judgments.
翻訳日:2023-05-19 20:21:56 公開日:2023-05-18
# スパイクニューラルネットワークにおけるトレードオフの探求

Exploring Tradeoffs in Spiking Neural Networks ( http://arxiv.org/abs/2212.09500v2 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) Spiking Neural Networks(SNN)は、低消費電力コンピューティングのための従来のDeep Neural Networksに代わる有望な代替品として登場した。 しかしながら、SNNの有効性は、その性能だけでなく、そのエネルギー消費、予測速度、騒音に対する堅牢性によって決定される。 最近のFast \& Deep法は、他の方法と同様に、ニューロンを最大で一度に発火させることにより、高速でエネルギー効率の高い計算を実現する。 Time-To-First-Spike (TTFS)として知られるこの制約は、多くの面でSNNの機能を制限する。 本研究では, この制約を用いた場合の性能, エネルギー消費, 速度, 安定性の関係を考察する。 より正確には、スパーシリティと予測遅延のコストでパフォーマンスと堅牢性を得られるトレードオフの存在を強調します。 これらのトレードオフを改善するために,ニューロン毎の複数のスパイクを可能にするFast \& Deepの緩和版を提案する。 我々の実験は、スパイク制約の緩和は、より高速な収束、類似の空間性、同等の予測遅延、TTFS SNNと比較してノイズに対する堅牢性の向上といった利点を享受しつつ、より高い性能を提供することを示した。 TTFSの限界を強調し、制約のないSNNの利点を実証することにより、ニューロモルフィックコンピューティングのための効果的な学習戦略の開発に貴重な洞察を提供する。

Spiking Neural Networks (SNNs) have emerged as a promising alternative to traditional Deep Neural Networks for low-power computing. However, the effectiveness of SNNs is not solely determined by their performance but also by their energy consumption, prediction speed, and robustness to noise. The recent method Fast \& Deep, along with others, achieves fast and energy-efficient computation by constraining neurons to fire at most once. Known as Time-To-First-Spike (TTFS), this constraint however restricts the capabilities of SNNs in many aspects. In this work, we explore the relationships between performance, energy consumption, speed and stability when using this constraint. More precisely, we highlight the existence of tradeoffs where performance and robustness are gained at the cost of sparsity and prediction latency. To improve these tradeoffs, we propose a relaxed version of Fast \& Deep that allows for multiple spikes per neuron. Our experiments show that relaxing the spike constraint provides higher performance while also benefiting from faster convergence, similar sparsity, comparable prediction latency, and better robustness to noise compared to TTFS SNNs. By highlighting the limitations of TTFS and demonstrating the advantages of unconstrained SNNs we provide valuable insight for the development of effective learning strategies for neuromorphic computing.
翻訳日:2023-05-19 20:21:33 公開日:2023-05-18
# 事前学習言語モデルに基づくグラディエント・ベース・イントラアテンション・プルーニング

Gradient-based Intra-attention Pruning on Pre-trained Language Models ( http://arxiv.org/abs/2212.07634v2 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang(参考訳) 事前訓練された言語モデルは優れた性能を得るが、計算コストが高い。 プルーニングや知識蒸留といった技術は、その大きさや潜伏時間を減らすために開発されてきた。 本研究では,知識蒸留によるタスク特異的な刈り取りを行い,高効率なモデルを生成する構造的刈り取り法(gradient-based intra-attention pruning)を提案する。 それぞれの注意を損なう一般的なアプローチと異なり、粒度検査とプルーン内部構造は構造探索空間を大きく拡大し、より柔軟なモデルを可能にする。 また, 2つの手法のより優れた組み合わせのために, 蒸留処理における干渉を低減する勾配分離戦略を提案する。 GLUE、SQuAD、CoNLL 2003 の実験では、GRAIN は特に高頻度のシステムにおいて他の手法よりも優れており、9,3\%\sim99\% の性能を維持しながら 6\sim7\times$ speedups を達成している。 トランスフォーマーの重量が3$%しか残っていない極端な圧縮下では、プルーニングされたモデルはより大きなモデルに比べてまだ競争力がある。

Pre-trained language models achieve superior performance but are computationally expensive. Techniques such as pruning and knowledge distillation have been developed to reduce their sizes and latencies. In this work, we propose a structured pruning method GRAIN (Gradient-based Intra-attention pruning), which performs task-specific pruning with knowledge distillation and yields highly effective models. Different from common approaches that prune each attention head as a whole, GRAIN inspects and prunes intra-attention structures, which greatly expands the structure search space and enables more flexible models. We also propose a gradient separation strategy that reduces the interference of distillation on pruning for a better combination of the two approaches. Experiments on GLUE, SQuAD, and CoNLL 2003 show that GRAIN notably outperforms other methods, especially in the high sparsity regime, and achieves $6\sim7\times$ speedups while maintaining $93\%\sim99\%$ performance. Under extreme compression where only $3\%$ transformer weights remain, the pruned model is still competitive compared to larger models.
翻訳日:2023-05-19 20:21:10 公開日:2023-05-18
# MILO: 効率的なモデルトレーニングとチューニングのためのモデル非依存サブセット選択フレームワーク

MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning ( http://arxiv.org/abs/2301.13287v3 )

ライセンス: Link先を確認
Krishnateja Killamsetty, Alexandre V. Evfimievski, Tejaswini Pedapati, Kiran Kate, Lucian Popa, Rishabh Iyer(参考訳) ディープネットワークのトレーニングと大規模なデータセットでのハイパーパラメータのチューニングは、計算集約的だ。 効率的なトレーニングのための主要な研究方向の1つは、トレーニングデータの一般化されたサブセットを選択することで、トレーニングコストを削減することである。 単純な適応的ランダムなサブセット選択ベースラインと比較して、既存のインテリジェントなサブセット選択アプローチは、モデル依存の勾配と特徴埋め込みを計算し、部分モジュラー目的のグリーディ最大化を適用するという、時間を要するサブセット選択ステップのために競合しない。 我々の重要な洞察は、下流モデルパラメータへの依存をなくすことで、サブセットを前処理ステップとして選択することができ、追加コストなしで複数のモデルをトレーニングできるということです。 そこで本研究では,モデルに依存しないサブセット選択フレームワークMILOを提案し,モデル学習からサブセット選択を分離し,より優れたモデル収束と性能を実現する。 実験結果から,miloはモデル3倍のトレーニング – 10倍の速度 – ハイパーパラメータ20倍のチューニング – 75倍の速度 – を,パフォーマンスを損なうことなく,フルデータセットのトレーニングやチューニングよりも高速にトレーニングできることがわかった。

Training deep networks and tuning hyperparameters on large datasets is computationally intensive. One of the primary research directions for efficient training is to reduce training costs by selecting well-generalizable subsets of training data. Compared to simple adaptive random subset selection baselines, existing intelligent subset selection approaches are not competitive due to the time-consuming subset selection step, which involves computing model-dependent gradients and feature embeddings and applies greedy maximization of submodular objectives. Our key insight is that removing the reliance on downstream model parameters enables subset selection as a pre-processing step and enables one to train multiple models at no additional cost. In this work, we propose MILO, a model-agnostic subset selection framework that decouples the subset selection from model training while enabling superior model convergence and performance by using an easy-to-hard curriculum. Our empirical results indicate that MILO can train models $3\times - 10 \times$ faster and tune hyperparameters $20\times - 75 \times$ faster than full-dataset training or tuning without compromising performance.
翻訳日:2023-05-19 20:13:31 公開日:2023-05-18
# マルチタスク言語モデリングによる分子・テキスト表現の統一

Unifying Molecular and Textual Representations via Multi-task Language Modelling ( http://arxiv.org/abs/2301.12586v2 )

ライセンス: Link先を確認
Dimitrios Christofidellis, Giorgio Giannone, Jannis Born, Ole Winther, Teodoro Laino, Matteo Manica(参考訳) ニューラルネットワークモデルの最近の進歩は化学分野にもうまく適用され、分子設計や合成計画における古典的な問題に対する生成的解を提供する。 これらの新しい手法は、科学的発見におけるデータ駆動自動化の新しい時代を加速する可能性がある。 しかし、通常、各タスクには特別なモデルが必要であるため、問題固有の微調整やタスクの相互関係の無視が必要となる。 この分野の主な障害は、自然言語と化学表現の統一表現の欠如であり、人間と機械の相互作用の複雑化と制限である。 本稿では,化学と自然言語の両領域で幅広いタスクを解くことができる,最初のマルチドメインマルチタスク言語モデルを提案する。 我々のモデルは化学と自然言語を同時に扱うことができ、単一のドメインやタスク固有のモデルで高価な事前学習を必要としない。 興味深いことに、ドメイン間での重み共有は、単一ドメインとクロスドメインタスクの最先端のベースラインに対してベンチマークすることで、我々のモデルを大幅に改善します。 特に、ドメインとタスク間での情報共有は、数十以上の関連するメトリクスで測定されるように、スケールによって増大するクロスドメインタスクに大きな改善をもたらす。 本研究は,問題特異的な微調整と人間-モデル間相互作用の強化により,物理科学における発見を堅牢かつ効率的に促進できることを示唆する。

The recent advances in neural language models have also been successfully applied to the field of chemistry, offering generative solutions for classical problems in molecular design and synthesis planning. These new methods have the potential to fuel a new era of data-driven automation in scientific discovery. However, specialized models are still typically required for each task, leading to the need for problem-specific fine-tuning and neglecting task interrelations. The main obstacle in this field is the lack of a unified representation between natural language and chemical representations, complicating and limiting human-machine interaction. Here, we propose the first multi-domain, multi-task language model that can solve a wide range of tasks in both the chemical and natural language domains. Our model can handle chemical and natural language concurrently, without requiring expensive pre-training on single domains or task-specific models. Interestingly, sharing weights across domains remarkably improves our model when benchmarked against state-of-the-art baselines on single-domain and cross-domain tasks. In particular, sharing information across domains and tasks gives rise to large improvements in cross-domain tasks, the magnitude of which increase with scale, as measured by more than a dozen of relevant metrics. Our work suggests that such models can robustly and efficiently accelerate discovery in physical sciences by superseding problem-specific fine-tuning and enhancing human-model interactions.
翻訳日:2023-05-19 20:13:06 公開日:2023-05-18
# alim: 雑音部分ラベル学習のためのラベル重要度調整機構

ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning ( http://arxiv.org/abs/2301.12077v2 )

ライセンス: Link先を確認
Mingyu Xu, Zheng Lian, Lei Feng, Bin Liu, Jianhua Tao(参考訳) ノイズのある部分ラベル学習(noisy pll)は、弱い教師付き学習の重要な分野である。 基底トラックラベルが候補ラベルセットに隠さなければならないPLLとは異なり、ノイズの多いPLLはこの制約を緩和し、基底トラックラベルが候補ラベルセットに含まれないようにする。 この困難な問題に対処するため、既存の作品のほとんどはノイズのサンプルを検出し、各ノイズのラベルを推定しようと試みている。 しかし、検出エラーは避けられない。 これらのエラーはトレーニング中に蓄積され、モデル最適化に継続的に影響を及ぼす。 そこで我々は,「ALIM(Adjusting Label Importance Mechanism)」と呼ばれる理論的保証付きノイズの多いPLLのための新しいフレームワークを提案する。 初期候補セットとモデル出力をトレードオフすることで、検出エラーの負の影響を低減することを目的としている。 ALIMは既存のPLLアプローチと統合可能なプラグイン戦略である。 評価実験の結果,提案手法は雑音の多いPLL上での最先端性能を実現することができることがわかった。 \textcolor[rgb]{0.93,0.0,0.47}{Our コードは補足材料} にある。

Noisy partial label learning (noisy PLL) is an important branch of weakly supervised learning. Unlike PLL where the ground-truth label must conceal in the candidate label set, noisy PLL relaxes this constraint and allows the ground-truth label may not be in the candidate label set. To address this challenging problem, most of the existing works attempt to detect noisy samples and estimate the ground-truth label for each noisy sample. However, detection errors are unavoidable. These errors can accumulate during training and continuously affect model optimization. To this end, we propose a novel framework for noisy PLL with theoretical guarantees, called ``Adjusting Label Importance Mechanism (ALIM)''. It aims to reduce the negative impact of detection errors by trading off the initial candidate set and model outputs. ALIM is a plug-in strategy that can be integrated with existing PLL approaches. Experimental results on benchmark datasets demonstrate that our method can achieve state-of-the-art performance on noisy PLL. \textcolor[rgb]{0.93,0.0,0.47}{Our code can be found in Supplementary Material}.
翻訳日:2023-05-19 20:12:41 公開日:2023-05-18
# 自己フィードバックによるドメイン非依存的分子生成

Domain-Agnostic Molecular Generation with Self-feedback ( http://arxiv.org/abs/2301.11259v3 )

ライセンス: Link先を確認
Yin Fang, Ningyu Zhang, Zhuo Chen, Xiaohui Fan, Huajun Chen(参考訳) 望ましい性質を持つ分子の生成は、科学者が分子構造を設計する方法に革命をもたらし、化学や薬品の設計に価値ある支援を提供するという大きな人気を集めている。 しかし、分子生成における言語モデルの可能性にもかかわらず、構文的または化学的に欠陥のある分子の生成、狭い領域の焦点、そして注釈付きデータや外部の分子データベースによって多様で方向的に実現可能な分子を作成する際の制限など、多くの課題に直面している。 そこで本研究では,分子生成に特化した分子言語モデルであるMollGenを紹介する。 MolGenは1億以上の分子SELFIESを再構成し、ドメインに依存しない分子プレフィックスチューニングを通じて異なるドメイン間の知識伝達を促進することによって、固有の構造的および文法的な洞察を得る。 さらに,事前学習モデルに刺激を与える自己フィードバックパラダイムを提案し,分子を望ましい性質で生成するという究極の目標と整合させる。 MolGenはよく知られた分子生成ベンチマークにおいて優れた性能を示す。 さらなる分析により、分子分布を正確に捉え、その構造特性を暗黙的に学習し、効率的に化学空間を探索できることが示されている。 トレーニング済みのモデル、コード、データセットは、https://github.com/zjunlp/MolGen.comで公開されています。

The generation of molecules with desired properties has gained tremendous popularity, revolutionizing the way scientists design molecular structures and providing valuable support for chemical and drug design. However, despite the potential of language models in molecule generation, they face numerous challenges such as the generation of syntactically or chemically flawed molecules, narrow domain focus, and limitations in creating diverse and directionally feasible molecules due to a dearth of annotated data or external molecular databases. To this end, we introduce MolGen, a pre-trained molecular language model tailored specifically for molecule generation. MolGen acquires intrinsic structural and grammatical insights by reconstructing over 100 million molecular SELFIES, while facilitating knowledge transfer between different domains through domain-agnostic molecular prefix tuning. Moreover, we present a self-feedback paradigm that inspires the pre-trained model to align with the ultimate goal of producing molecules with desirable properties. Extensive experiments demonstrate that MolGen achieves superior performance on well-known molecule generation benchmarks. Further analysis shows that MolGen can accurately capture molecule distributions, implicitly learn their structural characteristics, and efficiently explore chemical space. The pre-trained model, codes, and datasets are publicly available for future research at https://github.com/zjunlp/MolGen.
翻訳日:2023-05-19 20:12:05 公開日:2023-05-18
# トウガラシの葉形質の個体群的解析を可能にする少ないショット学習

Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa ( http://arxiv.org/abs/2301.10351v3 )

ライセンス: Link先を確認
John Lagergren, Mirko Pavicic, Hari B. Chhetri, Larry M. York, P. Doug Hyatt, David Kainer, Erica M. Rutter, Kevin Flores, Jack Bailey-Bale, Marie Klein, Gail Taylor, Daniel Jacobson, Jared Streich(参考訳) 植物表現型は一般的に、時間と費用のかかる取り組みであり、研究者の大規模な集団は、生物学的に関連のある植物形質を注意深く測定する必要がある。 本研究では,これらの課題に対して,畳み込みニューラルネットワーク(CNN)を用いて,葉体を分割し,フィールドで得られた2,906 P. trichocarpa の葉像を可視化する。 従来の手法とは対照的に、我々のアプローチ (i)実験的又は画像前処理を必要としない。 (ii)RGBの生画像をフル解像度で使用し、 (iii) 訓練に必要なサンプルはごくわずかである(例:静脈セグメンテーションの8つの画像のみ)。 従来のオープンソース画像処理ツールを用いて得られたセグメンテーションから葉形態および静脈トポロジーに関連する形質を抽出し、実世界の物理的測定を用いて検証し、ゲノムワイドな関連研究を行い、形質を制御する遺伝子を同定する。 このようにして、現在の作業は、植物表現型コミュニティを提供するように設計されている。 (i)最小限のトレーニングデータを必要とする高速で正確な画像に基づく特徴抽出方法 (ii)ドメイン科学者や機械学習研究者のための、68種類のリーフ表現型を含む新しい集団規模のデータセット。 数発の学習コード、データ、結果はすべて公開されています。

Plant phenotyping is typically a time-consuming and expensive endeavor, requiring large groups of researchers to meticulously measure biologically relevant plant traits, and is the main bottleneck in understanding plant adaptation and the genetic architecture underlying complex traits at population scale. In this work, we address these challenges by leveraging few-shot learning with convolutional neural networks (CNNs) to segment the leaf body and visible venation of 2,906 P. trichocarpa leaf images obtained in the field. In contrast to previous methods, our approach (i) does not require experimental or image pre-processing, (ii) uses the raw RGB images at full resolution, and (iii) requires very few samples for training (e.g., just eight images for vein segmentation). Traits relating to leaf morphology and vein topology are extracted from the resulting segmentations using traditional open-source image-processing tools, validated using real-world physical measurements, and used to conduct a genome-wide association study to identify genes controlling the traits. In this way, the current work is designed to provide the plant phenotyping community with (i) methods for fast and accurate image-based feature extraction that require minimal training data, and (ii) a new population-scale data set, including 68 different leaf phenotypes, for domain scientists and machine learning researchers. All of the few-shot learning code, data, and results are made publicly available.
翻訳日:2023-05-19 20:11:42 公開日:2023-05-18
# tutteの定理に基づくハイブリッドブール制約による量子インスパイアされた完全マッチング問題を解く

Solving Quantum-Inspired Perfect Matching Problems via Tutte's Theorem-Based Hybrid Boolean Constraints ( http://arxiv.org/abs/2301.09833v2 )

ライセンス: Link先を確認
Moshe Y. Vardi and Zhiwei Zhang(参考訳) 異なるタイプの制約を持つブール制約-満足問題(ハイブリッド制約)の満足度を決定することは、重要なアプリケーションにおいてよく研究される問題である。 ここでは,量子コンピューティングにおけるハイブリッドブール制約の新しい応用について検討する。 この問題は、エッジカラーグラフにおける制約付き完全マッチングに関連している。 汎用ハイブリッド制約ソルバは強力であるが,ハイブリッド制約がスケールしにくいため,制約マッチング問題の直接エンコーディングが依然として必要であることを示す。 本稿では,グラフ理論におけるtutteの定理に基づく新しい符号化法と最適化手法を提案する。 実験の結果,satソルバを用いた適切な言語でのエンコーディングは,制約付きマッチングベンチマークにおいて,多くの競合手法よりもかなり優れていることがわかった。 本研究は,強力な汎用制約ソルバを適用する際に問題固有のエンコーディングを設計する必要性を明らかにした。

Determining the satisfiability of Boolean constraint-satisfaction problems with different types of constraints, that is hybrid constraints, is a well-studied problem with important applications. We study here a new application of hybrid Boolean constraints, which arises in quantum computing. The problem relates to constrained perfect matching in edge-colored graphs. While general-purpose hybrid constraint solvers can be powerful, we show that direct encodings of the constrained-matching problem as hybrid constraints scale poorly and special techniques are still needed. We propose a novel encoding based on Tutte's Theorem in graph theory as well as optimization techniques. Empirical results demonstrate that our encoding, in suitable languages with advanced SAT solvers, scales significantly better than a number of competing approaches on constrained-matching benchmarks. Our study identifies the necessity of designing problem-specific encodings when applying powerful general-purpose constraint solvers.
翻訳日:2023-05-19 20:11:18 公開日:2023-05-18
# 追加パーソナライゼーションによるフェデレーション勧告

Federated Recommendation with Additive Personalization ( http://arxiv.org/abs/2301.09109v3 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Tianyi Zhou(参考訳) フェデレーション学習(fl)によるレコメンデーションシステムの構築は、次世代のインターネットサービスとプライバシ保護を推進するための新たな課題である。 既存のアプローチは、ユーザがクライアント側にプライベートを埋め込みながら、FLによる共有アイテムの埋め込みを訓練する。 しかし、すべてのクライアントに同一のアイテムを埋め込むと、同一アイテムを知覚するユーザーの個人差が捉えられなくなり、パーソナライズが低下する。 さらに、FLに密接なアイテムを埋め込むと、通信コストとレイテンシが高くなる。 これらの課題に対処するために,fedrap(federated recommend with additive personalization)を提案する。これはflを通じてアイテムのグローバルビューと,ユーザ毎のパーソナライズビューをローカルに学習する。 fedrapは、flの通信コストを節約するためにグローバルビューのスパーシティを強制し、レギュライゼーションを通じて2つのビューの違いを奨励する。 正規化の重みを増すとともに,地域・グローバルな視点を段階的に学習するための効果的なカリキュラムを提案する。 ユーザのレコメンデーションを生成するために、feedrapは2つのビューを一緒に追加して、パーソナライズされたアイテム埋め込みを得る。 FedRAPは複数のベンチマークでFL設定で最高のパフォーマンスを達成する。 最近のフェデレーション推奨法やいくつかのアブレーション研究ベースラインを上回っている。

Building recommendation systems via federated learning (FL) is a new emerging challenge for advancing next-generation Internet service and privacy protection. Existing approaches train shared item embedding by FL while keeping the user embedding private on client side. However, item embedding identical for all clients cannot capture users' individual differences on perceiving the same item and thus leads to poor personalization. Moreover, dense item embedding in FL results in expensive communication cost and latency. To address these challenges, we propose Federated Recommendation with Additive Personalization (FedRAP), which learns a global view of items via FL and a personalized view locally on each user. FedRAP enforces sparsity of the global view to save FL's communication cost and encourages difference between the two views through regularization. We propose an effective curriculum to learn the local and global views progressively with increasing regularization weights. To produce recommendations for an user, FedRAP adds the two views together to obtain a personalized item embedding. FedRAP achieves the best performance in FL setting on multiple benchmarks. It outperforms recent federated recommendation methods and several ablation study baselines.
翻訳日:2023-05-19 20:11:04 公開日:2023-05-18
# 冷間原子量子シミュレータにおける閉じ込め下でのエルゴディディティ破壊

Ergodicity Breaking Under Confinement in Cold-Atom Quantum Simulators ( http://arxiv.org/abs/2301.07717v2 )

ライセンス: Link先を確認
Jean-Yves Desaules, Guo-Xian Su, Ian P. McCulloch, Bing Yang, Zlatko Papi\'c, Jad C. Halimeh(参考訳) 合成量子物質デバイスにおけるゲージ理論の量子シミュレーションは、過去10年間に多くの牽引力を獲得し、様々な異種量子多体現象の観測が可能となった。 本研究では、スピン=1/2$量子リンクの1+1$D量子電磁力学のトポロジカルな$\theta$-angleによる定式化について考察する。 このシステムを、質量とスタガーの磁化項を持つPXPモデルに正確にマッピングすることで、閉じ込めと量子多体散乱とヒルベルト空間の断片化というエルゴーディック的パラダイムの間の興味深い相互作用を示す。 このモデルのリッチな動的位相図をマッピングし、質量$\mu$の小さな値でエルゴード相を発見し、ポテンシャル$\chi$を精算し、大きな$\mu$に対する創発的な可積分相と、両方のパラメータの大きな値に対する断片化相を求める。 また、後者は多数の効果的なモデルに繋がる共鳴をホストしていることを示す。 本研究は,現在のコールド原子装置で直接アクセス可能な実験プローブを提案する。

The quantum simulation of gauge theories on synthetic quantum matter devices has gained a lot of traction in the last decade, making possible the observation of a range of exotic quantum many-body phenomena. In this work, we consider the spin-$1/2$ quantum link formulation of $1+1$D quantum electrodynamics with a topological $\theta$-angle, which can be used to tune a confinement-deconfinement transition. Exactly mapping this system onto a PXP model with mass and staggered magnetization terms, we show an intriguing interplay between confinement and the ergodicity-breaking paradigms of quantum many-body scarring and Hilbert-space fragmentation. We map out the rich dynamical phase diagram of this model, finding an ergodic phase at small values of the mass $\mu$ and confining potential $\chi$, an emergent integrable phase for large $\mu$, and a fragmented phase for large values of both parameters. We also show that the latter hosts resonances that lead to a vast array of effective models. We propose experimental probes of our findings, which can be directly accessed in current cold-atom setups.
翻訳日:2023-05-19 20:10:43 公開日:2023-05-18
# VRA: 分布外検出のための変分活性化

VRA: Variational Rectified Activation for Out-of-distribution Detection ( http://arxiv.org/abs/2302.11716v4 )

ライセンス: Link先を確認
Mingyu Xu, Zheng Lian, Bin Liu, Jianhua Tao(参考訳) オープンな世界で信頼できる機械学習システムを構築するには、分散(ood)検出が不可欠である。 研究者はOODデータに対するモデル過信を減らすための様々な戦略を提案している。 その中でも、ReActはモデル過信を扱う典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増す。 有望な結果にもかかわらず、このテクニックはギャップを広げる最善の選択だろうか? そこで本研究では, 最適動作の探索に変分法を応用し, 異常に低い活性化と高い活性化を抑制し, ood検出における中間活性化を増幅する必要性を検証した。 そこで本研究では,これらの抑制と増幅操作を一括関数を用いてシミュレートする,'Variational Rectified Activation' (VRA)' と呼ばれる新しい手法を提案する。 複数のベンチマークデータセットの実験結果から,本手法が既存のポストホック戦略より優れていることが示された。 一方、VRAは異なるスコアリング機能やネットワークアーキテクチャと互換性がある。 \textcolor[rgb]{0.93,0.0,0.47}{Our コードは補足材料} にある。

Out-of-distribution (OOD) detection is critical to building reliable machine learning systems in the open world. Researchers have proposed various strategies to reduce model overconfidence on OOD data. Among them, ReAct is a typical and effective technique to deal with model overconfidence, which truncates high activations to increase the gap between in-distribution and OOD. Despite its promising results, is this technique the best choice for widening the gap? To answer this question, we leverage the variational method to find the optimal operation and verify the necessity of suppressing abnormally low and high activations and amplifying intermediate activations in OOD detection, rather than focusing only on high activations like ReAct. This motivates us to propose a novel technique called ``Variational Rectified Activation (VRA)'', which simulates these suppression and amplification operations using piecewise functions. Experimental results on multiple benchmark datasets demonstrate that our method outperforms existing post-hoc strategies. Meanwhile, VRA is compatible with different scoring functions and network architectures. \textcolor[rgb]{0.93,0.0,0.47}{Our code can be found in Supplementary Material}.
翻訳日:2023-05-19 20:05:21 公開日:2023-05-18
# 結果測定誤差による反事実予測

Counterfactual Prediction Under Outcome Measurement Error ( http://arxiv.org/abs/2302.11121v2 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu(参考訳) 医学、雇用、刑事司法などの領域を越えて、予測モデルは、専門家や政策立案者に不完全な利益を反映するラベルを標的とすることが多い。 例えば、医師の意思決定を知らせるために展開される臨床リスク評価は、しばしば医療費(例えば、コスト、入院)を患者の医療ニーズの代案として予測する。 これらのプロキシは、測定を意図した目標結果と体系的に異なる結果測定誤差を受ける可能性がある。 しかしながら、結果測定誤差を特徴づけ、緩和するための事前モデリングは、モデルによって通知される決定が、しばしば利害の目標結果とその記録されたプロキシに影響を及ぼすリスク軽減の介入として機能するという事実を無視する。 したがって, 測定誤差に対処するには, 結果に対する処理効果の非現実的モデリングが必要である。 本研究では, 結果測定誤差, 治療効果, 選択バイアスを過去の意思決定方針から推定し, モデル信頼性への横断的脅威について検討した。 本研究では,プロキシ測定誤差特性の知識を前提として,これらの課題の複合効果を補正するリスク最小化手法を開発した。 また,治療依存性の測定誤差パラメータを事前に不明な場合に推定する手法を開発した。 提案手法の有効性を理論的に実証するとともに,医療領域や雇用領域で実施されたランダム化制御試験による実世界のデータを用いた実験を行った。 さらに, 結果測定誤差や治療効果を補正するモデルには, 信頼性にかなりの限界があることを示す。 本研究は,意思決定支援のための予測モデルの設計・評価において,モデル妥当性に対する横断的脅威を検討することの重要性を強調する。

Across domains such as medicine, employment, and criminal justice, predictive models often target labels that imperfectly reflect the outcomes of interest to experts and policymakers. For example, clinical risk assessments deployed to inform physician decision-making often predict measures of healthcare utilization (e.g., costs, hospitalization) as a proxy for patient medical need. These proxies can be subject to outcome measurement error when they systematically differ from the target outcome they are intended to measure. However, prior modeling efforts to characterize and mitigate outcome measurement error overlook the fact that the decision being informed by a model often serves as a risk-mitigating intervention that impacts the target outcome of interest and its recorded proxy. Thus, in these settings, addressing measurement error requires counterfactual modeling of treatment effects on outcomes. In this work, we study intersectional threats to model reliability introduced by outcome measurement error, treatment effects, and selection bias from historical decision-making policies. We develop an unbiased risk minimization method which, given knowledge of proxy measurement error properties, corrects for the combined effects of these challenges. We also develop a method for estimating treatment-dependent measurement error parameters when these are unknown in advance. We demonstrate the utility of our approach theoretically and via experiments on real-world data from randomized controlled trials conducted in healthcare and employment domains. As importantly, we demonstrate that models correcting for outcome measurement error or treatment effects alone suffer from considerable reliability limitations. Our work underscores the importance of considering intersectional threats to model validity during the design and evaluation of predictive models for decision support.
翻訳日:2023-05-19 20:05:02 公開日:2023-05-18
# 群分布ロバスト最適化に対する確率近似手法

Stochastic Approximation Approaches to Group Distributionally Robust Optimization ( http://arxiv.org/abs/2302.09267v2 )

ライセンス: Link先を確認
Lijun Zhang, Peng Zhao, Tianbao Yang, Zhi-Hua Zhou(参考訳) 本稿では,群分布にロバストな最適化(gdro, group distributionally robust optimization)について検討する。 まず、GDROを確率的凸凹サドル点問題として定式化し、各反復において$m$のサンプルを用いて、$O(m)/\epsilon^2)$のサンプル複雑性を達成し、$Omega(m/\epsilon^2)$の対数係数に一致する$\epsilon$最適解を求める。 そして、オンライン学習の手法を使って、各ラウンドに必要なサンプル数を$m$から$$$に減らし、同じサンプルの複雑さを維持します。 具体的には、GDROを2人プレイヤゲームとして、一方のプレイヤーが単にSMDを実行し、他方のプレイヤーが非公開マルチアームバンディットのオンラインアルゴリズムを実行する。 次に,各分布から抽出できるサンプルの数が異なる,より実用的なシナリオを考察し,分布依存収束率の導出を可能にする重み付きGDROの新しい定式化を提案する。 n_i$ は$i$-th分布のサンプル予算を示し、$n_1 \geq n_2 \geq \cdots \geq n_m$ を仮定する。 最初のアプローチでは、サンプル予算が期待通りに満たされるように非一様サンプリングをsmdに組み込み、i$-th分布の過剰なリスクが$o(\sqrt{n_1 \log m}/n_i)$レートで減少することを証明する。 第2のアプローチでは、予算を正確に満たすためにミニバッチを使用し、確率勾配の分散を低減し、さらに小さな分散を活用可能な確率ミラープロキシアルゴリズムを利用して、慎重に設計された重み付きGDRO問題を最適化する。 適切な条件下では、$o((\log m)/\sqrt{n_i})$の収束率に達し、最適な$o(\sqrt{1/n_i})$の値にほぼ一致する。

This paper investigates group distributionally robust optimization (GDRO), with the purpose to learn a model that performs well over $m$ different distributions. First, we formulate GDRO as a stochastic convex-concave saddle-point problem, and demonstrate that stochastic mirror descent (SMD), using $m$ samples in each iteration, achieves an $O(m (\log m)/\epsilon^2)$ sample complexity for finding an $\epsilon$-optimal solution, which matches the $\Omega(m/\epsilon^2)$ lower bound up to a logarithmic factor. Then, we make use of techniques from online learning to reduce the number of samples required in each round from $m$ to $1$, keeping the same sample complexity. Specifically, we cast GDRO as a two-players game where one player simply performs SMD and the other executes an online algorithm for non-oblivious multi-armed bandits. Next, we consider a more practical scenario where the number of samples that can be drawn from each distribution is different, and propose a novel formulation of weighted GDRO, which allows us to derive distribution-dependent convergence rates. Denote by $n_i$ the sample budget for the $i$-th distribution, and assume $n_1 \geq n_2 \geq \cdots \geq n_m$. In the first approach, we incorporate non-uniform sampling into SMD such that the sample budget is satisfied in expectation, and prove the excess risk of the $i$-th distribution decreases at an $O(\sqrt{n_1 \log m}/n_i)$ rate. In the second approach, we use mini-batches to meet the budget exactly and also reduce the variance in stochastic gradients, and then leverage stochastic mirror-prox algorithm, which can exploit small variances, to optimize a carefully designed weighted GDRO problem. Under appropriate conditions, it attains an $O((\log m)/\sqrt{n_i})$ convergence rate, which almost matches the optimal $O(\sqrt{1/n_i})$ rate of only learning from the $i$-th distribution with $n_i$ samples.
翻訳日:2023-05-19 20:04:36 公開日:2023-05-18
# 手続き文理解における意味的構文解析の役割

The Role of Semantic Parsing in Understanding Procedural Text ( http://arxiv.org/abs/2302.06829v2 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Parisa Kordjamshidi, Choh Man Teng, and James Allen(参考訳) 本稿では,深い意味解析から抽出された記号的意味表現が,手続き的テキストにおける関連エンティティの状態の推論に有効かどうかを考察する。 我々は,意味解析知識の2つの源として,深い意味解析~(TRIPS)と意味的役割ラベルを考える。 まず,記号解析に基づく手続き推論フレームワーク PROPOLIS を提案する。 第2に,意味解析情報を最先端のニューラルモデルに統合し,手続き的推論を行う。 このような意味的知識を明示的に取り入れることで手続き的理解が向上することを示す。 本稿では,課題を明確にし,ニューラルモデル,シンボリックモデル,統合モデルの違いを識別する手続き的推論タスクを評価するための新しい指標を提案する。

In this paper, we investigate whether symbolic semantic representations, extracted from deep semantic parsers, can help reasoning over the states of involved entities in a procedural text. We consider a deep semantic parser~(TRIPS) and semantic role labeling as two sources of semantic parsing knowledge. First, we propose PROPOLIS, a symbolic parsing-based procedural reasoning framework. Second, we integrate semantic parsing information into state-of-the-art neural models to conduct procedural reasoning. Our experiments indicate that explicitly incorporating such semantic knowledge improves procedural understanding. This paper presents new metrics for evaluating procedural reasoning tasks that clarify the challenges and identify differences among neural, symbolic, and integrated models.
翻訳日:2023-05-19 20:03:49 公開日:2023-05-18
# ディープブースティング決定木を用いた効率的な不正検出

Efficient Fraud Detection Using Deep Boosting Decision Trees ( http://arxiv.org/abs/2302.05918v2 )

ライセンス: Link先を確認
Biao Xu, Yao Wang, Xiuwu Liao, Kaidong Wang(参考訳) 不正検出とは、複雑なデータから潜在的な不正行為を特定し、監視し、防止することである。 ai、特に機械学習の最近の開発と成功は、不正に対処する新しいデータ駆動方式を提供する。 方法論的観点から、機械学習に基づく不正検出は、従来の方法(決定木、強化木)とディープラーニングの2つのカテゴリに分けられる。 さらに, 検出された不正事件の頻度が高いため, 関連データは通常不均衡であり, 分類アルゴリズムの性能が著しく低下する。 本稿では,勾配ブースティングとニューラルネットワークに基づく不正検出の新しい手法として,DBDT(Deep boosting decision tree)を提案する。 従来の手法とディープラーニングの両方の利点を組み合わせるために,まず,ニューラルネットワークをノードとする決定木構造モデルであるソフト決定木(SDT)を構築し,さらに勾配向上のアイデアを用いてSDTをアンサンブルする。 このようにして、ニューラルネットワークを勾配向上に組み込んで表現学習能力を向上させるとともに、解釈可能性を維持する。 さらに,検出された不正事件の希少性に着目し,モデル学習段階において,アルゴリズムレベルでのデータ不均衡を扱うためのAUC最大化手法を提案する。 いくつかの実生活における不正検出データセットに対する大規模な実験により、DBDTは性能を大幅に改善し、高い解釈可能性を維持することができることが示された。 私たちのコードはhttps://github.com/freshmanxb/dbdtで利用可能です。

Fraud detection is to identify, monitor, and prevent potentially fraudulent activities from complex data. The recent development and success in AI, especially machine learning, provides a new data-driven way to deal with fraud. From a methodological point of view, machine learning based fraud detection can be divided into two categories, i.e., conventional methods (decision tree, boosting...) and deep learning, both of which have significant limitations in terms of the lack of representation learning ability for the former and interpretability for the latter. Furthermore, due to the rarity of detected fraud cases, the associated data is usually imbalanced, which seriously degrades the performance of classification algorithms. In this paper, we propose deep boosting decision trees (DBDT), a novel approach for fraud detection based on gradient boosting and neural networks. In order to combine the advantages of both conventional methods and deep learning, we first construct soft decision tree (SDT), a decision tree structured model with neural networks as its nodes, and then ensemble SDTs using the idea of gradient boosting. In this way we embed neural networks into gradient boosting to improve its representation learning capability and meanwhile maintain the interpretability. Furthermore, aiming at the rarity of detected fraud cases, in the model training phase we propose a compositional AUC maximization approach to deal with data imbalances at algorithm level. Extensive experiments on several real-life fraud detection datasets show that DBDT can significantly improve the performance and meanwhile maintain good interpretability. Our code is available at https://github.com/freshmanXB/DBDT.
翻訳日:2023-05-19 20:03:39 公開日:2023-05-18
# 一般化cp分解による低ランクテンソル完全化の数値予測

Exploring Numerical Priors for Low-Rank Tensor Completion with Generalized CP Decomposition ( http://arxiv.org/abs/2302.05881v4 )

ライセンス: Link先を確認
Shiran Yuan and Kaizhu Huang(参考訳) テンソル補完はコンピュータビジョン、データ解析、信号処理など多くの分野において重要である。 完備テンソル上の低ランク構造、すなわち低ランクテンソル完備化と呼ばれる手法のカテゴリは、最近広く研究されている。 このような手法は大きな成功を収めたが、テンソル要素の数値的事前化を活用しようと考える者はいなかった。 数値を無視すると、データに関する重要な情報が失われ、アルゴリズムが最適な精度に達するのを防ぐ。 本研究は,数値前処理を活用し,より高精度なテンソル補完を実現するために,gcdtc(generalized cp decomposition tensor completion)と呼ばれる新しい手法フレームワークの構築を試みるものである。 この新たなフレームワークでは、低ランクテンソル完備化にCP分解の一般化形式を適用する。 本稿では、GCDTCフレームワークのインスタンス化として、非負整数テンソル補完のためのSPTC(Smooth Poisson Tensor Completion)と呼ばれるアルゴリズムを提案する。 実世界のデータに関する一連の実験は、SPTCが現在の最先端手法よりも完成精度に優れた結果をもたらすことを示唆している。 関連コードは補足資料で利用可能である。

Tensor completion is important to many areas such as computer vision, data analysis, and signal processing. Enforcing low-rank structures on completed tensors, a category of methods known as low-rank tensor completion, has recently been studied extensively. Whilst such methods attained great success, none considered exploiting numerical priors of tensor elements. Ignoring numerical priors causes loss of important information regarding the data, and therefore prevents the algorithms from reaching optimal accuracy. This work attempts to construct a new methodological framework called GCDTC (Generalized CP Decomposition Tensor Completion) for leveraging numerical priors and achieving higher accuracy in tensor completion. In this newly introduced framework, a generalized form of CP Decomposition is applied to low-rank tensor completion. This paper also proposes an algorithm known as SPTC (Smooth Poisson Tensor Completion) for nonnegative integer tensor completion as an instantiation of the GCDTC framework. A series of experiments on real-world data indicate that SPTC could produce results superior in completion accuracy to current state-of-the-art methods. Related code is available in the supplemental materials.
翻訳日:2023-05-19 20:03:04 公開日:2023-05-18
# 履歴依存型動的文脈を用いた強化学習

Reinforcement Learning with History-Dependent Dynamic Contexts ( http://arxiv.org/abs/2302.02061v2 )

ライセンス: Link先を確認
Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig Boutilier(参考訳) 動的文脈マルコフ決定プロセス(dcmdps)は、文脈が時間とともに変化する非マルコフ環境を扱うためにコンテキスト境界mdpフレームワークを一般化した、歴史依存環境のための新しい強化学習フレームワークである。 本モデルでは,文脈遷移を決定するためにアグリゲーション関数を活用し,履歴長に対する指数関数依存を破るロジスティックdcmdpsに着目した特別ケースを検討する。 この特別な構造により、後悔の限界を定めている上位信頼境界型アルゴリズムを導出することができる。 この理論結果に動機づけられ,潜在空間に計画し,歴史依存的特徴よりも楽観的手法を用いたロジスティックdcmdpsのための実用的なモデルベースアルゴリズムを提案する。 提案手法の有効性を,レコメンデーションに応じてユーザ動作のダイナミクスが進化するレコメンデーションタスク(MovieLensデータを用いた)に示す。

We introduce Dynamic Contextual Markov Decision Processes (DCMDPs), a novel reinforcement learning framework for history-dependent environments that generalizes the contextual MDP framework to handle non-Markov environments, where contexts change over time. We consider special cases of the model, with a focus on logistic DCMDPs, which break the exponential dependence on history length by leveraging aggregation functions to determine context transitions. This special structure allows us to derive an upper-confidence-bound style algorithm for which we establish regret bounds. Motivated by our theoretical results, we introduce a practical model-based algorithm for logistic DCMDPs that plans in a latent space and uses optimism over history-dependent features. We demonstrate the efficacy of our approach on a recommendation task (using MovieLens data) where user behavior dynamics evolve in response to recommendations.
翻訳日:2023-05-19 20:02:30 公開日:2023-05-18
# 線形代数に対する量子ビット効率のよいランダム量子アルゴリズム

Qubit-Efficient Randomized Quantum Algorithms for Linear Algebra ( http://arxiv.org/abs/2302.01873v2 )

ライセンス: Link先を確認
Samson Wang, Sam McArdle, Mario Berta(参考訳) 本稿では,行列関数に対する量子ブロック符号化や他のコヒーレントなオラクルアクセスを使わずに,行列関数からのサンプリングを行うためのランダム化量子アルゴリズムのクラスを提案する。 したがって、量子ビットの使用は純粋にアルゴリズムであり、量子データ構造には追加の量子ビットは必要ない。 N\times N$ Hermitian 行列の場合、空間コストは$\log(N)+1$ qubitsであり、行列の構造によっては、ゲートの複雑さは、等価なエンドツーエンドの問題を考えるとき、最大$O(N^2)$の量子データ構造を使用する最先端の手法に匹敵する。 本フレームワークでは,解ベクトルの性質をサンプリングする量子線形系解法と,ハミルトンの基底状態とギブス状態の特性をサンプリングするアルゴリズムを提案する。 具体的な応用として、これらのサブルーチンを組み合わせて、量子多体系のグリーン関数を計算するスキームを提案する。

We propose a class of randomized quantum algorithms for the task of sampling from matrix functions, without the use of quantum block encodings or any other coherent oracle access to the matrix elements. As such, our use of qubits is purely algorithmic, and no additional qubits are required for quantum data structures. For $N\times N$ Hermitian matrices, the space cost is $\log(N)+1$ qubits and depending on the structure of the matrices, the gate complexity can be comparable to state-of-the-art methods that use quantum data structures of up to size $O(N^2)$, when considering equivalent end-to-end problems. Within our framework, we present a quantum linear system solver that allows one to sample properties of the solution vector, as well as algorithms for sampling properties of ground states and Gibbs states of Hamiltonians. As a concrete application, we combine these sub-routines to present a scheme for calculating Green's functions of quantum many-body systems.
翻訳日:2023-05-19 20:02:13 公開日:2023-05-18
# 関数変換の学習

Learning Functional Transduction ( http://arxiv.org/abs/2302.00328v2 )

ライセンス: Link先を確認
Mathieu Chalvidal, Thomas Serre and Rufin VanRullen(参考訳) 機械学習の研究は、回帰タスクに対する2つの一般的なアプローチに偏った: トランスダクティブメソッドは、利用可能なデータから直接見積もりを構築するが、通常は問題に非依存である。 帰納的メソッドはもっと具体的だが、一般的には計算集約的なソリューション検索を必要とする。 本研究では, ベクトル値再生カーネルバナッハ空間(RKBS)の理論を活用することにより, 遷移回帰原理を勾配降下によりメタ学習し, 効率の良いインコンテキスト・ニューラル近似器を形成することを示す。 この手法を有限次元および無限次元の空間上で定義される函数空間(関数値演算子)に適用し、トレーニングが終わると、Transducerは入力と出力の2組の例を与えられた関数関係の無限大をほぼ瞬時に捕捉し、新しい画像推定を返却できることを示す。 偏微分方程式や気候モデリングアプリケーションのための通常のディープラーニングトレーニングの計算コストのごく一部で、データ量が少ない外部要因の影響を受けて、複雑な物理系をモデル化するメタリーナードトランスダクティブアプローチの利点を実証する。

Research in machine learning has polarized into two general approaches for regression tasks: Transductive methods construct estimates directly from available data but are usually problem unspecific. Inductive methods can be much more specific but generally require compute-intensive solution searches. In this work, we propose a hybrid approach and show that transductive regression principles can be meta-learned through gradient descent to form efficient in-context neural approximators by leveraging the theory of vector-valued Reproducing Kernel Banach Spaces (RKBS). We apply this approach to function spaces defined over finite and infinite-dimensional spaces (function-valued operators) and show that once trained, the Transducer can almost instantaneously capture an infinity of functional relationships given a few pairs of input and output examples and return new image estimates. We demonstrate the benefit of our meta-learned transductive approach to model complex physical systems influenced by varying external factors with little data at a fraction of the usual deep learning training computational cost for partial differential equations and climate modeling applications.
翻訳日:2023-05-19 20:01:53 公開日:2023-05-18
# UNFUSED: 自己監督蒸留を用いた教師なしファインタニング

UNFUSED: UNsupervised Finetuning Using SElf supervised Distillation ( http://arxiv.org/abs/2303.05668v2 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,自己教師付き学習を活用し,音声分類のための大量のラベル付きデータの必要性を減らすための新しいアプローチであるunfusedを提案する。 対象データセット上で自己教師付き事前学習エンコーダを直接微調整する以前の作業とは異なり、実際の微調整ステップの前に、エンコーダを使用して教師なし微調整のための擬似ラベルを生成する。 まず,ラベルなしオーディオデータセット上で,新しい自己教師付き学習アルゴリズム(ssl)を用いてエンコーダを訓練する。 そして、そのエンコーダを使用して、抽出した表現をクラスタリングすることで、ターゲットタスクデータセット上で擬似ラベルを生成する。 これらの擬似ラベルはランダムに初期化モデル上で自己蒸留を誘導するために用いられる。 最後に、結果エンコーダがターゲットタスクデータセット上で微調整されます。 UnFuSeD を通じて,文献における一般的なSSLパラダイムから脱却し,同じエンコーダを事前学習・微調整するシステムを提案し,低リソース音声分類にSSL事前学習を利用する新たな自己蒸留システムを提案する。 実際に、UnFuSeDはLAPEベンチマークで最先端の結果を達成し、すべてのベースラインを大幅に上回っている。 さらに、unfusedにより、以前のstate-of-the-artシステムよりもパラメータ数を40%削減できる。 すべてのコードを公開しています。

In this paper, we introduce UnFuSeD, a novel approach to leverage self-supervised learning and reduce the need for large amounts of labeled data for audio classification. Unlike prior works, which directly fine-tune a self-supervised pre-trained encoder on a target dataset, we use the encoder to generate pseudo-labels for unsupervised fine-tuning before the actual fine-tuning step. We first train an encoder using a novel self-supervised learning algorithm (SSL) on an unlabeled audio dataset. Then, we use that encoder to generate pseudo-labels on our target task dataset via clustering the extracted representations. These pseudo-labels are then used to guide self-distillation on a randomly initialized model, which we call unsupervised fine-tuning. Finally, the resultant encoder is then fine-tuned on our target task dataset. Through UnFuSeD, we propose the first system that moves away from generic SSL paradigms in literature, which pre-train and fine-tune the same encoder, and present a novel self-distillation-based system to leverage SSL pre-training for low-resource audio classification. In practice, UnFuSeD achieves state-of-the-art results on the LAPE Benchmark, significantly outperforming all our baselines. Additionally, UnFuSeD allows us to achieve this at a 40% reduction in the number of parameters over the previous state-of-the-art system. We make all our codes publicly available.
翻訳日:2023-05-19 19:55:18 公開日:2023-05-18
# 二重量子ドット干渉計における磁束可変ハイブリッド化

Flux-Tunable Hybridization in a Double Quantum Dot Interferometer ( http://arxiv.org/abs/2303.04144v2 )

ライセンス: Link先を確認
Christian G. Prosko, Ivan Kulesh, Michael Chan, Lin Han, Di Xiao, Candice Thomas, Michael J. Manfra, Srijit Goswami, Filip K. Malinowski(参考訳) 磁束でスレッディングされた2つのレベル間で共有される1つの電子は、干渉が起こると予測される既約単純量子系である。 2つの量子ドットからなるループに実装された2つの電子準位と磁束の間のトンネル結合のチューニングを示す。 ドットのゲート電極の高周波反射計を用いてドット間結合を抽出し、1つのフラックス量子の周期的な振動を示す。 異なるトンネル方式では、振動のコントラストをベンチマークし、その振幅は関連するレベルによって変化するが、トンネルは振動ミニマでは一般的に抑制されない。 これらの結果は、フラックスによって調整されたトンネル結合を持つキュービットのパリティ可読化の実現可能性と限界を確立する。

A single electron shared between two levels threaded by a magnetic flux is an irreducibly simple quantum system in which interference is predicted to occur. We demonstrate tuning of the tunnel coupling between two such electronic levels with flux, implemented in a loop comprising two quantum dots. Using radio-frequency reflectometry of the dots' gate electrodes we extract the inter-dot coupling, which exhibits oscillations with a periodicity of one flux quantum. In different tunneling regimes we benchmark the oscillations' contrast, and find that their amplitude varies with the levels involved, while tunneling is generically not suppressed at oscillation minima. These results establish the feasibility and limitations of parity readout of qubits with tunnel couplings tuned by flux.
翻訳日:2023-05-19 19:54:32 公開日:2023-05-18
# イベントストリームを用いた時空間表現学習のためのイベントボクセルセットトランスフォーマ

Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams ( http://arxiv.org/abs/2303.03856v2 )

ライセンス: Link先を確認
Bochen Xie and Yongjian Deng and Zhanpeng Shao and Hai Liu and Qingsong Xu and Youfu Li(参考訳) イベントカメラは、視覚情報をスパースおよび非同期イベントストリームとして表現するニューロモルフィック視覚センサである。 ほとんどの最先端のイベントベース手法は、イベントを密集したフレームに投影し、従来の学習モデルで処理する。 しかし、これらの手法はイベントデータのスパーシリティと高時間分解能を犠牲にして、大きなモデルサイズと高い計算複雑性をもたらす。 本研究では,イベントストリームにおける時空間表現学習のためのイベントVoxel Set Transformer (EVSTr) という新しいアテンション対応モデルを開発した。 まずイベントストリームをvoxelセットに変換し、次に階層的にvoxel機能を集約して堅牢な表現を得る。 EVSTrのコアは、ローカル情報集約のためのMNEL(Multi-Scale Neighbor Embedding Layer)とグローバル機能インタラクションのためのVoxel Self-Attention Layer(VSAL)という2つのよく設計されたコンポーネントで構成される、差別的時空間特徴を抽出するイベントボクセルトランスフォーマーエンコーダである。 ネットワークを長期の時間構造に組み込むことにより,セグメント化されたボクセル集合から動作パターンを学習するためのセグメントモデリング戦略を導入する。 オブジェクト分類と行動認識という2つのイベントベース認識タスクにおいて,提案したモデルを評価する。 総合的な実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。 さらに、現実のイベントベースの行動認識データセットの欠如を補うために、挑戦的な視覚シナリオで記録された新しいデータセット(NeuroHAR)を提案する。

Event cameras are neuromorphic vision sensors representing visual information as sparse and asynchronous event streams. Most state-of-the-art event-based methods project events into dense frames and process them with conventional learning models. However, these approaches sacrifice the sparsity and high temporal resolution of event data, resulting in a large model size and high computational complexity. To fit the sparse nature of events and sufficiently explore the relationship between them, we develop a novel attention-aware model named Event Voxel Set Transformer (EVSTr) for spatiotemporal representation learning on event streams. It first converts the event stream into voxel sets and then hierarchically aggregates voxel features to obtain robust representations. The core of EVSTr is an event voxel transformer encoder to extract discriminative spatiotemporal features, which consists of two well-designed components, including a Multi-Scale Neighbor Embedding Layer (MNEL) for local information aggregation and a Voxel Self-Attention Layer (VSAL) for global feature interactions. Enabling the network to incorporate a long-range temporal structure, we introduce a segment modeling strategy to learn motion patterns from a sequence of segmented voxel sets. We evaluate the proposed model on two event-based recognition tasks: object classification and action recognition. Comprehensive experiments show that EVSTr achieves state-of-the-art performance while maintaining low model complexity. Additionally, we present a new dataset (NeuroHAR) recorded in challenging visual scenarios to complement the lack of real-world event-based datasets for action recognition.
翻訳日:2023-05-19 19:54:21 公開日:2023-05-18
# 認定ロバストニューラルネットワーク:一般化と破壊耐性

Certified Robust Neural Networks: Generalization and Corruption Resistance ( http://arxiv.org/abs/2303.02251v2 )

ライセンス: Link先を確認
Amine Bennouna, Ryan Lucas, Bart Van Parys(参考訳) 近年の研究は、(「腐敗」に対する)堅牢性が一般化と相反することを示した。 例えば、adversarial trainingは、現代のニューラルネットワークが抱える脆弱性を小さなデータ摂動に軽減することを目的としている。 驚くべきことに、オーバーフィッティングは標準的な訓練にほとんど欠席しているにもかかわらず、敵の訓練において大きな関心事である。 この特異な「乱暴な過剰フィッティング」現象の理論的証拠を提供する。 続いて、ロバスト性と一般化を橋渡しする分散ロバストな損失関数を新たに導入する。 我々は,データ回避と中毒攻撃という2つの一般的なタイプの腐敗に対して,認証された堅牢性を享受する上での損失を,理論的にも実証的にも実証する。 総合ロバスト(hr)トレーニング手順がsota性能に与える影響を,注意深い数値実験により明らかにする。 最後に, 人事訓練は対人訓練の直接的な拡張と解釈でき, 計算負荷が無視できることを示す。 アルゴリズムを実装するpythonライブラリは、https://github.com/ryanlucas3/hr_neural_networksで利用可能です。

Recent work have demonstrated that robustness (to "corruption") can be at odds with generalization. Adversarial training, for instance, aims to reduce the problematic susceptibility of modern neural networks to small data perturbations. Surprisingly, overfitting is a major concern in adversarial training despite being mostly absent in standard training. We provide here theoretical evidence for this peculiar "robust overfitting" phenomenon. Subsequently, we advance a novel distributionally robust loss function bridging robustness and generalization. We demonstrate both theoretically as well as empirically the loss to enjoy a certified level of robustness against two common types of corruption--data evasion and poisoning attacks--while ensuring guaranteed generalization. We show through careful numerical experiments that our resulting holistic robust (HR) training procedure yields SOTA performance. Finally, we indicate that HR training can be interpreted as a direct extension of adversarial training and comes with a negligible additional computational burden. A ready-to-use python library implementing our algorithm is available at https://github.com/RyanLucas3/HR_Neural_Networks.
翻訳日:2023-05-19 19:53:16 公開日:2023-05-18
# コンパイルされた非局所ゲームの量子値のバウンディング:chshからbqp検証へ

Bounding the quantum value of compiled nonlocal games: from CHSH to BQP verification ( http://arxiv.org/abs/2303.01545v2 )

ライセンス: Link先を確認
Anand Natarajan and Tina Zhang(参考訳) 本稿では, 量子完全性と音響性を保ちつつ, プローバ間の分離をシミュレートする暗号を用いて, 絡み合った非ローカルゲームを単一プローサの対話プロトコルに変換する, 汎用的な暗号「コンパイル」手順を作成するためのステップを提案する。 A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. アプリケーションとして、BQPに対して単一プロプライエタリな古典的検証プロトコルを提供し、CHSH剛性解析を用いてその健全性を証明する。 本プロトコルは,Mahadevプロトコルの機能 (FOCS '18) を再現するが,(1) プロトコルは概念的に直感的であり,構成成分が少ないこと,2) 音質解析は非局所的ケースの解析を直接的に行うこと,(2) 音質解析はTFや適応ハードコアビットの仮定を明示的に用いておらず,QFHEをブラックボックスとしてのみ必要である(ただし,現在知られているQFHEの構成はTCFsのみである)。

We present a step towards the goal of producing a general cryptographic 'compilation' procedure which can translate any entangled nonlocal game into a single-prover interactive protocol while preserving quantum completeness and soundness, using cryptography to simulate the separation between the provers. A candidate for such a procedure was introduced by Kalai et al. (STOC '23), who defined a black-box cryptographic compilation procedure that applies to any nonlocal game and showed that it preserves classical value. In this work, we make progress towards a full understanding of the quantum value of the single-prover protocols that result from applying the Kalai et al. compilation procedure to entangled games. For the special case of CHSH, we prove that the Tsirelson bound holds under the compilation procedure introduced by Kalai et al., and we also recover a strong version of the 'rigidity' property that makes CHSH so useful. As an application, we give a single-prover cryptographically sound classical verification protocol for BQP, and we prove its soundness using our CHSH rigidity analysis. Our protocol replicates the functionality of Mahadev's protocol (FOCS '18) but with two advantages: (1) the protocol is conceptually intuitive and requires fewer bespoke ingredients, and the soundness analysis is simpler and directly follows the analysis of the nonlocal case, and (2) the soundness analysis does not explicitly use the assumption of a TCF or an adaptive hardcore bit, and only requires QFHE as a black box (though currently the only known constructions of QFHE use TCFs).
翻訳日:2023-05-19 19:53:01 公開日:2023-05-18
# 量子性の簡単なテストも量子ビットを認証する

Simple Tests of Quantumness Also Certify Qubits ( http://arxiv.org/abs/2303.01293v2 )

ライセンス: Link先を確認
Zvika Brakerski, Alexandru Gheorghiu, Gregory D. Kahanamoku-Meyer, Eitan Porat, Thomas Vidick(参考訳) 量子性の検定は、古典的検証者が証明者が古典的でないことを(のみ)証明できるプロトコルである。 我々は、(kalai et al., 2022)のような最近の提案を捉えた、あるテンプレートに従う量子性テストが、実際にはもっと多くのことができることを示す。 すなわち、同じプロトコルは、証明可能なランダム性や古典的な量子計算のデリゲートといったアプリケーションの中心にあるビルディングブロックであるqubitの認定に使用できる。 Certification qubits は以前、Learning with Errors 問題と適応ハードコアの使用の難しさに基づいてのみ可能であることが知られていた(Brakerski et al., 2018)。 提案手法は,量子トラップドアクラウフリー関数の存在や量子完全準同型暗号を基盤とした量子ビット認証を可能にする。 これらは例えば、エラーを伴うリング学習からインスタンス化することができる。 技術的には、そのようなプロトコルの量子音響性は、単純なアルゴリズム的タスクのバウンダリを証明し、プロトコルの「2つの課題」に非公式に答えることに還元できることを示す。 この還元は、一般的な量子証明器の巻き戻しの不可能性を利用して、これらのプロトコルが量子性を示すという直観を定式化する。 これにより (Kahanamoku-Meyer et al., 2021) と (Kalai et al., 2022) の量子音響性に厳密な境界を証明でき、量子多項式時間証明器が $\cos^2 \frac{\pi}{8}\approx 0.853$ 以上の確率で成功できないことを示す。 従来、古典的確率の成功確率の上限と量子的確率の成功確率の上限のみが知られていた。 そして、この量子音響性証明を拡張して、量子音響性境界に接近するプロバーが、ほぼ反可換な測定を行う必要があることを示す。 これは証明者がqubitを持つことを示す。

A test of quantumness is a protocol that allows a classical verifier to certify (only) that a prover is not classical. We show that tests of quantumness that follow a certain template, which captures recent proposals such as (Kalai et al., 2022), can in fact do much more. Namely, the same protocols can be used for certifying a qubit, a building-block that stands at the heart of applications such as certifiable randomness and classical delegation of quantum computation. Certifying qubits was previously only known to be possible based on the hardness of the Learning with Errors problem and the use of adaptive hardcore (Brakerski et al., 2018). Our framework allows certification of qubits based only on the existence of post-quantum trapdoor claw-free functions, or on quantum fully homomorphic encryption. These can be instantiated, for example, from Ring Learning with Errors. On the technical side, we show that the quantum soundness of any such protocol can be reduced to proving a bound on a simple algorithmic task: informally, answering ``two challenges simultaneously'' in the protocol. Our reduction formalizes the intuition that these protocols demonstrate quantumness by leveraging the impossibility of rewinding a general quantum prover. This allows us to prove tight bounds on the quantum soundness of (Kahanamoku-Meyer et al., 2021) and (Kalai et al., 2022), showing that no quantum polynomial-time prover can succeed with probability larger than $\cos^2 \frac{\pi}{8}\approx 0.853$. Previously, only an upper bound on the success probability of classical provers, and a lower bound on the success probability of quantum provers, were known. We then extend this proof of quantum soundness to show that provers that approach the quantum soundness bound must perform almost anti-commuting measurements. This certifies that the prover holds a qubit.
翻訳日:2023-05-19 19:52:30 公開日:2023-05-18
# ソフトアクタ-クリティックが収束する点

The Point to Which Soft Actor-Critic Converges ( http://arxiv.org/abs/2303.01240v3 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) soft actor-critic は soft q-learning の後継である。 最大エントロピーの枠組みの下で生活したが、それらの関係はいまだに不明である。 本稿では,その極限において,それらが同じ解に収束することを証明する。 これは、最適化を難解なものからより簡単な方法に翻訳するので、魅力的です。 同じ正当化はkl発散のような他の正規化にも適用できる。

Soft actor-critic is a successful successor over soft Q-learning. While lived under maximum entropy framework, their relationship is still unclear. In this paper, we prove that in the limit they converge to the same solution. This is appealing since it translates the optimization from an arduous to an easier way. The same justification can also be applied to other regularizers such as KL divergence.
翻訳日:2023-05-19 19:51:52 公開日:2023-05-18
# マスタリング記号演算: コンパイルされたニューラルネットワークによる言語モデルの拡張

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks ( http://arxiv.org/abs/2304.01665v2 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 言語モデル(lms) 決定論的シンボリック推論と規則に基づくタスクを扱う能力は、テキストデータに暗黙的な学習に依存するため、依然として限られている。 完全なルール理解能力を実現するために,LMのアーキテクチャに重みを特別に設計したコンパイルニューラルネットワーク(CoNN)を組み込んで,高精度で堅牢な性能を実現する方法について検討する。 CoNNは、人工的に生成された注目重みを通してルールを実行するトランスフォーマーベースのニューラルネットワークである。 CNNモジュールをLMに組み込むことで"Neural Comprehension"と呼ぶこの手法は,ルール集約的な課題を効果的に解決する。 シンボル推論タスクと実世界の算術推論タスクに関する実験は,既存の手法と比較して,提案手法の優れた性能を示す。 さらに,本手法が真に象徴的理解能力を有することの可能性を強調して,記号的操作タスクにおける不完全な実行を実現する。 私たちのコードは、https://github.com/wengsyx/neural-comprehensionで公開されています。

Language models (LMs) proficiency in handling deterministic symbolic reasoning and rule-based tasks remains limited due to their dependency implicit learning on textual data. To enable fully rule comprehension ability, we explore how to incorporate compiled neural networks (CoNNs) which weight is specially designed into the architecture of LMs, to achieve high accuracy and robust performance. CoNNs are transformer-based neural networks that execute rules through artificially generated attention weights. Our method, which call "Neural Comprehension", by incorporating CoNN modules into the LM, the framework effectively tackles rule-intensive challenges. Our experiments on symbolic reasoning tasks and real-world arithmetic reasoning tasks demonstrate the superior performance of our method compared to existing techniques. Furthermore, our LM achieves flawless execution on symbolic operations tasks, highlighting the potential of our method in enabling LMs to possess true symbolic comprehension capabilities. Our code is publicly available at: https://github.com/WENGSYX/Neural-Comprehension.
翻訳日:2023-05-19 19:45:51 公開日:2023-05-18
# ニューラルネットワークエントロピー(NNetEn):エントロピーに基づく脳波信号とカオス時系列分類、NNetEn計算のためのPythonパッケージ

Neural Network Entropy (NNetEn): Entropy-Based EEG Signal and Chaotic Time Series Classification, Python Package for NNetEn Calculation ( http://arxiv.org/abs/2303.17995v2 )

ライセンス: Link先を確認
Andrei Velichko, Maksim Belyaev, Yuriy Izotov, Murugappan Murugappan and Hanif Heidari(参考訳) エントロピー測度は時系列分類問題に有効な特徴である。 シャノンエントロピーのような伝統的なエントロピー測度は確率分布関数を用いる。 しかし, 時系列を効果的に分離するためには, システムのカオス力学を特徴付ける新しいエントロピー推定法が必要となる。 ニューラルネットワークエントロピー(NNetEn)の概念は,ニューラルネットワークの貯水池に記録された時系列のエントロピーに関連する特別なデータセットの分類に基づいている。 NNetEnは、時系列のカオス力学を元の方法で推定し、確率分布関数を考慮しない。 R2効率とピアソン効率の2つの新しい分類指標を提案する。 NNetEnの効率は分散分析を用いて2つのカオス時系列の正弦写像の分離を検証した。 2つの閉ダイナミック時系列 (r = 1.1918 と r = 1.2243) に対して、f-ratio は 124 の値に達し、分類問題における導入法の高い効率を反映している。 健常者およびアルツハイマー病患者の脳波信号分類は、nnetenの特徴の実際的応用を示している。 従来のエントロピー測度とNNetEn概念を併用する際の分類精度の向上による相乗効果を示す。 pythonにおけるアルゴリズムの実装について述べる。

Entropy measures are effective features for time series classification problems. Traditional entropy measures, such as Shannon entropy, use probability distribution function. However, for the effective separation of time series, new entropy estimation methods are required to characterize the chaotic dynamic of the system. Our concept of Neural Network Entropy (NNetEn) is based on the classification of special datasets in relation to the entropy of the time series recorded in the reservoir of the neural network. NNetEn estimates the chaotic dynamics of time series in an original way and does not take into account probability distribution functions. We propose two new classification metrics: R2 Efficiency and Pearson Efficiency. The efficiency of NNetEn is verified on separation of two chaotic time series of sine mapping using dispersion analysis. For two close dynamic time series (r = 1.1918 and r = 1.2243), the F-ratio has reached the value of 124 and reflects high efficiency of the introduced method in classification problems. The electroenceph-alography signal classification for healthy persons and patients with Alzheimer disease illustrates the practical application of the NNetEn features. Our computations demonstrate the synergistic effect of increasing classification accuracy when applying traditional entropy measures and the NNetEn concept conjointly. An implementation of the algorithms in Python is presented.
翻訳日:2023-05-19 19:45:34 公開日:2023-05-18
# 曲がった時空を伝播する量子光子の重力赤方偏移入門

Introduction to gravitational redshift of quantum photons propagating in curved spacetime ( http://arxiv.org/abs/2303.17412v3 )

ライセンス: Link先を確認
Luis Adri\'an Alan\'is Rodr\'iguez, Andreas Wolfgang Schell and David Edward Bruschi(参考訳) 重力赤方偏移は、曲面時空で伝播する量子光子の文脈で議論される。 リアルな光子をモデル化する簡単な入門が提示され、光子のスペクトルに対する重力の影響は、主に伝播方向に閉じ込められている。 すると、鋭いモータを持つ光子作用素に対する赤方偏移誘起変換はユニタリではなく、有限帯域を持つ現実光子に対してユニタリ変換を構築することができる。 得られたユニタリ変換は、ヒルベルト空間基底の一般化回転である多重モード混合演算として特徴づけられる。 最後に、これらの結果の応用について、量子通信プロトコルの性能、量子力学およびセンシングに対する効果の活用、および基礎科学のテストの可能性に焦点をあてて論じる。

Gravitational redshift is discussed in the context of quantum photons propagating in curved spacetime. A brief introduction to modelling realistic photons is first presented and the effect of gravity on the spectrum computed for photons largely confined along the direction of propagation. It is then shown that redshift-induced transformations on photon operators with sharp momenta are not unitary, while a unitary transformation can be constructed for realistic photons with finite bandwidth. The unitary transformation obtained is then characterized as a multimode mixing operation, which is a generalized rotation of the Hilbert-space basis. Finally, applications of these results are discussed with focus on performance of quantum communication protocols, exploitation of the effects for quantum metrology and sensing, as well as potential for tests of fundamental science.
翻訳日:2023-05-19 19:45:15 公開日:2023-05-18
# 多項分類におけるスパース・ジョイントシフト

Sparse joint shift in multinomial classification ( http://arxiv.org/abs/2303.16971v2 )

ライセンス: Link先を確認
Dirk Tasche(参考訳) スパースジョイントシフト (SJS) は, 一般データセットシフトの抽出可能なモデルとして提案され, 特徴量やラベルの辺縁分布, 後部確率, クラス条件特徴量の変化を引き起こす可能性がある。 ラベル観察なしでターゲットデータセットにSJSを適用すると、ラベルの有効な予測とクラスの事前確率の推定が生成される可能性がある。 本研究では,特徴集合からより大きな特徴集合へのSJSの伝達,目標分布下でのクラス後部確率の条件補正式,SJSの識別可能性,SJSと共変量シフトの関係について述べる。 さらに,最適解探索の妨げとなるsjsの特性を推定するために提案されたアルゴリズムの不整合を指摘する。

Sparse joint shift (SJS) was recently proposed as a tractable model for general dataset shift which may cause changes to the marginal distributions of features and labels as well as the posterior probabilities and the class-conditional feature distributions. Fitting SJS for a target dataset without label observations may produce valid predictions of labels and estimates of class prior probabilities. We present new results on the transmission of SJS from sets of features to larger sets of features, a conditional correction formula for the class posterior probabilities under the target distribution, identifiability of SJS, and the relationship between SJS and covariate shift. In addition, we point out inconsistencies in the algorithms which were proposed for estimating the characteristics of SJS, as they could hamper the search for optimal solutions.
翻訳日:2023-05-19 19:45:01 公開日:2023-05-18
# オンライン分類一覧

List Online Classification ( http://arxiv.org/abs/2303.15383v3 )

ライセンス: Link先を確認
Shay Moran, Ohad Sharon, Iska Tsubari, Sivan Yosebashvili(参考訳) 学習者が複数のラベルのリスト(従来の1つのラベルではなく)を使って予測できるマルチクラスオンライン予測について検討する。 このモデルの学習性は、$b$-ary littlestone次元を使って特徴づける。 この次元は古典的なリトルストーン次元の変種であり、二項誤り木は$(k+1)$-aryミス木に置き換えられ、ここで$k$はリスト内のラベルの数である。 不可知論的設定では、コンパレータクラスがシングルラベル関数かマルチラベル関数か、アルゴリズムが使用するリストのサイズとのトレードオフによって異なるシナリオを探索する。 いくつかのケースでは否定的な後悔を達成でき、それがいつ可能かを完全に特徴づけることができる。 私たちの仕事の一部として、littlestoneのsoaやrosenblattのperceptronといった古典的なアルゴリズムをラベルのリストを使って予測します。 また、Sauer-Shelah-Perles Lemmaのオンライン版を含むリスト学習クラスに対する組合せ結果も確立した。 この結果は、適応仮説(つまり、メモリを持つ関数)を表現できる仮説クラスの一般化と、マージンを持つ線形分類のようなデータ依存的な仮定をモデル化するパターンクラスの枠組みの中で述べられている。

We study multiclass online prediction where the learner can predict using a list of multiple labels (as opposed to just one label in the traditional setting). We characterize learnability in this model using the $b$-ary Littlestone dimension. This dimension is a variation of the classical Littlestone dimension with the difference that binary mistake trees are replaced with $(k+1)$-ary mistake trees, where $k$ is the number of labels in the list. In the agnostic setting, we explore different scenarios depending on whether the comparator class consists of single-labeled or multi-labeled functions and its tradeoff with the size of the lists the algorithm uses. We find that it is possible to achieve negative regret in some cases and provide a complete characterization of when this is possible. As part of our work, we adapt classical algorithms such as Littlestone's SOA and Rosenblatt's Perceptron to predict using lists of labels. We also establish combinatorial results for list-learnable classes, including an list online version of the Sauer-Shelah-Perles Lemma. We state our results within the framework of pattern classes -- a generalization of hypothesis classes which can represent adaptive hypotheses (i.e. functions with memory), and model data-dependent assumptions such as linear classification with margin.
翻訳日:2023-05-19 19:44:49 公開日:2023-05-18
# 注意! in-attentive agentの動的認識論的論理モデル

Attention! Dynamic Epistemic Logic Models of (In)attentive Agents ( http://arxiv.org/abs/2303.13494v2 )

ライセンス: Link先を確認
Gaia Belardinelli and Thomas Bolander(参考訳) 注意は、私たちが観察する情報を制限し、選択する重要な認知能力である。 Bolander et al. (2016) による以前の研究は、エージェントが完全に注意されるか、全く注意を払わない動的てんかん論理(DEL)に基づく注意モデルを提案する。 不注意なエージェントが何も起こらないという現実的な特徴を導入する一方で、モデルは最も重要な注意の側面、すなわち選択性を表すものではない。 本稿では,原子式の部分集合に注意を払う一般化を提案する。 提案的注意のための対応する論理を導入し,その公理化が健全かつ完全であることを示す。 その後、我々は、何も起こらないと仮定する代わりに、彼らが出席できなかったものの特定の真理値(意図しない原子に関するある種の先例)にデフォルトとなる不注意なエージェントを説明するためにフレームワークを拡張した。 この特徴は、意図しない失明現象をより認知的に妥当な表現を可能にし、エージェントは目立たずで予期せぬ出来事に出席できなかったために偽の信念に終止符を打つ。 モデルのどちらのバージョンも、いくつかの明確なエッジ原則に基づいて、適切なDELイベントモデルを通じて注意に基づく学習を定義する。 このようなイベントモデルのサイズは、エージェント数と原子数の両方で指数関数的に増加するが、我々は、イベントモデルを記述するための新しい論理言語を導入し、この言語を使うことで、我々のイベントモデルはエージェント数と原子数で線形に表現できることを示す。 さらに、この言語を使ったイベントモデルの表現は、前述のエッジ原則の直接的な形式化によって実現されます。

Attention is the crucial cognitive ability that limits and selects what information we observe. Previous work by Bolander et al. (2016) proposes a model of attention based on dynamic epistemic logic (DEL) where agents are either fully attentive or not attentive at all. While introducing the realistic feature that inattentive agents believe nothing happens, the model does not represent the most essential aspect of attention: its selectivity. Here, we propose a generalization that allows for paying attention to subsets of atomic formulas. We introduce the corresponding logic for propositional attention, and show its axiomatization to be sound and complete. We then extend the framework to account for inattentive agents that, instead of assuming nothing happens, may default to a specific truth-value of what they failed to attend to (a sort of prior concerning the unattended atoms). This feature allows for a more cognitively plausible representation of the inattentional blindness phenomenon, where agents end up with false beliefs due to their failure to attend to conspicuous but unexpected events. Both versions of the model define attention-based learning through appropriate DEL event models based on a few and clear edge principles. While the size of such event models grow exponentially both with the number of agents and the number of atoms, we introduce a new logical language for describing event models syntactically and show that using this language our event models can be represented linearly in the number of agents and atoms. Furthermore, representing our event models using this language is achieved by a straightforward formalisation of the aforementioned edge principles.
翻訳日:2023-05-19 19:44:27 公開日:2023-05-18
# コンピュータグラフィックス画像の主観的・客観的品質評価

Subjective and Objective Quality Assessment for in-the-Wild Computer Graphics Images ( http://arxiv.org/abs/2303.08050v2 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Tao Wang, Wei Lu, Quan Zhou, Jun he, Qiyuan Wang, Xiongkuo Min, and Guangtao Zhai(参考訳) コンピュータグラフィックス画像(CGI)は、コンピュータプログラムによって人工的に生成され、ゲームやストリーミングメディアなどの様々なシナリオにおいて広く認識されている。 実際には、CGIの品質は、生産期間中のレンダリングの低下、マルチメディアアプリケーションの送信時に必然的な圧縮アーティファクト、構成と設計の低下による美的品質の低下に常に悩まされている。 しかし、コンピュータグラフィックス画像品質評価(CGIQA)の課題に対処する研究はほとんど行われていない。 ほとんどの画像品質評価(IQA)メトリクスは、自然シーン画像(NSI)のために開発され、合成歪みを持つNSIからなるデータベース上で検証される。 NSIとCGIの品質評価のギャップを埋めるため,6,000のCGI(CGIQA-6k)からなる大規模CGIQAデータベースを構築し,CGIの正確な知覚評価を得るために,よく制御された実験環境において主観的な実験を行う。 そこで本研究では,歪みと審美的品質の表現を両立し,効果的な深層学習に基づくno-reference (nr) iqaモデルを提案する。 実験の結果,提案手法は構築されたCGIQA-6kデータベースや他のCGIQA関連データベース上で,最先端のNR IQA手法よりも優れていた。 データベースは、さらなる研究を促進するためにリリースされる。

Computer graphics images (CGIs) are artificially generated by means of computer programs and are widely perceived under various scenarios, such as games, streaming media, etc. In practice, the quality of CGIs consistently suffers from poor rendering during production, inevitable compression artifacts during the transmission of multimedia applications, and low aesthetic quality resulting from poor composition and design. However, few works have been dedicated to dealing with the challenge of computer graphics image quality assessment (CGIQA). Most image quality assessment (IQA) metrics are developed for natural scene images (NSIs) and validated on databases consisting of NSIs with synthetic distortions, which are not suitable for in-the-wild CGIs. To bridge the gap between evaluating the quality of NSIs and CGIs, we construct a large-scale in-the-wild CGIQA database consisting of 6,000 CGIs (CGIQA-6k) and carry out the subjective experiment in a well-controlled laboratory environment to obtain the accurate perceptual ratings of the CGIs. Then, we propose an effective deep learning-based no-reference (NR) IQA model by utilizing both distortion and aesthetic quality representation. Experimental results show that the proposed method outperforms all other state-of-the-art NR IQA methods on the constructed CGIQA-6k database and other CGIQA-related databases. The database will be released to facilitate further research.
翻訳日:2023-05-19 19:43:36 公開日:2023-05-18
# 分布シフトを伴う時間表型データセットのためのロバストな漸進学習パイプライン

Robust incremental learning pipelines for temporal tabular datasets with distribution shifts ( http://arxiv.org/abs/2303.07925v4 )

ライセンス: Link先を確認
Thomas Wong, Mauricio Barahona(参考訳) 本稿では,時間表データセット上での回帰タスクに対する頑健な逐次学習モデルを提案する。 一般的な利用可能な表型および時系列予測モデルをビルディングブロックとして使用すると、データの分散シフトに対応するために、マシンラーニングモデルがインクリメンタルに構築される。 自己相似性(self-similarity)の概念を用いることで、このモデルは2つの基本的な機械学習モデルの構築ブロック、グラデーション強化決定木、ニューラルネットワークを使用して、複雑なモデルを構築する。 モデルは、特殊なニューラルアーキテクチャを使用しず、各モデル構築ブロックを独立して並列にトレーニングできるため、効率的である。 本モデルは,レジーム変化,脂肪尾分布,低信号対雑音比などの悪条件下でのロバストな性能を示すことが実証された。 モデルロバスト性は、異なるハイパーパラメータと複雑さの下で研究される。

In this paper, we present a robust incremental learning model for regression tasks on temporal tabular datasets. Using commonly available tabular and time-series prediction models as building blocks, a machine-learning model is built incrementally to adapt to distributional shifts in data. Using the concept of self-similarity, the model uses only two basic building blocks of machine learning models, gradient boosting decision trees and neural networks to build models for any required complexity. The model is efficient as no specialised neural architectures are used and each model building block can be independently trained in parallel. The model is demonstrated to have robust performances under adverse situations such as regime changes, fat-tailed distributions and low signal-to-noise ratios. Model robustness are studied under different hyper-parameters and complexities.
翻訳日:2023-05-19 19:43:09 公開日:2023-05-18
# 対人訓練と対人訓練の併用

Combining Adversaries with Anti-adversaries in Training ( http://arxiv.org/abs/2304.12550v2 )

ライセンス: Link先を確認
Xiaoling Zhou, Nan Yang, Ou Wu(参考訳) 敵対的トレーニングは、ディープニューラルネットワークの堅牢性を改善する効果的な学習技術である。 本研究では,異なるサンプルが異なる摂動方向(対向方向,反対向方向)と様々な摂動境界を持つことができるというより一般的な摂動範囲の下で,対向学習が深層学習モデルに与える影響を理論的に検討した。 理論的な考察から,学習における反逆者(反逆者摂動のサンプル)と反逆者(反逆者摂動のサンプル)の組み合わせは,いくつかの典型的な学習シナリオ(例えば,ノイズラベル学習と不均衡学習)において,クラス間の公正性向上と頑健性と一般化のトレードオフの改善に有効であることが示唆された。 本研究の理論的知見に基づいて,各トレーニングサンプルに異なる境界を持つ敵と反敵を結合した,より一般的な学習目標を示す。 メタ学習は組み合わせ重量を最適化するために利用される。 異なる学習シナリオにおけるベンチマークデータセットの実験により,提案手法の有効性が検証された。

Adversarial training is an effective learning technique to improve the robustness of deep neural networks. In this study, the influence of adversarial training on deep learning models in terms of fairness, robustness, and generalization is theoretically investigated under more general perturbation scope that different samples can have different perturbation directions (the adversarial and anti-adversarial directions) and varied perturbation bounds. Our theoretical explorations suggest that the combination of adversaries and anti-adversaries (samples with anti-adversarial perturbations) in training can be more effective in achieving better fairness between classes and a better tradeoff between robustness and generalization in some typical learning scenarios (e.g., noisy label learning and imbalance learning) compared with standard adversarial training. On the basis of our theoretical findings, a more general learning objective that combines adversaries and anti-adversaries with varied bounds on each training sample is presented. Meta learning is utilized to optimize the combination weights. Experiments on benchmark datasets under different learning scenarios verify our theoretical findings and the effectiveness of the proposed methodology.
翻訳日:2023-05-19 19:35:28 公開日:2023-05-18
# meta ai video similarity challengeの3位ソリューション

3rd Place Solution to Meta AI Video Similarity Challenge ( http://arxiv.org/abs/2304.11964v2 )

ライセンス: Link先を確認
Shuhei Yokoo, Peifei Zhu, Junki Ishikawa, Rintaro Hasegawa(参考訳) 本稿では,ビデオコピーの検出を目的としたコンペティションとして,Descriptor Track and Matching Track of the Meta AI Video similarity Challenge (VSC2022)の3位ソリューションを提案する。 提案手法は既存の画像コピー検出技術に基づいており,ビデオデータの性質を活用するためのいくつかの戦略が組み込まれている。 提案手法を用いることで,ベースライン結果と比較して精度が大幅に向上した(ディスクリプタトラック: 38%改善,マッチングトラック: 60%改善)。 私たちのコードはここで公開されている。 https://github.com/line/meta-ai-video- similarity-challenge-3rd-place-solution

This paper presents our 3rd place solution in both Descriptor Track and Matching Track of the Meta AI Video Similarity Challenge (VSC2022), a competition aimed at detecting video copies. Our approach builds upon existing image copy detection techniques and incorporates several strategies to exploit on the properties of video data, resulting in a simple yet powerful solution. By employing our proposed method, we achieved substantial improvements in accuracy compared to the baseline results (Descriptor Track: 38% improvement, Matching Track: 60% improvement). Our code is publicly available here: https://github.com/line/Meta-AI-Video-Similarity-Challenge-3rd-Place-Solution
翻訳日:2023-05-19 19:35:07 公開日:2023-05-18
# BNとReLUの非調和はグラディエント爆発を引き起こすが、活性化の相関によってオフセットされる

The Disharmony between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation between Activations ( http://arxiv.org/abs/2304.11692v3 )

ライセンス: Link先を確認
Inyoung Paik, Jaesik Choi(参考訳) バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。 本研究では,グラデーション爆発の発生と緩和を理論的および経験的に分析し,アクティベーション間の相関が,トレーニングを通してグラデーション爆発が持続するのを防ぐ上で重要な役割を担っていることを見出した。 最後に,我々の観測に基づいて,トレーニング不安定性を効果的に制御する適応学習率アルゴリズムを提案する。

Deep neural networks, which employ batch normalization and ReLU-like activation functions, suffer from instability in the early stages of training due to the high gradient induced by temporal gradient explosion. In this study, we analyze the occurrence and mitigation of gradient explosion both theoretically and empirically, and discover that the correlation between activations plays a key role in preventing the gradient explosion from persisting throughout the training. Finally, based on our observations, we propose an improved adaptive learning rate algorithm to effectively control the training instability.
翻訳日:2023-05-19 19:34:54 公開日:2023-05-18
# 目視: 注意に基づく読解時の人間のスキャンパス予測のためのデュアルシーケンスモデル

Eyettention: An Attention-based Dual-Sequence Model for Predicting Human Scanpaths during Reading ( http://arxiv.org/abs/2304.10784v2 )

ライセンス: Link先を確認
Shuwen Deng, David R. Reich, Paul Prasse, Patrick Haller, Tobias Scheffer and Lena A. J\"ager(参考訳) 読書中の眼球運動は、読み手の認知過程と読み上げられているテキストの特徴の両方について洞察を与える。 したがって、読書におけるスカンパスの分析は、言語学よりも認知科学からコンピュータ科学まで、様々な分野に注目が集まっている。 特に、視線追跡読取データは、機械学習に基づく言語モデルがより人間らしい言語行動を示す可能性を秘めていると論じられている。 しかし、人間の読みにおけるスカンパスのモデル化における主な課題の1つは、その二列性である: 単語は言語の文法規則に従って順序づけされるが、固定は時系列的に順序付けされる。 人間は左から右へ厳密に読み込むのではなく、単語をスキップまたは修正し、前の単語に回帰するので、言語と時間列のアライメントは自明ではない。 本稿では,単語列と固定の時系列列を同時に処理する最初の二重系列モデルであるeyettentionを開発した。 2つのシーケンスのアライメントは、クロスシーケンスアテンション機構によって達成される。 眼球運動はスキャンパスの予測において最先端のモデルを上回る。 異なる言語に対する広範囲な内部およびデータ集合の評価を提供する。 アブレーション研究と定性的分析は、モデルの振舞いの深い理解を支持する。

Eye movements during reading offer insights into both the reader's cognitive processes and the characteristics of the text that is being read. Hence, the analysis of scanpaths in reading have attracted increasing attention across fields, ranging from cognitive science over linguistics to computer science. In particular, eye-tracking-while-reading data has been argued to bear the potential to make machine-learning-based language models exhibit a more human-like linguistic behavior. However, one of the main challenges in modeling human scanpaths in reading is their dual-sequence nature: the words are ordered following the grammatical rules of the language, whereas the fixations are chronologically ordered. As humans do not strictly read from left-to-right, but rather skip or refixate words and regress to previous words, the alignment of the linguistic and the temporal sequence is non-trivial. In this paper, we develop Eyettention, the first dual-sequence model that simultaneously processes the sequence of words and the chronological sequence of fixations. The alignment of the two sequences is achieved by a cross-sequence attention mechanism. We show that Eyettention outperforms state-of-the-art models in predicting scanpaths. We provide an extensive within- and across-data set evaluation on different languages. An ablation study and qualitative analysis support an in-depth understanding of the model's behavior.
翻訳日:2023-05-19 19:34:39 公開日:2023-05-18
# deir: 識別モデルに基づく内因性報酬による効率的かつロバストな探索

DEIR: Efficient and Robust Exploration through Discriminative-Model-Based Episodic Intrinsic Rewards ( http://arxiv.org/abs/2304.10770v2 )

ライセンス: Link先を確認
Shanchuan Wan, Yujin Tang, Yingtao Tian, Tomoyuki Kaneko(参考訳) 探索は強化学習(RL)の基本的側面であり、その有効性はRLアルゴリズムの性能決定要因である。 近年の研究では、観察のノベルティから推定した内在的な報酬で探索を促進する効果が示されている。 しかし、環境の確率性とエージェントの行動の両方が観察に影響を与える可能性があるため、観察の新規性と探索の間にはギャップがある。 探索行動を正確に評価するために,エージェント探索に寄与する新規性に主にスケールする条件付き相互情報項で内在的な報酬を理論的に導出する新しい手法であるdeirを提案し,その報酬を識別的フォワードモデルで実装する。 MiniGridの標準および高度な探査作業に関する大規模な実験は、DEIRがベースラインよりもすぐれたポリシーを学習していることを示している。 プロッゲンの評価は,本質的報酬の一般化能力と一般適用性の両方を示す。 ソースコードはhttps://github.com/swan-utokyo/deirで入手できます。

Exploration is a fundamental aspect of reinforcement learning (RL), and its effectiveness is a deciding factor in the performance of RL algorithms, especially when facing sparse extrinsic rewards. Recent studies have shown the effectiveness of encouraging exploration with intrinsic rewards estimated from novelties in observations. However, there is a gap between the novelty of an observation and an exploration, as both the stochasticity in the environment and the agent's behavior may affect the observation. To evaluate exploratory behaviors accurately, we propose DEIR, a novel method in which we theoretically derive an intrinsic reward with a conditional mutual information term that principally scales with the novelty contributed by agent explorations, and then implement the reward with a discriminative forward model. Extensive experiments on both standard and advanced exploration tasks in MiniGrid show that DEIR quickly learns a better policy than the baselines. Our evaluations on ProcGen demonstrate both the generalization capability and the general applicability of our intrinsic reward. Our source code is available at https://github.com/swan-utokyo/deir.
翻訳日:2023-05-19 19:34:19 公開日:2023-05-18
# 最小コストアグリゲーションによるネットワーク量子ネットワーク

Networking quantum networks with minimum cost aggregation ( http://arxiv.org/abs/2304.08921v2 )

ライセンス: Link先を確認
Koji Azuma(参考訳) 量子インターネットは、分散量子センシングと大規模量子コンピュータネットワーク、および世界中の任意のクライアント間の量子通信を実現することを約束している。 主ビルディングブロックは、距離に関係なく、固定エラーのあるクライアント間での絡み合い、絡み合ったビット(ビット)の効率的な分布である。 実際には、これは従来の通信で現在のインターネットが行うことと類似した、複数の量子ネットワークで実現されるべきである。 しかし、長距離のebitの効率的な分布のための既存の量子リピータスキームは、線形ネットワーク上でのみ動作する。 さらに、任意の位相を持つ量子ネットワークからそのような線形ネットワークを選択する方法の処方もなかった。 本稿では,任意のトポロジで量子ネットワークを集約し,クライアントに距離に関係なく効率よくエラーを発生させる方法を提案する。 このレシピは、最小コスト集約とネットワーク結合という2つの新しい概念の組み合わせに基づいている。 我々のレシピは、ネットワーク自己組織型量子ネットワークのための量子インターネットプロトコルの設計の基礎を成し、グローバルな量子インターネットを構築する。

A quantum internet holds promise for achieving distributed quantum sensing and large-scale quantum computer networks, as well as quantum communication among arbitrary clients all over the globe. The main building block is efficient distribution of entanglement, entangled bits (ebits), between clients with fixed error, irrespective of their distance. In practice, this should be accomplished across multiple quantum networks, analogously to what the current Internet does in conventional communication. However, existing quantum repeater schemes for efficient distribution of ebits over long distances work only on linear networks. Besides, there was no prescription on how to choose such linear networks from quantum networks with arbitrary topology. Here we present a practical recipe on how to aggregate quantum networks with arbitrary topology in order to give clients ebits with fixed error efficiently, regardless of their distance. This recipe is based on combination of two new concepts of minimum cost aggregation and network concatenation. Our recipe forms the basis of designing a quantum internet protocol for networking self-organizing quantum networks to make a global-scale quantum internet.
翻訳日:2023-05-19 19:34:00 公開日:2023-05-18
# chatgptにおけるマルチステップ脱獄プライバシー攻撃

Multi-step Jailbreaking Privacy Attacks on ChatGPT ( http://arxiv.org/abs/2304.05197v2 )

ライセンス: Link先を確認
Haoran Li, Dadi Guo, Wei Fan, Mingshi Xu, Jie Huang, Fanpu Meng, Yangqiu Song(参考訳) 大規模言語モデル(llm)の急速な進歩により、下流のnlpタスクの多くは適切なプロンプトによってうまく解決できる。 モデル開発者や研究者は、LDMから有害なコンテンツを生成するのを避けるためにダイアログ安全性に懸命に取り組んでいますが、AIGC(AIGC)を人間の利益のために活用することは依然として困難です。 強力なLLMは、様々なドメインからの既存のテキストデータ(例えば、GPT-3は45TBのテキストで訓練されている)を盗んでいるため、プライベート情報がトレーニングデータに含まれるかどうか、これらのLLMとその下流アプリケーションが提供するプライバシー上の脅威を疑うのは当然である。 本稿では,OpenAI の ChatGPT と ChatGPT によって強化された New Bing によるプライバシの脅威を調査し,アプリケーション統合 LLM が新たなプライバシの脅威を引き起こすことを示す。 この目的のために,我々の主張を裏付ける広範な実験を行い,LLMのプライバシーへの影響について論じる。

With the rapid progress of large language models (LLMs), many downstream NLP tasks can be well solved given appropriate prompts. Though model developers and researchers work hard on dialog safety to avoid generating harmful content from LLMs, it is still challenging to steer AI-generated content (AIGC) for the human good. As powerful LLMs are devouring existing text data from various domains (e.g., GPT-3 is trained on 45TB texts), it is natural to doubt whether the private information is included in the training data and what privacy threats can these LLMs and their downstream applications bring. In this paper, we study the privacy threats from OpenAI's ChatGPT and the New Bing enhanced by ChatGPT and show that application-integrated LLMs may cause new privacy threats. To this end, we conduct extensive experiments to support our claims and discuss LLMs' privacy implications.
翻訳日:2023-05-19 19:33:43 公開日:2023-05-18
# H2RBox-v2:水平箱監視物体検出の促進のための対称性の導入

H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection ( http://arxiv.org/abs/2304.04403v3 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Yue Zhou, Gefan Zhang, Feipeng Da, Junchi Yan(参考訳) 自律走行やリモートセンシングなどのオブジェクト指向物体検出の需要が急速に高まっている中、(現在)より容易に利用できる水平ボックス(HBox)から回転箱(RBox)を学習するための弱い教師付き検出器H2RBoxを含むパラダイムが提案されている。 本稿では,h2rbox-v2を用いて,hbox-supervised と rbox-supervised oriented object のギャップを埋める。 具体的には、H2RBoxに似た弱い教師付きネットワーク分岐と、視覚オブジェクトに固有の対称性から向きを学習する新しい自己教師付きブランチを用いて、リフレクション対称性を利用する。 この検出器はさらに安定化され、角周期性などの周辺問題に対処するための実用的な技術によって強化される。 我々の知る限り、H2RBox-v2は指向オブジェクト検出のための最初の対称性を意識した自己監督パラダイムである。 特に,H2RBoxと比較して,低品質なアノテーションやトレーニングデータへの感受性が低い。 具体的には、H2RBox-v2は、ローテーションアノテーション訓練済みの -- ローテーションFCOSに非常に近いパフォーマンスを達成する。 1)DOTA-v1.0/1.5/2.0:72.31%/64.76%/50.33%対72.44%/64.53%/51.77% 2)HRSC:89.66%対88.99% 3)FAIR1M:42.27%対41.25%。

With the rapidly increasing demand for oriented object detection e.g. in autonomous driving and remote sensing, the recently proposed paradigm involving weakly-supervised detector H2RBox for learning rotated box (RBox) from the (currently) more readily-available horizontal box (HBox) has shown promise. This paper presents H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. Specifically, we propose to leverage the reflection symmetry via flip and rotate consistencies, using a weakly-supervised network branch similar to H2RBox, together with a novel self-supervised branch that learns orientations from the symmetry inherent in visual objects. The detector is further stabilized and enhanced by practical techniques to cope with peripheral issues e.g. angular periodicity. To our best knowledge, H2RBox-v2 is the first symmetry-aware self-supervised paradigm for oriented object detection. In particular, our method shows less susceptibility to low-quality annotation and insufficient training data compared to H2RBox. Specifically, H2RBox-v2 achieves very close performance to a rotation annotation trained counterpart -- Rotated FCOS: 1) DOTA-v1.0/1.5/2.0: 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%; 2) HRSC: 89.66% vs. 88.99%; 3) FAIR1M: 42.27% vs. 41.25%.
翻訳日:2023-05-19 19:33:21 公開日:2023-05-18
# 各種ニューラルマシン翻訳のための統一モデル学習

Unified Model Learning for Various Neural Machine Translation ( http://arxiv.org/abs/2305.02777v2 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen and Jie Zhou(参考訳) 既存のニューラルマシン翻訳(nmt)の研究は主に、異なるタスク(例えば、文書翻訳とチャット翻訳)のデータに基づくデータセット固有のモデルの開発に焦点を当てている。 データセット固有のモデルは素晴らしいパフォーマンスを達成したが、各データセットが設計、トレーニング、保存されるモデルを必要とするため、面倒である。 本研究の目的は,これらの翻訳タスクをより一般的な設定に統一することである。 具体的には,異なるタスクからのデータを扱うnmt (umlnmt) の統一モデル学習モデルである ‘versatile' モデルを提案する。 統一的な学習を通じてUMLNMTは、インテリジェントなオンデマンド翻訳を実装し、複数のタスクを共同でトレーニングすることができる。 文翻訳、文書翻訳、チャット翻訳を含む7つの広く使われている翻訳タスクにおいて、UMLNMTはデータセット固有のモデルよりも大幅に改善され、モデル展開コストが大幅に削減された。 さらにUMLNMTは、最先端のデータセット固有のメソッドよりも、競争力や性能が向上する。 人的評価と詳細な分析は,多様かつ高品質な翻訳生成へのアプローチの優位性を示すものである。 さらに,中国語と英語の文対が186kの有名なアフォリスムに関する新しいジャンル翻訳データセットを提供する。

Existing neural machine translation (NMT) studies mainly focus on developing dataset-specific models based on data from different tasks (e.g., document translation and chat translation). Although the dataset-specific models have achieved impressive performance, it is cumbersome as each dataset demands a model to be designed, trained, and stored. In this work, we aim to unify these translation tasks into a more general setting. Specifically, we propose a ``versatile'' model, i.e., the Unified Model Learning for NMT (UMLNMT) that works with data from different tasks, and can translate well in multiple settings simultaneously, and theoretically it can be as many as possible. Through unified learning, UMLNMT is able to jointly train across multiple tasks, implementing intelligent on-demand translation. On seven widely-used translation tasks, including sentence translation, document translation, and chat translation, our UMLNMT results in substantial improvements over dataset-specific models with significantly reduced model deployment costs. Furthermore, UMLNMT can achieve competitive or better performance than state-of-the-art dataset-specific methods. Human evaluation and in-depth analysis also demonstrate the superiority of our approach on generating diverse and high-quality translations. Additionally, we provide a new genre translation dataset about famous aphorisms with 186k Chinese->English sentence pairs.
翻訳日:2023-05-19 19:27:54 公開日:2023-05-18
# CLUSTSEG: ユニバーサルセグメンテーションのためのクラスタリング

CLUSTSEG: Clustering for Universal Segmentation ( http://arxiv.org/abs/2305.02187v2 )

ライセンス: Link先を確認
James Liang, Tianfei Zhou, Dongfang Liu, Wenguan Wang(参考訳) 本稿では,様々な画像分割タスク(スーパーピクセル,セマンティクス,インスタンス,panopticなど)に取り組む,一般的なトランスフォーマティブベースのフレームワークであるclustsegを提案する。 1) クラスタセンタは、タスク固有の要求(例えば、インスタンスやカテゴリレベルの特徴性)に対して、アーキテクチャを変更することなく、明確に対処できるように、異種に初期化されている。 2) クロスアテンション方式で形式化された画素クラスタ割り当ては、クラスタセンター更新と代替されるが、追加パラメータは学習しない。 これらの革新はCLUSTSEGをEMクラスタリングに密接に結び付け、上記のセグメンテーションタスクで優れた結果をもたらす透過的で強力なフレームワークにする。

We present CLUSTSEG, a general, transformer-based framework that tackles different image segmentation tasks (i.e., superpixel, semantic, instance, and panoptic) through a unified neural clustering scheme. Regarding queries as cluster centers, CLUSTSEG is innovative in two aspects:1) cluster centers are initialized in heterogeneous ways so as to pointedly address task-specific demands (e.g., instance- or category-level distinctiveness), yet without modifying the architecture; and 2) pixel-cluster assignment, formalized in a cross-attention fashion, is alternated with cluster center update, yet without learning additional parameters. These innovations closely link CLUSTSEG to EM clustering and make it a transparent and powerful framework that yields superior results across the above segmentation tasks.
翻訳日:2023-05-19 19:27:34 公開日:2023-05-18
# アンリミフォーマ:アンリミット長入力長長変圧器

Unlimiformer: Long-Range Transformers with Unlimited Length Input ( http://arxiv.org/abs/2305.01625v2 )

ライセンス: Link先を確認
Amanda Bertsch, Uri Alon, Graham Neubig, Matthew R. Gormley(参考訳) トランスの提案以来、これらのモデルは入力中の全てのトークンに出席する必要があるため、有界な入力長に限定されてきた。 本研究では,既存のトレーニング済みエンコーダデコーダ変換器をラップし,k-nearest-neighbor(kNN)インデックスにクロスアテンション計算をオフロードする一般手法であるUnlimiformerを提案する。 このkNNインデックスはGPUまたはCPUメモリのいずれかに保持され、サブ線形時間でクエリされる。この方法では、事実上無制限な入力シーケンスをインデックスすることができる。 いくつかの長期文書および書籍要約ベンチマークでUnlimiformerを評価し,BookSumデータセットから500kのトークン長入力を,テスト時に入力トランケーションなしで処理可能であることを示した。 我々は、Unlimiformerが、学習重量を増すことなく、コードを変更することなく無制限な入力に拡張することで、BARTやLongformerのような事前学習モデルを改善することを示した。 コードとモデルをhttps://github.com/abertsch72/unlimiformerで公開しています。

Since the proposal of transformers, these models have been limited to bounded input lengths, because of their need to attend to every token in the input. In this work, we propose Unlimiformer: a general approach that wraps any existing pretrained encoder-decoder transformer, and offloads the cross-attention computation to a single k-nearest-neighbor (kNN) index, while the returned kNN distances are the attention dot-product scores. This kNN index can be kept on either the GPU or CPU memory and queried in sub-linear time; this way, we can index practically unlimited input sequences, while every attention head in every decoder layer retrieves its top-k keys, instead of attending to every key. We evaluate Unlimiformer on several long-document and book-summarization benchmarks, showing that it can process even 500k token-long inputs from the BookSum dataset, without any input truncation at test time. We demonstrate that Unlimiformer improves pretrained models such as BART and Longformer by extending them to unlimited inputs without additional learned weights and without modifying their code. We make our code and models publicly available at https://github.com/abertsch72/unlimiformer .
翻訳日:2023-05-19 19:27:16 公開日:2023-05-18
# 量子強化変分オートエンコーダによるハード分布の学習

Learning hard distributions with quantum-enhanced Variational Autoencoders ( http://arxiv.org/abs/2305.01592v2 )

ライセンス: Link先を確認
Anantha Rao, Dhiraj Madan, Anupama Ray, Dhinakaran Vinayagamurthy, M.S.Santhanam(参考訳) 量子生成機械学習における重要な課題は、多体量子システムの測定の確率分布をモデル化することである。 GAN(generative adversarial network)やVAE(variantal autoencoder)のような古典的生成モデルは、高い忠実度で積状態の分布をモデル化することができるが、絡み合った状態をモデル化するために指数的な数のパラメータを必要とする。 本稿では,量子相関を用いた量子古典ハイブリッドモデルである量子拡張型VAE(QeVAE)を導入する。 QeVAEの出力分布に対する閉形式表現を提供する。 また、QeVAEは4量子ビットや8量子ビットの量子回路状態、ハールランダム状態、量子キックローター状態など、量子状態のいくつかのクラスにおいて古典的モデルよりも優れており、いくつかの状態では2倍以上の忠実さを持つことを示す。 最後に、トレーニングされたモデルは、IBMq Manila量子コンピュータ上で実行された場合、古典的モデルよりも優れていた。 我々の研究は、量子生成学習アルゴリズムの新たな応用と高次元量子状態の測定分布のキャラクタリゼーションの道を開いた。

An important task in quantum generative machine learning is to model the probability distribution of measurements of many-body quantum systems. Classical generative models, such as generative adversarial networks (GANs) and variational autoencoders (VAEs), can model the distributions of product states with high fidelity, but fail or require an exponential number of parameters to model entangled states. In this paper, we introduce a quantum-enhanced VAE (QeVAE), a generative quantum-classical hybrid model that uses quantum correlations to improve the fidelity over classical VAEs, while requiring only a linear number of parameters. We provide a closed-form expression for the output distributions of the QeVAE. We also empirically show that the QeVAE outperforms classical models on several classes of quantum states, such as 4-qubit and 8-qubit quantum circuit states, haar random states, and quantum kicked rotor states, with a more than 2x increase in fidelity for some states. Finally, we find that the trained model outperforms the classical model when executed on the IBMq Manila quantum computer. Our work paves the way for new applications of quantum generative learning algorithms and characterizing measurement distributions of high-dimensional quantum states.
翻訳日:2023-05-19 19:26:53 公開日:2023-05-18
# ARBEx:ロバスト表情学習のための信頼性バランスを考慮した注意的特徴抽出

ARBEx: Attentive Feature Extraction with Reliability Balancing for Robust Facial Expression Learning ( http://arxiv.org/abs/2305.01486v2 )

ライセンス: Link先を確認
Azmine Toushik Wasi, Karlo \v{S}erbetar, Raima Islam, Taki Hasan Rafi, Dong-Kyu Chae(参考訳) 本稿では,表情学習(fel)タスクにおけるクラス分布,バイアス,不確実性に対処すべく,信頼性のバランスをとるビジョントランスフォーマによって駆動される,新しい注意的特徴抽出フレームワークであるarbexを提案する。 ウィンドウベースのクロスアテンションvitと共に,データの事前処理とリファインメントの手法を補強し,最善のデータを絞り込む。 また,ラベル分布を持つ埋め込み空間における学習可能なアンカー点とマルチヘッド自己アテンション機構を用いて,アンカー点,注意点,信頼度値を活用し,ラベル予測のレジリエンスを高める,信頼性バランスを伴う弱い予測に対するパフォーマンスを最適化する。 適切なラベル分類とモデルの識別能力向上のために,アンカー損失を導入し,アンカーポイント間のマージンを増大させる。 さらに、トレーニング可能なマルチヘッド自己認識機構は、正確なラベルを特定する上で重要な役割を果たす。 このアプローチは予測の信頼性を向上させるための重要な要素を提供し、最終的な予測能力にかなりのポジティブな影響を及ぼす。 我々の適応モデルは、あらゆるディープニューラルネットワークと統合して、様々な認識タスクにおける課題をフォレストする。 我々の戦略は、様々な文脈で実施された広範な実験により、現在の最先端の方法論よりも優れています。

In this paper, we introduce a framework ARBEx, a novel attentive feature extraction framework driven by Vision Transformer with reliability balancing to cope against poor class distributions, bias, and uncertainty in the facial expression learning (FEL) task. We reinforce several data pre-processing and refinement methods along with a window-based cross-attention ViT to squeeze the best of the data. We also employ learnable anchor points in the embedding space with label distributions and multi-head self-attention mechanism to optimize performance against weak predictions with reliability balancing, which is a strategy that leverages anchor points, attention scores, and confidence values to enhance the resilience of label predictions. To ensure correct label classification and improve the models' discriminative power, we introduce anchor loss, which encourages large margins between anchor points. Additionally, the multi-head self-attention mechanism, which is also trainable, plays an integral role in identifying accurate labels. This approach provides critical elements for improving the reliability of predictions and has a substantial positive effect on final prediction capabilities. Our adaptive model can be integrated with any deep neural network to forestall challenges in various recognition tasks. Our strategy outperforms current state-of-the-art methodologies, according to extensive experiments conducted in a variety of contexts.
翻訳日:2023-05-19 19:26:28 公開日:2023-05-18
# 医用画像のセグメントモデルについて

Segment Anything Model for Medical Images? ( http://arxiv.org/abs/2304.14660v3 )

ライセンス: Link先を確認
Yuhao Huang, Xin Yang, Lian Liu, Han Zhou, Ao Chang, Xinrui Zhou, Rusi Chen, Junxuan Yu, Jiongquan Chen, Chaoyu Chen, Haozhe Chi, Xindi Hu, Deng-Ping Fan, Fajin Dong, Dong Ni(参考訳) Segment Anything Model (SAM) は一般画像分割のための最初の基礎モデルである。 新たなプロモータブルセグメンテーションタスクを設計し、オートマチックオールと手動プロンプトを含む2つのメインモードを通じて、事前訓練されたモデルを使用してゼロショットイメージセグメンテーションを保証した。 SAMは様々な自然な画像分割タスクにおいて印象的な結果を得た。 しかし、複雑なモダリティ、微細な解剖学的構造、不確実で複雑な物体の境界、広範囲の物体スケールにより、医療画像セグメンテーション(MIS)はより困難である。 一方、ゼロショットかつ効率的なMISは、アノテーション時間を大幅に短縮し、医用画像解析の開発を促進することができる。 したがってSAMは潜在的なツールであり、大規模な医療データセットのパフォーマンスをさらに検証する必要がある。 52のオープンソースデータセットを収集、ソートし、16のモダリティ、68のオブジェクト、553Kスライスを備えた大規模な医療セグメントデータセットを構築しました。 いわゆるCOSMOS 553Kデータセット上で,異なるSAMテスト戦略の包括的な分析を行った。 広範な実験により、SAMは医療画像の物体知覚のためのポイントやボックスなどの手動のヒントで、あらゆるモードと比較して、即時モードでのパフォーマンスが向上することが検証された。 加えて、SAMは特定のオブジェクトやモダリティにおいて顕著なパフォーマンスを示すが、不完全あるいは他の状況では完全に失敗する。 最後に,異なる因子(例えば,セグメンテーション対象のフーリエに基づく境界複雑性とサイズ)がSAMのセグメンテーション性能に与える影響を分析する。 広範な実験によりSAMのゼロショットセグメンテーション能力はMISに直接適用するには不十分であることが確認された。

The Segment Anything Model (SAM) is the first foundation model for general image segmentation. It designed a novel promotable segmentation task, ensuring zero-shot image segmentation using the pre-trained model via two main modes including automatic everything and manual prompt. SAM has achieved impressive results on various natural image segmentation tasks. However, medical image segmentation (MIS) is more challenging due to the complex modalities, fine anatomical structures, uncertain and complex object boundaries, and wide-range object scales. Meanwhile, zero-shot and efficient MIS can well reduce the annotation time and boost the development of medical image analysis. Hence, SAM seems to be a potential tool and its performance on large medical datasets should be further validated. We collected and sorted 52 open-source datasets, and built a large medical segmentation dataset with 16 modalities, 68 objects, and 553K slices. We conducted a comprehensive analysis of different SAM testing strategies on the so-called COSMOS 553K dataset. Extensive experiments validate that SAM performs better with manual hints like points and boxes for object perception in medical images, leading to better performance in prompt mode compared to everything mode. Additionally, SAM shows remarkable performance in some specific objects and modalities, but is imperfect or even totally fails in other situations. Finally, we analyze the influence of different factors (e.g., the Fourier-based boundary complexity and size of the segmented objects) on SAM's segmentation performance. Extensive experiments validate that SAM's zero-shot segmentation capability is not sufficient to ensure its direct application to the MIS.
翻訳日:2023-05-19 19:25:18 公開日:2023-05-18
# ニューラルネットワークにおける非決定論的スタック

Nondeterministic Stacks in Neural Networks ( http://arxiv.org/abs/2304.12955v2 )

ライセンス: Link先を確認
Brian DuSell(参考訳) ニューラルネットワークは、言語を処理するコンピュータシステムの画期的な改善に寄与しているが、広く使われているニューラルネットワークアーキテクチャは、構文を処理する能力の限界をまだ示している。 この問題に対処するため、以前の研究では、ニューラルネットワークにスタックデータ構造を追加し、構文とスタック間の理論的接続からインスピレーションを得ている。 しかし、これらの手法は一度に1つのパースを追跡するように設計された決定論的スタックを用いるが、構文的曖昧さは解析に非決定論的スタックを必要とするが、言語では極めて一般的である。 この論文では,非決定論的スタックをニューラルネットワークに組み込む手法を提案することで,この不一致を解消する。 本研究では,動的プログラミングアルゴリズムを用いて,指数関数数を表す非決定論的プッシュダウンオートマトンを効率的にシミュレートする微分可能なデータ構造を開発する。 このモジュールをリカレントニューラルネットワーク(RNN)とトランスフォーマーの2つの主要なアーキテクチャに組み込む。 これにより、任意の文脈自由言語に対する形式的認識能力が向上し、決定論的文脈自由言語においてもトレーニングを支援することが示される。 経験的に、非決定論的スタックを持つニューラルネットワークは、理論的に最大解析の難しい言語を含む、以前のスタック推論モデルよりもずっと効果的に文脈自由言語を学習する。 また,非決定性スタックを付加したrnnでは,非コンテキストフリーパターンであるクロスシリアル依存性の学習など,驚くほど強力な動作が可能であることも示している。 自然言語モデリングの改善を実証し,構文一般化ベンチマークの分析を行う。 この作業は、より人間的な方法で構文の使用を学ぶシステムを構築するための重要なステップである。

Human language is full of compositional syntactic structures, and although neural networks have contributed to groundbreaking improvements in computer systems that process language, widely-used neural network architectures still exhibit limitations in their ability to process syntax. To address this issue, prior work has proposed adding stack data structures to neural networks, drawing inspiration from theoretical connections between syntax and stacks. However, these methods employ deterministic stacks that are designed to track one parse at a time, whereas syntactic ambiguity, which requires a nondeterministic stack to parse, is extremely common in language. In this dissertation, we remedy this discrepancy by proposing a method of incorporating nondeterministic stacks into neural networks. We develop a differentiable data structure that efficiently simulates a nondeterministic pushdown automaton, representing an exponential number of computations with a dynamic programming algorithm. We incorporate this module into two predominant architectures: recurrent neural networks (RNNs) and transformers. We show that this raises their formal recognition power to arbitrary context-free languages, and also aids training, even on deterministic context-free languages. Empirically, neural networks with nondeterministic stacks learn context-free languages much more effectively than prior stack-augmented models, including a language with theoretically maximal parsing difficulty. We also show that an RNN augmented with a nondeterministic stack is capable of surprisingly powerful behavior, such as learning cross-serial dependencies, a well-known non-context-free pattern. We demonstrate improvements on natural language modeling and provide analysis on a syntactic generalization benchmark. This work represents an important step toward building systems that learn to use syntax in more human-like fashion.
翻訳日:2023-05-19 19:24:20 公開日:2023-05-18
# リアルタイムASLジェスチャー認識のためのメディアパイプとCNN

Mediapipe and CNNs for Real-Time ASL Gesture Recognition ( http://arxiv.org/abs/2305.05296v2 )

ライセンス: Link先を確認
Rupesh Kumar, Ashutosh Bajpai, Ayush Sinha (Galgotias college of Engineering and Technology)(参考訳) 本稿では,現代のコンピュータビジョンと機械学習のアプローチを用いた,アメリカ手話(ASL)運動のリアルタイム同定システムについて述べる。 提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。 実験の結果、提案システムは99.95%の精度で全てのASLアルファベットを検出でき、聴覚障害者のための通信機器としての可能性を示している。 提案手法は手の動きが類似した手話にも適用可能であり, 難聴者の生活の質を高める可能性がある。 全体として、本研究は、mediapipeとcnnを用いたリアルタイム手話認識の有効性を示し、コンピュータビジョンと機械学習の分野で大きな貢献をした。

This research paper describes a realtime system for identifying American Sign Language (ASL) movements that employs modern computer vision and machine learning approaches. The suggested method makes use of the Mediapipe library for feature extraction and a Convolutional Neural Network (CNN) for ASL gesture classification. The testing results show that the suggested system can detect all ASL alphabets with an accuracy of 99.95%, indicating its potential for use in communication devices for people with hearing impairments. The proposed approach can also be applied to additional sign languages with similar hand motions, potentially increasing the quality of life for people with hearing loss. Overall, the study demonstrates the effectiveness of using Mediapipe and CNN for real-time sign language recognition, making a significant contribution to the field of computer vision and machine learning.
翻訳日:2023-05-19 19:17:35 公開日:2023-05-18
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v3 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Deqing Yang, Yanghua Xiao(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-19 19:17:22 公開日:2023-05-18
# ゼロショットスケッチに基づく画像検索を改善するAdapt and Align

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2305.05144v2 )

ライセンス: Link先を確認
Shiyin Dong, Mingrui Zhu, Nannan Wang, Heng Yang, Xinbo Gao(参考訳) ゼロショットスケッチに基づく画像検索(ZS-SBIR)は、スケッチや写真のドメイン横断性や、見えない画像分布と見えない画像分布のセマンティックなギャップによって困難である。 スケッチと写真ドメイン間で共有されるコンパクトな特徴空間を学習するために、様々な側面情報と学習戦略を持つ事前訓練されたモデルを微調整する以前の方法。 しかし、これらの取り組みはドメインを適応させ、見知らぬクラスから知識を移すのに不十分である。 本稿では,これらの課題に対処する効果的な `Adapt and Align'' アプローチを提案する。 具体的には、単純で軽量なドメインアダプタを挿入して、sketchドメインの新しい抽象概念を学び、クロスドメイン表現機能を改善する。 ゼロショットシナリオにおける画像-テキスト基盤モデル(例えばクリップ)の最近の進歩に触発されて、我々は学習した画像埋め込みをよりセマンティックなテキスト埋め込みで明示的に調整し、見慣れないクラスに望ましい知識伝達を達成する。 3つのベンチマークデータセットと2つの人気のあるバックボーンに関する大規模な実験は、検索精度と柔軟性の観点から、我々の手法の優位性を実証している。

Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that is shared between the sketch and photo domains and bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective ``Adapt and Align'' approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (e.g., CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.
翻訳日:2023-05-19 19:17:03 公開日:2023-05-18
# データカーネルを用いた基礎モデルの比較

Comparing Foundation Models using Data Kernels ( http://arxiv.org/abs/2305.05126v2 )

ライセンス: Link先を確認
Brandon Duderstadt and Hayden S. Helm and Carey E. Priebe(参考訳) 自己教師付き学習とニューラルネットワークのスケーリングの最近の進歩により、基盤モデルとして知られる大規模モデルの作成が可能になった。 基礎モデルを比較する現在のパラダイムは、さまざまなベンチマークデータセットの集約メトリクスでそれらを評価することです。 このモデルの比較方法は、選択された評価メトリックに大きく依存しており、理想的なメトリックが明確でないか、利用できない状況には不適当である。 本研究では,基礎モデルの埋め込み空間形状を直接比較する手法を提案する。 本手法はランダムグラフ理論に基礎を置き,1日当たりの埋め込み類似性の有効な仮説検証を可能にする。 さらに、人口レベルのモデル比較を容易にするために、我々の方法論を拡張できることを実証する。 特に,いくつかの下流メトリックと強く相関する距離関数を備えたモデルの多様体を,フレームワークがいかに誘導できるかを示す。 基礎モデルの分類学への第一歩として,この集団レベルのモデル比較の有用性について述べる。

Recent advances in self-supervised learning and neural network scaling have enabled the creation of large models, known as foundation models, which can be easily adapted to a wide range of downstream tasks. The current paradigm for comparing foundation models involves evaluating them with aggregate metrics on various benchmark datasets. This method of model comparison is heavily dependent on the chosen evaluation metric, which makes it unsuitable for situations where the ideal metric is either not obvious or unavailable. In this work, we present a methodology for directly comparing the embedding space geometry of foundation models, which facilitates model comparison without the need for an explicit evaluation metric. Our methodology is grounded in random graph theory and enables valid hypothesis testing of embedding similarity on a per-datum basis. Further, we demonstrate how our methodology can be extended to facilitate population level model comparison. In particular, we show how our framework can induce a manifold of models equipped with a distance function that correlates strongly with several downstream metrics. We remark on the utility of this population level model comparison as a first step towards a taxonomic science of foundation models.
翻訳日:2023-05-19 19:16:36 公開日:2023-05-18
# パラメトリック知識誘導による拡張型大規模言語モデル

Augmented Large Language Models with Parametric Knowledge Guiding ( http://arxiv.org/abs/2305.04757v2 )

ライセンス: Link先を確認
Ziyang Luo, Can Xu, Pu Zhao, Xiubo Geng, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang(参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力に優れた自然言語処理(NLP)を備えている。 しかし、それらの性能は、関連するデータへの限られた露出のために専門知識を必要とするドメイン固有のタスクに最適であるかもしれない。 さらに、API経由でのみアクセス可能なほとんどのSOTA (State-of-the-art) LLMの透明性の欠如は、ドメインカスタムデータによるさらなる微調整を妨げる。 さらに、LLMの所有者にプライベートデータを提供することで、データのプライバシの問題が発生する。 これらの課題に対処するために,LLMのパラメータを変更することなく,関連する知識にアクセスするための知識誘導モジュールを備えた新しいパラメトリック知識誘導(PKG)フレームワークを提案する。 私たちのpkgはオープンソースの"ホワイトボックス"言語モデルに基づいており、llmsが必要とする知識のオフラインメモリを可能にしています。 我々は、pkgフレームワークが、事実(+7.9%)、表(+11.9%)、医療(+3.0%)、マルチモーダル(+8.1%)の知識を必要とする、ドメイン知識集約型タスクにおける「ブラックボックス」llmの性能を向上させることを実証する。

Large Language Models (LLMs) have significantly advanced natural language processing (NLP) with their impressive language understanding and generation capabilities. However, their performance may be suboptimal for domain-specific tasks that require specialized knowledge due to limited exposure to the related data. Additionally, the lack of transparency of most state-of-the-art (SOTA) LLMs, which can only be accessed via APIs, impedes further fine-tuning with domain custom data. Moreover, providing private data to the LLMs' owner leads to data privacy problems. To address these challenges, we propose the novel Parametric Knowledge Guiding (PKG) framework, which equips LLMs with a knowledge-guiding module to access relevant knowledge without altering the LLMs' parameters. Our PKG is based on open-source "white-box" language models, allowing offline memory of any knowledge that LLMs require. We demonstrate that our PKG framework can enhance the performance of "black-box" LLMs on a range of domain knowledge-intensive tasks that require factual (+7.9%), tabular (+11.9%), medical (+3.0%), and multimodal (+8.1%) knowledge.
翻訳日:2023-05-19 19:16:06 公開日:2023-05-18
# LMEye:大規模言語モデルのための対話型知覚ネットワーク

LMEye: An Interactive Perception Network for Large Language Models ( http://arxiv.org/abs/2305.03701v2 )

ライセンス: Link先を確認
Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, and Min Zhang(参考訳) GPT-4のようなスクラッチからLVLM(Large Visual Language Model)をトレーニングすることはリソース集約である。 本稿では,画像理解機能をllmに組み込むことでlvlmを実現することを目的とした,大規模言語モデル(llm)のためのプレイアンドプラグモジュール,すなわち対話型知覚ネットワーク(ipn)を提案する。 従来の手法では視覚情報をシンプルな視覚マッピングネットワークでLLMに組み込んでおり、画像特徴を線形層を介してLLMの埋め込み空間に投影する。 このようなマッピングネットワークでは、画像機能はまだ画像と人間の入力クエリの相互作用を考慮していない。 したがって、人間の意図とは無関係に得られる視覚情報は、LLMが意図追従応答を行うのに不十分である可能性がある。 IPNは、LLMが所望の視覚情報を様々な人間の指示に従って要求することを許可することでこの問題に対処する。 具体的には、IPNは単純な視覚マッピングネットワークからなり、LCMのイメージの基本的な認識を提供する。 また、LCMからの要求を取得し、リクエストベースの視覚情報インタラクションを実行し、その結果の視覚情報をそれぞれLLMに送信するモジュールも追加されている。 このようにして、LLMは人間の問い合わせを理解し、リクエストベースの視覚情報対話モジュールに対応する要求を配信し、インターリーブされたマルチモーダル情報に基づいて応答を生成する。 我々は,マルチモーダル質問応答や推論などの広範な実験を通じてIPNを評価し,従来の手法と比較して,様々なマルチモーダルタスクにおけるLVLMのゼロショット性能を著しく向上させることを示した。

Training a Large Visual Language Model (LVLM) from scratch, like GPT-4, is resource-intensive. Our paper presents a play-and-plug module for Large Language Models (LLMs), namely Interactive Perception Network (IPN), aiming to achieve a LVLM by incorporating the image understanding capability into LLMs. Previous methods incorporate visual information into LLMs with a simple visual mapping network, where the image feature is projected into the embedding space of LLMs via a linear layer. Such mapping network projects the image feature once yet does not consider the interaction between the image and the human input query. Hence, the obtained visual information with no connections with human intention may be inadequate for LLMs to make intention-following responses, which we term as static visual information. IPN addresses this issue by allowing the LLM to request the desired visual information aligned with various human instructions, which we term as the dynamic interaction between the LLM and visual information. Specifically, IPN consists of a simple visual mapping network to provide the basic perception of an image for LLMs. It also contains additional modules responsible for acquiring requests from LLMs, performing request-based visual information interaction, and transmitting the resulting interacted visual information to LLMs, respectively. In this way, LLMs act to understand the human query, deliver the corresponding request to the request-based visual information interaction module, and generate the response based on the interleaved multimodal information. We evaluate IPN through extensive experiments on multimodal question answering, reasoning, and so on, demonstrating that it significantly improves the zero-shot performance of LVLMs on various multimodal tasks compared to previous methods.
翻訳日:2023-05-19 19:15:36 公開日:2023-05-18
# DisenBooth: 主観駆動型テキスト・画像生成のためのアイデンティティ保護型ディスタングル・チューニング

DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation ( http://arxiv.org/abs/2305.03374v2 )

ライセンス: Link先を確認
Hong Chen, Yipeng Zhang, Xin Wang, Xuguang Duan, Yuwei Zhou, Wenwu Zhu(参考訳) 近年注目されているテキスト記述に基づいて、対象者のカスタマイズ画像を生成することを目的としている。 既存の手法は主に、未学習の生成モデルを微調整することであり、そこではアイデンティティ関連情報とアイデンティティ関連情報が潜伏埋め込み空間に絡み合っている。 しかし、非常に絡み合った潜在埋め込みは、主題駆動のテキスト対画像生成の失敗に繋がる可能性がある。 i) 絡み合った埋め込みに隠されたアイデンティティ非関連情報が生成過程を支配し、それによって生成された画像は、所定のテキスト記述を無視しながら、無関係情報に大きく依存する。 (ii)エンタングル埋め込みに担う同一性関連情報は適切に保存できず、生成された画像内の被写体の同一性が変化する。 この問題に対処するため,本論文では,テキスト対画像生成のためのアイデンティティ保存型不等角調整フレームワークである disenbooth を提案する。 具体的には、DisenBoothはデノナイジング過程における事前訓練された拡散モデルを微調整する。 エンタングル埋め込みを使った従来の作品とは異なり、DisenBoothは代わりに、アンタングル埋め込みを使用して、対象のアイデンティティをそれぞれ保存し、アイデンティティ非関連情報をキャプチャする。 さらに,新たに開発した弱雑音化・対比埋め込み補助調律目標を設計,異角化を実現する。 大規模な実験により,本提案フレームワークは,ID保存埋め込みを用いた主観駆動型テキスト画像生成のベースラインモデルよりも優れていた。 さらに、ID保存の埋め込みとID関連の埋め込みを組み合わせることで、DisenBoothはより世代的柔軟性と制御性を示す。

Subject-driven text-to-image generation aims to generate customized images of the given subject based on the text descriptions, which has drawn increasing attention recently. Existing methods mainly resort to finetuning a pretrained generative model, where the identity-relevant information and the identity-irrelevant information are entangled in the latent embedding space. However, the highly entangled latent embedding may lead to the failure of subject-driven text-to-image generation as follows: (i) the identity-irrelevant information hidden in the entangled embedding may dominate the generation process, resulting in the generated images heavily dependent on the irrelevant information while ignoring the given text descriptions; (ii) the identity-relevant information carried in the entangled embedding can not be appropriately preserved, resulting in identity change of the subject in the generated images. To tackle the problems, we propose DisenBooth, an identity-preserving disentangled tuning framework for subject-driven text-to-image generation in this paper. Specifically, DisenBooth finetunes the pretrained diffusion model in the denoising process. Different from previous works that utilize an entangled embedding to denoise each image, DisenBooth instead utilizes disentangled embeddings to respectively preserve the subject identity and capture the identity-irrelevant information. We further design the novel weak denoising and contrastive embedding auxiliary tuning objectives to achieve the disentanglement. Extensive experiments show that our proposed DisenBooth framework outperforms baseline models for subject-driven text-to-image generation with the identity-preserved embedding. Additionally, by combining the identity-preserved embedding and identity-irrelevant embedding, DisenBooth demonstrates more generation flexibility and controllability.
翻訳日:2023-05-19 19:15:10 公開日:2023-05-18
# 一元的進化と周期的射影測定によるスピン配置ダイナミクスの複雑さ

Complexity of spin configurations dynamics due to unitary evolution and periodic projective measurements ( http://arxiv.org/abs/2305.03334v2 )

ライセンス: Link先を確認
Heitor P. Casagrande, Bo Xing, Marcello Dalmonte, Alex Rodriguez, Vinitha Balachandran, Dario Poletti(参考訳) 本研究では,多体量子系のハミルトニアンダイナミクスを,確率的セルオートマトンダイナミクスに繋がる周期的投影計測により検討する。 一連の測定値が与えられたとき、主成分分析を行うことで、それらのダイナミクスを特徴付ける。 システムのほぼ完全な記述に必要な主成分の数は、我々がpca複雑性と呼ぶ複雑性の尺度であり、ハミルトニアンパラメータと測定間隔の関数として研究されている。 我々は、ランダム局所ハミルトニアンや翻訳不変なランダム局所ハミルトニアンを含む相互作用、非相互作用、可積分および非可積分系を記述する異なるハミルトニアンを考える。 これらすべてのシナリオにおいて,PCAの複雑性は高原に近づく前に急速に増加する。 pca複雑性のダイナミクスは、ハミルトニアンパラメーターおよび測定プロトコルの関数として定量的および定性的に変化する。 重要なことに、pca複雑性のダイナミクスは、非可積分モデルの場合のように、単純な局所ダイナミクスを欠くモデルの特定のシステムパラメータにかなり敏感な振る舞いが存在する。 特に,システムパラメータに対するPCA複雑性ダイナミクスの感度を予測するために,局所力学と測定方向を考慮したメリットの指標を指摘する。

We study the Hamiltonian dynamics of a many-body quantum system subjected to periodic projective measurements which leads to probabilistic cellular automata dynamics. Given a sequence of measured values, we characterize their dynamics by performing a principal component analysis. The number of principal components required for an almost complete description of the system, which is a measure of complexity we refer to as PCA complexity, is studied as a function of the Hamiltonian parameters and measurement intervals. We consider different Hamiltonians that describe interacting, non-interacting, integrable, and non-integrable systems, including random local Hamiltonians and translational invariant random local Hamiltonians. In all these scenarios, we find that the PCA complexity grows rapidly in time before approaching a plateau. The dynamics of the PCA complexity can vary quantitatively and qualitatively as a function of the Hamiltonian parameters and measurement protocol. Importantly, the dynamics of PCA complexity present behavior that is considerably less sensitive to the specific system parameters for models which lack simple local dynamics, as is often the case in non-integrable models. In particular, we point out a figure of merit that considers the local dynamics and the measurement direction to predict the sensitivity of the PCA complexity dynamics to the system parameters.
翻訳日:2023-05-19 19:14:40 公開日:2023-05-18
# リンドブラッドダイナミクスのシミュレーションのための変分量子アルゴリズム

Variational Quantum Algorithms for Simulation of Lindblad Dynamics ( http://arxiv.org/abs/2305.02815v2 )

ライセンス: Link先を確認
Tasneem Watad and Netanel H. Lindner(参考訳) 時間発展型マルコフ開量子系と量子可観測器に対するリンドブラッドマスター方程式とその共役をシミュレートする変分型古典量子アルゴリズムを提案する。 本手法は、密度行列と量子観測可能な量子超状態の直接表現に基づいている。 我々は、解のユニタリおよび非ユニタリダイナミクスを効率的に捉える低深さ変分量子回路を設計し最適化する。 我々は,このアルゴリズムを異なるシステムサイズでベンチマークし,テストし,近未来のハードウェアで実用性を示す。

We introduce a variational hybrid classical-quantum algorithm to simulate the Lindblad master equation and its adjoint for time-evolving Markovian open quantum systems and quantum observables. Our method is based on a direct representation of density matrices and quantum observables as quantum superstates. We design and optimize low-depth variational quantum circuits that efficiently capture the unitary and non-unitary dynamics of the solutions. We benchmark and test the algorithm on different system sizes, showing its potential for utility with near-future hardware.
翻訳日:2023-05-19 19:13:58 公開日:2023-05-18
# DRew:遅延で動的にリワイヤされたメッセージパッシング

DRew: Dynamically Rewired Message Passing with Delay ( http://arxiv.org/abs/2305.08018v2 )

ライセンス: Link先を確認
Benjamin Gutteridge, Xiaowen Dong, Michael Bronstein, Francesco Di Giovanni(参考訳) メッセージパッシングニューラルネットワーク(mpnn)は、長距離インタラクションに依存するタスクのパフォーマンス低下を引き起こす過剰スワッシング現象に苦しむことが示されている。 これは主に、ノードの直近の近傍でローカルにのみ発生するメッセージパッシングに起因している。 リワイリングアプローチは、グラフを「より接続」し、長距離タスクに適していると思われるが、遠方のノードを各層で瞬時に通信させるので、グラフ上の距離によって与えられる帰納的バイアスを失うことが多い。 本稿では,いずれのmpnnアーキテクチャにも適用可能な,グラフの段階的高密度化を保証するためのレイヤ依存リワイリングを実現するフレームワークを提案する。 また,各層と相互距離に依存するノード間の接続をスキップする遅延機構を提案する。 提案手法を複数の長距離タスクで検証し,グラフトランスフォーマーやマルチホップmpnnよりも優れていることを示す。

Message passing neural networks (MPNNs) have been shown to suffer from the phenomenon of over-squashing that causes poor performance for tasks relying on long-range interactions. This can be largely attributed to message passing only occurring locally, over a node's immediate neighbours. Rewiring approaches attempting to make graphs 'more connected', and supposedly better suited to long-range tasks, often lose the inductive bias provided by distance on the graph since they make distant nodes communicate instantly at every layer. In this paper we propose a framework, applicable to any MPNN architecture, that performs a layer-dependent rewiring to ensure gradual densification of the graph. We also propose a delay mechanism that permits skip connections between nodes depending on the layer and their mutual distance. We validate our approach on several long-range tasks and show that it outperforms graph Transformers and multi-hop MPNNs.
翻訳日:2023-05-19 19:07:35 公開日:2023-05-18
# マッチング特徴抽出を用いた異種エッジデバイスのためのフェデレーション学習型産業健康診断

A Federated Learning-based Industrial Health Prognostics for Heterogeneous Edge Devices using Matched Feature Extraction ( http://arxiv.org/abs/2305.07854v2 )

ライセンス: Link先を確認
Anushiya Arunan, Yan Qin, Xiaoli Li, and Chau Yuen(参考訳) データ駆動型産業健康予測は、正確で信頼性の高い予測モデルを開発するために豊富な訓練データを必要とする。 しかし、厳格なデータプライバシー法とエッジ産業データの豊富さは、分散データ利用を必要とする。 したがって,産業保健分野は,分散型・プライバシー保全型学習手法であるフェデレーション学習(fl)から著しく利益を得るのに適している。 しかしながら,ヘテロジニアスデータから学習したモデルパラメータを有意義に集約し,ハイパフォーマンスなフェデレーションモデルを形成するという複雑さから,flベースの健康予測タスクはほとんど研究されていない。 特に、異質な分解機構と不等なデータセットサイズに由来するエッジデバイス間のデータの不均一性は、正確なフェデレーションモデルを開発する上で重要な統計的課題となる。 特徴類似性マッチングパラメータアグリゲーションアルゴリズムを用いて、異種エッジデータから識別的に学習するFLベースの健康予後モデルを提案する。 このアルゴリズムは局所的に訓練された不均一なモデルを探索し、まずニューロンと確率論的に類似した特徴抽出関数をマッチングし、それらを選択的に平均化し、フェデレートされたモデルパラメータを形成する。 このアルゴリズムは、従来の座標方向ニューロンの平均化とは対照的に、類似したニューロンを平均するだけであるため、局所モデルの異なる特徴抽出器は、結果のフェデレーションモデルへの希釈を少なくする。 ターボファンエンジンのLiイオン電池の循環劣化データと非循環劣化データの両方を用いて, 提案手法は, それぞれ44.5\%, 39.3\%の精度向上を達成できることを示した。

Data-driven industrial health prognostics require rich training data to develop accurate and reliable predictive models. However, stringent data privacy laws and the abundance of edge industrial data necessitate decentralized data utilization. Thus, the industrial health prognostics field is well suited to significantly benefit from federated learning (FL), a decentralized and privacy-preserving learning technique. However, FL-based health prognostics tasks have hardly been investigated due to the complexities of meaningfully aggregating model parameters trained from heterogeneous data to form a high performing federated model. Specifically, data heterogeneity among edge devices, stemming from dissimilar degradation mechanisms and unequal dataset sizes, poses a critical statistical challenge for developing accurate federated models. We propose a pioneering FL-based health prognostic model with a feature similarity-matched parameter aggregation algorithm to discriminatingly learn from heterogeneous edge data. The algorithm searches across the heterogeneous locally trained models and matches neurons with probabilistically similar feature extraction functions first, before selectively averaging them to form the federated model parameters. As the algorithm only averages similar neurons, as opposed to conventional naive averaging of coordinate-wise neurons, the distinct feature extractors of local models are carried over with less dilution to the resultant federated model. Using both cyclic degradation data of Li-ion batteries and non-cyclic data of turbofan engines, we demonstrate that the proposed method yields accuracy improvements as high as 44.5\% and 39.3\% for state-of-health estimation and remaining useful life estimation, respectively.
翻訳日:2023-05-19 19:07:00 公開日:2023-05-18
# 教師なし文埋め込みのためのインスタンス平滑化コントラスト学習

Instance Smoothed Contrastive Learning for Unsupervised Sentence Embedding ( http://arxiv.org/abs/2305.07424v2 )

ライセンス: Link先を確認
Hongliang He, Junlei Zhang, Zhenzhong Lan, Yue Zhang(参考訳) Unsup-SimCSEのような対照的な学習法は、教師なし文の埋め込みを学習する際に最先端(SOTA)のパフォーマンスを達成した。 しかし,従来の研究では,コントラスト学習に用いられた組込みは1文のインスタンスからのみ派生しており,これらの組込みをインスタンスレベルの組込みと呼ぶ。 言い換えれば、各埋め込みは独自の独自のクラスと見なされ、一般化性能を損なう可能性がある。 本研究では,特徴空間における埋め込みの境界を平滑化するために,is-cse(instance smoothing contrastive sentence embedded)を提案する。 具体的には、動的メモリバッファからセマンティックな類似性に応じて埋め込みを検索し、正の埋め込みグループを得る。 次に、グループ内の埋め込みを自己注意操作で集約し、スムーズなインスタンス埋め込みを生成し、さらなる分析を行う。 我々は,標準意味テキスト類似度(STS)タスクについて,平均78.30%,79.47%,77.73%,および79.42%のSpearmanのBERTベース,BERTベース,RoBERTaベース,RoBERTa-largeに対する相関を,Unsup-SimCSEと比較して2.05%,1.06%,1.16%,0.52%改善した。

Contrastive learning-based methods, such as unsup-SimCSE, have achieved state-of-the-art (SOTA) performances in learning unsupervised sentence embeddings. However, in previous studies, each embedding used for contrastive learning only derived from one sentence instance, and we call these embeddings instance-level embeddings. In other words, each embedding is regarded as a unique class of its own, whichmay hurt the generalization performance. In this study, we propose IS-CSE (instance smoothing contrastive sentence embedding) to smooth the boundaries of embeddings in the feature space. Specifically, we retrieve embeddings from a dynamic memory buffer according to the semantic similarity to get a positive embedding group. Then embeddings in the group are aggregated by a self-attention operation to produce a smoothed instance embedding for further analysis. We evaluate our method on standard semantic text similarity (STS) tasks and achieve an average of 78.30%, 79.47%, 77.73%, and 79.42% Spearman's correlation on the base of BERT-base, BERT-large, RoBERTa-base, and RoBERTa-large respectively, a 2.05%, 1.06%, 1.16% and 0.52% improvement compared to unsup-SimCSE.
翻訳日:2023-05-19 19:06:11 公開日:2023-05-18
# 相対的事実の一貫性について

On the consistency of relative facts ( http://arxiv.org/abs/2305.07343v2 )

ライセンス: Link先を確認
Eric G. Cavalcanti, Andrea Di Biagio, Carlo Rovelli(参考訳) ローレンスらは「相対的な事実は存在しない」ことを示し、「関係量子力学は量子力学とは相容れない」という議論を提示した。 この議論は、拡張されたウィグナーの友人シナリオにおける測定結果によって満足される制約間のGHZのような矛盾に基づいている。 ここでは議論の強化版を示し、ローレンスらの主張とは対照的に、これらの主張が相対的事実の理論の一貫性に矛盾しない理由を示す。 むしろ、この議論を考えることは、RQMのような相対的な事実の理論をどう考えるべきかを明確にする助けとなる。

Lawrence et al. have presented an argument purporting to show that "relative facts do not exist" and, consequently, "Relational Quantum Mechanics is incompatible with quantum mechanics". The argument is based on a GHZ-like contradiction between constraints satisfied by measurement outcomes in an extended Wigner's friend scenario. Here we present a strengthened version of the argument, and show why, contrary to the claim by Lawrence et al., these arguments do not contradict the consistency of a theory of relative facts. Rather, considering this argument helps clarify how one should not think about a theory of relative facts, like RQM.
翻訳日:2023-05-19 19:05:44 公開日:2023-05-18
# 制御微分方程式に基づくホークス過程

Hawkes Process Based on Controlled Differential Equations ( http://arxiv.org/abs/2305.07031v2 )

ライセンス: Link先を確認
Minju Jo, Seungji Kook, Noseong Park(参考訳) hawkesプロセスは、社会的拡散のようないくつかの分野におけるシーケンシャルな事象、すなわち発生ダイナミクスの発生をモデル化するための一般的なフレームワークである。 現実のシナリオでは、イベント間の地域間時間は不規則である。 しかし、既存のニューラルネットワークベースのホークスプロセスモデルだけでなく、 i) 複雑な不規則な力学を捉えることができず 二 主に通常の離散入力用に設計されたニューラルネットワークに基づいており、イベントのログライクな状態を計算するためにヒューリスティックスを利用すること。 そこで本研究では,連続RNNに類似した神経制御微分方程式(Neural Control differential equation,neural CDE)技術を用いて,制御微分方程式(HP-CDE)に基づくホークス過程の概念を提案する。 HP-CDEはデータを読み続ける。 一 不規則な時系列データセットは、その不均一な時間空間を適切に保存することができ、 二 ログライクフッドを正確に計算することができること。 さらに、複雑な人間の行動ダイナミクスをモデル化するために、ホークス過程とニューラルcdの両方がまず開発されるので、ニューラルcdeベースのホークス過程はそのような発生ダイナミクスのモデリングに成功している。 実世界の4つのデータセットを用いた実験では,提案手法は既存の手法を非自明なマージンで上回っている。

Hawkes processes are a popular framework to model the occurrence of sequential events, i.e., occurrence dynamics, in several fields such as social diffusion. In real-world scenarios, the inter-arrival time among events is irregular. However, existing neural network-based Hawkes process models not only i) fail to capture such complicated irregular dynamics, but also ii) resort to heuristics to calculate the log-likelihood of events since they are mostly based on neural networks designed for regular discrete inputs. To this end, we present the concept of Hawkes process based on controlled differential equations (HP-CDE), by adopting the neural controlled differential equation (neural CDE) technology which is an analogue to continuous RNNs. Since HP-CDE continuously reads data, i) irregular time-series datasets can be properly treated preserving their uneven temporal spaces, and ii) the log-likelihood can be exactly computed. Moreover, as both Hawkes processes and neural CDEs are first developed to model complicated human behavioral dynamics, neural CDE-based Hawkes processes are successful in modeling such occurrence dynamics. In our experiments with 4 real-world datasets, our method outperforms existing methods by non-trivial margins.
翻訳日:2023-05-19 19:05:34 公開日:2023-05-18
# 基礎モデルに基づくシステム設計のためのフレームワーク

A Framework for Designing Foundation Model based Systems ( http://arxiv.org/abs/2305.05352v2 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな注目を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についてはほとんど理解されていない。 そこで本稿では,基礎モデルに基づくシステムの特徴と基礎モデルに基づくシステムの設計オプションを分類・比較する基礎モデルに基づくシステムの分類手法を提案する。 我々の分類学は、基礎モデル事前訓練と微調整、基礎モデルベースシステムのアーキテクチャ設計、責任AI設計の3つのカテゴリから構成される。 この分類は、基礎モデルに基づくシステムを設計する際に重要な設計決定を行うための具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted significant attention on foundation models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is little understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and design options of foundation model based systems. Our taxonomy comprises three categories: foundation model pretraining and fine-tuning, architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy provides concrete guidance for making major design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2023-05-19 19:05:15 公開日:2023-05-18
# 雑音下における改良ガウスニュートンアルゴリズム

Modified Gauss-Newton Algorithms under Noise ( http://arxiv.org/abs/2305.10634v1 )

ライセンス: Link先を確認
Krishna Pillutla, Vincent Roulet, Sham Kakade, Zaid Harchaoui(参考訳) Gauss-Newton法とその確率的バージョンは機械学習や信号処理に広く使われている。 それらの非滑らかなアルゴリズムである修正ガウスニュートンあるいはプロキシ線形アルゴリズムは、大規模統計設定における勾配降下と比較して、対照的な結果をもたらす可能性がある。 これら2つのアルゴリズムの対比性能を定型化された統計例で理論的に検討し,構造化予測を含む学習問題を実験的に検討した。 理論的には、修正ガウス・ニュートン法の二次収束が統計的雑音下で活発である状態について述べる。 実験では,非滑らかな複合目的を最小化するために,確率的 (sub) 勾配降下の汎用性を示す。

Gauss-Newton methods and their stochastic version have been widely used in machine learning and signal processing. Their nonsmooth counterparts, modified Gauss-Newton or prox-linear algorithms, can lead to contrasting outcomes when compared to gradient descent in large-scale statistical settings. We explore the contrasting performance of these two classes of algorithms in theory on a stylized statistical example, and experimentally on learning problems including structured prediction. In theory, we delineate the regime where the quadratic convergence of the modified Gauss-Newton method is active under statistical noise. In the experiments, we underline the versatility of stochastic (sub)-gradient descent to minimize nonsmooth composite objectives.
翻訳日:2023-05-19 17:40:42 公開日:2023-05-18
# 景観の平滑化がSGDのシグナルを高める: 単一指標モデル学習のための最適サンプル複雑度

Smoothing the Landscape Boosts the Signal for SGD: Optimal Sample Complexity for Learning Single Index Models ( http://arxiv.org/abs/2305.10633v1 )

ライセンス: Link先を確認
Alex Damian, Eshaan Nichani, Rong Ge, Jason D. Lee(参考訳) 我々は、d$次元における等方ガウス分布に関して、1つの指数モデル$\sigma(w^\star \cdot x)$を学習するタスクに焦点を当てる。 先行研究により、$w^\star$ の学習のサンプル複雑性は、リンク関数 $\sigma$ の情報指数 $k^\star$ によって制御されていることが示され、これは最初の非零ヘルマイト係数 $\sigma$ の指標として定義される。 Ben Arousら (2021) は、$n \gtrsim d^{k^\star-1}$サンプルが$w^\star$を学習するのに十分であることを示した。 しかし、勾配に基づく手法のcsq下限は、$n \gtrsim d^{k^\star/2}$ のサンプルのみを示す。 本研究では,平滑化損失に対するオンラインsgdが$n \gtrsim d^{k^\star/2}$サンプルで$w^\star$を学習することを示すことにより,上界と下界のギャップを閉じる。 また、テンソルPCAの統計的解析と、ミニバッチSGDの暗黙の正規化効果を経験的損失に関連付ける。

We focus on the task of learning a single index model $\sigma(w^\star \cdot x)$ with respect to the isotropic Gaussian distribution in $d$ dimensions. Prior work has shown that the sample complexity of learning $w^\star$ is governed by the information exponent $k^\star$ of the link function $\sigma$, which is defined as the index of the first nonzero Hermite coefficient of $\sigma$. Ben Arous et al. (2021) showed that $n \gtrsim d^{k^\star-1}$ samples suffice for learning $w^\star$ and that this is tight for online SGD. However, the CSQ lower bound for gradient based methods only shows that $n \gtrsim d^{k^\star/2}$ samples are necessary. In this work, we close the gap between the upper and lower bounds by showing that online SGD on a smoothed loss learns $w^\star$ with $n \gtrsim d^{k^\star/2}$ samples. We also draw connections to statistical analyses of tensor PCA and to the implicit regularization effects of minibatch SGD on empirical losses.
翻訳日:2023-05-19 17:40:29 公開日:2023-05-18
# マルチスケール特徴ピラミッドネットワークと2重注意機構を用いた腹部mri画像分割アルゴリズム

A Subabdominal MRI Image Segmentation Algorithm Based on Multi-Scale Feature Pyramid Network and Dual Attention Mechanism ( http://arxiv.org/abs/2305.10631v1 )

ライセンス: Link先を確認
Yu Xiao, Xin Yang, Sijuan Huang, Yongkai Liu, Lihua Guo(参考訳) 本研究の目的は, 直腸癌治療における腹部下MRI像の分割において, U-Netの複数の畳み込み操作とプール操作により, 符号化と復号のセマンティックギャップと不一致を解消することであった。 マルチスケール特徴ピラミッドネットワークとデュアルアテンション機構に基づき,mri画像分割を提案する。 私たちの革新は2つのモジュールの設計です 1)エンコーディングには拡張畳み込みとマルチスケール特徴ピラミッドネットワークを用い,セマンティックギャップを回避する。 2) u-netの空間情報を維持し,誤用を減らすために,二重注意機構が設計されている。 腹腔下MRI画像データセットを用いた実験では,提案手法は他の方法よりも優れた性能を示す。 結論として,マルチスケール機能ピラミッドネットワークは意味的ギャップを低減し,デュアルアテンション機構はエンコーディングとデコードの間の特徴をアライメントすることができる。

This study aimed to solve the semantic gap and misalignment issue between encoding and decoding because of multiple convolutional and pooling operations in U-Net when segmenting subabdominal MRI images during rectal cancer treatment. A MRI Image Segmentation is proposed based on a multi-scale feature pyramid network and dual attention mechanism. Our innovation is the design of two modules: 1) a dilated convolution and multi-scale feature pyramid network are used in the encoding to avoid the semantic gap. 2) a dual attention mechanism is designed to maintain spatial information of U-Net and reduce misalignment. Experiments on a subabdominal MRI image dataset show the proposed method achieves better performance than others methods. In conclusion, a multi-scale feature pyramid network can reduce the semantic gap, and the dual attention mechanism can make an alignment of features between encoding and decoding.
翻訳日:2023-05-19 17:40:04 公開日:2023-05-18
# 言語モデルと世界モデル: 身体的経験と言語モデル

Language Models Meet World Models: Embodied Experiences Enhance Language Models ( http://arxiv.org/abs/2305.10626v1 )

ライセンス: Link先を確認
Jiannan Xiang, Tianhua Tao, Yi Gu, Tianmin Shu, Zirui Wang, Zichao Yang, Zhiting Hu(参考訳) 大規模言語モデル(lms)は多くのタスクにおいて顕著な能力を示したが、オブジェクトの永続性理解や家事活動の計画など、物理的な環境での単純な推論や計画に苦しむことが多い。 この制限は、LMが書かれたテキストのみに基づいて訓練され、必須の具体的知識とスキルを欠いているという事実から生じる。 本稿では,lmsを世界モデルで微調整し,汎用言語能力を維持しつつ多様な具体的知識を得るための新しいパラダイムを提案する。 提案手法は,世界モデル,特に物理世界のシミュレータ(VirtualHome)に具現化エージェントを配置し,目標指向計画とランダム探索の両方を通じて,多種多様な具現化体験を取得する。 これらの経験は、lmsを微調整して、物理的世界での推論と行動のさまざまな能力、例えば、計画と完了目標、オブジェクトの永続性と追跡などを教えるために使用される。 さらに、特定のシミュレーションに縛られるのではなく、タスク間での具体的知識の一般化を容易にする微調整中のLMの一般性を維持することが望ましい。 そこで我々は,選択的な重み更新のための古典的弾性重み強化(EWC)と,学習効率向上のためのローランクアダプタ(LoRA)を併用する。 広範な実験により、18のダウンストリームタスクにおけるベースlmsを平均64.28%向上させた。 特に、我々のアプローチによって強化された小さな lms (1.3b と 6b) は、はるかに大きな lms (例えば chatgpt) よりも優れています。

While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical elastic weight consolidation (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B and 6B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
翻訳日:2023-05-19 17:39:49 公開日:2023-05-18
# ディープニューラルネットワークにおける局所不安定の測定と緩和

Measuring and Mitigating Local Instability in Deep Neural Networks ( http://arxiv.org/abs/2305.10625v1 )

ライセンス: Link先を確認
Arghya Datta, Subhrangshu Nandi, Jingcheng Xu, Greg Ver Steeg, He Xie, Anoop Kumar, Aram Galstyan(参考訳) Deep Neural Networks(DNN)は、数百万のユーザが依存する現実世界のサービスの不可欠なコンポーネントになりつつある。 残念なことに、これらのシステムのアーキテクトは、ランダム初期化のような無関係な詳細が予期せぬほどトレーニングされたシステムのアウトプットを変え、潜在的に悲惨な結果をもたらす可能性があるため、信頼性の高いパフォーマンスを保証することが困難である。 トレーニング過程における確率性の結果,モデルが同一データ上で再トレーニングされた場合でも,モデルの予測がどのように変化するかを調べることで,モデル安定性の問題を定式化する。 自然言語理解(NLU)タスクでは,クエリのかなりの部分の予測が不安定であることがわかった。 この現象を定量化するために、トレーニング実行中やトレーニング実行中の各サンプル毎の ‘label entropy'' のような原則付きメトリクスを定式化します。 興味深いことに、不安定な予測はランダムに現れず、むしろデータ固有の方法でクラスタ化されているように見える。 安定性を向上させるためにデータ非依存正規化法を研究し,局所安定性推定を活用できる新しいデータ中心法を提案する。 我々の局所化されたデータ固有の緩和戦略は、データ非依存の手法を劇的に上回っており、計算コストのごく一部で、センシングによって達成されたゴールド標準の90%以下である。

Deep Neural Networks (DNNs) are becoming integral components of real world services relied upon by millions of users. Unfortunately, architects of these systems can find it difficult to ensure reliable performance as irrelevant details like random initialization can unexpectedly change the outputs of a trained system with potentially disastrous consequences. We formulate the model stability problem by studying how the predictions of a model change, even when it is retrained on the same data, as a consequence of stochasticity in the training process. For Natural Language Understanding (NLU) tasks, we find instability in predictions for a significant fraction of queries. We formulate principled metrics, like per-sample ``label entropy'' across training runs or within a single training run, to quantify this phenomenon. Intriguingly, we find that unstable predictions do not appear at random, but rather appear to be clustered in data-specific ways. We study data-agnostic regularization methods to improve stability and propose new data-centric methods that exploit our local stability estimates. We find that our localized data-specific mitigation strategy dramatically outperforms data-agnostic methods, and comes within 90% of the gold standard, achieved by ensembling, at a fraction of the computational cost
翻訳日:2023-05-19 17:39:21 公開日:2023-05-18
# 球面負のパーセプトロンの解の星形の空間

The star-shaped space of solutions of the spherical negative perceptron ( http://arxiv.org/abs/2305.10623v1 )

ライセンス: Link先を確認
Brandon Livio Annesi, Clarissa Lauditi, Carlo Lucibello, Enrico M. Malatesta, Gabriele Perugini, Fabrizio Pittorino and Luca Saglietti(参考訳) ニューラルネットワークのランドスケープに関する実証研究により、低エネルギーの配置は、遠方解のペア間のゼロエネルギー経路を構成できる複雑な連結構造でしばしば見られることが示されている。 ここでは,非凸型ニューラルネットワークモデルである球面負パーセプトロンを連続的制約満足度問題として考察する。 本稿では,平衡からサンプリングされた頂点構成を持つ単純系におけるエネルギー障壁の一般解析法を提案する。 過パラメータ化状態において、解多様体は単純な接続性を示す。 広い範囲の最適化ダイナミクスに魅力的な大きな測地線凸成分が存在する。 この領域内では、他のほとんどの解と測地的に接続された非定型的ロバストな解のサブセットが同定され、星形の幾何学が生まれる。 我々は、接続された解空間の組織を解析的に特徴付け、上述した単純な測地接続が断ち切れる大きな制約密度で遷移の数値的な証拠を示す。

Empirical studies on the landscape of neural networks have shown that low-energy configurations are often found in complex connected structures, where zero-energy paths between pairs of distant solutions can be constructed. Here we consider the spherical negative perceptron, a prototypical non-convex neural network model framed as a continuous constraint satisfaction problem. We introduce a general analytical method for computing energy barriers in the simplex with vertex configurations sampled from the equilibrium. We find that in the over-parameterized regime the solution manifold displays simple connectivity properties. There exists a large geodesically convex component that is attractive for a wide range of optimization dynamics. Inside this region we identify a subset of atypically robust solutions that are geodesically connected with most other solutions, giving rise to a star-shaped geometry. We analytically characterize the organization of the connected space of solutions and show numerical evidence of a transition, at larger constraint densities, where the aforementioned simple geodesic connectivity breaks down.
翻訳日:2023-05-19 17:38:58 公開日:2023-05-18
# 非マルコフ進化が量子熱力学のキャラクタリゼーションに及ぼす影響

Impact of non-Markovian evolution on characterizations of quantum thermodynamics ( http://arxiv.org/abs/2305.10622v1 )

ライセンス: Link先を確認
Devvrat Tiwari and Subhashish Banerjee(参考訳) 本研究では,非マルコフ進化がエルゴトロピーやパワーといった量子熱力学の顕著な特性に与える影響について考察する。 これらは量子速度制限時間の挙動によってベンチマークされる。 本稿では,幾何学的,特に量子フィッシャーとウィグナー・ヤナゼ情報量測定と物性に基づく測定,特に相対純度測度とコヒーレンス測度の相対エントロピーを用いて,量子速度制限時間を計算する。 非マルコフ振幅減衰進化を示すボソニック浴中の量子ビットの単純な非マルコフ模型は、有限な初期エルゴトロピーを持つ量子熱力学の観点から量子バッテリーとして観察することができる。 この目的のために,量子速度制限時間の物理特性に基づく測定値とエルゴトロピーのコヒーレント成分との関係を考察する。 非マルコフ進化は量子電池の充電過程に影響を与えることが示されている。 さらに、量子電池の放電充電サイクルと、量子速度制限時間の幾何学的測定との接続を観測する。

Here we study the impact of non-Markovian evolution on prominent characteristics of quantum thermodynamics, such as ergotropy and power. These are benchmarked by the behavior of the quantum speed limit time. We make use of both geometric-based, particularly quantum Fisher and Wigner-Yanase information metric, and physical properties based-measures, particularly relative purity measure and relative entropy of coherence measure, to compute the quantum speed limit time. A simple non-Markovian model of a qubit in a bosonic bath exhibiting non-Markovian amplitude damping evolution is considered, which, from the quantum thermodynamic perspective with finite initial ergotropy, can be envisaged as a quantum battery. To this end, we explore the connections between the physical properties-based measures of quantum speed limit time and the coherent component of ergotropy. The non-Markovian evolution is shown to impact the recharging process of the quantum battery. Further, a connection between the discharging-charging cycle of the quantum battery and the geometric measures of quantum speed limit time is observed.
翻訳日:2023-05-19 17:38:42 公開日:2023-05-18
# CNN圧縮の評価基準

Evaluation Metrics for CNNs Compression ( http://arxiv.org/abs/2305.10616v1 )

ライセンス: Link先を確認
Abanoub Ghobrial, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワークの圧縮に関するさまざまな技術を開発する研究は数多く行われているが、コミュニティでは、異なる圧縮技術の評価と比較の標準化された方法が欠落しているようだ。 本稿では,評価指標のレビューを提供することで,ニューラルネットワーク圧縮の標準化に寄与する。 これらのメトリクスは、標準化されたニューラルネットワーク圧縮ベンチであるNetZIPに実装されている。 対象分類,オブジェクト検出,エッジデバイスに着目した3つのケーススタディを用いてレビューした指標をいくつか紹介する。

There is a lot of research effort devoted by researcher into developing different techniques for neural networks compression, yet the community seems to lack standardised ways of evaluating and comparing between different compression techniques, which is key to identifying the most suitable compression technique for different applications. In this paper we contribute towards standardisation of neural network compression by providing a review of evaluation metrics. These metrics have been implemented into NetZIP, a standardised neural network compression bench. We showcase some of the metrics reviewed using three case studies focusing on object classification, object detection, and edge devices.
翻訳日:2023-05-19 17:38:22 公開日:2023-05-18
# ML-SUPERB:多言語音声ユニバーサルパフォーマンスベンチマーク

ML-SUPERB: Multilingual Speech Universal PERformance Benchmark ( http://arxiv.org/abs/2305.10615v1 )

ライセンス: Link先を確認
Jiatong Shi, Dan Berrebbi, William Chen, Ho-Lam Chung, En-Pei Hu, Wei Ping Huang, Xuankai Chang, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe(参考訳) 音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。 しかし、SUPERBはその評価において主に英語を話す。 本稿では,143言語をカバーする多言語スーパーブ(ml-superb)について述べる。 SUPERBのコンセプトに従って、ML-SUPERBは凍結SSL機能を使用し、浅い下流モデルを学ぶことで、多言語タスクのためのシンプルなフレームワークを使用する。 superbベンチマークと同様に、音声sslモデルはfbankの機能よりもパフォーマンスが大幅に向上する。 さらに,多言語モデルが必ずしも単言語モデルよりも優れた性能を発揮するとは限らない。 ML-SUPERBは、将来の多言語表現研究のための組織化されたデータセットと再現可能なトレーニングスクリプトの課題としてリリースする。

Speech processing Universal PERformance Benchmark (SUPERB) is a leaderboard to benchmark the performance of Self-Supervised Learning (SSL) models on various speech processing tasks. However, SUPERB largely considers English speech in its evaluation. This paper presents multilingual SUPERB (ML-SUPERB), covering 143 languages (ranging from high-resource to endangered), and considering both automatic speech recognition and language identification. Following the concept of SUPERB, ML-SUPERB utilizes frozen SSL features and employs a simple framework for multilingual tasks by learning a shallow downstream model. Similar to the SUPERB benchmark, we find speech SSL models can significantly improve performance compared to FBANK features. Furthermore, we find that multilingual models do not always perform better than their monolingual counterparts. We will release ML-SUPERB as a challenge with organized datasets and reproducible training scripts for future multilingual representation research.
翻訳日:2023-05-19 17:38:14 公開日:2023-05-18
# 長期視覚認識のためのガウス形式のロジット調整

Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2305.10648v1 )

ライセンス: Link先を確認
Mengke Li, Yiu-ming Cheung, Yang Lu, Zhikai Hu, Weichao Lan, Hui Huang(参考訳) 現実世界のデータが長い尾で分散されることは珍しくない。 このようなデータでは、テールクラスを正しく分類することが難しいため、ディープニューラルネットワークの学習が困難になる。 文献では,ロングテールデータを用いて得られた特徴が十分に代表的であることから,分類子バイアスを低減し,この問題にいくつかの既存手法が取り組まれている。 しかし、長い尾を持つデータを直接トレーニングすることで、不均一な埋め込みスペースが生まれる。 すなわち、ヘッドクラスの埋め込み空間は、後続の分類器学習とは無関係な尾クラスの埋め込み空間を強く圧縮する。 %以上改善した。 そこで本稿では,機能レベルの観点から,長い目視認識の問題について検討する。 組込み分布のバランスをとるために機能拡張を導入する。 異なるクラスの特徴はガウス形式の様々な振幅で摂動される。 これらの摂動特性に基づいて,計算オーバーヘッドの少ないモデル性能向上のために,2つの新しいロジット調整法を提案する。 その後、すべてのクラスの歪んだ埋め込み空間を校正することができる。 このような平衡分散埋め込み空間において、偏り付き分類器は、分類器をクラスバランスなサンプリングデータで再訓練するだけで取り除くことができる。 ベンチマークデータセットを用いた大規模な実験により,提案手法の最先端手法よりも優れた性能を示した。

It is not uncommon that real-world data are distributed with a long tail. For such data, the learning of deep neural networks becomes challenging because it is hard to classify tail classes correctly. In the literature, several existing methods have addressed this problem by reducing classifier bias provided that the features obtained with long-tailed data are representative enough. However, we find that training directly on long-tailed data leads to uneven embedding space. That is, the embedding space of head classes severely compresses that of tail classes, which is not conducive to subsequent classifier learning. %further improving model performance. This paper therefore studies the problem of long-tailed visual recognition from the perspective of feature level. We introduce feature augmentation to balance the embedding distribution. The features of different classes are perturbed with varying amplitudes in Gaussian form. Based on these perturbed features, two novel logit adjustment methods are proposed to improve model performance at a modest computational overhead. Subsequently, the distorted embedding spaces of all classes can be calibrated. In such balanced-distributed embedding spaces, the biased classifier can be eliminated by simply retraining the classifier with class-balanced sampling data. Extensive experiments conducted on benchmark datasets demonstrate the superior performance of the proposed method over the state-of-the-art ones.
翻訳日:2023-05-19 17:31:54 公開日:2023-05-18
# BioAug:低リソースバイオメディカルNERのための条件生成に基づくデータ拡張

BioAug: Conditional Generation based Data Augmentation for Low-Resource Biomedical NER ( http://arxiv.org/abs/2305.10647v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Utkarsh Tyagi and Sonal Kumar and Dinesh Manocha(参考訳) biomedical named entity recognition (bioner) は、生物医学的なテキストから名前付きエンティティを識別する基本的なタスクである。 しかし、bionerは厳しいデータ不足に苦しんでおり、アノテーションに必要な高度に専門的で専門的な知識があるため、高品質のラベル付きデータを欠いている。 データの増大は、低リソースのNERに対して一般的に非常に効果的であることが示されているが、既存のデータ拡張技術では、BioNERの事実的かつ多様な拡張は得られない。 本稿では,低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを提案する。 BART上に構築されたBioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解くために訓練されている。 訓練後,条件生成を行い,訓練段階と同様の選択的に破損したテキストに対して多彩な拡張条件付けバイオaugを生成する。 5つのベンチマークBioNERデータセットでBioAugの有効性を実証し、BioAugがすべてのベースラインを大幅なマージン(1.5%~21.5%の絶対改善)で上回り、より現実的で多様な拡張を生成することができることを示した。 コード: https://github.com/sreyan88/bioaug。

Biomedical Named Entity Recognition (BioNER) is the fundamental task of identifying named entities from biomedical text. However, BioNER suffers from severe data scarcity and lacks high-quality labeled data due to the highly specialized and expert knowledge required for annotation. Though data augmentation has shown to be highly effective for low-resource NER in general, existing data augmentation techniques fail to produce factual and diverse augmentations for BioNER. In this paper, we present BioAug, a novel data augmentation framework for low-resource BioNER. BioAug, built on BART, is trained to solve a novel text reconstruction task based on selective masking and knowledge augmentation. Post training, we perform conditional generation and generate diverse augmentations conditioning BioAug on selectively corrupted text similar to the training stage. We demonstrate the effectiveness of BioAug on 5 benchmark BioNER datasets and show that BioAug outperforms all our baselines by a significant margin (1.5%-21.5% absolute improvement) and is able to generate augmentations that are both more factual and diverse. Code: https://github.com/Sreyan88/BioAug.
翻訳日:2023-05-19 17:31:38 公開日:2023-05-18
# Ethical ChatGPT: 懸念、挑戦、命令

Ethical ChatGPT: Concerns, Challenges, and Commandments ( http://arxiv.org/abs/2305.10646v1 )

ライセンス: Link先を確認
Jianlong Zhou, Heimo M\"uller, Andreas Holzinger and Fang Chen(参考訳) chatgptのような大規模な言語モデルは現在、人工知能をさらに普及させるために多大な貢献をしている。 しかし、このようなチャットボットモデルは、人間同士の自然言語コミュニケーションを支援するツールとして開発された。 問題的に言えば、それは「統計的相関マシン」(因果関係ではなく相関関係)であり、実際にバイアス、プライバシ、アミューズといったChatGPTのようなAI言語モデルの使用に関する倫理的な懸念がある。 本稿では、ChatGPTに関する特定の倫理的懸念を強調し、ChatGPTを様々なアプリケーションで使用する際の重要な課題を明らかにする。 ChatGPTの異なるステークホルダに対する実践的な命令も提案されており、アプリケーションにChatGPTを適用する人のチェックリストガイドラインとして機能する。 これらの命令例は、ChatGPTの倫理的利用を動機付けることが期待されている。

Large language models, e.g. ChatGPT are currently contributing enormously to make artificial intelligence even more popular, especially among the general population. However, such chatbot models were developed as tools to support natural language communication between humans. Problematically, it is very much a ``statistical correlation machine" (correlation instead of causality) and there are indeed ethical concerns associated with the use of AI language models such as ChatGPT, such as Bias, Privacy, and Abuse. This paper highlights specific ethical concerns on ChatGPT and articulates key challenges when ChatGPT is used in various applications. Practical commandments for different stakeholders of ChatGPT are also proposed that can serve as checklist guidelines for those applying ChatGPT in their applications. These commandment examples are expected to motivate the ethical use of ChatGPT.
翻訳日:2023-05-19 17:31:19 公開日:2023-05-18
# 大規模言語モデルは読み書きに適したのか?

Are Large Language Models Fit For Guided Reading? ( http://arxiv.org/abs/2305.10645v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 本稿では,大規模言語モデルが教育指導読解に参加する能力について考察する。 具体的には、入力テキストから有意義な質問を生成する能力を評価し、内容のカバレッジと質問の難易度の両方から多様な質問を生成し、質問に対する学生の回答に基づいて学生が再読みすべきテキストの一部を推薦する能力を評価する。 chatgpt と bard の評価に基づいて,1) 大きな言語モデルでは,入力テキストと高い相関関係を持つ高品質な有意義な質問を生成できる,と報告した。 2) この能力は入力テキストの増加に伴って著しく低下するが,入力テキストのほとんどのトピックをカバーする多様な質問を生成する。3)大きな言語モデルは,低認知的質問に対して著しく偏りがあるにもかかわらず,低認知的質問と高認知的質問の両方を生成することができる。4) 応答を効果的に要約し,読み直すべきテキストの一部を抽出することができる。

This paper looks at the ability of large language models to participate in educational guided reading. We specifically, evaluate their ability to generate meaningful questions from the input text, generate diverse questions both in terms of content coverage and difficulty of the questions and evaluate their ability to recommend part of the text that a student should re-read based on the student's responses to the questions. Based on our evaluation of ChatGPT and Bard, we report that, 1) Large language models are able to generate high quality meaningful questions that have high correlation with the input text, 2) They generate diverse question that cover most topics in the input text even though this ability is significantly degraded as the input text increases, 3)The large language models are able to generate both low and high cognitive questions even though they are significantly biased toward low cognitive question, 4) They are able to effectively summarize responses and extract a portion of text that should be re-read.
翻訳日:2023-05-19 17:31:05 公開日:2023-05-18
# BEEMA:アローキーを用いた点字適応PIN導入機構

BEEMA: Braille Adapted Enhanced PIN Entry Mechanism using Arrow keys ( http://arxiv.org/abs/2305.10644v1 )

ライセンス: Link先を確認
Balayogi G and Kuppusamy K S(参考訳) 視覚障害のある人は、しばしばサイバー犯罪者のソフトターゲットであり、デジタル環境におけるサイバー攻撃の影響を受けやすい。 前述したように、この攻撃は、他の視覚障害者に視覚・聴覚的に露出しているためである。 視覚障害者のコンピュータユーザーは、デジタルプラットフォームの機密性やプライバシーの問題に悩まされる。 本稿では,視覚障害者のためのBEEMA(Braille adapt Enhanced PIN Entry Mechanism using Arrow key)を提案する。 我々は,視覚障害者に対する様々なセキュリティ攻撃を研究し,視覚障害者に対して点字対応テキスト入力を提供するbeemaというメカニズムを提案した。 このメカニズムにより、ユーザーはPIN番号を必要とするウェブサイトでPIN番号を入力できる。 提案モデルはブラウザプラグインとして実装されており,アクセスが容易である。 我々は,視覚障害者を対象に,そのメカニズムについて検討した。 提案したBEEMAモデルは,ユーザスタディにおいて有望な結果を示した。 本稿では,様々な攻撃に対するBEEMAの抵抗性についても考察する。

Persons with visual impairments have often been a soft target for cybercriminals, and they are more susceptible to cyber attacks in the digital environment. The attacks, as mentioned above, are because they are visually/aurally exposed to the other sighted users. Visually impaired computer users suffer from secrecy and privacy issues on digital platforms. This paper proposes a mechanism termed BEEMA(Braille adapted Enhanced PIN Entry Mechanism using Arrow keys) to help people with visual impairments. We have studied various security attacks on visually impaired users and proposed a mechanism named BEEMA that provides a rigid braille-adapted text input for people with visual impairments. This mechanism allows users to enter a PIN number on any website that requires a PIN number. The proposed model is implemented as a browser plugin which can be accessed easily. We have conducted sessions with visually impaired users to study the mechanism's performance. The proposed BEEMA model has shown encouraging results in the user study. Resilience of BEEMA against various attacks is also explored in this paper.
翻訳日:2023-05-19 17:30:47 公開日:2023-05-18
# STREAMLINE: リアルなマルチ分散設定のためのストリーミングアクティブラーニング

STREAMLINE: Streaming Active Learning for Realistic Multi-Distributional Settings ( http://arxiv.org/abs/2305.10643v1 )

ライセンス: Link先を確認
Nathan Beck, Suraj Kothawade, Pradeep Shenoy, Rishabh Iyer(参考訳) ディープニューラルネットワークは、自動運転車や衛星画像など、現実世界のいくつかのユースケースにおいて一貫して優れたパフォーマンスを示しており、大量のラベル付きトレーニングデータを効果的に活用している。 しかしながら、偏りのないモデルを学ぶには、与えられたタスクのさまざまな現実的なシナリオを表現するデータセットを構築する必要がある。 これは、データが大量のストリームから来る多くの環境では困難であり、各シナリオは様々な周波数でランダムにインターリーブされたエピソードで発生する。 データインスタンスが到着し、エピソディックなマルチ分散データストリームからサンプリングされる、現実的なストリーミング設定について検討する。 そこで本研究では,slice identification,slice-aware budgeting,およびdata selectionという3段階の手順によって,作業ラベルデータのシナリオ駆動スライス不均衡を緩和する,新たなストリーミングアクティブラーニングフレームワークであるstreamlineを提案する。 画像分類やオブジェクト検出タスクのリアルタイムストリーミングシナリオにおいて,STREAMLINEを広範囲に評価する。 ストリームラインは、現在のベースラインよりも低頻度で重要なデータスライスのパフォーマンスを、画像分類タスクの精度で最大$5\%$、オブジェクト検出タスクで最大$8\%$で改善します。

Deep neural networks have consistently shown great performance in several real-world use cases like autonomous vehicles, satellite imaging, etc., effectively leveraging large corpora of labeled training data. However, learning unbiased models depends on building a dataset that is representative of a diverse range of realistic scenarios for a given task. This is challenging in many settings where data comes from high-volume streams, with each scenario occurring in random interleaved episodes at varying frequencies. We study realistic streaming settings where data instances arrive in and are sampled from an episodic multi-distributional data stream. Using submodular information measures, we propose STREAMLINE, a novel streaming active learning framework that mitigates scenario-driven slice imbalance in the working labeled data via a three-step procedure of slice identification, slice-aware budgeting, and data selection. We extensively evaluate STREAMLINE on real-world streaming scenarios for image classification and object detection tasks. We observe that STREAMLINE improves the performance on infrequent yet critical slices of the data over current baselines by up to $5\%$ in terms of accuracy on our image classification tasks and by up to $8\%$ in terms of mAP on our object detection tasks.
翻訳日:2023-05-19 17:30:33 公開日:2023-05-18
# 学習再建は不十分: 単画像シャドウ除去のための Identical Mapping の転送

Learning Restoration is Not Enough: Transfering Identical Mapping for Single-Image Shadow Removal ( http://arxiv.org/abs/2305.10640v1 )

ライセンス: Link先を確認
Xiaoguang Li, Qing Guo, Pingping Cai, Wei Feng, Ivor Tsang, Song Wang(参考訳) シャドウ除去は、シャドウのない領域をそのまま残しながらシャドウのない領域に復元することである。 最先端のシャドウ除去方法は、収集されたシャドウとシャドウのないイメージペアでディープニューラルネットワークを訓練するが、これは共有ウェイト、すなわちシャドウ領域のデータ復元と非シャドウ領域の同一マッピングによって、2つの異なるタスクを完了させることが望まれる。 これらの2つのタスクは互換性が低く、これらの2つのタスクの共有重み付けを使用することで、トレーニングプロセス中に両方ではなく1つのタスクに最適化される可能性がある。 このような重要な問題は、既存のディープラーニングベースのシャドウ除去手法では特定されていない。 この問題に対処するために,これら2つのタスクを別々に処理し,同一のマッピング結果を利用して影の復元を反復的に導くことを提案する。 具体的には,非陰影領域処理のための同一マッピングブランチ (IMB) と,同一結果に基づく影領域復元のための反復デシャドウブランチ (IDB) と,スマートアグリゲーションブロック (SAB) の3つのコンポーネントからなる。 IMBは、シャドウ領域と非シャドウ領域を明確に区別することなく、非シャドウ領域の復元に役立つ入力画像と同一の画像の再構成を目指している。 IMBが抽出したマルチスケール機能を利用することで、IDBは非シャドウ領域からシャドウ領域へ情報を効果的に転送し、シャドウ除去のプロセスを容易にする。 SAB は IMB と IDB の両方の機能を適応的に統合するように設計されている。 さらに、微調整されたソフトシャドウマスクを生成し、シャドウを除去するプロセスを導く。 広範な実験により,本手法は広く使用されているシャドウ除去データセットにおける最先端シャドウ除去手法に勝ることを示した。

Shadow removal is to restore shadow regions to their shadow-free counterparts while leaving non-shadow regions unchanged. State-of-the-art shadow removal methods train deep neural networks on collected shadow & shadow-free image pairs, which are desired to complete two distinct tasks via shared weights, i.e., data restoration for shadow regions and identical mapping for non-shadow regions. We find that these two tasks exhibit poor compatibility, and using shared weights for these two tasks could lead to the model being optimized towards only one task instead of both during the training process. Note that such a key issue is not identified by existing deep learning-based shadow removal methods. To address this problem, we propose to handle these two tasks separately and leverage the identical mapping results to guide the shadow restoration in an iterative manner. Specifically, our method consists of three components: an identical mapping branch (IMB) for non-shadow regions processing, an iterative de-shadow branch (IDB) for shadow regions restoration based on identical results, and a smart aggregation block (SAB). The IMB aims to reconstruct an image that is identical to the input one, which can benefit the restoration of the non-shadow regions without explicitly distinguishing between shadow and non-shadow regions. Utilizing the multi-scale features extracted by the IMB, the IDB can effectively transfer information from non-shadow regions to shadow regions progressively, facilitating the process of shadow removal. The SAB is designed to adaptive integrate features from both IMB and IDB. Moreover, it generates a finely tuned soft shadow mask that guides the process of removing shadows. Extensive experiments demonstrate our method outperforms all the state-of-the-art shadow removal approaches on the widely used shadow removal datasets.
翻訳日:2023-05-19 17:30:08 公開日:2023-05-18
# オンライン根本原因解析のためのインクリメンタル因果グラフ学習

Incremental Causal Graph Learning for Online Unsupervised Root Cause Analysis ( http://arxiv.org/abs/2305.10638v1 )

ライセンス: Link先を確認
Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen(参考訳) 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。 効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。 しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。 本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。 Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。 これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。 RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。 その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。 オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。 ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。

The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-05-19 17:29:36 公開日:2023-05-18
# 拡張メッセージパッシングstein変分勾配降下

Augmented Message Passing Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.10636v1 )

ライセンス: Link先を確認
Jiankui Zhou and Yue Qiu(参考訳) 定常変分勾配Descent (SVGD) はベイズ推論の一般的な粒子法である。 しかし、その収束は分散崩壊に苦しむため、推定の精度と多様性が低下する。 本稿では, 有限粒子の収束過程における等方性特性について検討し, 有限粒子のSVGDが試料空間全体に分散できないことを示す。 代わりに、全ての粒子は一定の範囲で粒子中心の周りに集まり、このクラスターに対して解析的境界を与える。 高次元問題に対するSVGDの有効性をさらに向上するため,MP-SVGD法とは異なり,目標分布の空間性を必要としない2段階最適化手法であるAUMP-SVGD法を提案する。 本アルゴリズムは,様々なベンチマーク問題の分散崩壊問題を克服し,良好な精度を実現する。

Stein Variational Gradient Descent (SVGD) is a popular particle-based method for Bayesian inference. However, its convergence suffers from the variance collapse, which reduces the accuracy and diversity of the estimation. In this paper, we study the isotropy property of finite particles during the convergence process and show that SVGD of finite particles cannot spread across the entire sample space. Instead, all particles tend to cluster around the particle center within a certain range and we provide an analytical bound for this cluster. To further improve the effectiveness of SVGD for high-dimensional problems, we propose the Augmented Message Passing SVGD (AUMP-SVGD) method, which is a two-stage optimization procedure that does not require sparsity of the target distribution, unlike the MP-SVGD method. Our algorithm achieves satisfactory accuracy and overcomes the variance collapse problem in various benchmark problems.
翻訳日:2023-05-19 17:29:09 公開日:2023-05-18
# 量子力学における量子重力と測定問題

Quantum gravity and the measurement problem in quantum mechanics ( http://arxiv.org/abs/2305.10635v1 )

ライセンス: Link先を確認
Edgar Shaghoulian(参考訳) 量子力学における測定問題は、重力が無視される状況においてのみ議論される。 我々は、量子重力の理解における最近の進展について議論し、それらが問題を大きく変えると論じた。 量子重力は、宇宙全体の波動関数を誰が崩壊させるのかという、測定問題の議論で最も難しい問題の1つを解決できるかもしれない。

The measurement problem in quantum mechanics is almost exclusively discussed in situations where gravity is ignored. We discuss some recent developments in our understanding of quantum gravity and argue that they significantly alter the problem. Quantum gravity may even resolve one of the thorniest questions in discussions of the measurement problem: who collapses the wavefunction of the entire universe?
翻訳日:2023-05-19 17:28:53 公開日:2023-05-18
# 無限大ベイズ型ニューラルネットワークの非有界分散重みによる後方推定

Posterior Inference on Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance ( http://arxiv.org/abs/2305.10664v1 )

ライセンス: Link先を確認
Jorge Lor\'ia and Anindya Bhadra(参考訳) neal (1996) の古典的かつ影響力のある著作から、1つの隠れた層を持つベイズ型ニューラルネットワークの無限幅のスケーリング限界はガウス過程であり、ネットワークの重みが有界な事前分散を持つとき \emph{when the network weights have bounded prior variance} であることが知られている。 Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。 ガウス過程のトラクタブルな性質は、単純後部推論と不確かさの定量化を可能にし、有限幅のネットワークと比較して極限過程の研究を著しく単純化する。 しかし、境界のない分散を持つニューラルネットワークの重み付けは、ユニークな課題をもたらす。 この場合、古典的な中心極限定理は崩壊し、スケーリング極限が適切な条件下での$\alpha$-stableプロセスであることはよく知られている。 しかし、現在の文献は主にこれらの過程における前方シミュレーションに限られており、そのような拡大限界の下での後方推論の問題はほとんど解決されていない。 この目的のために、我々の貢献は後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブル後部推論と不確実性定量化のためのガウス過程機構をフル活用することができる。

From the classical and influential works of Neal (1996), it is known that the infinite width scaling limit of a Bayesian neural network with one hidden layer is a Gaussian process, \emph{when the network weights have bounded prior variance}. Neal's result has been extended to networks with multiple hidden layers and to convolutional neural networks, also with Gaussian process scaling limits. The tractable properties of Gaussian processes then allow straightforward posterior inference and uncertainty quantification, considerably simplifying the study of the limit process compared to a network of finite width. Neural network weights with unbounded variance, however, pose unique challenges. In this case, the classical central limit theorem breaks down and it is well known that the scaling limit is an $\alpha$-stable process under suitable conditions. However, current literature is primarily limited to forward simulations under these processes and the problem of posterior inference under such a scaling limit remains largely unaddressed, unlike in the Gaussian process case. To this end, our contribution is an interpretable and computationally efficient procedure for posterior inference, using a \emph{conditionally Gaussian} representation, that then allows full use of the Gaussian process machinery for tractable posterior inference and uncertainty quantification in the non-Gaussian regime.
翻訳日:2023-05-19 17:22:16 公開日:2023-05-18
# プライバシー保護画像生成のための微分プライベート確率モデル学習

Learning Differentially Private Probabilistic Models for Privacy-Preserving Image Generation ( http://arxiv.org/abs/2305.10662v1 )

ライセンス: Link先を確認
Bochao Liu, Shiming Ge, Pengju Wang, Liansheng Zhuang and Tongliang Liu(参考訳) 高品質で貴重なイメージでトレーニングされた多くの深層モデルが実用的なアプリケーションにデプロイされているため、データのプライバシの漏洩リスクが発生する可能性がある。 微分的にプライベートな生成モデルを学ぶことは、間接データアクセスを通じてこの課題を回避できる。 しかし、既存の手法によって学習されたそのような微分プライベートな生成モデルは、128x128未満の低解像度の画像しか生成できないため、下流トレーニングにおいて生成された画像が広く使用されるのを妨げている。 本研究では、差分プライバシー保証付き高解像度画像を生成するために、差分プライベート確率モデル(DPPM)の学習を提案する。 特に,トレーニング中にランダム化された応答機構を実行して,トレーニングデータの分布に適合するようにモデルをトレーニングし,差分プライバシを満足させる。 次に,訓練された確率モデルによって予測される微分プライベート移動方向とともに,ハミルトニアンダイナミクスサンプリングを行い,プライバシー保存画像を得る。 このようにして、プライベート情報を保護しながら、異なる下流タスクにこれらの画像を適用することができる。 特に、他の最先端の微分プライベートな生成アプローチと比較して、我々のアプローチは、目立った視覚的品質とデータユーティリティを持つ256x256の画像を生成することができる。 広範な実験が我々のアプローチの有効性を示している。

A number of deep models trained on high-quality and valuable images have been deployed in practical applications, which may pose a leakage risk of data privacy. Learning differentially private generative models can sidestep this challenge through indirect data access. However, such differentially private generative models learned by existing approaches can only generate images with a low-resolution of less than 128x128, hindering the widespread usage of generated images in downstream training. In this work, we propose learning differentially private probabilistic models (DPPM) to generate high-resolution images with differential privacy guarantee. In particular, we first train a model to fit the distribution of the training data and make it satisfy differential privacy by performing a randomized response mechanism during training process. Then we perform Hamiltonian dynamics sampling along with the differentially private movement direction predicted by the trained probabilistic model to obtain the privacy-preserving images. In this way, it is possible to apply these images to different downstream tasks while protecting private information. Notably, compared to other state-of-the-art differentially private generative approaches, our approach can generate images up to 256x256 with remarkable visual quality and data utility. Extensive experiments show the effectiveness of our approach.
翻訳日:2023-05-19 17:21:46 公開日:2023-05-18
# リモートセンシング画像のための内部構造制約に基づくクリブル教師付きターゲット抽出法

Scribble-Supervised Target Extraction Method Based on Inner Structure-Constraint for Remote Sensing Images ( http://arxiv.org/abs/2305.10661v1 )

ライセンス: Link先を確認
Yitong Li, Chang Liu, Jie Ma(参考訳) リモートセンシング画像のターゲット抽出におけるスクリブルアノテーションに基づく弱い教師付き学習は、巻物を示すためのスクリブルの柔軟性と手動ラベリングの低コストのために多くの関心を集めている。 しかし、スクリブルはオブジェクトの構造や詳細な情報を特定するには小さすぎるため、ターゲットのローカライゼーションや境界記述に大きな課題が生じる。 これらの問題を緩和するために,本研究では,2つの内部構造制約,変形整合損失とトレーニング可能なアクティブな輪郭損失と,エンコーダデコーダネットワークの最適化を事前のキューに基づく補助モジュールや余分な操作を導入することなく監視するスクリブル制約とを併用して構成する。 包括的実験により,本手法は5つの最先端アルゴリズムよりも優れていることを示した。 ソースコードはhttps://github.com/yitongli123/ISC-TEで入手できる。

Weakly supervised learning based on scribble annotations in target extraction of remote sensing images has drawn much interest due to scribbles' flexibility in denoting winding objects and low cost of manually labeling. However, scribbles are too sparse to identify object structure and detailed information, bringing great challenges in target localization and boundary description. To alleviate these problems, in this paper, we construct two inner structure-constraints, a deformation consistency loss and a trainable active contour loss, together with a scribble-constraint to supervise the optimization of the encoder-decoder network without introducing any auxiliary module or extra operation based on prior cues. Comprehensive experiments demonstrate our method's superiority over five state-of-the-art algorithms in this field. Source code is available at https://github.com/yitongli123/ISC-TE.
翻訳日:2023-05-19 17:21:25 公開日:2023-05-18
# 構音障害による構音障害の認識への応用

Use of Speech Impairment Severity for Dysarthric Speech Recognition ( http://arxiv.org/abs/2305.10659v1 )

ライセンス: Link先を確認
Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu(参考訳) dysorthric speech recognitionにおける重要な課題は、話者レベルの多様性が、性別や言語障害などの話者同一性に関連する要因によって引き起こされるものである。 この問題に対処する以前の研究は、話者識別のみの使用に焦点を当てていた。 そこで本研究では,重大度と話者識別の両立を両立させる新しい手法を提案する。 a)重大性予測誤差を取り入れたマルチタスクトレーニング b) 話者性を考慮した補助的特徴適応 c) 構造的LHUC変換は、話者同一性及び重度を別々に条件付ける。 UASpeechでの実験では、最先端のハイブリッドDNN、E2E Conformer、および事前訓練されたWav2vec 2.0 ASRシステムに追加の音声障害の重症度を組み込むことで、統計的に有意なWER削減が4.78%(14.03%)まで達成された。 最も優れたシステムを用いて、UASpeech上で17.82% (51.25%) の最も低い WER が得られた。

A key challenge in dysarthric speech recognition is the speaker-level diversity attributed to both speaker-identity associated factors such as gender, and speech impairment severity. Most prior researches on addressing this issue focused on using speaker-identity only. To this end, this paper proposes a novel set of techniques to use both severity and speaker-identity in dysarthric speech recognition: a) multitask training incorporating severity prediction error; b) speaker-severity aware auxiliary feature adaptation; and c) structured LHUC transforms separately conditioned on speaker-identity and severity. Experiments conducted on UASpeech suggest incorporating additional speech impairment severity into state-of-the-art hybrid DNN, E2E Conformer and pre-trained Wav2vec 2.0 ASR systems produced statistically significant WER reductions up to 4.78% (14.03% relative). Using the best system the lowest published WER of 17.82% (51.25% on very low intelligibility) was obtained on UASpeech.
翻訳日:2023-05-19 17:21:08 公開日:2023-05-18
# PTQD:拡散モデルのための正確な後処理量子化

PTQD: Accurate Post-Training Quantization for Diffusion Models ( http://arxiv.org/abs/2305.10657v1 )

ライセンス: Link先を確認
Yefei He, Luping Liu, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは最近、画像合成やその他の関連する生成タスクを支配している。 しかし、反復的復調処理は推論時の計算に高価であり、低レイテンシでスケーラブルな実世界のアプリケーションでは拡散モデルが実用的でない。 拡散モデルのトレーニング後の量子化は、モデルサイズを大幅に削減し、再トレーニングを必要とせずにサンプリングプロセスを高速化することができる。 それでも、既存の学習後量子化法を低ビット拡散モデルに直接適用することは、生成したサンプルの品質を著しく損なう可能性がある。 具体的には、分別ステップ毎に、量子化ノイズが推定平均の偏差を生じさせ、所定の分散スケジュールとミスマッチする。 さらに、サンプリングプロセスが進むにつれて、量子化ノイズが蓄積され、遅延復調ステップにおいて信号対雑音比(SNR)が低くなる。 そこで本研究では, 量子化雑音と拡散摂動雑音を統一的に定式化する手法を提案する。 まず, 量子化雑音を, 相関部分と残差部分に分けて, その全精度部分について検討する。 相関係数を推定することにより、相関部を容易に補正することができる。 非相関部分については、偏極分散スケジュールを校正し、量子化による過剰な分散を吸収する。 さらに,高ビットが高snrを後期ステップに維持している間,低ビットを早期のデノージングステップの高速化に好むデノージングステップ毎に最適なビット幅を選択するための混合精度スキームを提案する。 広範な実験により,imagenet 256x256 のフル精度 ldm-4 と比較して,高品質のサンプル生成において,前回のトレーニング後の量子化拡散モデルよりも優れており,fid スコアは 0.06 % 向上し,19.9 倍の演算を節約できることを示した。

Diffusion models have recently dominated image synthesis and other related generative tasks. However, the iterative denoising process is expensive in computations at inference time, making diffusion models less practical for low-latency and scalable real-world applications. Post-training quantization of diffusion models can significantly reduce the model size and accelerate the sampling process without requiring any re-training. Nonetheless, applying existing post-training quantization methods directly to low-bit diffusion models can significantly impair the quality of generated samples. Specifically, for each denoising step, quantization noise leads to deviations in the estimated mean and mismatches with the predetermined variance schedule. Moreover, as the sampling process proceeds, the quantization noise may accumulate, resulting in a low signal-to-noise ratio (SNR) in late denoising steps. To address these challenges, we propose a unified formulation for the quantization noise and diffusion perturbed noise in the quantized denoising process. We first disentangle the quantization noise into its correlated and residual uncorrelated parts regarding its full-precision counterpart. The correlated part can be easily corrected by estimating the correlation coefficient. For the uncorrelated part, we calibrate the denoising variance schedule to absorb the excess variance resulting from quantization. Moreover, we propose a mixed-precision scheme to choose the optimal bitwidth for each denoising step, which prefers low bits to accelerate the early denoising steps while high bits maintain the high SNR for the late steps. Extensive experiments demonstrate that our method outperforms previous post-training quantized diffusion models in generating high-quality samples, with only a 0.06 increase in FID score compared to full-precision LDM-4 on ImageNet 256x256, while saving 19.9x bit operations.
翻訳日:2023-05-19 17:20:48 公開日:2023-05-18
# DeepEdit:3次元医用画像のインタラクティブセグメンテーションのためのディープラーニング学習

DeepEdit: Deep Editable Learning for Interactive Segmentation of 3D Medical Images ( http://arxiv.org/abs/2305.10655v1 )

ライセンス: Link先を確認
Andres Diaz-Pinto and Pritesh Mehta and Sachidanand Alle and Muhammad Asad and Richard Brown and Vishwesh Nath and Alvin Ihsani and Michela Antonelli and Daniel Palkovics and Csaba Pinter and Ron Alkalay and Steve Pieper and Holger R. Roth and Daguang Xu and Prerna Dogra and Tom Vercauteren and Andrew Feng and Abood Quraini and Sebastien Ourselin and M. Jorge Cardoso(参考訳) 医療画像の自動セグメンテーションは、診断および介入作業の重要なステップである。 しかし、これを達成するには大量の注釈付きボリュームが必要であり、専門家の注釈家にとっては退屈で時間のかかる作業である。 本稿では,自動および半自動セグメンテーションとクリックベースのリファインメントを可能にする,ボリュームカルメディカル画像アノテーションのためのディープラーニングベースの深層学習手法であるdeepeditを提案する。 DeepEditは、非インタラクティブ(nnU-Net、UNET、UNETRを使った自動セグメンテーション)とインタラクティブセグメンテーション(DeepGrow)の2つの方法のパワーを1つのディープラーニングモデルに統合する。 不確実性に基づくランキング戦略(アレエータ的および認識的不確実性計算)とアクティブラーニングの容易な統合を可能にする。 本稿では,ユーザインタラクションシミュレーションと組み合わせた標準トレーニングを用いてDeepEditの学習方法を提案する。 deepeditを訓練すると、臨床医はアルゴリズムを自動セグメンテーションモードで使用したり、ユーザーインターフェース(つまり3dスライサ、ohif)経由でクリックを提供することで、データセットを迅速にセグメント化できる。 本稿では,前立腺・前立腺病変に対する PROSTATEx データセットと腹部CTセグメント化のための Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) データセットを用いて,最新のネットワークアーキテクチャをベースラインとして,DeepEdit の価値を示す。 DeepEditは、DeepGrowだけで3D画像に注釈をつける時間と労力を減らすことができる。 ソースコードはhttps://github.com/Project-MONAI/MONAILabelで入手できる。

Automatic segmentation of medical images is a key step for diagnostic and interventional tasks. However, achieving this requires large amounts of annotated volumes, which can be tedious and time-consuming task for expert annotators. In this paper, we introduce DeepEdit, a deep learning-based method for volumetric medical image annotation, that allows automatic and semi-automatic segmentation, and click-based refinement. DeepEdit combines the power of two methods: a non-interactive (i.e. automatic segmentation using nnU-Net, UNET or UNETR) and an interactive segmentation method (i.e. DeepGrow), into a single deep learning model. It allows easy integration of uncertainty-based ranking strategies (i.e. aleatoric and epistemic uncertainty computation) and active learning. We propose and implement a method for training DeepEdit by using standard training combined with user interaction simulation. Once trained, DeepEdit allows clinicians to quickly segment their datasets by using the algorithm in auto segmentation mode or by providing clicks via a user interface (i.e. 3D Slicer, OHIF). We show the value of DeepEdit through evaluation on the PROSTATEx dataset for prostate/prostatic lesions and the Multi-Atlas Labeling Beyond the Cranial Vault (BTCV) dataset for abdominal CT segmentation, using state-of-the-art network architectures as baseline for comparison. DeepEdit could reduce the time and effort annotating 3D medical images compared to DeepGrow alone. Source code is available at https://github.com/Project-MONAI/MONAILabel
翻訳日:2023-05-19 17:20:19 公開日:2023-05-18
# 認知の共通モデルによるシステム1と2の明確化

Clarifying System 1 & 2 through the Common Model of Cognition ( http://arxiv.org/abs/2305.10654v1 )

ライセンス: Link先を確認
Brendan Conway-Smith and Robert L. West(参考訳) System-1 と System-2 の二重システム記述には不正確さと誤解の促進が問題となっている。 我々はこれらの問題を、計算思考を分析ツールとして使うというdennettの魅力、特に共通認知モデルを用いて解決する。 その結果, System-1 と System-2 の特徴が認知特性のスペクトルを形成することがわかった。 システム1とシステム2を共通モデルで基礎づけることで,その基盤となるメカニズム,誤解の持続,メタ認知への示唆を明らかにする。

There have been increasing challenges to dual-system descriptions of System-1 and System-2, critiquing them as imprecise and fostering misconceptions. We address these issues here by way of Dennett's appeal to use computational thinking as an analytical tool, specifically we employ the Common Model of Cognition. Results show that the characteristics thought to be distinctive of System-1 and System-2 instead form a spectrum of cognitive properties. By grounding System-1 and System-2 in the Common Model we aim to clarify their underlying mechanisms, persisting misconceptions, and implications for metacognition.
翻訳日:2023-05-19 17:19:48 公開日:2023-05-18
# 2トン変調空洞電磁石

Two-tone modulated cavity electromagnonics ( http://arxiv.org/abs/2305.10653v1 )

ライセンス: Link先を確認
Nianqi Hu and Huatang Tan(参考訳) キャビティ・エレクトロマグノニクスは、量子力学と量子技術の基礎研究のための新しいプラットフォームとして発展しつつある。 現在の実験におけるマイクロ波場とマグノンキトルモードの結合は共鳴周波数よりもかなり弱いため、マグノン-マイクロ波-光子相互作用における反回転項は無視でき、ビームスプリッター状部分のみが効果を発揮する。 この状況では、フォノン、励起光子、超伝導量子ビットなどの他のサブシステムが組み込まれない限り、マグノン非古典状態の直接生成は不可能である。 本稿では,2音変調キャビティ電磁気学を,非自明な反回転項を保ち,波長可変位相因子を得ることで,汎用線形キャビティ光学系と全く同じ有効ハミルトニアンが得られることを考察する。 したがって、これは、安定で強い圧縮と絡み合った状態の生成によって詳細に実証されたマクロなマグノン量子状態を直接生成し、マグノンと光子の工学的バックアクション回避相互作用による超感度マグノンベースのセンシングを実現し、スピントロニクス関連の量子情報処理装置を開発するために利用することができる。

Cavity electromagnonics has increasingly emerged as a new platform for the fundamental study of quantum mechanics and quantum technologies. Since the coupling between the microwave field and magnon Kittle modes in current experiments is much weaker than their resonant frequencies, the anti-rotating terms in magnon-microwave-photon interaction can be neglected and only the beam-splitter-like part takes effect. In this situation, the direct generation of magnonic nonclassical states is impossible, unless other subsystems e.g. phonons, squeezed photons or superconducting qubits are incorporated. In this paper, we consider two-tone modulated cavity electromagnonics to keep the nontrivial anti-rotating terms and obtain tunable phase factors, resulting in an effective Hamiltonian exactly the same as that of generic linearized cavity optomechanics. This can therefore be exploited to directly prepare macroscopic magnonic quantum states, as detailedly exemplified by the generation of steady and strongly squeezed and entangled states, realize ultra-sensitive magnon-based sensing by engineering backaction-evading interaction of magnons and photons, and develop spintronics-related quantum information processing devices.
翻訳日:2023-05-19 17:19:36 公開日:2023-05-18
# コントラスト学習と深いモジュール化に基づく音声分離

Speech Separation based on Contrastive Learning and Deep Modularization ( http://arxiv.org/abs/2305.10652v1 )

ライセンス: Link先を確認
Peter Ochieng(参考訳) 音声分離のための技術ツールの現況は教師付き学習に依存している。 これは、置換問題に対処する必要があることを意味しており、トレーニングや推論で使用する話者数にミスマッチの影響を受けている。 さらに、その性能は高品質なラベル付きデータの存在に大きく依存している。 これらの問題は、完全に教師なしの音声分離技術を用いることで効果的に解決できる。 本稿では,コントラスト学習を用いてフレームの表現を確立し,下流のディープモジュール化タスクで学習表現を使用する。 具体的には、音声分離において、話者の異なるフレームを、その話者の隠れた標準フレームの強化と見なすことができることを実験的に示す。 話者のフレームは、音声分離の鍵となる十分な韻律情報の重複を含む。 そこで本研究では,与えられた話者に属するフレーム間の距離を最小化するために,自己教師付き学習を実現する。 学習された表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。 WSJ0-2mix と WSJ0-3mix において, SI-SNRi と SDRi を 20.8 と 21.0 でそれぞれ達成した。 WSJ0-3mix では、SI-SNRi と SDRi はそれぞれ 20.7 と 20.7 を WSJ0-2mix で得る。 最大の強みは、話者数が増えるにつれて、その性能が著しく低下しないことである。

The current monaural state of the art tools for speech separation relies on supervised learning. This means that they must deal with permutation problem, they are impacted by the mismatch on the number of speakers used in training and inference. Moreover, their performance heavily relies on the presence of high-quality labelled data. These problems can be effectively addressed by employing a fully unsupervised technique for speech separation. In this paper, we use contrastive learning to establish the representations of frames then use the learned representations in the downstream deep modularization task. Concretely, we demonstrate experimentally that in speech separation, different frames of a speaker can be viewed as augmentations of a given hidden standard frame of that speaker. The frames of a speaker contain enough prosodic information overlap which is key in speech separation. Based on this, we implement a self-supervised learning to learn to minimize the distance between frames belonging to a given speaker. The learned representations are used in a downstream deep modularization task to cluster frames based on speaker identity. Evaluation of the developed technique on WSJ0-2mix and WSJ0-3mix shows that the technique attains SI-SNRi and SDRi of 20.8 and 21.0 respectively in WSJ0-2mix. In WSJ0-3mix, it attains SI-SNRi and SDRi of 20.7 and 20.7 respectively in WSJ0-2mix. Its greatest strength being that as the number of speakers increase, its performance does not degrade significantly.
翻訳日:2023-05-19 17:19:14 公開日:2023-05-18
# zeroprompt:ストリーミング音響エンコーダはゼロショットマスクlms

ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs ( http://arxiv.org/abs/2305.10649v1 )

ライセンス: Link先を確認
Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu(参考訳) 本稿では,ストリーミングasrモデルのトークン表示時間(tdt)を減少させるために,0prompt(図1-(a))と対応するprompt-and-refine strategy(図3)を提案する。 ZeroPromptの中核となる考え方は、推論中に各チャンクにゼロコンテンツを追加することである。 我々は,ストリーミング音響エンコーダは自然にマスキング言語モデルのモデリング能力を有しており,実験によりzeropromptは工学的に安価であり,精度を損なうことなく任意のデータセット上のストリーミング音響エンコーダに適用できることが示されている。 具体的には, ベースラインモデルと比較して, Aishell-1 と Librispeech のデータセットに対して, 350$\sim$700ms, 100$\sim$400ms, Last Token Display Time (TDT-L) で350$400ms, 理論上および実験的に等しいWERを実現した。

In this paper, we present ZeroPrompt (Figure 1-(a)) and the corresponding Prompt-and-Refine strategy (Figure 3), two simple but effective \textbf{training-free} methods to decrease the Token Display Time (TDT) of streaming ASR models \textbf{without any accuracy loss}. The core idea of ZeroPrompt is to append zeroed content to each chunk during inference, which acts like a prompt to encourage the model to predict future tokens even before they were spoken. We argue that streaming acoustic encoders naturally have the modeling ability of Masked Language Models and our experiments demonstrate that ZeroPrompt is engineering cheap and can be applied to streaming acoustic encoders on any dataset without any accuracy loss. Specifically, compared with our baseline models, we achieve 350 $\sim$ 700ms reduction on First Token Display Time (TDT-F) and 100 $\sim$ 400ms reduction on Last Token Display Time (TDT-L), with theoretically and experimentally equal WER on both Aishell-1 and Librispeech datasets.
翻訳日:2023-05-19 17:18:53 公開日:2023-05-18
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v1 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks.
翻訳日:2023-05-19 17:13:51 公開日:2023-05-18
# ブラックボックスをターゲットとしたオンライン深層強化学習攻撃

Black-Box Targeted Reward Poisoning Attack Against Online Deep Reinforcement Learning ( http://arxiv.org/abs/2305.10681v1 )

ライセンス: Link先を確認
Yinglun Xu, Gagandeep Singh(参考訳) トレーニング期間中の報酬中毒によるオンライン深層学習に対する最初のブラックボックス攻撃を提案する。 この攻撃は未知のアルゴリズムによって学習される未知のダイナミクスを持つ一般的な環境に適用でき、攻撃予算と計算資源が限られている。 一般的なフレームワークを活用し,学習アルゴリズムの一般的な仮定の下で効率的な攻撃を確実にするための条件を求める。 この条件下での攻撃が我々のフレームワークで最適であることを示す。 限られた予算で、我々は学習エージェントが様々なdrl環境や最先端の学習者の下で、効率的に様々なターゲットポリシーに導くことを実験的に検証する。

We propose the first black-box targeted attack against online deep reinforcement learning through reward poisoning during training time. Our attack is applicable to general environments with unknown dynamics learned by unknown algorithms and requires limited attack budgets and computational resources. We leverage a general framework and find conditions to ensure efficient attack under a general assumption of the learning algorithms. We show that our attack is optimal in our framework under the conditions. We experimentally verify that with limited budgets, our attack efficiently leads the learning agent to various target policies under a diverse set of popular DRL environments and state-of-the-art learners.
翻訳日:2023-05-19 17:13:22 公開日:2023-05-18
# 非自己回帰型エンドツーエンド音声認識システムによる信頼度推定

Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System ( http://arxiv.org/abs/2305.10680v1 )

ライセンス: Link先を確認
Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan(参考訳) 認識結果の信頼度を推定することは、ASR分野における古典的な課題であり、下流のタスクやトレーニング戦略にとって重要な課題である。 前回のエンドツーエンド~(e2e)ベースの信頼度推定モデル(cem)は、入力された書き起こしと等しい長さのスコアシーケンスを予測する。 本稿では,新しい非自己回帰型E2E ASRモデル - Paraformer に基づく正確かつ信頼性の高い信頼度推定を実現するためのCIF-Aligned confidence Estimation Model (CA-CEM) を提案する。 CA-CEMは、CIF(Continuous Integration-and-fire)メカニズムのモデリング特性を利用してトークン同期音響埋め込みを生成し、上記の推定失敗問題を解く。 本稿では,トークンレベルにおけるAUCとRMSEによる推定精度と,発話レベルにおけるECE-Uの指標を提案する。 CA-CEMはECE-UとAUCとRMSEの2つのテストセットで24%と19%の相対的な減少率を得た。 さらに、我々は、異なるASR関連用途におけるCEMの可能性を探るために分析を行う。

Estimating confidence scores for recognition results is a classic task in ASR field and of vital importance for kinds of downstream tasks and training strategies. Previous end-to-end~(E2E) based confidence estimation models (CEM) predict score sequences of equal length with input transcriptions, leading to unreliable estimation when deletion and insertion errors occur. In this paper we proposed CIF-Aligned confidence estimation model (CA-CEM) to achieve accurate and reliable confidence estimation based on novel non-autoregressive E2E ASR model - Paraformer. CA-CEM utilizes the modeling character of continuous integrate-and-fire (CIF) mechanism to generate token-synchronous acoustic embedding, which solves the estimation failure issue above. We measure the quality of estimation with AUC and RMSE in token level and ECE-U - a proposed metrics in utterance level. CA-CEM gains 24% and 19% relative reduction on ECE-U and also better AUC and RMSE on two test sets. Furthermore, we conduct analysis to explore the potential of CEM for different ASR related usage.
翻訳日:2023-05-19 17:13:12 公開日:2023-05-18
# コードの外で考える:ブレインストーミングはコード生成において大きな言語モデルを増やす

Think Outside the Code: Brainstorming Boosts Large Language Models in Code Generation ( http://arxiv.org/abs/2305.10679v1 )

ライセンス: Link先を確認
Xin-Ye Li, Jiang-Tian Xue, Zheng Xie and Ming Li(参考訳) コード生成は、高レベルのタスク仕様からソースコードを自動的に生成することを目的としている。 近年、大規模言語モデル(llms)に基づくアプローチは、単純なタスクで素晴らしいコード生成能力を示している。 しかし、競争レベルの問題など、より複雑なタスクのためのコードを生成することは依然として困難である。 本稿では,コード生成のためのBrainstormフレームワークを紹介する。 ブレインストーミングのステップを利用して、問題に関するさまざまな思考を生成し、選択し、アルゴリズムによる推論を促進する。 我々は、brainstormが競合レベルのプログラミング問題を解決するためのllmの能力を大幅に向上させ、codecontestsベンチマークでchatgptのpass@$k$メトリックを50%以上増加させ、最先端のパフォーマンスを達成することを実証した。 さらに、LeetCodeコンテストで実施した実験により、我々のフレームワークは、ChatGPTの能力を人間のプログラマに匹敵するレベルまで引き上げることを示した。

Code generation aims to automatically generate source code from high-level task specifications, which can significantly increase productivity of software engineering. Recently, approaches based on large language models (LLMs) have shown remarkable code generation abilities on simple tasks. However, generate code for more complex tasks, such as competition-level problems, remains challenging. In this paper, we introduce Brainstorm framework for code generation. It leverages a brainstorming step that generates and selects diverse thoughts on the problem to facilitate algorithmic reasoning, where the thoughts are possible blueprint of solving the problem. We demonstrate that Brainstorm significantly enhances the ability of LLMs to solve competition-level programming problems, resulting in a more than 50% increase in the pass@$k$ metrics for ChatGPT on the CodeContests benchmark, achieving state-of-the-art performance. Furthermore, our experiments conducted on LeetCode contests show that our framework boosts the ability of ChatGPT to a level comparable to that of human programmers.
翻訳日:2023-05-19 17:12:38 公開日:2023-05-18
# 分数量子スターリング熱エンジンの性能改善

Performance improvement of a fractional quantum Stirling heat engine ( http://arxiv.org/abs/2305.10676v1 )

ライセンス: Link先を確認
Shihao Xia, Youlin Wang, Minglong Lv, Jincan Chen, and Shanhe Su(参考訳) 量子系の熱力学的挙動に及ぼす分数パラメータの影響を調べるため,量子スターリング熱エンジンのサイクルに分数量子力学を取り入れ,分数パラメータが再生と効率に及ぼす影響を検討する。 分数パラメータ構造を利用して熱力学サイクルを制御し,その有効性を評価する新しい手法を提案する。 その結果, 分数パラメータを調整することにより, サイクルの領域を完全再生とCarnot効率を拡張できることが判明した。

To investigate the impact of fractional parameter on the thermodynamic behaviors of quantum systems, we incorporate fractional quantum mechanics into the cycle of a quantum Stirling heat engine and examine the influence of fractional parameter on the regeneration and efficiency. We propose a novel approach to control the thermodynamic cycle that leverages the fractional parameter structure and evaluates its effectiveness. Our findings reveal that by tuning the fractional parameter, the region of the cycle with the perfect regeneration and the Carnot efficiency can be expanded.
翻訳日:2023-05-19 17:11:58 公開日:2023-05-18
# 教師付きコントラスト学習

Tuned Contrastive Learning ( http://arxiv.org/abs/2305.10675v1 )

ライセンス: Link先を確認
Chaitanya Animesh, Manmohan Chandraker(参考訳) 近年,SOTA(State-of-the-art)のパフォーマンスにより,視覚的自己指導型表現学習において,コントラスト学習に基づく損失関数が普及している。 simclrのような現代のコントラスト学習損失関数のほとんどは情報ベースであり、アンカーごとに1つの正と複数の負のみに一般化している。 最近の最先端の教師付きコントラスト学習(SupCon)は、バッチ内の複数の正と複数の負に一般化し、自己教師付きコントラスト学習を教師付きセッティングに拡張し、クロスエントロピー損失を改善する。 本稿では,TCL(Tuned Contrastive Learning)損失を,バッチ内で複数の正と複数の負に一般化し,ハードポジトリとハードポジトリから勾配応答を調整・改善するためのパラメータを提供する,新しいコントラスト型損失関数を提案する。 本研究では,損失関数の勾配応答の理論解析を行い,SupCon損失よりも数学的に優れていることを示す。 複数の分類タスクデータセット上の教師あり環境における損失関数とSupCon損失とクロスエントロピー損失を比較した。 また,種々のハイパーパラメータ設定に対する損失関数の安定性を示す。 最後に、TCLと様々なSOTA自己教師付き学習手法を比較し、その損失関数が教師付きと自己教師付きの両方の設定におけるSOTA手法と同等の性能を発揮することを示す。

In recent times, contrastive learning based loss functions have become increasingly popular for visual self-supervised representation learning owing to their state-of-the-art (SOTA) performance. Most of the modern contrastive learning loss functions like SimCLR are Info-NCE based and generalize only to one positive and multiple negatives per anchor. A recent state-of-the-art, supervised contrastive (SupCon) loss, extends self-supervised contrastive learning to supervised setting by generalizing to multiple positives and multiple negatives in a batch and improves upon the cross-entropy loss. In this paper, we propose a novel contrastive loss function - Tuned Contrastive Learning (TCL) loss, that generalizes to multiple positives and multiple negatives within a batch and offers parameters to tune and improve the gradient responses from hard positives and hard negatives. We provide theoretical analysis of our loss function's gradient response and show mathematically how it is better than that of SupCon loss. Empirically, we compare our loss function with SupCon loss and cross-entropy loss in a supervised setting on multiple classification-task datasets. We also show the stability of our loss function to various hyper-parameter settings. Finally, we compare TCL with various SOTA self-supervised learning methods and show that our loss function achieves performance on par with SOTA methods in both supervised and self-supervised settings.
翻訳日:2023-05-19 17:11:41 公開日:2023-05-18
# lessはもっとあり得る:大規模動的グラフのための教師なしグラフプラニング

Less Can Be More: Unsupervised Graph Pruning for Large-scale Dynamic Graphs ( http://arxiv.org/abs/2305.10673v1 )

ライセンス: Link先を確認
Jintang Li, Sheng Tian, Ruofan Wu, Liang Zhu, Welong Zhao, Changhua Meng, Liang Chen, Zibin Zheng, Hongzhi Yin(参考訳) 大規模グラフの普及は、グラフニューラルネットワーク(gnn)のトレーニングとデプロイのための時間とストレージにおいて大きな課題となる。 いくつかの最近の研究は、大きな原グラフを小さく、高インフォーマルなグラフにプルーニングするソリューションを探しており、プルーニングされたグラフと大きなグラフのトレーニングと推論は同等のパフォーマンスを持つ。 経験的効果はあるものの、現在の研究は静的グラフや非時間グラフに重点を置いている。 さらに、情報構造を学ぶためには、ラベルを基礎的真理として求め、ラベルが入手困難な新しい問題領域に適用性を制限する。 このジレンマを解決するために,動的グラフ上で教師なしグラフプルーニングの問題を提案し,検討する。 我々は,入力動的グラフから潜在的に冗長なエッジを取り除くことを学習する自己教師付き時間的プルーニングフレームワークSTEPにより,この問題にアプローチする。 技術的・産業的な観点から,本手法は性能と時間・メモリオーバーヘッドのトレードオフを克服する。 実世界の3つのデータセットを用いて、動的ノード分類タスクにおけるGNNの有効性、堅牢性、効率性を改善する利点を実証した。 最も注目すべきは、stepは、100万の産業用グラフalipay(7mノード、21mエッジ)のエッジの50%以上をプルーピングできると同時に、元のパフォーマンスの98%近くを占めることだ。 コードはhttps://github.com/EdisonLeeeee/STEPで入手できる。

The prevalence of large-scale graphs poses great challenges in time and storage for training and deploying graph neural networks (GNNs). Several recent works have explored solutions for pruning the large original graph into a small and highly-informative one, such that training and inference on the pruned and large graphs have comparable performance. Although empirically effective, current researches focus on static or non-temporal graphs, which are not directly applicable to dynamic scenarios. In addition, they require labels as ground truth to learn the informative structure, limiting their applicability to new problem domains where labels are hard to obtain. To solve the dilemma, we propose and study the problem of unsupervised graph pruning on dynamic graphs. We approach the problem by our proposed STEP, a self-supervised temporal pruning framework that learns to remove potentially redundant edges from input dynamic graphs. From a technical and industrial viewpoint, our method overcomes the trade-offs between the performance and the time & memory overheads. Our results on three real-world datasets demonstrate the advantages on improving the efficacy, robustness, and efficiency of GNNs on dynamic node classification tasks. Most notably, STEP is able to prune more than 50% of edges on a million-scale industrial graph Alipay (7M nodes, 21M edges) while approximating up to 98% of the original performance. Code is available at https://github.com/EdisonLeeeee/STEP.
翻訳日:2023-05-19 17:11:05 公開日:2023-05-18
# MetaGAD:Few-shot Graph Anomaly Detectionのためのメタトランスファー学習

MetaGAD: Learning to Meta Transfer for Few-shot Graph Anomaly Detection ( http://arxiv.org/abs/2305.10668v1 )

ライセンス: Link先を確認
Xiongxiao Xu, Kaize Ding, Canyu Chen, Kai Shu(参考訳) グラフ異常検出は, 金融詐欺, ソーシャルスパム, ネットワーク侵入など, 情報セキュリティに関する諸分野において, 長年にわたり重要な問題であった。 既存の手法の大部分は教師なしの方法で行われ、大規模にラベル付けされた異常はしばしば取得するには高価である。 しかし、識別された異常は、異常に関する事前の知識がないため、データノイズや興味のないデータインスタンスとなる可能性がある。 現実的なシナリオでは、ラベル付き異常を限定的に得ることがしばしば可能であり、グラフ異常検出を前進させる可能性がある。 しかし、グラフ内のラベル付き異常や大量の未ラベルノードを探索して異常を検出する作業は限られている。 そこで本稿では,少数ショットグラフ異常検出の新たな問題について検討する。 本稿では,グラフ異常検出のためのラベル付きノードとラベル付きノードの知識をメタトランスファーするMetaGADを提案する。 合成異常を伴う実世界の6つのデータセットと「有機」異常(データセットで利用可能)の実験結果から,ラベル付き異常を限定した異常を検出する手法の有効性が示された。

Graph anomaly detection has long been an important problem in various domains pertaining to information security such as financial fraud, social spam, network intrusion, etc. The majority of existing methods are performed in an unsupervised manner, as labeled anomalies in a large scale are often too expensive to acquire. However, the identified anomalies may turn out to be data noises or uninteresting data instances due to the lack of prior knowledge on the anomalies. In realistic scenarios, it is often feasible to obtain limited labeled anomalies, which have great potential to advance graph anomaly detection. However, the work exploring limited labeled anomalies and a large amount of unlabeled nodes in graphs to detect anomalies is rather limited. Therefore, in this paper, we study a novel problem of few-shot graph anomaly detection. We propose a new framework MetaGAD to learn to meta-transfer the knowledge between unlabeled and labeled nodes for graph anomaly detection. Experimental results on six real-world datasets with synthetic anomalies and "organic" anomalies (available in the dataset) demonstrate the effectiveness of the proposed approach in detecting anomalies with limited labeled anomalies.
翻訳日:2023-05-19 17:10:39 公開日:2023-05-18
# 英語テキストから音声への合成のための統一フロントエンドフレームワーク

a unified front-end framework for english text-to-speech synthesis ( http://arxiv.org/abs/2305.10666v1 )

ライセンス: Link先を確認
Zelin Ying, Chen Li, Yu Dong, Qiuqiang Kong, YuanYuan Huo, Yuping Wang, Yuxuan Wang(参考訳) フロントエンドは、英語のテキスト音声合成システム(TTS)の重要な構成要素であり、韻律や音素などの音声を合成するテキスト音声合成モデルに不可欠な言語的特徴を抽出する役割を担っている。 英語のTSフロントエンドは、典型的にはテキスト正規化(TN)モジュール、韻律語韻律句(PWPP)モジュール、グラフ音素対音素(G2P)モジュールからなる。 しかし、現在のTTSフロントエンドの研究は、個々のモジュールにのみ焦点をあて、それらの相互依存を無視し、各モジュールに対して準最適性能をもたらす。 そこで本稿では,英語ttsフロントエンドモジュール間の依存関係をキャプチャするフロントエンドフレームワークを提案する。 実験により, 提案手法は全モジュールのSOTA性能を実現することを示した。

The front-end is a critical component of English text-to-speech (TTS) systems, responsible for extracting linguistic features that are essential for a text-to-speech model to synthesize speech, such as prosodies and phonemes. The English TTS front-end typically consists of a text normalization (TN) module, a prosody word prosody phrase (PWPP) module, and a grapheme-to-phoneme (G2P) module. However, current research on the English TTS front-end focuses solely on individual modules, neglecting the interdependence between them and resulting in sub-optimal performance for each module. Therefore, this paper proposes a unified front-end framework that captures the dependencies among the English TTS front-end modules. Extensive experiments have demonstrated that the proposed method achieves state-of-the-art (SOTA) performance in all modules.
翻訳日:2023-05-19 17:10:23 公開日:2023-05-18
# コンテンツに基づく非制限的攻撃

Content-based Unrestricted Adversarial Attack ( http://arxiv.org/abs/2305.10665v1 )

ライセンス: Link先を確認
Zhaoyu Chen and Bo Li and Shuang Wu and Kaixun Jiang and Shouhong Ding and Wenqiang Zhang(参考訳) 制限のない敵対的攻撃は、通常、画像(例えば色やテクスチャ)のセマンティックな内容を操作して、効果的でフォトリアリスティックな例を作成し、人間の知覚とディープニューラルネットワークを、ステルスと成功で騙す能力を示す。 しかし、現在の作品は通常、制限のない程度を犠牲にして、その攻撃性能を制限する制限のない敵対的な例のフォトリアリズムを保証するために、いくつかの画像コンテンツを主観的に選択する。 敵のサンプルのフォトリアリズムを確保し,攻撃性能を高めるために,コンテンツベース非拘束攻撃と呼ばれる新しい非制限攻撃フレームワークを提案する。 自然像を表す低次元多様体を利用することで、像を多様体上に写像し、その逆方向に沿って最適化する。 そこで,本フレームワークでは,安定拡散に基づく逆コンテンツアタックを実装し,様々な逆コンテンツを用いた高い転送性を持つ非制限逆の例を生成する。 大規模な実験と可視化は、通常訓練されたモデルと防御手法でそれぞれ平均13.3-50.4%と16.8-48.0%の最先端攻撃を克服するACAの有効性を示す。

Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic, demonstrating their ability to deceive human perception and deep neural networks with stealth and success. However, current works usually sacrifice unrestricted degrees and subjectively select some image content to guarantee the photorealism of unrestricted adversarial examples, which limits its attack performance. To ensure the photorealism of adversarial examples and boost attack performance, we propose a novel unrestricted attack framework called Content-based Unrestricted Adversarial Attack. By leveraging a low-dimensional manifold that represents natural images, we map the images onto the manifold and optimize them along its adversarial direction. Therefore, within this framework, we implement Adversarial Content Attack based on Stable Diffusion and can generate high transferable unrestricted adversarial examples with various adversarial contents. Extensive experimentation and visualization demonstrate the efficacy of ACA, particularly in surpassing state-of-the-art attacks by an average of 13.3-50.4% and 16.8-48.0% in normally trained models and defense methods, respectively.
翻訳日:2023-05-19 17:10:04 公開日:2023-05-18
# パーソナライゼーションによるテキスト・画像拡散モデルに対するゼロデイバックドア攻撃

Zero-Day Backdoor Attack against Text-to-Image Diffusion Models via Personalization ( http://arxiv.org/abs/2305.10701v1 )

ライセンス: Link先を確認
Yihao Huang, Qing Guo, Felix Juefei-Xu(参考訳) 最近のパーソナライズ手法は、最小限の例と軽量な計算で迅速な概念獲得を可能にすることで、高解像度画像合成を民主化してきたが、高アクセス性バックドアアタックのための悪用可能な手段も提示している。 本稿では,テキスト・ツー・イメージ(t2i)拡散モデルの批判的かつ未検討な側面について検討する。 従来のバックドアアタックと比較して,提案手法はより正確で効率的で容易にアクセス可能な攻撃が容易であり,参入障壁が低く,テキストインバージョンとドリームブートによって認識される2つのパーソナライゼーション手法に共通するゼロデイバックドア脆弱性に着目した。 我々は,t2i拡散モデルにおけるパーソナライゼーションの包括的レビューを行い,このバックドア脆弱性の操作と悪用の可能性を強調した。 具体的には,テキストインバージョンとドリームブートの迅速な処理について検討し,未知のトークンの扱い方に応じて専用のバックドアアタックを考案し,攻撃効果に対するトリガーとコンセプトイメージの影響を分析した。 実験の結果,nouveau-tokenバックドア攻撃は攻撃性能が向上し,レガシ-tokenバックドア攻撃は防御が困難になる可能性が示唆された。

Although recent personalization methods have democratized high-resolution image synthesis by enabling swift concept acquisition with minimal examples and lightweight computation, they also present an exploitable avenue for high accessible backdoor attacks. This paper investigates a critical and unexplored aspect of text-to-image (T2I) diffusion models - their potential vulnerability to backdoor attacks via personalization. Our study focuses on a zero-day backdoor vulnerability prevalent in two families of personalization methods, epitomized by Textual Inversion and DreamBooth.Compared to traditional backdoor attacks, our proposed method can facilitate more precise, efficient, and easily accessible attacks with a lower barrier to entry. We provide a comprehensive review of personalization in T2I diffusion models, highlighting the operation and exploitation potential of this backdoor vulnerability. To be specific, by studying the prompt processing of Textual Inversion and DreamBooth, we have devised dedicated backdoor attacks according to the different ways of dealing with unseen tokens and analyzed the influence of triggers and concept images on the attack effect. Our empirical study has shown that the nouveau-token backdoor attack has better attack performance while legacy-token backdoor attack is potentially harder to defend.
翻訳日:2023-05-19 17:02:44 公開日:2023-05-18
# 生物配列生成のためのディリクレ拡散スコアモデル

Dirichlet Diffusion Score Model for Biological Sequence Generation ( http://arxiv.org/abs/2305.10699v1 )

ライセンス: Link先を確認
Pavel Avdeyev, Chenlai Shi, Yuhao Tan, Kseniia Dudnyk, Jian Zhou(参考訳) 生物配列を設計することは、複雑な制約を満たす必要がある重要な課題であり、そのため、深層生成モデルに対処する自然問題である。 拡散生成モデルは多くの応用でかなりの成功を収めている。 スコアに基づく生成的確率微分方程式(sde)モデルは、多くの利点を享受する連続時間拡散モデルフレームワークであるが、当初提案されたsdeは、離散データモデリングのために自然に設計されたものではない。 生物配列などの離散データに対する生成SDEモデルを開発するために, 定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。 これにより、連続空間における拡散は離散データのモデリングに自然である。 このアプローチをdirchlet diffusion score modelと呼んでいる。 本手法は,sudoku生成タスクを用いてハード制約を満たすサンプルを生成できることを実証する。 この生成モデルは、追加の訓練なしにハードパズルを含む数独を解くこともできる。 最後に,ヒトプロモーターDNA配列設計モデルの開発に本手法を適用し,設計した配列が自然プロモーター配列と類似した性質を持つことを示した。

Designing biological sequences is an important challenge that requires satisfying complex constraints and thus is a natural problem to address with deep generative modeling. Diffusion generative models have achieved considerable success in many applications. Score-based generative stochastic differential equations (SDE) model is a continuous-time diffusion model framework that enjoys many benefits, but the originally proposed SDEs are not naturally designed for modeling discrete data. To develop generative SDE models for discrete data such as biological sequences, here we introduce a diffusion process defined in the probability simplex space with stationary distribution being the Dirichlet distribution. This makes diffusion in continuous space natural for modeling discrete data. We refer to this approach as Dirchlet diffusion score model. We demonstrate that this technique can generate samples that satisfy hard constraints using a Sudoku generation task. This generative model can also solve Sudoku, including hard puzzles, without additional training. Finally, we applied this approach to develop the first human promoter DNA sequence design model and showed that designed sequences share similar properties with natural promoter sequences.
翻訳日:2023-05-19 17:02:22 公開日:2023-05-18
# 様々なバングラ・オンライン新聞のニュース検索による位置のランク付けと今後の犯罪発生予測

Ranking the locations and predicting future crime occurrence by retrieving news from different Bangla online newspapers ( http://arxiv.org/abs/2305.10698v1 )

ライセンス: Link先を確認
Jumman Hossain, Rajib Chandra Das, Md. Ruhul Amin, Md. Saiful Islam(参考訳) 毎日何千もの犯罪が起こっています。 しかし、統計は少ないため、犯罪率は日に日に増えている。 背景にある理由は、以前の犯罪の統計がより少ないか少ないかである。 一般人が退去決定を下す前の犯罪統計を観察することがより重要であり、犯人を捕まえた警察は、犯罪を抑止する措置を取っており、観光客は旅の判断を下すことが重要である。 国立司法研究所は国内の犯罪調査データを公表しているが、ユニオンレベルやタナレベルまでの犯罪統計は提供していない。 これらすべての事例を考慮すると、我々は、将来の犯罪発生予測機構を含む地図上の犯罪の所在を示す異なる領域の犯罪ランキングを持つ特定の場所の安全性について、人々に近似するアプローチを考案した。 我々のアプローチは、様々なオンラインバングラの新聞に、犯罪データをクロール、ステーミングとキーワード抽出、位置探索アルゴリズム、コサイン類似性、ナイーブベイズ分類器、カスタム犯罪予測モデルに頼っている。

There have thousands of crimes are happening daily all around. But people keep statistics only few of them, therefore crime rates are increasing day by day. The reason behind can be less concern or less statistics of previous crimes. It is much more important to observe the previous crime statistics for general people to make their outing decision and police for catching the criminals are taking steps to restrain the crimes and tourists to make their travelling decision. National institute of justice releases crime survey data for the country, but does not offer crime statistics up to Union or Thana level. Considering all of these cases we have come up with an approach which can give an approximation to people about the safety of a specific location with crime ranking of different areas locating the crimes on a map including a future crime occurrence prediction mechanism. Our approach relies on different online Bangla newspapers for crawling the crime data, stemming and keyword extraction, location finding algorithm, cosine similarity, naive Bayes classifier, and a custom crime prediction model
翻訳日:2023-05-19 17:02:05 公開日:2023-05-18
# フェデレーションq学習における不均一性の祝福--線形スピードアップとbeyond

The Blessing of Heterogeneity in Federated Q-learning: Linear Speedup and Beyond ( http://arxiv.org/abs/2305.10697v1 )

ライセンス: Link先を確認
Jiin Woo, Gauri Joshi, Yuejie Chi(参考訳) 強化学習(RL)に使用されるデータが分散的に複数のエージェントによって収集される場合、RLアルゴリズムのフェデレーションされたバージョンは、ローカルデータを共有せずに協調学習を可能にする。 本稿では,ローカルデータだけで訓練されたローカルQ推定値を定期的に集約することで,最適なQ関数を学習することを目的とした,連合型Q-ラーニングについて考察する。 無限ホライゾン表型マルコフ決定プロセスに着目し,同期型および非同期型q-learningの両方に対して,サンプル複雑性の保証を行う。 いずれの場合においても,エージェント数や他の有意な問題パラメータに対する依存関係のシャープ化に関して,境界は線形速度アップを示す。 さらに、フェデレートされたq-learningに対する既存のアプローチでは、局所的なq-estimatesの平均値が等しく重み付けされている。 既存のサンプル複雑性は、すべてのエージェントに対する定常状態アクション占有分布の最小入力に比例してスケールし、すべてのエージェントが状態アクション空間全体をカバーする必要がある。 代わりに、より頻繁に訪れる状態-行動ペアにより大きな重みを与える、新しい重要性平均化アルゴリズムを提案する。 改良されたサンプル複雑性は、全てのエージェントの平均定常状態-作用占有分布の最小エントリーに比例してスケールし、従って、エージェントが一括して状態-作用空間全体をカバーし、不均一性の祝福を明らかにする。

When the data used for reinforcement learning (RL) are collected by multiple agents in a distributed manner, federated versions of RL algorithms allow collaborative learning without the need of sharing local data. In this paper, we consider federated Q-learning, which aims to learn an optimal Q-function by periodically aggregating local Q-estimates trained on local data alone. Focusing on infinite-horizon tabular Markov decision processes, we provide sample complexity guarantees for both the synchronous and asynchronous variants of federated Q-learning. In both cases, our bounds exhibit a linear speedup with respect to the number of agents and sharper dependencies on other salient problem parameters. Moreover, existing approaches to federated Q-learning adopt an equally-weighted averaging of local Q-estimates, which can be highly sub-optimal in the asynchronous setting since the local trajectories can be highly heterogeneous due to different local behavior policies. Existing sample complexity scales inverse proportionally to the minimum entry of the stationary state-action occupancy distributions over all agents, requiring that every agent covers the entire state-action space. Instead, we propose a novel importance averaging algorithm, giving larger weights to more frequently visited state-action pairs. The improved sample complexity scales inverse proportionally to the minimum entry of the average stationary state-action occupancy distribution of all agents, thus only requiring the agents collectively cover the entire state-action space, unveiling the blessing of heterogeneity.
翻訳日:2023-05-19 17:01:48 公開日:2023-05-18
# 無バイアスな特徴重要度を持つ無バイアス勾配昇降決定木

Unbiased Gradient Boosting Decision Tree with Unbiased Feature Importance ( http://arxiv.org/abs/2305.10696v1 )

ライセンス: Link先を確認
Zheyu Zhang, Tianping Zhang, Jian Li(参考訳) Gradient Boosting Decision Tree (GBDT)は、様々なアプリケーションで大きな成功を収めています。 木構築過程を決定する分割探索アルゴリズムはGBDTの最も重要な構成要素の1つである。 しかし、分割探索アルゴリズムは、多くの潜在的な分割を持つ特徴に対する偏見として、長い間批判されてきた。 このバイアスは、GBDTの厳しい解釈可能性と過剰適合の問題をもたらす。 この目的のために,我々はgbdtにおけるバイアスのきめ細かな解析を行い,バイアスの起源を実証する。 1)各分割の利得推定における系統的バイアス 2) 分割探索アルゴリズムのバイアスは同一データを用いて分割改善を評価し, 最良の分割を決定する。 そこで本研究では,バッグ外試料を用いた利得の非偏り測定手法であるunbiased gainを提案する。 さらに, 分割探索アルゴリズムに非バイアス特性を組み込んで, GBDTの過適合問題を解決するためにUnbiasedGBMを開発した。 60個のデータセットからなる大規模実験研究において、UnbiasedGBMとunbiased gainの性能を評価し、以下の結果を示す。 1) UnbiasedGBMは、60データセットで平均して、LightGBM、XGBoost、Catboostのような人気のあるGBDT実装よりも優れたパフォーマンスを示している。 2)unbiased gainは,一般的な特徴重要手法よりも機能選択における平均性能が向上する。 コードはhttps://github.com/ZheyuAqaZhang/UnbiasedGBMで入手できる。

Gradient Boosting Decision Tree (GBDT) has achieved remarkable success in a wide variety of applications. The split finding algorithm, which determines the tree construction process, is one of the most crucial components of GBDT. However, the split finding algorithm has long been criticized for its bias towards features with a large number of potential splits. This bias introduces severe interpretability and overfitting issues in GBDT. To this end, we provide a fine-grained analysis of bias in GBDT and demonstrate that the bias originates from 1) the systematic bias in the gain estimation of each split and 2) the bias in the split finding algorithm resulting from the use of the same data to evaluate the split improvement and determine the best split. Based on the analysis, we propose unbiased gain, a new unbiased measurement of gain importance using out-of-bag samples. Moreover, we incorporate the unbiased property into the split finding algorithm and develop UnbiasedGBM to solve the overfitting issue of GBDT. We assess the performance of UnbiasedGBM and unbiased gain in a large-scale empirical study comprising 60 datasets and show that: 1) UnbiasedGBM exhibits better performance than popular GBDT implementations such as LightGBM, XGBoost, and Catboost on average on the 60 datasets and 2) unbiased gain achieves better average performance in feature selection than popular feature importance methods. The codes are available at https://github.com/ZheyuAqaZhang/UnbiasedGBM.
翻訳日:2023-05-19 17:01:19 公開日:2023-05-18
# Gated Deep Modelsは効果的なファクター学習者である

Gated Deeper Models are Effective Factor Learners ( http://arxiv.org/abs/2305.10693v1 )

ライセンス: Link先を確認
Jingjing Guo(参考訳) 資産(例えばtesla株)の過剰リターンを正確に予測することは、すべての投資家にとって有益である。 しかし、人間の行動に影響された市場ダイナミクスの予測不可能性は、これは困難な課題である。 これまでの研究で、研究者は投資プロセスの指針となる要因を手作業で作り上げてきた。 これとは対照的に,本研究では,この問題を異なる視点で考察し,過剰リターンの傾向を予測するために,人間の設計した要因を組み合わせるためにディープラーニングモデルを整合させる。 この目的のために,2048次元空間においてより有意義な要素を生成する5層深層ニューラルネットワークを提案する。 現代のネットワーク設計技術は、堅牢性トレーニングを強化し、オーバーフィッティングを減らすために利用される。 さらに,ノイズ学習機能を動的にフィルタリングするゲートネットワークを提案し,性能を向上した。 我々は、最近の3年間の記録で、中国市場から2000種以上の株を評価。 実験の結果,提案するゲート活性化層とディープニューラルネットワークは,この問題を効果的に克服できることがわかった。 具体的には,提案するゲート活性化層とディープニューラルネットワークが,モデルの性能向上に寄与する。 要約すると、提案モデルは有望な結果を示し、投資戦略を最適化しようとする投資家に利益をもたらす可能性がある。

Precisely forecasting the excess returns of an asset (e.g., Tesla stock) is beneficial to all investors. However, the unpredictability of market dynamics, influenced by human behaviors, makes this a challenging task. In prior research, researcher have manually crafted among of factors as signals to guide their investing process. In contrast, this paper view this problem in a different perspective that we align deep learning model to combine those human designed factors to predict the trend of excess returns. To this end, we present a 5-layer deep neural network that generates more meaningful factors in a 2048-dimensional space. Modern network design techniques are utilized to enhance robustness training and reduce overfitting. Additionally, we propose a gated network that dynamically filters out noise-learned features, resulting in improved performance. We evaluate our model over 2,000 stocks from the China market with their recent three years records. The experimental results show that the proposed gated activation layer and the deep neural network could effectively overcome the problem. Specifically, the proposed gated activation layer and deep neural network contribute to the superior performance of our model. In summary, the proposed model exhibits promising results and could potentially benefit investors seeking to optimize their investment strategies.
翻訳日:2023-05-19 17:00:56 公開日:2023-05-18
# ディープニューラルネットワークに対するデータアベイラビリティ攻撃の再検討

Re-thinking Data Availablity Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2305.10691v1 )

ライセンス: Link先を確認
Bin Fang and Bo Li and Shuang Wu and Ran Yi and Shouhong Ding and Lizhuang Ma(参考訳) 商用目的の個人データの不正使用や、機械学習モデルのトレーニングのための個人データの秘密取得は、引き続き懸念を呼んでいる。 これらの問題に対応するために、研究者はデータの公開不能化を目的としたアベイラビリティ攻撃を提案した。 しかし、現在の攻撃方法は敵の訓練では効果がない。 本稿では,既知例の概念を再検討し,既存のロバストな誤り最小化ノイズが不正確な最適化目標であることを示す。 これらの観測に基づいて,計算時間要件の低減による保護結果の改善を実現する新しい最適化パラダイムを導入する。 我々は我々のアプローチの音質を裏付ける広範な実験を行った。 また,本手法は将来研究のための強固な基礎を築いている。

The unauthorized use of personal data for commercial purposes and the clandestine acquisition of private data for training machine learning models continue to raise concerns. In response to these issues, researchers have proposed availability attacks that aim to render data unexploitable. However, many current attack methods are rendered ineffective by adversarial training. In this paper, we re-examine the concept of unlearnable examples and discern that the existing robust error-minimizing noise presents an inaccurate optimization objective. Building on these observations, we introduce a novel optimization paradigm that yields improved protection results with reduced computational time requirements. We have conducted extensive experiments to substantiate the soundness of our approach. Moreover, our method establishes a robust foundation for future research in this area.
翻訳日:2023-05-19 17:00:38 公開日:2023-05-18
# サンプリング,拡散,確率的局在化

Sampling, Diffusions, and Stochastic Localization ( http://arxiv.org/abs/2305.10690v1 )

ライセンス: Link先を確認
Andrea Montanari(参考訳) 拡散は、高次元分布からサンプルを明示的に与えたり、サンプルの集合から学習したりする手法である。 彼らは、エンドポイントがターゲット分布からのサンプルであり、一般的にはニューラルネットワークとして表現される拡散プロセスを実装する。 確率的ローカライゼーションはマルコフ連鎖と高次元における他の機能的不等式を混合する手法として成功している。 確率的ローカライゼーションのアルゴリズム版が[EAMS2022]に導入され,特定の統計力学モデルから抽出するアルゴリズムが得られた。 このノートには3つの目的がある。 一 建設[EAMS2022]を他の確率的ローカライゼーションプロセスに一般化すること。 (ii)拡散と確率的局在の関係を明らかにする。 特に,標準分母拡散は確率的局所化であるが,提案する観点から自然に示唆される他の例であることを示す。 (iii)この観点からの考察について述べる。

Diffusions are a successful technique to sample from high-dimensional distributions can be either explicitly given or learnt from a collection of samples. They implement a diffusion process whose endpoint is a sample from the target distribution and whose drift is typically represented as a neural network. Stochastic localization is a successful technique to prove mixing of Markov Chains and other functional inequalities in high dimension. An algorithmic version of stochastic localization was introduced in [EAMS2022], to obtain an algorithm that samples from certain statistical mechanics models. This notes have three objectives: (i) Generalize the construction [EAMS2022] to other stochastic localization processes; (ii) Clarify the connection between diffusions and stochastic localization. In particular we show that standard denoising diffusions are stochastic localizations but other examples that are naturally suggested by the proposed viewpoint; (iii) Describe some insights that follow from this viewpoint.
翻訳日:2023-05-19 17:00:29 公開日:2023-05-18
# MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング

MolXPT: Wrapping Molecules with Text for Generative Pre-training ( http://arxiv.org/abs/2305.10688v1 )

ライセンス: Link先を確認
Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming Zhang and Tie-Yan Liu(参考訳) GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。 本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。 簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。 このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。 上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。 実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。

Generative pre-trained Transformer (GPT) has demonstrates its great success in natural language processing and related techniques have been adapted into molecular modeling. Considering that text is the most important record for scientific discovery, in this paper, we propose MolXPT, a unified language model of text and molecules pre-trained on SMILES (a sequence representation of molecules) wrapped by text. Briefly, we detect the molecule names in each sequence and replace them to the corresponding SMILES. In this way, the SMILES could leverage the information from surrounding text, and vice versa. The above wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem are all fed into a language model for pre-training. Experimental results demonstrate that MolXPT outperforms strong baselines of molecular property prediction on MoleculeNet, performs comparably to the best model in text-molecule translation while using less than half of its parameters, and enables zero-shot molecular generation without finetuning.
翻訳日:2023-05-19 17:00:13 公開日:2023-05-18
# RMSSinger: リアル音楽スコアに基づく歌声合成

RMSSinger: Realistic-Music-Score based Singing Voice Synthesis ( http://arxiv.org/abs/2305.10686v1 )

ライセンス: Link先を確認
Jinzheng He, Jinglin Liu, Zhenhui Ye, Rongjie Huang, Chenye Cui, Huadai Liu, Zhou Zhao(参考訳) 我々は,RMS-SVS(Realistic-Music-Score based Singing Voice Synthesis)という課題に興味を持っている。 RMS-SVSは、異なる音符タイプ(グレース、スラー、レストなど)でリアルな楽譜を与えられた高品質な歌声を生成することを目的としている。 近年の歌唱音声合成(SVS)法は大きな進歩を遂げているが, 音素と音素を一致させるためには, 複雑なデータ収集パイプラインと手作業による注釈が必要とされる。 さらに、これらの手書きアノテーションは、楽譜の音符持続時間の規則性を損なうため、作曲に不都合な微粒な楽譜を生成する。 これらの課題に対処するため, RMSSingerを提案する。RMSSingerは, RMS-SVS方式で, リアルな楽譜を入力として取り出し, 退屈な手書きアノテーションのほとんどを排除し, 上記の不便さを回避する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。 さらに,既存のピッチモデリング手法の自然性を改善する最初の拡散ベースピッチモデリング手法を提案する。 これらを実現するために,プロ歌手の現実的な音楽スコアに基づいて,現実的な音楽スコアと歌声を含む新たなデータセットを収集した。 データセットの大規模な実験により,本手法の有効性が示された。 オーディオサンプルはhttps://rmssinger.github.io/で入手できる。

We are interested in a challenging task, Realistic-Music-Score based Singing Voice Synthesis (RMS-SVS). RMS-SVS aims to generate high-quality singing voices given realistic music scores with different note types (grace, slur, rest, etc.). Though significant progress has been achieved, recent singing voice synthesis (SVS) methods are limited to fine-grained music scores, which require a complicated data collection pipeline with time-consuming manual annotation to align music notes with phonemes. Furthermore, these manual annotation destroys the regularity of note durations in music scores, making fine-grained music scores inconvenient for composing. To tackle these challenges, we propose RMSSinger, the first RMS-SVS method, which takes realistic music scores as input, eliminating most of the tedious manual annotation and avoiding the aforementioned inconvenience. Note that music scores are based on words rather than phonemes, in RMSSinger, we introduce word-level modeling to avoid the time-consuming phoneme duration annotation and the complicated phoneme-level mel-note alignment. Furthermore, we propose the first diffusion-based pitch modeling method, which ameliorates the naturalness of existing pitch-modeling methods. To achieve these, we collect a new dataset containing realistic music scores and singing voices according to these realistic music scores from professional singers. Extensive experiments on the dataset demonstrate the effectiveness of our methods. Audio samples are available at https://rmssinger.github.io/.
翻訳日:2023-05-19 16:59:56 公開日:2023-05-18
# 数発視覚と言語学習者の識別拡散モデル

Discriminative Diffusion Models as Few-shot Vision and Language Learners ( http://arxiv.org/abs/2305.10722v1 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang(参考訳) 安定拡散のような拡散モデルは、テキスト・画像生成において素晴らしい性能を示している。 テキストから画像への生成には,詳細な詳細情報や属性をテキストプロンプトで指定した視覚概念を生成するモデルが必要となることが多いため,画像・テキストマッチングなどの識別タスクにおいて,事前学習した拡散モデルで学習した強力な表現を活用できるか? そこで本研究では,事前学習したテキストと画像の拡散モデルを,数ショットの識別学習者に変換する新たなアプローチ,DSDを提案する。 提案手法では,安定拡散モデルの相互注意スコアを用いて,視覚情報とテキスト情報の相互影響を捉え,注意に基づくプロンプト学習を用いて微調整を行い,画像テキストマッチングを行う。 本稿では,いくつかのベンチマークデータセットにおけるdsdと最先端手法を比較することで,事前学習された拡散モデルを用いた識別処理の可能性を示す。

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.
翻訳日:2023-05-19 16:53:58 公開日:2023-05-18
# 時系列予測の再検討:線形マッピングの検討

Revisiting Long-term Time Series Forecasting: An Investigation on Linear Mapping ( http://arxiv.org/abs/2305.10721v1 )

ライセンス: Link先を確認
Zhe Li, Shiyi Qi, Yiduo Li, Zenglin Xu(参考訳) 近年,長期の時系列予測が注目されている。 時間依存を捉えるための特別な設計はいくつかあるが、以前の研究では、1つの線形層が他の複雑なアーキテクチャと比較して競合予測性能を達成できることが示されている。 本稿では,近年のアプローチの本質的効果を徹底的に検討し,3つの重要な観察を行った。 1) 線形マッピングは,事前の長期時系列予測に不可欠である。 2)RevIN(可逆正規化)とCI(チャンネル独立)は、全体的な予測性能を改善する上で重要な役割を果たす。 3) 線形写像は, 時系列の周期的特徴を効果的に捉え, 入力地平線を増大させる際に, チャネル間の異なる周期の堅牢性を有する。 本研究の成果を裏付ける理論的・実験的説明と,その限界と今後の課題について論じる。 私たちのフレームワークのコードは \url{https://github.com/plumprc/RTSF} で利用可能です。

Long-term time series forecasting has gained significant attention in recent years. While there are various specialized designs for capturing temporal dependency, previous studies have demonstrated that a single linear layer can achieve competitive forecasting performance compared to other complex architectures. In this paper, we thoroughly investigate the intrinsic effectiveness of recent approaches and make three key observations: 1) linear mapping is critical to prior long-term time series forecasting efforts; 2) RevIN (reversible normalization) and CI (Channel Independent) play a vital role in improving overall forecasting performance; and 3) linear mapping can effectively capture periodic features in time series and has robustness for different periods across channels when increasing the input horizon. We provide theoretical and experimental explanations to support our findings and also discuss the limitations and future works. Our framework's code is available at \url{https://github.com/plumprc/RTSF}.
翻訳日:2023-05-19 16:53:38 公開日:2023-05-18
# 非定常バンディット問題に対する安価トンプソンサンプリング

Discounted Thompson Sampling for Non-Stationary Bandit Problems ( http://arxiv.org/abs/2305.10718v1 )

ライセンス: Link先を確認
Han Qi, Yue Wang, Li Zhu(参考訳) NS-MAB(Non-stationary multi-armed bandit)問題も最近注目されている。 NS-MABは通常、ある期間の報酬分布が一定であり、未知の時間ステップで変化し、滑らかに変化し、未知のダイナミクスに基づいて報酬分布がスムーズに進化する、という2つのシナリオでモデル化される。 本稿では,非定常条件の両方に対処するため,ガウシアン前駆体を用いたディスカウントトンプソンサンプリング(DS-TS)を提案する。 このアルゴリズムは、トンプソンサンプリングにディスカウント係数を組み込むことで、変化に受動的に適応する。 DS-TS法は実験的に検証されているが,現在,遺残上界の解析は不十分である。 穏やかな仮定では、ガウス先行のDS-TSは、突然変化する$\tilde{O}(\sqrt{TB_T})$と滑らかに変化する$\tilde{O}(T^{\beta})$の順序でほぼ最適な後悔を達成できることを示し、そこでは、$T$は時間ステップの数、$B_T$はブレークポイントの数、$\beta$は滑らかに変化する環境と関連付けられ、$\tilde{O}$は、$T$と対数的な用語から独立にパラメータを隠している。 さらに、ds-tsと他の非定常バンディットアルゴリズムとの実証的な比較は、その競合性能を示している。 具体的には、最大報酬の事前知識が利用可能であれば、ds-tsは最先端のアルゴリズムを上回る可能性がある。

Non-stationary multi-armed bandit (NS-MAB) problems have recently received significant attention. NS-MAB are typically modelled in two scenarios: abruptly changing, where reward distributions remain constant for a certain period and change at unknown time steps, and smoothly changing, where reward distributions evolve smoothly based on unknown dynamics. In this paper, we propose Discounted Thompson Sampling (DS-TS) with Gaussian priors to address both non-stationary settings. Our algorithm passively adapts to changes by incorporating a discounted factor into Thompson Sampling. DS-TS method has been experimentally validated, but analysis of the regret upper bound is currently lacking. Under mild assumptions, we show that DS-TS with Gaussian priors can achieve nearly optimal regret bound on the order of $\tilde{O}(\sqrt{TB_T})$ for abruptly changing and $\tilde{O}(T^{\beta})$ for smoothly changing, where $T$ is the number of time steps, $B_T$ is the number of breakpoints, $\beta$ is associated with the smoothly changing environment and $\tilde{O}$ hides the parameters independent of $T$ as well as logarithmic terms. Furthermore, empirical comparisons between DS-TS and other non-stationary bandit algorithms demonstrate its competitive performance. Specifically, when prior knowledge of the maximum expected reward is available, DS-TS has the potential to outperform state-of-the-art algorithms.
翻訳日:2023-05-19 16:53:25 公開日:2023-05-18
# 時系列事前学習モデルの検討

A Survey on Time-Series Pre-Trained Models ( http://arxiv.org/abs/2305.10716v1 )

ライセンス: Link先を確認
Qianli Ma, Zhen Liu, Zhenjing Zheng, Ziyang Huang, Siying Zhu, Zhongzhong Yu, and James T. Kwok(参考訳) 時系列マイニング (TSM) は, 実用化に大きな可能性を示す重要な研究分野である。 大量のラベル付きデータに依存するディープラーニングモデルは、tsmをうまく利用しています。 しかし、データアノテーションコストのため、大規模にラベル付きデータセットの構築は困難である。 近年,コンピュータビジョンと自然言語処理の性能が著しく向上し,事前学習モデルが時系列領域で徐々に注目を集めている。 本稿では,TS-PTMの理解,適用,研究の指導を目的とした時系列事前学習モデル(TS-PTM)の総合的なレビューを行う。 具体的には,tsmで使用される典型的なディープラーニングモデルについて紹介する。 次に,事前学習手法によるTS-PTMの概要を示す。 私たちが調査する主なカテゴリは、教師なし、教師なし、および自己監督型のTS-PTMである。 さらに,トランスファーラーニング戦略,トランスフォーマーモデル,代表的TS-PTMの利点と欠点を分析するために,広範な実験を行った。 最後に,将来に向けたTS-PTMの可能性について述べる。

Time-Series Mining (TSM) is an important research area since it shows great potential in practical applications. Deep learning models that rely on massive labeled data have been utilized for TSM successfully. However, constructing a large-scale well-labeled dataset is difficult due to data annotation costs. Recently, Pre-Trained Models have gradually attracted attention in the time series domain due to their remarkable performance in computer vision and natural language processing. In this survey, we provide a comprehensive review of Time-Series Pre-Trained Models (TS-PTMs), aiming to guide the understanding, applying, and studying TS-PTMs. Specifically, we first briefly introduce the typical deep learning models employed in TSM. Then, we give an overview of TS-PTMs according to the pre-training techniques. The main categories we explore include supervised, unsupervised, and self-supervised TS-PTMs. Further, extensive experiments are conducted to analyze the advantages and disadvantages of transfer learning strategies, Transformer-based models, and representative TS-PTMs. Finally, we point out some potential directions of TS-PTMs for future work.
翻訳日:2023-05-19 16:52:50 公開日:2023-05-18
# 3次元シーン理解のためのオブジェクトコントラスト学習による視覚言語事前学習

Vision-Language Pre-training with Object Contrastive Learning for 3D Scene Understanding ( http://arxiv.org/abs/2305.10714v1 )

ライセンス: Link先を確認
Taolin Zhang, Sunan He, Dai Tao, Bin Chen, Zhi Wang, Shu-Tao Xia(参考訳) 近年、視覚言語事前学習フレームワークは自然言語処理やコンピュータビジョンにおいて大きな進歩を遂げており、様々な下流タスクの性能向上を実現している。 しかし、ポイントクラウドデータに拡張する場合、既存の作業は主にタスク固有のモデルの構築に重点を置いており、汎用的な3dビジョン言語埋め込みの抽出に失敗した。 セマンティック3Dシーン理解における3つの共通課題を慎重に検討し,事前学習モデルの開発に関する重要な知見を導き出す。 そこで本研究では,視覚言語前学習フレームワーク3dvlp (3d vision language pre-training with object contrastive learning)を提案する。 3DVLPは、視覚的グラウンドをプロキシタスクとして取り、オブジェクトレベルのIoU誘導検出(OID)損失を導入して、現場で高品質な提案を得る。 さらに,オブジェクトを記述にアライメントし,シーン内の異なるオブジェクトを識別するために,オブジェクトレベルのクロスコントラストアライメント(occ)タスクとオブジェクトレベルの自己コントラスト学習(osc)タスクを設計する。 3次元視覚言語タスクにおける3次元VLPの優れた性能を検証する実験は、セマンティック3次元シーン理解における優位性を反映している。

In recent years, vision language pre-training frameworks have made significant progress in natural language processing and computer vision, achieving remarkable performance improvement on various downstream tasks. However, when extended to point cloud data, existing works mainly focus on building task-specific models, and fail to extract universal 3D vision-language embedding that generalize well. We carefully investigate three common tasks in semantic 3D scene understanding, and derive key insights into the development of a pre-training model. Motivated by these observations, we propose a vision-language pre-training framework 3DVLP (3D vision-language pre-training with object contrastive learning), which transfers flexibly on 3D vision-language downstream tasks. 3DVLP takes visual grounding as the proxy task and introduces Object-level IoU-guided Detection (OID) loss to obtain high-quality proposals in the scene. Moreover, we design Object-level Cross-Contrastive alignment (OCC) task and Object-level Self-Contrastive learning (OSC) task to align the objects with descriptions and distinguish different objects in the scene, respectively. Extensive experiments verify the excellent performance of 3DVLP on three 3D vision-language tasks, reflecting its superiority in semantic 3D scene understanding.
翻訳日:2023-05-19 16:52:37 公開日:2023-05-18
# フラットネスアウェアプロンプト選択による精度向上とサンプル効率向上

Flatness-Aware Prompt Selection Improves Accuracy and Sample Efficiency ( http://arxiv.org/abs/2305.10713v1 )

ライセンス: Link先を確認
Lingfeng Shen, Weiting Tan, Boyuan Zheng, Daniel Khashabi(参考訳) 大規模言語モデルの能力が増大するにつれ、それらにアクセスするための主要な方法となっている。 これにより、効果的な言語プロンプトを自動選択する戦略の開発が動機となった。 本稿では,言語プロンプトの期待される有用性を定量化するための新しい指標であるプロンプト平坦性を導入する。 この計量は統計学習における平坦性正規化にインスパイアされ、モデルの頑健さをパラメータ摂動に向けて定量化する。 我々は,この指標の理論的基礎と他の素早い選択指標との関係を提供し,既存の手法の包括的理解を提供する。 実験により,既存の指標と即時平坦性を組み合わせることで,性能と試料効率が向上することを示した。 我々の測定値は,6つの分類ベンチマークにおいて,5%の精度向上と10%のピアソン相関で,前回のプロンプト選択指標を上回った。

With growing capabilities of large language models, prompting them has become the dominant way to access them. This has motivated the development of strategies for automatically selecting effective language prompts. In this paper, we introduce prompt flatness, a new metric to quantify the expected utility of a language prompt. This metric is inspired by flatness regularization in statistical learning that quantifies the robustness of the model towards its parameter perturbations. We provide theoretical foundations for this metric and its relationship with other prompt selection metrics, providing a comprehensive understanding of existing methods. Empirically, we show that combining prompt flatness with existing metrics improves both performance and sample efficiency. Our metric outperforms the previous prompt selection metrics with an average increase of 5% in accuracy and 10% in Pearson correlation across 6 classification benchmarks.
翻訳日:2023-05-19 16:52:15 公開日:2023-05-18
# NoisywikiHow: 自然言語処理における実世界のノイズラベルを用いた学習ベンチマーク

NoisywikiHow: A Benchmark for Learning with Real-world Noisy Labels in Natural Language Processing ( http://arxiv.org/abs/2305.10709v1 )

ライセンス: Link先を確認
Tingting Wu, Xiao Ding, Minji Tang, Hao Zhang, Bing Qin, Ting Liu(参考訳) 現実世界の大規模データセットは、必然的にラベルノイズを伴う。 ディープモデルはノイズラベルに徐々に適合し、モデル一般化を劣化させる。 ラベルノイズの影響を軽減するため,雑音ラベル法(LNL)を用いて学習することで,より優れた一般化性能を実現する。 適切なデータセットがないため、従来の研究では実世界のラベルノイズを模倣する合成ラベルノイズが頻繁に用いられてきた。 しかし、合成ノイズはインスタンス依存ではないため、この近似は実際は必ずしも有効ではない。 近年,実世界の雑音ラベルを用いた学習のためのベンチマークが提案されている。 しかし、内部のノイズ源は単一またはファジィであり、実世界の異質なラベルノイズを持つデータとベンチマークが異なる。 これらの問題に対処するため、最小限の監視で構築された最大のNLPベンチマークであるNoisywikiHowをコントリビュートする。 具体的には、人間の認識に触発されて、アノテーション全体を通してヒューマンエラーを模倣するためにラベルノイズの複数のソースを明示的に構築し、実際のノイズを再現する。 さらに、ノイズデータに対する制御実験を支援するため、様々なノイズレベルを提供し、LNL法を系統的かつ包括的に評価することができる。 その後,広範囲のlnl法について多次元実験を行い,新たな興味をそそる知見を得た。

Large-scale datasets in the real world inevitably involve label noise. Deep models can gradually overfit noisy labels and thus degrade model generalization. To mitigate the effects of label noise, learning with noisy labels (LNL) methods are designed to achieve better generalization performance. Due to the lack of suitable datasets, previous studies have frequently employed synthetic label noise to mimic real-world label noise. However, synthetic noise is not instance-dependent, making this approximation not always effective in practice. Recent research has proposed benchmarks for learning with real-world noisy labels. However, the noise sources within may be single or fuzzy, making benchmarks different from data with heterogeneous label noises in the real world. To tackle these issues, we contribute NoisywikiHow, the largest NLP benchmark built with minimal supervision. Specifically, inspired by human cognition, we explicitly construct multiple sources of label noise to imitate human errors throughout the annotation, replicating real-world noise, whose corruption is affected by both ground-truth labels and instances. Moreover, we provide a variety of noise levels to support controlled experiments on noisy data, enabling us to evaluate LNL methods systematically and comprehensively. After that, we conduct extensive multi-dimensional experiments on a broad range of LNL methods, obtaining new and intriguing findings.
翻訳日:2023-05-19 16:52:00 公開日:2023-05-18
# ナイジェリアにおける健康保険意思決定のための機械学習推薦システム

Machine Learning Recommendation System For Health Insurance Decision Making In Nigeria ( http://arxiv.org/abs/2305.10708v1 )

ライセンス: Link先を確認
Ayomide Owoyemi, Emmanuel Nnaemeka, Temitope O. Benson, Ronald Ikpe, Blessing Nwachukwu, Temitope Isedowo(参考訳) ナイジェリアでは医療保険の取得が不十分であり、認識の向上、意思決定を支援するための情報やツールへのアクセスなど、改善の重要なステップとなっている。 人工知能(ai)ベースのレコメンダシステムは、個人がインターネット上で映画、本、音楽、さまざまな種類の製品を見つけるのを助けることで、医療における多様な応用を含む人気を高めている。 推薦システムではコンテンツベース手法(itemベースアプローチ)が採用されている。 我々はK-Nearest Neighbor(KNN)とCosine類似性アルゴリズムを適用した。 結果とドメイン知識を比較して,いくつかの評価を行った結果,コサイン類似性が選択された。 推薦システムは、ユーザが入力した選択を考慮し、位置情報と選択した価格で健康管理組織(HMO)データをフィルタリングする。 そして、提供されるサービスに最も近い類似性を持つ上位3つのHMOを推奨する。 最善の健康保険プランを見つけて選択するためのレコメンデーションツールは、健康保険へのアクセス障壁を減らすのに役立ちます。 ユーザーは、利用可能な計画に関する適切な情報を簡単に見つけることができ、市場で利用可能な100以上のオプションを扱う際の認知的過負荷を減らし、財務能力にマッチするものを簡単に知ることができる。

The uptake of health insurance has been poor in Nigeria, a significant step to improving this includes improved awareness, access to information and tools to support decision making. Artificial intelligence (AI) based recommender systems have gained popularity in helping individuals find movies, books, music, and different types of products on the internet including diverse applications in healthcare. The content-based methodology (item-based approach) was employed in the recommender system. We applied both the K-Nearest Neighbor (KNN) and Cosine similarity algorithm. We chose the Cosine similarity as our chosen algorithm after several evaluations based of their outcomes in comparison with domain knowledge. The recommender system takes into consideration the choices entered by the user, filters the health management organization (HMO) data by location and chosen prices. It then recommends the top 3 HMOs with closest similarity in services offered. A recommendation tool to help people find and select the best health insurance plan for them is useful in reducing the barrier of accessing health insurance. Users are empowered to easily find appropriate information on available plans, reduce cognitive overload in dealing with over 100 options available in the market and easily see what matches their financial capacity.
翻訳日:2023-05-19 16:51:39 公開日:2023-05-18
# eXtended Physics-Informed Neural Networks と結合したシンボリック回帰に基づくデータからの運動方程式のグレイボックス学習

A Framework Based on Symbolic Regression Coupled with eXtended Physics-Informed Neural Networks for Gray-Box Learning of Equations of Motion from Data ( http://arxiv.org/abs/2305.10706v1 )

ライセンス: Link先を確認
Elham Kiyani, Khemraj Shukla, George Em Karniadakis and Mikko Karttunen(参考訳) 本研究では非線形方程式の未知部分を直接データから解く枠組みとアルゴリズムを提案する。 このフレームワークは、時空の領域分解であるeXtended Physics-Informed Neural Networks (X-PINNs) に基づいているが、ドメインインターフェース間のフラックス連続性を付与することにより、元のX-PINN法を拡張する。 有名なアレン・カーン方程式は、このアプローチを実証するために用いられる。 フロベニウス行列ノルムはxピン予測の精度を評価するために用いられ、結果は優れた性能を示す。 さらに、このデータから未知部分の閉形式を決定するために記号回帰を用い、X-PINNsに基づくアプローチの精度を確認した。 現実世界のデータに類似した状況でフレームワークをテストするために、データセットにランダムノイズを追加して、熱ノイズや機器エラーなどのシナリオを模倣する。 その結果,フレームワークは大量のノイズに対して安定であることがわかった。 最後に、ニューラルネットワークのトレーニングに必要な最小限のデータ量を決定する。 このフレームワークは、トレーニングに少なくとも50\%のデータを使用する場合、基礎となる力学方程式の正しい形と係数を予測できる。

We propose a framework and an algorithm to uncover the unknown parts of nonlinear equations directly from data. The framework is based on eXtended Physics-Informed Neural Networks (X-PINNs), domain decomposition in space-time, but we augment the original X-PINN method by imposing flux continuity across the domain interfaces. The well-known Allen-Cahn equation is used to demonstrate the approach. The Frobenius matrix norm is used to evaluate the accuracy of the X-PINN predictions and the results show excellent performance. In addition, symbolic regression is employed to determine the closed form of the unknown part of the equation from the data, and the results confirm the accuracy of the X-PINNs based approach. To test the framework in a situation resembling real-world data, random noise is added to the datasets to mimic scenarios such as the presence of thermal noise or instrument errors. The results show that the framework is stable against significant amount of noise. As the final part, we determine the minimal amount of data required for training the neural network. The framework is able to predict the correct form and coefficients of the underlying dynamical equation when at least 50\% data is used for training.
翻訳日:2023-05-19 16:51:21 公開日:2023-05-18
# ReGen: プログレッシブ・センス検索による学習データ生成によるゼロショットテキスト分類

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval ( http://arxiv.org/abs/2305.10703v1 )

ライセンス: Link先を確認
Yue Yu, Yuchen Zhuang, Rongzhi Zhang, Yu Meng, Jiaming Shen, Chao Zhang(参考訳) 大規模言語モデル(LLM)の開発により、ゼロショット学習は様々なNLPタスクに多くの注目を集めている。 10億規模の自然言語生成(nlg)モデルでトレーニングデータを生成する以前の作業とは違って,一般ドメインのラベルなしコーパスからトレーニングデータを生成するための検索エンハンシングフレームワークを提案する。 これを実現するために、私たちはまず、クラス記述型文読解器を用いて最も関連性の高い文書を抽出する教師なし密集検索器を学習するために、対照的な事前学習を行う。 さらに,実演による動詞化の強化と自己一貫性に基づくフィルタリングの2つの単純な戦略を提案し,ノイズの多い例を取り除きながら,データセットのトピックカバレッジを向上させる。 9つのデータセットの実験では、REGENは最強のベースラインよりも4.3%向上し、大きなNLGモデルを使用したベースラインと比較して約70%の時間を節約している。 さらに、REGENは、最近提案された大規模言語モデルと自然に統合してパフォーマンスを向上させることができる。

With the development of large language models (LLMs), zero-shot learning has attracted much attention for various NLP tasks. Different from prior works that generate training data with billion-scale natural language generation (NLG) models, we propose a retrieval-enhanced framework to create training data from a general-domain unlabeled corpus. To realize this, we first conduct contrastive pretraining to learn an unsupervised dense retriever for extracting the most relevant documents using class-descriptive verbalizers. We then further propose two simple strategies, namely Verbalizer Augmentation with Demonstrations and Self-consistency Guided Filtering to improve the topic coverage of the dataset while removing noisy examples. Experiments on nine datasets demonstrate that REGEN achieves 4.3% gain over the strongest baselines and saves around 70% of the time compared to baselines using large NLG models. Besides, REGEN can be naturally integrated with recently proposed large language models to boost performance.
翻訳日:2023-05-19 16:51:00 公開日:2023-05-18
# 深部時間グラフクラスタリング

Deep Temporal Graph Clustering ( http://arxiv.org/abs/2305.10738v1 )

ライセンス: Link先を確認
Meng Liu, Yue Liu, Ke Liang, Siwei Wang, Sihang Zhou, Xinwang Liu(参考訳) ディープグラフクラスタリングは、教師なしシナリオにおけるモデルの表現学習能力を向上させる能力によって、最近大きな注目を集めている。 それでも、重要な動的相互作用情報を捉えることのできる時間グラフの深いクラスタリングは、完全には研究されていない。 多くのクラスタリング指向の現実シナリオでは、時間グラフは静的グラフとしてのみ処理できる。 これは動的情報の損失を引き起こすだけでなく、膨大な計算消費を引き起こす。 そこで本研究では,時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合させるために,深部クラスタリング技術(クラスタリング代入分布と隣接行列再構成)を調整したTGCと呼ばれる深部クラスタリングフレームワークを提案する。 さらに,時間的グラフクラスタリングと既存の静的グラフクラスタリングの違いについても検討した。 提案するフレームワーク TGC の優位性を検証するため,我々は広範囲な実験を行った。 実験の結果,時間と空間のバランスを求める場合,時間グラフクラスタリングにより柔軟性が向上し,既存の時間グラフ学習手法の性能を効果的に向上できることがわかった。 私たちのコードと補足資料は出版後公開されるでしょう。

Deep graph clustering has recently received significant attention due to its ability to enhance the representation learning capabilities of models in unsupervised scenarios. Nevertheless, deep clustering for temporal graphs, which could capture crucial dynamic interaction information, has not been fully explored. It means that in many clustering-oriented real-world scenarios, temporal graphs can only be processed as static graphs. This not only causes the loss of dynamic information but also triggers huge computational consumption. To solve the problem, we propose a general framework for deep Temporal Graph Clustering called TGC, which adjusts deep clustering techniques (clustering assignment distribution and adjacency matrix reconstruction) to suit the interaction sequence-based batch-processing pattern of temporal graphs. In addition, we discuss differences between temporal graph clustering and existing static graph clustering from several levels. To verify the superiority of the proposed framework TGC, we conduct extensive experiments. The experimental results show that temporal graph clustering enables more flexibility in finding a balance between time and space requirements, and our framework can effectively improve the performance of existing temporal graph learning methods. Our code and supplementary material will be released after publication.
翻訳日:2023-05-19 16:43:48 公開日:2023-05-18
# 事実的一貫性のあるテキスト要約を生成するための反事実的デバイアス

Counterfactual Debiasing for Generating Factually Consistent Text Summaries ( http://arxiv.org/abs/2305.10736v1 )

ライセンス: Link先を確認
Chenhe Dong, Yuexiang Xie, Yaliang Li, Ying Shen(参考訳) 流動的で情報的なテキストを生成するための抽象的テキスト要約の大幅な進歩にもかかわらず、生成した要約の事実的矛盾は、解決すべき重要な課題である。 本稿では,抽象的テキスト要約のための因果グラフを構築し,事実的不整合,すなわち言語バイアスと無関係バイアスの本質的原因を同定し,さらに,これらバイアスの因果効果を反事実的推定によって軽減するためのデバイアスフレームワークcofactsumを提案する。 特に,提案手法は,明示的な動的マスキング戦略による明示的偽マスキングと,暗黙的な識別的クロスコンタクト機構を用いた暗黙的偽マスキングの2つの反事実推定戦略を提供する。 一方、デコードステップ毎にデバイアス度を動的に適応させるデバイアス度調整機構を設計する。 広く使われている2つの要約データセットに関する広範囲な実験は、複数のベースラインと比較して生成した要約の事実整合性を高めるコファクサムの有効性を示している。

Despite substantial progress in abstractive text summarization to generate fluent and informative texts, the factual inconsistency in the generated summaries remains an important yet challenging problem to be solved. In this paper, we construct causal graphs for abstractive text summarization and identify the intrinsic causes of the factual inconsistency, i.e., the language bias and irrelevancy bias, and further propose a debiasing framework, named CoFactSum, to alleviate the causal effects of these biases by counterfactual estimation. Specifically, the proposed CoFactSum provides two counterfactual estimation strategies, i.e., Explicit Counterfactual Masking with an explicit dynamic masking strategy, and Implicit Counterfactual Training with an implicit discriminative cross-attention mechanism. Meanwhile, we design a Debiasing Degree Adjustment mechanism to dynamically adapt the debiasing degree at each decoding step. Extensive experiments on two widely-used summarization datasets demonstrate the effectiveness of CoFactSum in enhancing the factual consistency of generated summaries compared with several baselines.
翻訳日:2023-05-19 16:43:30 公開日:2023-05-18
# 共同生成型および予測型デコーダを用いた拡散型音声強調

Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders ( http://arxiv.org/abs/2305.10734v1 )

ライセンス: Link先を確認
Hao Shi, Kazuki Shimada, Masato Hirano, Takashi Shibuya, Yuichiro Koyama, Zhi Zhong, Shusuke Takahashi, Tatsuya Kawahara, Yuki Mitsufuji(参考訳) 拡散に基づく音声強調(SE)は近年研究されているが,その復号は非常に時間がかかる。 1つの解決策は、予測SEシステムによって推定される機能拡張でデコードプロセスを初期化することである。 しかし、この2段階法は予測と拡散SEの相補性を無視する。 本稿では,これら2つのSEモジュールを統合する統一システムを提案する。 このシステムは生成情報と予測情報をエンコードし、生成情報と予測デコーダの両方を適用して出力を融合させる。 具体的には、2つのSEモジュールを第1及び最終拡散ステップで融合する:第1ステップ融合は、収束を改善するために予測SEと拡散プロセスを初期化し、最終ステップ融合は、2つの相補SE出力を結合してSE性能を向上させる。 Voice-Bankデータセットの実験では、拡散スコア推定は予測情報から恩恵を受け、デコーディングを高速化することができる。

Diffusion-based speech enhancement (SE) has been investigated recently, but its decoding is very time-consuming. One solution is to initialize the decoding process with the enhanced feature estimated by a predictive SE system. However, this two-stage method ignores the complementarity between predictive and diffusion SE. In this paper, we propose a unified system that integrates these two SE modules. The system encodes both generative and predictive information, and then applies both generative and predictive decoders, whose outputs are fused. Specifically, the two SE modules are fused in the first and final diffusion steps: the first step fusion initializes the diffusion process with the predictive SE for improving the convergence, and the final step fusion combines the two complementary SE outputs to improve the SE performance. Experiments on the Voice-Bank dataset show that the diffusion score estimation can benefit from the predictive information and speed up the decoding.
翻訳日:2023-05-19 16:43:07 公開日:2023-05-18
# BlindHarmony:フローモデルによるMR画像の"Blind"高調波化

BlindHarmony: "Blind" Harmonization for MR Images via Flow model ( http://arxiv.org/abs/2305.10732v1 )

ライセンス: Link先を確認
Hwihun Jeong, Heejoon Byun, Dong un Kang, and Jongho Lee(参考訳) MRIでは、同じ対象のコントラスト(例えば、T1)の画像は、異なるハードウェア、シーケンス、スキャンパラメータを使用して取得した場合、顕著な違いを示すことができる。 これらの画像の違いは、従来のあるいは深層学習に基づく画像解析(セグメンテーションなど)を用いて画像の処理を成功させるために、画像調和と呼ばれるステップによってブリッジする必要がある領域ギャップを生み出す。 画像調和を実現するために,ディープラーニングに基づくアプローチを含むいくつかの手法が提案されている。 しかし、深層学習訓練には複数の特徴のデータセットを必要とすることが多く、目に見えない領域の画像に適用しても失敗する可能性がある。 この制限に対処するために,我々は,対象領域データのみをトレーニングに利用するが,未認識のドメインイメージを調和させる能力を持つ「blind harmonization」という新しい概念を提案する。 Blind Harmonizationの実装のために、ターゲットドメインデータに基づいて訓練された非条件フローモデルを用いてBlindHarmonyを開発した。 調和画像は、フローモデルの潜在ベクトルがガウスの中心に近いことを保証しつつ、入力源領域画像と相関を持つように最適化される。 BlindHarmonyをシミュレーションおよび実データを用いて評価し,従来の手法と比較した。 blindharmonyは両方のデータセットで注目すべきパフォーマンスを達成し、将来臨床での使用の可能性を強調した。

In MRI, images of the same contrast (e.g., T1) from the same subject can show noticeable differences when acquired using different hardware, sequences, or scan parameters. These differences in images create a domain gap that needs to be bridged by a step called image harmonization, in order to process the images successfully using conventional or deep learning-based image analysis (e.g., segmentation). Several methods, including deep learning-based approaches, have been proposed to achieve image harmonization. However, they often require datasets of multiple characteristics for deep learning training and may still be unsuccessful when applied to images of an unseen domain. To address this limitation, we propose a novel concept called "Blind Harmonization," which utilizes only target domain data for training but still has the capability of harmonizing unseen domain images. For the implementation of Blind Harmonization, we developed BlindHarmony using an unconditional flow model trained on target domain data. The harmonized image is optimized to have a correlation with the input source domain image while ensuring that the latent vector of the flow model is close to the center of the Gaussian. BlindHarmony was evaluated using simulated and real datasets and compared with conventional methods. BlindHarmony achieved a noticeable performance in both datasets, highlighting its potential for future use in clinical settings.
翻訳日:2023-05-19 16:42:53 公開日:2023-05-18
# ライブストリームチャットにおける規範違反の分析

Analyzing Norm Violations in Live-Stream Chat ( http://arxiv.org/abs/2305.10731v1 )

ライセンス: Link先を確認
Jihyung Moon, Dong-Ho Lee, Hyundong Cho, Woojeong Jin, Chan Young Park, Minwoo Kim, Jonathan May, Jay Pujara, Sungjoon Park(参考訳) ヘイトスピーチのような有害言語は、ユーザーがオンラインコミュニティに参加し、人気のあるプラットフォームを楽しむことを妨げます。 有害な言語や規範違反を検出する以前のアプローチは、主にredditやtwitterなどのオンラインフォーラムやソーシャルメディアからの会話に関係していた。 これらのアプローチはtwitchやyoutube liveといったライブストリーミングプラットフォームでの会話に適用すると効果が低く、各コメントは限られた時間しか見えず、他のコメントとの関係を確立するスレッド構造が欠如している。 本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。 ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。 我々は、他のフォーラムと異なるライブストリームデータのいくつかの側面を具体化し、既存のモデルがこの環境では不十分であることを示す。 ユーザの調査を行うことで、人間がライブストリームモデレーションで使用する情報コンテキストを特定し、コンテキストを活用したトレーニングモデルを使用して規範違反を識別する。 その結果,適切な文脈情報によってモデレーション性能が35\%向上することがわかった。

Toxic language, such as hate speech, can deter users from participating in online communities and enjoying popular platforms. Previous approaches to detecting toxic language and norm violations have been primarily concerned with conversations from online forums and social media, such as Reddit and Twitter. These approaches are less effective when applied to conversations on live-streaming platforms, such as Twitch and YouTube Live, as each comment is only visible for a limited time and lacks a thread structure that establishes its relationship with other comments. In this work, we share the first NLP study dedicated to detecting norm violations in conversations on live-streaming platforms. We define norm violation categories in live-stream chats and annotate 4,583 moderated comments from Twitch. We articulate several facets of live-stream data that differ from other forums, and demonstrate that existing models perform poorly in this setting. By conducting a user study, we identify the informational context humans use in live-stream moderation, and train models leveraging context to identify norm violations. Our results show that appropriate contextual information can boost moderation performance by 35\%.
翻訳日:2023-05-19 16:42:31 公開日:2023-05-18
# fedmr:モデル再結合による連合学習

FedMR: Federated Learning via Model Recombination ( http://arxiv.org/abs/2305.10730v1 )

ライセンス: Link先を確認
Ming Hu and Zhihao Yue and Zhiwei Ling and Yihao Huang and Cheng Chen and Xian Wei and Yang Liu and Mingsong Chen(参考訳) Federated Learning(FL)は、クライアント間でのグローバルモデルトレーニングを、生データを妥協することなく実現しているが、既存のFederated Averaging(FedAvg)ベースのメソッドは、特にクライアント間の不均一な分散データに対して、低い推論性能の問題に悩まされている。 これは主に 一)FedAvgは、同じグローバルモデルでクライアントモデルを初期化することにより、ローカルな学習を最適解の探索から逃れるのを困難にする。 二 モデルパラメータを粗い方法で平均化することにより、FedAvgは局所モデルの個々の特性を上回ります。 本稿では,FLの推論能力を強く制限する問題に対処するため,FedMR(Federated Model Recombination)という新しいFLパラダイムを提案する。 従来のFedAvgベースの方法とは異なり、FedMRのクラウドサーバは、収集されたローカルモデルの各レイヤをシャッフルし、それらを再結合して、クライアントでのローカルトレーニングのための新しいモデルを達成する。 細粒度のモデル組換えと結合したクライアントの初期化モデルにより、FedMRはすべてのクライアントに対して十分に一般化されたグローバルモデルに収束し、推論性能が向上する。 実験の結果,最新のFL法と比較して,FedMRはクライアントのプライバシを公開することなく,推論精度を大幅に向上させることができることがわかった。

Although Federated Learning (FL) enables global model training across clients without compromising their raw data, existing Federated Averaging (FedAvg)-based methods suffer from the problem of low inference performance, especially for unevenly distributed data among clients. This is mainly because i) FedAvg initializes client models with the same global models, which makes the local training hard to escape from the local search for optimal solutions; and ii) by averaging model parameters in a coarse manner, FedAvg eclipses the individual characteristics of local models. To address such issues that strongly limit the inference capability of FL, we propose a novel and effective FL paradigm named FedMR (Federated Model Recombination). Unlike conventional FedAvg-based methods, the cloud server of FedMR shuffles each layer of collected local models and recombines them to achieve new models for local training on clients. Due to the diversified initialization models for clients coupled with fine-grained model recombination, FedMR can converge to a well-generalized global model for all the clients, leading to a superior inference performance. Experimental results show that, compared with state-of-the-art FL methods, FedMR can significantly improve inference accuracy in a quicker manner without exposing client privacy.
翻訳日:2023-05-19 16:42:14 公開日:2023-05-18
# GPUフレンドリなスポーシティと量子化を備えたBoost Vision Transformer

Boost Vision Transformer with GPU-Friendly Sparsity and Quantization ( http://arxiv.org/abs/2305.10727v1 )

ライセンス: Link先を確認
Chong Yu, Tao Chen, Zhongxue Gan, Jiayuan Fan(参考訳) トランスフォーマーは、その成功を言語からビジョンドメインに拡張する。 スタック化されたセルフアテンションブロックとクロスアテンションブロックのため、gpuハードウェアへのビジョントランスフォーマーのアクセラレーションの展開は困難であり、研究もまれである。 本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。 特に、密度重みパラメータを持つ元々の大型モデルは、まず2:4構造化プルーニングによりスパースに、GPUの2:4構造化スパースパターンとFP16データ型を考慮し、浮動小数点スパースモデルは、スパース蒸留を意識した量子化トレーニングにより固定点に量子化され、GPUは整数テンソルで2:4スパース計算を余分に高速化できると考えている。 プルーニングと量子化の過程で混合ストラテジー知識蒸留が用いられる。 提案する圧縮方式は教師なしおよび教師なしの学習スタイルをサポートするために柔軟である。 実験結果によると、GPUSQ-ViT方式は、画像ネット分類、COCO検出、ADE20Kセグメンテーションベンチマークタスクにおいて、モデルサイズ6.4~12.7倍、FLOP30.3~62倍の精度劣化を許容できる精度で低減し、最先端の圧縮を実現する。 さらに、GPUSQ-ViTはA100 GPUの1.39-1.79倍、3.22-3.43倍のレイテンシとスループット、AGX Orinの1.57-1.69倍と2.11-2.51倍のレイテンシとスループット向上を実現している。

The transformer extends its success from the language to the vision domain. Because of the stacked self-attention and cross-attention blocks, the acceleration deployment of vision transformer on GPU hardware is challenging and also rarely studied. This paper thoroughly designs a compression scheme to maximally utilize the GPU-friendly 2:4 fine-grained structured sparsity and quantization. Specially, an original large model with dense weight parameters is first pruned into a sparse one by 2:4 structured pruning, which considers the GPU's acceleration of 2:4 structured sparse pattern with FP16 data type, then the floating-point sparse model is further quantized into a fixed-point one by sparse-distillation-aware quantization aware training, which considers GPU can provide an extra speedup of 2:4 sparse calculation with integer tensors. A mixed-strategy knowledge distillation is used during the pruning and quantization process. The proposed compression scheme is flexible to support supervised and unsupervised learning styles. Experiment results show GPUSQ-ViT scheme achieves state-of-the-art compression by reducing vision transformer models 6.4-12.7 times on model size and 30.3-62 times on FLOPs with negligible accuracy degradation on ImageNet classification, COCO detection and ADE20K segmentation benchmarking tasks. Moreover, GPUSQ-ViT can boost actual deployment performance by 1.39-1.79 times and 3.22-3.43 times of latency and throughput on A100 GPU, and 1.57-1.69 times and 2.11-2.51 times improvement of latency and throughput on AGX Orin.
翻訳日:2023-05-19 16:41:47 公開日:2023-05-18
# 環境技術とインテリジェンス

Ambient Technology & Intelligence ( http://arxiv.org/abs/2305.10726v1 )

ライセンス: Link先を確認
Amos Okomayin, Tosin Ige(参考訳) 今日では、若者と高齢者、特別なニーズを持つ人々、自分自身を気遣うことができる人々が混在しています。 この数字は世界の人口の約15%に相当するが、15歳以上の人口は3.8%(約1億9000万人)である(2011年組織)。 慢性的な健康状態の悪化などにより、障害者の数は増加傾向にある。 これらその他の要因により、今日の社会では適切な医療施設の必要性が高まっている。 障害者が日常生活を営むのを手伝うためにいくつかの医療施設が建設され、地域社会から離れてはならない。

Today, we have a mixture of young and older individuals, people with special needs, and people who can care for themselves. Over 1 billion people are estimated to be disabled; this figure corresponds to about 15% of the world's population, with 3.8% (approximately 190 million people) accounting for people aged 15 and up (Organization, 2011). The number of people with disabilities is upward due to the increase in chronic health conditions and many other things. These and other factors have made the need for proper care facilities urgent in today's society. Several care facilities are built to help people with disabilities live their everyday lives and not be left out of the community.
翻訳日:2023-05-19 16:41:11 公開日:2023-05-18
# ハイブリッドプロンプト規則化によるトレーニング不要のセグメント

Segment Any Anomaly without Training via Hybrid Prompt Regularization ( http://arxiv.org/abs/2305.10724v1 )

ライセンス: Link先を確認
Yunkang Cao, Xiaohao Xu, Chen Sun, Yuqi Cheng, Zongwei Du, Liang Gao, Weiming Shen(参考訳) 現代基礎モデルの適応性を向上させるために,ハイブリッドプロンプト正規化によるゼロショット異常分割のための新しいフレームワーク,すなわちセグメンツ・アノマリー+(SAA+)を提案する。 既存の異常セグメンテーションモデルは通常、ドメイン固有の微調整に依存し、無数の異常パターンの一般化を制限する。 本研究は,segment anythingのような基礎モデルの大きなゼロショット一般化能力に着想を得て,まずそれらの集合を探索し,異常局在に多様なマルチモーダル事前知識を活用した。 異常セグメンテーションへの非パラメータ基礎モデルの適用については、ドメインエキスパートの知識とターゲット画像コンテキストを正規化したハイブリッドプロンプトを導入する。 提案したSAA+モデルは,ゼロショット設定において,VasA,MVTec-AD,MTD,KSDD2を含むいくつかの異常セグメンテーションベンチマークの最先端性能を実現する。 コードは \href{https://github.com/caoyunkang/segment-any-anomaly}{https://github.com/caoyunkang/segment-any-anomaly} でリリースします。

We present a novel framework, i.e., Segment Any Anomaly + (SAA+), for zero-shot anomaly segmentation with hybrid prompt regularization to improve the adaptability of modern foundation models. Existing anomaly segmentation models typically rely on domain-specific fine-tuning, limiting their generalization across countless anomaly patterns. In this work, inspired by the great zero-shot generalization ability of foundation models like Segment Anything, we first explore their assembly to leverage diverse multi-modal prior knowledge for anomaly localization. For non-parameter foundation model adaptation to anomaly segmentation, we further introduce hybrid prompts derived from domain expert knowledge and target image context as regularization. Our proposed SAA+ model achieves state-of-the-art performance on several anomaly segmentation benchmarks, including VisA, MVTec-AD, MTD, and KSDD2, in the zero-shot setting. We will release the code at \href{https://github.com/caoyunkang/Segment-Any-Anomaly}{https://github.com/caoyunkang/Segment-Any-Anomaly}.
翻訳日:2023-05-19 16:40:59 公開日:2023-05-18
# 局所交絡測定に基づく古典的影

Classical shadows based on locally-entangled measurements ( http://arxiv.org/abs/2305.10723v1 )

ライセンス: Link先を確認
Matteo Ippoliti(参考訳) 我々は,n$-qubit エンタングルベースにおけるランダム化測定に基づく古典的なシャドウプロトコルを研究し,ランダムな pauli 測定プロトコル (n = 1$) を一般化した。 絡み合った測定(n\geq 2$)は、パウリ予想値の学習のサンプル複雑さにおいて、非自明で潜在的に有利なトレードオフを可能にすることを示す。 Pauli 重み $k$ によるサンプル複雑性のスケーリングは、多くの演算子に対して二次的に($\sim 3^k$ から $\sim 3^{k/2}$ まで)改善するが、他の演算子では学習できない。 測定ベースにおける絡み合いの量を調整することは、ポーリとベルシャドウの間を補間する一連のプロトコルを定義し、両者の利点の一部を保っている。 大きなn$の場合、n$-qubit ghz のベースでランダム化された測定値が、ますます制限されるオペレーターのセットではあるものの、$\sim (3/2)^k$ のスケーリングをさらに改善することを示している。 単純さとハードウェア要件の低さにもかかわらず、これらのプロトコルは、実際に関係のあるpauli推定タスクで最近導入された ``shallow shadows''' にマッチするか、または上回ることができる。

We study classical shadows protocols based on randomized measurements in $n$-qubit entangled bases, generalizing the random Pauli measurement protocol ($n = 1$). We show that entangled measurements ($n\geq 2$) enable nontrivial and potentially advantageous trade-offs in the sample complexity of learning Pauli expectation values. This is sharply illustrated by shadows based on two-qubit Bell measurements: the scaling of sample complexity with Pauli weight $k$ improves quadratically (from $\sim 3^k$ down to $\sim 3^{k/2}$) for many operators, while others become impossible to learn. Tuning the amount of entanglement in the measurement bases defines a family of protocols that interpolate between Pauli and Bell shadows, retaining some of the benefits of both. For large $n$, we show that randomized measurements in $n$-qubit GHZ bases further improve the best scaling to $\sim (3/2)^k$, albeit on an increasingly restricted set of operators. Despite their simplicity and lower hardware requirements, these protocols can match or outperform recently-introduced ``shallow shadows'' in some practically-relevant Pauli estimation tasks.
翻訳日:2023-05-19 16:40:36 公開日:2023-05-18
# 敵を友人に変えることのできる 唯一の力は敵の修正だ

Adversarial Amendment is the Only Force Capable of Transforming an Enemy into a Friend ( http://arxiv.org/abs/2305.10766v1 )

ライセンス: Link先を確認
Chong Yu, Tao Chen, Zhongxue Gan(参考訳) 敵の攻撃は通常、誤解を招く行動のためにニューラルネットワークに対する大きな脅威と見なされる。 敵の攻撃は、正しく修正すれば、ニューラルモデルを改善するために利用することができる。 従来の対人防御法や対人訓練法とは異なり、提案法は、良性サンプルに対するニューラルモデルの元の精度レベルを改善することを目的としている。 良性試料と逆性試料の分布ミスマッチを網羅的に解析した。 この分布ミスマッチと、先行技術防衛戦略に適用される学習比率が同じである相互学習機構が、良性サンプルの精度劣化を導く主な原因である。 提案するadvamdは、精度の低下を着実に改善し、良性分類、オブジェクト検出、セグメンテーションタスクにおける一般的な神経モデルの一定の精度向上につながる。 AdvAmdの有効性は、サンプルの仲介(微調整による分布ミスマッチの影響を低減するため)、補助バッチノルム(相互学習機構とスムーズな判断面を解決するため)、AdvAmd損失(異なる攻撃脆弱性に応じて学習比率を調整するために)の定量的およびアブレーション実験による3つの重要な構成要素によって提供される。

Adversarial attack is commonly regarded as a huge threat to neural networks because of misleading behavior. This paper presents an opposite perspective: adversarial attacks can be harnessed to improve neural models if amended correctly. Unlike traditional adversarial defense or adversarial training schemes that aim to improve the adversarial robustness, the proposed adversarial amendment (AdvAmd) method aims to improve the original accuracy level of neural models on benign samples. We thoroughly analyze the distribution mismatch between the benign and adversarial samples. This distribution mismatch and the mutual learning mechanism with the same learning ratio applied in prior art defense strategies is the main cause leading the accuracy degradation for benign samples. The proposed AdvAmd is demonstrated to steadily heal the accuracy degradation and even leads to a certain accuracy boost of common neural models on benign classification, object detection, and segmentation tasks. The efficacy of the AdvAmd is contributed by three key components: mediate samples (to reduce the influence of distribution mismatch with a fine-grained amendment), auxiliary batch norm (to solve the mutual learning mechanism and the smoother judgment surface), and AdvAmd loss (to adjust the learning ratios according to different attack vulnerabilities) through quantitative and ablation experiments.
翻訳日:2023-05-19 16:34:40 公開日:2023-05-18
# OpenShape: オープンワールド理解に向けた3D形状表現のスケールアップ

OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding ( http://arxiv.org/abs/2305.10764v1 )

ライセンス: Link先を確認
Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su(参考訳) 本稿では,テキスト,画像,ポイントクラウドのマルチモーダルジョイント表現を学習する手法であるopenshapeを提案する。 表現アライメントによく使われるマルチモーダルコントラスト学習フレームワークを採用するが,オープンワールドの3d形状理解を実現するために,特に3d表現のスケールアップに重点を置いている。 これを実現するために,複数の3dデータセットをセンセンシングしてトレーニングデータをスケールアップし,ノイズの多いテキスト記述を自動的にフィルタリングし,強化するためのいくつかの戦略を提案する。 また、3Dバックボーンネットワークのスケーリング戦略を探求し比較し、より効率的なトレーニングのための新しいハードネガティブマイニングモジュールを導入する。 ゼロショット3d分類ベンチマークでopenshapeを評価し,その優れたオープンワールド認識能力を示す。 具体的には、OpenShapeは既存の手法に比べて1,156カテゴリのObjaverse-LVISベンチマークで46.8%のゼロショット精度を達成した