このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230630となっている論文です。

PDF登録状況(公開日: 20230630)

TitleAuthorsAbstract論文公表日・翻訳日
# 科学モデリングソフトウェアにおける因果性テスト

Testing Causality in Scientific Modelling Software ( http://arxiv.org/abs/2209.00357v2 )

ライセンス: Link先を確認
Andrew G. Clark, Michael Foster, Benedikt Prifling, Neil Walkinshaw, Robert M. Hierons, Volker Schmidt, Robert D. Turner(参考訳) パンデミックにおける銀河形成のシミュレーションからウイルス感染まで、科学モデルが科学理論を発展させ、私たち全員に影響を与える政府の政策決定を支援する上で重要な役割を果たす。 これらの重要なアプリケーションを考えると、モデリングの不十分な仮定やバグは広範囲な結果をもたらす可能性がある。 しかし、科学モデルには、複雑な入力空間、長い実行時間、非決定論など、テストが難しいいくつかの特性があり、既存のテスト技術は実用的ではない。 研究者が因果問題に挑戦する答えを求める疫学のような分野において、因果推論(Causal Inference)として知られる統計学的手法は同様の問題に対処し、ノイズ、偏見、スパースデータからの因果結論の推論を可能にした。 本稿では,Causal Testing Frameworkについて紹介する。Causal Inference(因果推論)技術を用いて,既存のデータから因果的影響を確定するフレームワークである。 実世界の科学モデルをカバーする3つのケーススタディとして、Causal Testing Frameworkは、再利用されたテストデータからメタモルフィックテストの結果を推測し、科学モデリングソフトウェアをテストするための効率的なソリューションを提供する。

From simulating galaxy formation to viral transmission in a pandemic, scientific models play a pivotal role in developing scientific theories and supporting government policy decisions that affect us all. Given these critical applications, a poor modelling assumption or bug could have far-reaching consequences. However, scientific models possess several properties that make them notoriously difficult to test, including a complex input space, long execution times, and non-determinism, rendering existing testing techniques impractical. In fields such as epidemiology, where researchers seek answers to challenging causal questions, a statistical methodology known as Causal Inference has addressed similar problems, enabling the inference of causal conclusions from noisy, biased, and sparse data instead of costly experiments. This paper introduces the Causal Testing Framework: a framework that uses Causal Inference techniques to establish causal effects from existing data, enabling users to conduct software testing activities concerning the effect of a change, such as Metamorphic Testing, a posteriori. We present three case studies covering real-world scientific models, demonstrating how the Causal Testing Framework can infer metamorphic test outcomes from reused, confounded test data to provide an efficient solution for testing scientific modelling software.
翻訳日:2023-10-24 15:06:57 公開日:2023-06-30
# 実行時情報によるdiffの強化

Augmenting Diffs With Runtime Information ( http://arxiv.org/abs/2212.11077v2 )

ライセンス: Link先を確認
Khashayar Etemadi, Aman Sharma, Fernanda Madeiral and Martin Monperrus(参考訳) ソースコードの差分は、コードレビュー、検査、監査の一部として毎日使用される。 理解を容易にするために、それらは典型的にはプログラムでの変更の本質を記述する説明を伴う。 高品質な説明を手作業で作るのは面倒な作業なので、研究者はコード差分説明を生成する自動テクニックを提案しました。 既存の説明生成手法は静的解析のみに重点を置いており、コード変更を説明するために実行時情報を活用していない。 本稿では,コード差分をランタイム差分情報で拡張する新しいツールであるCollector-Sahabを提案する。 Collector-Sahabは、プログラムの元の(古い)バージョンとパッチされた(新しい)バージョンを比較して、ユニークな変数値を見つける。 collector-sahabは、例えばコードレビューシステムで示されるように、この新しいランタイム情報をソースコードdiffに追加する。 評価として、Defects4Jバグの584のコード差分に対してCollector-Sahabを実行し、95%(555/584)のコード差分をうまく増やすことを発見した。 ユーザスタディも実施し、8人の参加者に、Collector-Sahabが生成した拡張コード差分をスコアする。 このユーザ調査で、開発者はコード差分にランタイムデータを追加するというアイデアが有望で役に立つと結論づけた。 総じて本実験では,実行時の差分情報を用いたコード差分の強化において,コレクターsahabの有効性と有用性を示す。 パブリックリポジトリ:https://github.com/ASSERT-KTH/collector-sahab

Source code diffs are used on a daily basis as part of code review, inspection, and auditing. To facilitate understanding, they are typically accompanied by explanations that describe the essence of what is changed in the program. As manually crafting high-quality explanations is a cumbersome task, researchers have proposed automatic techniques to generate code diff explanations. Existing explanation generation methods solely focus on static analysis, i.e., they do not take advantage of runtime information to explain code changes. In this paper, we propose Collector-Sahab, a novel tool that augments code diffs with runtime difference information. Collector-Sahab compares the program states of the original (old) and patched (new) versions of a program to find unique variable values. Then, Collector-Sahab adds this novel runtime information to the source code diff as shown, for instance, in code reviewing systems. As an evaluation, we run Collector-Sahab on 584 code diffs for Defects4J bugs and find it successfully augments the code diff for 95% (555/584) of them. We also perform a user study and ask eight participants to score the augmented code diffs generated by Collector-Sahab. Per this user study, we conclude that developers find the idea of adding runtime data to code diffs promising and useful. Overall, our experiments show the effectiveness and usefulness of Collector-Sahab in augmenting code diffs with runtime difference information. Publicly-available repository: https://github.com/ASSERT-KTH/collector-sahab.
翻訳日:2023-10-24 13:57:57 公開日:2023-06-30
# スマートコントラクトのデプロイメント前分析 - 調査

Pre-deployment Analysis of Smart Contracts -- A Survey ( http://arxiv.org/abs/2301.06079v3 )

ライセンス: Link先を確認
Sundas Munir and Walid Taha(参考訳) スマートコントラクトは、独立したパーティや暗号通貨を含むトランザクションを実行するプログラムである。 プログラムとして、スマートコントラクトは幅広いエラーや脆弱性に影響を受けやすい。 このような脆弱性は大きな損失をもたらす可能性がある。 さらに、設計上、スマートコントラクトトランザクションは不可逆である。 これにより、デプロイ前のコントラクトの正確性とセキュリティを確保するためのメソッドの必要性が生じます。 近年,このような研究が盛んに行われている。 この研究の膨大なボリュームは、最先端の表現を相当な仕事にしている。 この課題に対処するため,文献の体系的なレビューを行う。 このプレゼンテーションの重要な特徴は、プロパティを通じて脆弱性とメソッドの関係を分解することです。 具体的には、スマートコントラクトの脆弱性とメソッドを、対処するプロパティによって列挙し、分類します。 検討された手法には、静的解析と動的解析方法、デプロイメント前にスマートコントラクトを分析する機械学習アルゴリズムが含まれる。 異なる手法の強みに関するいくつかのパターンがこの分類プロセスを通して現れる。

Smart contracts are programs that execute transactions involving independent parties and cryptocurrencies. As programs, smart contracts are susceptible to a wide range of errors and vulnerabilities. Such vulnerabilities can result in significant losses. Furthermore, by design, smart contract transactions are irreversible. This creates a need for methods to ensure the correctness and security of contracts pre-deployment. Recently there has been substantial research into such methods. The sheer volume of this research makes articulating state-of-the-art a substantial undertaking. To address this challenge, we present a systematic review of the literature. A key feature of our presentation is to factor out the relationship between vulnerabilities and methods through properties. Specifically, we enumerate and classify smart contract vulnerabilities and methods by the properties they address. The methods considered include static analysis as well as dynamic analysis methods and machine learning algorithms that analyze smart contracts before deployment. Several patterns about the strengths of different methods emerge through this classification process.
翻訳日:2023-10-24 13:37:26 公開日:2023-06-30
# MeLM - 前方および逆メカニクス問題を解決する生成事前学習型言語モデリングフレームワーク

MeLM, a generative pretrained language modeling framework that solves forward and inverse mechanics problems ( http://arxiv.org/abs/2306.17525v1 )

ライセンス: Link先を確認
Markus J. Buehler(参考訳) 本稿では,様々な非線形前方・逆問題の解法として,フレキシブルなマルチモーダル力学言語モデル,MELMを適用する。 この枠組みは、バイオインスパイアされた階層ハニカム設計、カーボンナノチューブ力学、タンパク質の展開を含む様々な例に適用される。 多様な材料、スケール、メカニカルな特徴を簡単に取り入れることができるモデルの柔軟な性質にもかかわらず、異なる前方および逆のタスクでうまく機能します。 自己回帰的注意モデルに基づいて、melmは、トレーニングデータで発見されたシナジーを活用しながら、創発的構造から関係を識別するグラフ形成自己照査機構によって相互作用電位が発見される、数億のニューロンからなる大きな多粒子系を効果的に表現する。 このモデルは複雑な縮退した力学設計問題を解き、様々な階層レベルで新しい材料アーキテクチャを決定できることを示し、材料の発見と分析の道筋を提供する。 本稿では, 機械, 熱, 光学, 電子など, 材料特性の幅広い範囲にまたがるモデリング, 設計, 解析における大規模言語モデルの利用について, 応用力学におけるその他の機会について考察する。

We report a flexible multi-modal mechanics language model, MeLM, applied to solve various nonlinear forward and inverse problems, that can deal with a set of instructions, numbers and microstructure data. The framework is applied to various examples including bio-inspired hierarchical honeycomb design, carbon nanotube mechanics, and protein unfolding. In spite of the flexible nature of the model-which allows us to easily incorporate diverse materials, scales, and mechanical features-it performs well across disparate forward and inverse tasks. Based on an autoregressive attention-model, MeLM effectively represents a large multi-particle system consisting of hundreds of millions of neurons, where the interaction potentials are discovered through graph-forming self-attention mechanisms that are then used to identify relationships from emergent structures, while taking advantage of synergies discovered in the training data. We show that the model can solve complex degenerate mechanics design problems and determine novel material architectures across a range of hierarchical levels, providing an avenue for materials discovery and analysis. Looking beyond the demonstrations reported in this paper, we discuss other opportunities in applied mechanics and general considerations about the use of large language models in modeling, design, and analysis that can span a broad spectrum of material properties from mechanical, thermal, optical, to electronic.
翻訳日:2023-10-23 18:48:03 公開日:2023-06-30
# PETScにおける非同期GPUストリームの安全、シームレス、スケーラブルな統合

Safe, Seamless, And Scalable Integration Of Asynchronous GPU Streams In PETSc ( http://arxiv.org/abs/2306.17801v1 )

ライセンス: Link先を確認
Jacob Faibussowitsch, Mark F. Adams, Richard Tran Mills, Stefano Zampini, Junchao Zhang(参考訳) 科学ソフトウェアを加速するためにグラフィックス処理ユニット(GPU)を活用することは、非常に成功したことが証明されているが、より多くのパフォーマンスを抽出するためには、GPUプログラマは、使用に伴う高いレイテンシコストを克服しなければならない。 このレイテンシコストを削減または隠蔽する1つの方法は、非同期ストリームを使用してGPUにコマンドを発行することだ。 ストリームモデルの性能は侵入的な抽象化であり,汎用ライブラリへの統合が困難であることが証明されている。 本稿では,ストリームを採用するライブラリ作成者特有の困難を列挙し,それに対処する最近の取り組みについて述べる。 最後に、これらの課題を克服するために、Portable, Extensible, Toolkit for Scientific Computation (PETSc)で使用する統一非同期プログラミングモデルを提案する。 新しいモデルは、ユーザーに人間工学を継続しながら、幅広いパフォーマンスの利点を示します。

Leveraging Graphics Processing Units (GPUs) to accelerate scientific software has proven to be highly successful, but in order to extract more performance, GPU programmers must overcome the high latency costs associated with their use. One method of reducing or hiding this latency cost is to use asynchronous streams to issue commands to the GPU. While performant, the streams model is an invasive abstraction, and has therefore proven difficult to integrate into general-purpose libraries. In this work, we enumerate the difficulties specific to library authors in adopting streams, and present recent work on addressing them. Finally, we present a unified asynchronous programming model for use in the Portable, Extensible, Toolkit for Scientific Computation (PETSc) to overcome these challenges. The new model shows broad performance benefits while remaining ergonomic to the user.
翻訳日:2023-10-23 18:33:19 公開日:2023-06-30
# HPCシステムにおけるオンラインジョブエラー予測

Online Job Failure Prediction in an HPC System ( http://arxiv.org/abs/2308.15481v1 )

ライセンス: Link先を確認
Francesco Antici, Andrea Borghesi, and Zeynep Kiziltan(参考訳) 現代高性能コンピューティング(HPC)システムは複雑な機械であり、経済と社会に大きな影響を与えている。 計算能力に加えて、エネルギー消費も着実に増加しており、環境危機やエネルギー危機が続く中、深刻な問題となっている。 したがって,HPCシステム管理を最適化する戦略開発は,上位層の性能保証とエネルギー効率向上の両面において最重要となる。 ひとつの戦略は、システム上で実行される前に、ワークロードレベルで行動し、最も失敗しそうなジョブを強調することです。 実行中に失敗したジョブは、他のジョブを遅らせる可能性のあるリソースを不要に占有し、システムのパフォーマンスとエネルギー消費に悪影響を及ぼす。 本稿では,従来の機械学習アルゴリズムを用いて,送信時のジョブ障害予測について検討する。 私たちの斬新さは (i)これらのアルゴリズムと自然言語処理(NLP)ツールを組み合わせてジョブを表現し、 (二)実際のシステムにおいて、オンライン方式で作業するためのアプローチの設計。 この研究は、イタリアのHPCセンターCINECAでホストされている生産機械から抽出されたデータセットに基づいている。 実験の結果,我々のアプローチは有望であることがわかった。

Modern High Performance Computing (HPC) systems are complex machines, with major impacts on economy and society. Along with their computational capability, their energy consumption is also steadily raising, representing a critical issue given the ongoing environmental and energetic crisis. Therefore, developing strategies to optimize HPC system management has paramount importance, both to guarantee top-tier performance and to improve energy efficiency. One strategy is to act at the workload level and highlight the jobs that are most likely to fail, prior to their execution on the system. Jobs failing during their execution unnecessarily occupy resources which could delay other jobs, adversely affecting the system performance and energy consumption. In this paper, we study job failure prediction at submit-time using classical machine learning algorithms. Our novelty lies in (i) the combination of these algorithms with Natural Language Processing (NLP) tools to represent jobs and (ii) the design of the approach to work in an online fashion in a real system. The study is based on a dataset extracted from a production machine hosted at the HPC centre CINECA in Italy. Experimental results show that our approach is promising.
翻訳日:2023-10-23 12:06:52 公開日:2023-06-30
# この論文のタイトルは何ですか。 アルゴリズムを用いた論理パズルの解法

What is the Title of this Paper? Solving logic puzzles using algorithms ( http://arxiv.org/abs/2309.13044v1 )

ライセンス: Link先を確認
Ujaan Rakshit and Nishchal Dwivedi(参考訳) この作品は、レイモンド・スムリヤン(raymond smullyan)が著書 "what is the name of this book? パズルはナイト (Trruth-tellers) やクネーヴ (Knaves) と呼ばれるキャラクターを中心に展開し、各人物の正体をそれぞれの主張に基づいて決定する。 本稿では,Pythonアルゴリズムを用いてこれらのパズルの解法を自動化し,効率とアクセシビリティを向上させる計算手法を提案する。 本研究では,Knight と Knave のパズルで提供される文を解析・解析できる Python アルゴリズムの開発を目指している。 論理的推論フレームワークはアルゴリズムに組み込まれ、それらの文に基づいて文字の同一性を推論する。 アルゴリズムは入力文を処理し、知識ベースを作成し、ナイト論理とクネーブ論理の規則に従って導出を行う。 開発したアルゴリズムはナイトパズルやクネーブパズルの様々な例で徹底的にテストされ、その結果を既知の解や手動のアプローチと比較する。 我々は、問題の範囲をさらに広げるために、正規(時に嘘をつき、時には真実を言うことができる)を導入する。

This work delves into the realm of logic puzzles by focusing on the Knight and Knave problems popularized by Raymond Smullyan in his book series "What is the Name of This Book?". The puzzles revolve around characters known as Knights (truth-tellers) and Knaves (liars), challenging solvers to determine the true identity of each person based on their statements. This paper explores the utilization of Python algorithms to automate the process of solving these puzzles, offering a computational approach that enhances efficiency and accessibility. In this work, we aim to develop a Python algorithm capable of parsing and analyzing the statements provided in the Knight and Knave puzzles. A logical reasoning framework is integrated within the algorithm to deduce the identities of the characters based on their statements. The algorithm processes the input statements, create a knowledge base, and make deductions following the rules of Knight and Knave logic. The developed algorithm is thoroughly tested on various instances of Knight and Knave puzzles, comparing its results to known solutions and manual approaches. We further expand the scope of the problem by introducing a Normal (who can sometimes lie and sometimes say the truth).
翻訳日:2023-10-23 06:40:02 公開日:2023-06-30
# 投票に基づくマルチモーダル自動デセプション検出

Voting-based Multimodal Automatic Deception Detection ( http://arxiv.org/abs/2307.07516v1 )

ライセンス: Link先を確認
Lana Touma and Mohammad Al Horani and Manar Tailouni and Anas Dahabiah and Khloud Al Jallad(参考訳) 自動偽証検出は長い間ホットな研究トピックであり、機械学習とディープラーニングを使って偽証を自動的に検出し、この古い分野に新たな光をもたらす。 本稿では,音声,視覚的,語彙的特徴を用いたビデオからの自動偽造検出のための投票方式を提案する。 ミシガン大学のリアルライフトライアルデータセットとマイアミ大学の偽装検出データセットの2つのデータセットで実験が行われた。 ビデオサンプルは、画像、オーディオ、原稿のフレームに分割された。 我々の投票に基づくマルチモーダル・ソリューションは3つのモデルからなる。 第1のモデルは画像から詐欺を検出するCNNであり、第2のモデルはMelスペクトログラム上のサポートベクトルマシン(SVM)であり、第3のモデルは原稿からの詐欺を検出するWord2Vec on Support Vector Machine(SVM)である。 我々の提案する解法は芸術の状態を上回っている。 画像,音声,テキストで得られた最良の結果は,実生活試験データセットで97%,96%,97%,82%,動画,音声,テキストで73%であった。

Automatic Deception Detection has been a hot research topic for a long time, using machine learning and deep learning to automatically detect deception, brings new light to this old field. In this paper, we proposed a voting-based method for automatic deception detection from videos using audio, visual and lexical features. Experiments were done on two datasets, the Real-life trial dataset by Michigan University and the Miami University deception detection dataset. Video samples were split into frames of images, audio, and manuscripts. Our Voting-based Multimodal proposed solution consists of three models. The first model is CNN for detecting deception from images, the second model is Support Vector Machine (SVM) on Mel spectrograms for detecting deception from audio and the third model is Word2Vec on Support Vector Machine (SVM) for detecting deception from manuscripts. Our proposed solution outperforms state of the art. Best results achieved on images, audio and text were 97%, 96%, 92% respectively on Real-Life Trial Dataset, and 97%, 82%, 73% on video, audio and text respectively on Miami University Deception Detection.
翻訳日:2023-07-23 12:28:13 公開日:2023-06-30
# 5Gマルチマップネットワークの動的・柔軟3次元操作のための多エージェント深部強化学習

Federated Multi-Agent Deep Reinforcement Learning for Dynamic and Flexible 3D Operation of 5G Multi-MAP Networks ( http://arxiv.org/abs/2307.06842v1 )

ライセンス: Link先を確認
Esteban Catt\'e, Mohamed Sana, Mickael Maman(参考訳) 本稿では、5Gネットワークにおける無人航空車両(UAV)である移動アクセスポイント(MAP)の効率的な管理について述べる。 本稿では,IAB(Integrated Access-Backhaul)制約を考慮した2階層階層アーキテクチャを提案する。 高層決定プロセスはコンセンサスを通じてマップ数を決定し,ネットワーク自己管理における協調性を考慮した協調最適化プロセスを開発する。 低層では、MAPは二重注意に基づく深層強化学習(Dep Reinforcement Learning, DRL)モデルを用いて配置を管理する。 一般化と複雑性の低減のために,低層内のMAP毎にひとつの配置モデルをトレーニングし,共有するフェデレーション機構を提案する。 さらに,無線バックホール接続に対するMAP配置の影響を考慮し,多目的報酬関数を用いてMAP配置とバックホール接続を協調的に最適化する。

This paper addresses the efficient management of Mobile Access Points (MAPs), which are Unmanned Aerial Vehicles (UAV), in 5G networks. We propose a two-level hierarchical architecture, which dynamically reconfigures the network while considering Integrated Access-Backhaul (IAB) constraints. The high-layer decision process determines the number of MAPs through consensus, and we develop a joint optimization process to account for co-dependence in network self-management. In the low-layer, MAPs manage their placement using a double-attention based Deep Reinforcement Learning (DRL) model that encourages cooperation without retraining. To improve generalization and reduce complexity, we propose a federated mechanism for training and sharing one placement model for every MAP in the low-layer. Additionally, we jointly optimize the placement and backhaul connectivity of MAPs using a multi-objective reward function, considering the impact of varying MAP placement on wireless backhaul connectivity.
翻訳日:2023-07-16 03:16:20 公開日:2023-06-30
# マルチサブルーチン量子プログラムのテスト: 単体テストから統合テストへ

Testing Multi-Subroutine Quantum Programs: From Unit Testing to Integration Testing ( http://arxiv.org/abs/2306.17407v1 )

ライセンス: Link先を確認
Peixun Long and Jianjun Zhao(参考訳) 量子コンピューティングは、量子力学の原理を利用して様々な領域に革命をもたらす可能性を持つ有望な分野として登場した。 量子ハードウェアとアルゴリズムが進歩を続けるにつれ、高品質な量子ソフトウェアの開発が重要になっている。 しかしながら、量子プログラムのテストは、量子システムの特性とマルチサブルーチンプログラムの複雑さのために、ユニークな課題をもたらす。 本稿では,マルチサブルーチン量子プログラムの特定のテスト要件について述べる。 まず、既存の量子ライブラリの調査を通じて臨界特性を調査し、これらのプログラムをテストする際の課題に関する洞察を提供する。 この理解に基づいて,量子プログラミングの複雑さに合わせた体系的テストプロセスを提案する。 このプロセスは、IO分析、量子関係チェック、構造テスト、振る舞いテスト、テストケース生成といった側面に重点を置いて、単体テストと統合テストをカバーする。 また、テストプロセスを導くために、新しいテスト原則と基準を導入します。 提案手法を評価するため,様々な突然変異やランダムな入力を含む典型的な量子サブルーチンの包括的検証を行った。 失敗の分析は、テスト方法論の有効性に関する貴重な洞察を提供する。 さらに,本研究は,提案した試験プロセス,原理,基準の実践的適用と有効性を示す,代表的マルチサブルーチン量子プログラムのケーススタディを示す。

Quantum computing has emerged as a promising field with the potential to revolutionize various domains by harnessing the principles of quantum mechanics. As quantum hardware and algorithms continue to advance, the development of high-quality quantum software has become crucial. However, testing quantum programs poses unique challenges due to the distinctive characteristics of quantum systems and the complexity of multi-subroutine programs. In this paper, we address the specific testing requirements of multi-subroutine quantum programs. We begin by investigating critical properties through a survey of existing quantum libraries, providing insights into the challenges associated with testing these programs. Building upon this understanding, we present a systematic testing process tailored to the intricacies of quantum programming. The process covers unit testing and integration testing, with a focus on aspects such as IO analysis, quantum relation checking, structural testing, behavior testing, and test case generation. We also introduce novel testing principles and criteria to guide the testing process. To evaluate our proposed approach, we conduct comprehensive testing on typical quantum subroutines, including diverse mutations and randomized inputs. The analysis of failures provides valuable insights into the effectiveness of our testing methodology. Additionally, we present case studies on representative multi-subroutine quantum programs, demonstrating the practical application and effectiveness of our proposed testing processes, principles, and criteria.
翻訳日:2023-07-09 14:00:10 公開日:2023-06-30
# カウンターファクトコラボレーティブ推論

Counterfactual Collaborative Reasoning ( http://arxiv.org/abs/2307.00165v1 )

ライセンス: Link先を確認
Jianchao Ji, Zelong Li, Shuyuan Xu, Max Xiong, Juntao Tan, Yingqiang Ge, Hao Wang, Yongfeng Zhang(参考訳) 因果推論と論理推論は、人間の知能に対する2つの重要な推論能力である。 しかしながら、それらの関係はマシンインテリジェンスの文脈下では広く研究されていない。 本稿では,機械学習モデルの精度と説明可能性を高めるために,この2つの推論能力を共同でモデル化する方法について検討する。 具体的には,2つの重要な推論能力 – 反実的推論と(神経)論理的推論 – を統合することで,パフォーマンス向上のために反実的論理的推論を行う対実的協調推論(CCR)を提案する。 特に,ccrがデータの不足を軽減し,正確性を高め,透明性を高めるための例としてレコメンダシステムを用いた。 技術的には、反ファクト推論を活用して、データ拡張のための"難しい"反ファクトトレーニング例を生成します。 拡張データは無関係なモデルであるため、任意のモデルを強化するために使用することができ、その技術の適用性を高めることができる。 さらに,既存のデータ拡張手法のほとんどは,ユーザの暗黙的なフィードバックよりも"単純なデータ拡張"に重点を置いている一方,我々のフレームワークは,反ファクト論理的推論に基づくユーザの明示的なフィードバックに対して"明示的なデータ拡張"を行っている。 3つの実世界のデータセットに関する実験は、ccrが非提供モデルや暗黙的に拡張されたモデルよりも優れたパフォーマンスを達成していることを示している。

Causal reasoning and logical reasoning are two important types of reasoning abilities for human intelligence. However, their relationship has not been extensively explored under machine intelligence context. In this paper, we explore how the two reasoning abilities can be jointly modeled to enhance both accuracy and explainability of machine learning models. More specifically, by integrating two important types of reasoning ability -- counterfactual reasoning and (neural) logical reasoning -- we propose Counterfactual Collaborative Reasoning (CCR), which conducts counterfactual logic reasoning to improve the performance. In particular, we use recommender system as an example to show how CCR alleviate data scarcity, improve accuracy and enhance transparency. Technically, we leverage counterfactual reasoning to generate "difficult" counterfactual training examples for data augmentation, which -- together with the original training examples -- can enhance the model performance. Since the augmented data is model irrelevant, they can be used to enhance any model, enabling the wide applicability of the technique. Besides, most of the existing data augmentation methods focus on "implicit data augmentation" over users' implicit feedback, while our framework conducts "explicit data augmentation" over users explicit feedback based on counterfactual logic reasoning. Experiments on three real-world datasets show that CCR achieves better performance than non-augmented models and implicitly augmented models, and also improves model transparency by generating counterfactual explanations.
翻訳日:2023-07-09 13:50:33 公開日:2023-06-30
# 定均一磁場下における二層グラフェンの極性コヒーレント状態

Polar coherent states in bilayer graphene under a constant uniform magnetic field ( http://arxiv.org/abs/2307.01213v1 )

ライセンス: Link先を確認
D.I. Mart\'inez Moreno, J. Negro and L.M. Nieto(参考訳) 双層の平面に垂直な定磁場を受ける二層グラフェンを記述するハミルトニアンに付随する対称性を極座標を用いて計算する。 これらの対称性は、スペクトルや固有関数の整数擬スピン特性など、いくつかの基本的な性質を説明するために適用される。 二層ハミルトニアンの確率と電流密度も極座標で計算され、一般化された回転の下でゲージ不変かつスカラーであることが示されている。 また、この系の適切なコヒーレント状態は、適切な選択消滅作用素の複素固有値を持つ固有関数として定義する。 この枠組みでは、対称性は期待値の観点から複素固有値の意味を示すのにも有用である。 これらのコヒーレント状態の局所電流密度は、これまで気づかれていなかったような放射状の成分干渉効果を示すことが示されている。 公開されたばかりのこれらの結果のいくつかは、原稿全体を通して図式的に示されています。

Symmetries associated with the Hamiltonian describing bilayer graphene subjected to a constant magnetic field perpendicular to the plane of the bilayer are calculated using polar coordinates. These symmetries are then applied to explain some fundamental properties, such as the spectrum and the integer pseudo-spin character of the eigenfunctions. The probability and current densities of the bilayer Hamiltonian have also been calculated in polar coordinates and shown to be gauge invariant and scalar under generalized rotations. We also define appropriate coherent states of this system as eigenfunctions, with complex eigenvalues, of a suitable chose annihilation operator. In this framework, symmetries are also useful to show the meaning of the complex eigenvalue in terms of expected values. The local current density of these coherent states is shown to exhibit a kind of radial component interference effect, something that has gone unnoticed until now. Some of these results that have just been exposed are graphically illustrated throughout the manuscript.
翻訳日:2023-07-09 13:42:21 公開日:2023-06-30
# スパイクSVDと音楽レコメンデーション

Of Spiky SVDs and Music Recommendation ( http://arxiv.org/abs/2307.01212v1 )

ライセンス: Link先を確認
Darius Afchar, Romain Hennequin and Vincent Guigue(参考訳) 切り刻まれた特異値分解は、音楽レコメンデーションにおいて、直接類似点検索や下流タスクのための音楽アイテムの埋め込みに広く用いられている方法論である。 本稿では,多くのレコメンデーションデータセットに自然に現れる興味深い効果として,埋め込み空間におけるスパイク形成について考察する。 まず,このスパイク組織の強みを定量化するための指標を提案し,その起源を様々な内部人気アイテムの根底にあるコミュニティに数学的に証明する。 この新たな理論的理解により、我々は最終的に、データの追加の下で音楽埋め込みのtop-k類似アイテムがどのように変化するかを推定する産業的なユースケースでそのトピックを開放する。

The truncated singular value decomposition is a widely used methodology in music recommendation for direct similar-item retrieval or embedding musical items for downstream tasks. This paper investigates a curious effect that we show naturally occurring on many recommendation datasets: spiking formations in the embedding space. We first propose a metric to quantify this spiking organization's strength, then mathematically prove its origin tied to underlying communities of items of varying internal popularity. With this new-found theoretical understanding, we finally open the topic with an industrial use case of estimating how music embeddings' top-k similar items will change over time under the addition of data.
翻訳日:2023-07-09 13:42:06 公開日:2023-06-30
# セキュリティ指令のオントロジ表現のための自動化手法

An automated method for the ontological representation of security directives ( http://arxiv.org/abs/2307.01211v1 )

ライセンス: Link先を確認
Giampaolo Bella, Gianpietro Castiglione, Daniele Francesco Santamaria(参考訳) 法的な言語で書かれた大きな文書は解釈が難しく、長い文は名詞間の複雑で絡み合った関係に繋がる。 本稿では,最近の欧州安全保障指令の文脈でこの問題を考察する。 それらの言語の複雑さは、自然言語処理(nlp)技法の特定の調整を通して、各節から関連する情報、すなわち音声の部分の抽出を自動化することによって防がれている。 これらはオントロジー開発原則と組み合わせて,セキュリティディレクティブをオントロジーとして表現するための自動手法の設計に寄与する。 この方法は、ヨーロッパレベルでのサイバーセキュリティ規定のピークであるnis2指令を表すオントロジーを導出する、という実用的な問題で示される。 NLP技術はいくつかの限界を示し、手動解析で補完する必要があったが、全体的な結果は一般には指令順守、特にオントロジー開発に有効である。

Large documents written in juridical language are difficult to interpret, with long sentences leading to intricate and intertwined relations between the nouns. The present paper frames this problem in the context of recent European security directives. The complexity of their language is here thwarted by automating the extraction of the relevant information, namely of the parts of speech from each clause, through a specific tailoring of Natural Language Processing (NLP) techniques. These contribute, in combination with ontology development principles, to the design of our automated method for the representation of security directives as ontologies. The method is showcased on a practical problem, namely to derive an ontology representing the NIS 2 directive, which is the peak of cybersecurity prescripts at the European level. Although the NLP techniques adopted showed some limitations and had to be complemented by manual analysis, the overall results provide valid support for directive compliance in general and for ontology development in particular.
翻訳日:2023-07-09 13:41:54 公開日:2023-06-30
# 認知症に対するAIと非AIアセスメント

AI and Non AI Assessments for Dementia ( http://arxiv.org/abs/2307.01210v1 )

ライセンス: Link先を確認
Mahboobeh (Mah) Parsapoor (Parsa) and Hamed Ghodrati, Vincenzo Dentamaro and Christopher R. Madan and Ioulietta Lazarou and Spiros Nikolopoulos and Ioannis Kompatsiaris(参考訳) 人工知能領域の最近の進歩は、認知症の早期の患者を特定するために使用できる、様々な種類のAIによる認知症評価の開発につながっている。 認知症ケア設定に革命をもたらす可能性がある。 認知症(PwD)の早期診断に関する妥当性、効率性、実用性、信頼性、正確性を考慮して、医療コミュニティが様々なAIアセスメントを意識し、選択することが不可欠である。 一方、AI開発者は、最近開発されたAIアセスメントと同様に、さまざまな非AIアセスメントについて知らせるべきである。 そこで本論文は, 臨床医とai技術者の両方が読むことができ, 臨床医への認知症認識のための既存のソリューションと, 使用される技術と最も広く普及している認知症データセットを説明する上で, 文献のギャップを埋めるものである。 認知症に関するAIおよび非AIアセスメントに関する論文のレビューに続いて、AIと医療コミュニティの両方で、さまざまな認知症アセスメントに関する貴重な情報を提供する。 議論と結論は、最も顕著な研究の方向性と既存のソリューションの成熟度を強調している。

Current progress in the artificial intelligence domain has led to the development of various types of AI-powered dementia assessments, which can be employed to identify patients at the early stage of dementia. It can revolutionize the dementia care settings. It is essential that the medical community be aware of various AI assessments and choose them considering their degrees of validity, efficiency, practicality, reliability, and accuracy concerning the early identification of patients with dementia (PwD). On the other hand, AI developers should be informed about various non-AI assessments as well as recently developed AI assessments. Thus, this paper, which can be readable by both clinicians and AI engineers, fills the gap in the literature in explaining the existing solutions for the recognition of dementia to clinicians, as well as the techniques used and the most widespread dementia datasets to AI engineers. It follows a review of papers on AI and non-AI assessments for dementia to provide valuable information about various dementia assessments for both the AI and medical communities. The discussion and conclusion highlight the most prominent research directions and the maturity of existing solutions.
翻訳日:2023-07-09 13:41:40 公開日:2023-06-30
# シニティック音韻学のマルチダイアレクティブ表現学習

Multi-Dialectal Representation Learning of Sinitic Phonology ( http://arxiv.org/abs/2307.01209v1 )

ライセンス: Link先を確認
Zhibai Jia(参考訳) 機械学習技術は、言語や音韻学のような記号システムにおける表現と推論の能力を示している。 Sinitic Historical Phonologyでは、機械学習の恩恵を受けることができる注目すべきタスクとして、方言の比較と原語体系の再構築がある。 そこで本論文は,構造化音韻データから知識グラフを構築し,知識ベースラーニングからBoxE技術を適用することにより,Sinite音節の多言語表現を得るアプローチを提案する。 得られた表現に教師なしクラスタリング手法を適用し,入力された方言から音韻コントラストを捉えた。 さらに、未保存の中国語ラベルを推定するために分類器を訓練し、古来の原語の特徴を示す表現の可能性を示した。 この表現は、断片化されたSinitic音韻学的知識基盤の完成、異なる文字間の相違の推定、または考古学的特徴の探索と再構築を支援するために使用することができる。

Machine learning techniques have shown their competence for representing and reasoning in symbolic systems such as language and phonology. In Sinitic Historical Phonology, notable tasks that could benefit from machine learning include the comparison of dialects and reconstruction of proto-languages systems. Motivated by this, this paper provides an approach for obtaining multi-dialectal representations of Sinitic syllables, by constructing a knowledge graph from structured phonological data, then applying the BoxE technique from knowledge base learning. We applied unsupervised clustering techniques to the obtained representations to observe that the representations capture phonemic contrast from the input dialects. Furthermore, we trained classifiers to perform inference of unobserved Middle Chinese labels, showing the representations' potential for indicating archaic, proto-language features. The representations can be used for performing completion of fragmented Sinitic phonological knowledge bases, estimating divergences between different characters, or aiding the exploration and reconstruction of archaic features.
翻訳日:2023-07-09 13:41:21 公開日:2023-06-30
# Hogwartsにおけるポチオン開発のための機械学習

Machine learning for potion development at Hogwarts ( http://arxiv.org/abs/2307.00036v1 )

ライセンス: Link先を確認
Christoph F. Kurz, Adriana N. K\"onig(参考訳) 目的:Witchcraft and WizardryのHogwarts Schoolで,機械学習が研究と教育に有用なポチオンレシピを生成できるかどうかを判断する。 設計:ディープニューラルネットワークを使用して生成したレシピを標準的な薬物分類システムに分類する。 Hogwarts School of Witchcraft and Wizardry (英語) データソース:Harry Potter Wikiから抽出されたHogwartsカリキュラムの72のポチオンレシピ。 結果:ほとんどのレシピは精神科医と皮膚科のカテゴリに分類される。 各カテゴリーで予測されるレシピの数は、トレーニングレシピの数を反映している。 予測確率はしばしば90%以上であったが、いくつかのレシピは予測効果を予測するのを複雑にする類似の確率を持つ2つ以上のカテゴリに分類された。 結論: 機械学習を活用した手法は、hogwartsで教育と研究を行う上で、潜在的に有用なポティオンレシピを生成することができる。 これは、潜在的に有効な薬物の組み合わせを特定するためにそのような方法が適用された非魔法の世界における同様の取り組みに対応する。

Objective: To determine whether machine learning methods can generate useful potion recipes for research and teaching at Hogwarts School of Witchcraft and Wizardry. Design: Using deep neural networks to classify generated recipes into a standard drug classification system. Setting: Hogwarts School of Witchcraft and Wizardry. Data sources: 72 potion recipes from the Hogwarts curriculum, extracted from the Harry Potter Wiki. Results: Most generated recipes fall into the categories of psychoanaleptics and dermatologicals. The number of recipes predicted for each category reflected the number of training recipes. Predicted probabilities were often above 90% but some recipes were classified into 2 or more categories with similar probabilities which complicates anticipating the predicted effects. Conclusions: Machine learning powered methods are able to generate potentially useful potion recipes for teaching and research at Hogwarts. This corresponds to similar efforts in the non-magical world where such methods have been applied to identify potentially effective drug combinations.
翻訳日:2023-07-05 18:33:34 公開日:2023-06-30
# 時空間変動係数を持つ部分微分方程式のパラメータ同定

Parameter Identification for Partial Differential Equations with Spatiotemporal Varying Coefficients ( http://arxiv.org/abs/2307.00035v1 )

ライセンス: Link先を確認
Guangtao Zhang and Yiting Duan and Guanyu Pan and Qijing Chen and Huiyu Yang and Zhikun Zhang(参考訳) 複数の状態を持つ複雑なシステムを理解するためには、システム出力によってこれらの状態の同一性を明らかにすることが不可欠である。 それでも、これらのシステムを記述する数学的モデルは、しばしば非線形性を示し、観測された時空間データからパラメータ逆問題の分解を困難にさせる。 このようなシステムから得られた観測データから, 時空間変化型パラメトリック偏微分方程式により制御される多状態系のパラメータ同定に関する新たな枠組みを提案する。 我々のフレームワークは,パラメータ同定の方法論として,サブネットワークを包含する制約付き自己適応型物理インフォームドニューラルネットワークと,確率的パラメータ変動の領域を検出する有限混合モデルアプローチの2つの要素からなる。 本手法により, 複雑な多状態系の未知の変動パラメータを正確に確認し, 変動パラメータの反転を実現する。 さらに, 時変パラメータを持つ1次元バーガーズ方程式と, 時変パラメータを持つ2次元波動方程式の2つの数値ケースにおいて, 提案手法の有効性を示した。

To comprehend complex systems with multiple states, it is imperative to reveal the identity of these states by system outputs. Nevertheless, the mathematical models describing these systems often exhibit nonlinearity so that render the resolution of the parameter inverse problem from the observed spatiotemporal data a challenging endeavor. Starting from the observed data obtained from such systems, we propose a novel framework that facilitates the investigation of parameter identification for multi-state systems governed by spatiotemporal varying parametric partial differential equations. Our framework consists of two integral components: a constrained self-adaptive physics-informed neural network, encompassing a sub-network, as our methodology for parameter identification, and a finite mixture model approach to detect regions of probable parameter variations. Through our scheme, we can precisely ascertain the unknown varying parameters of the complex multi-state system, thereby accomplishing the inversion of the varying parameters. Furthermore, we have showcased the efficacy of our framework on two numerical cases: the 1D Burgers' equation with time-varying parameters and the 2D wave equation with a space-varying parameter.
翻訳日:2023-07-05 18:33:17 公開日:2023-06-30
# 医療意思決定におけるマイクロバイオームデータの課題へのデータ工学的アプローチの適用

Application of data engineering approaches to address challenges in microbiome data for optimal medical decision-making ( http://arxiv.org/abs/2307.00033v1 )

ライセンス: Link先を確認
Isha Thombre, Pavan Kumar Perepu, Shyam Kumar Sudhakar(参考訳) ヒトの腸内微生物は、複数の臓器との相互作用を通じて身体の多くの生理機能に寄与し、また無数の病態に関係していることが知られている。 過去数十年にわたる多作な研究は、個人化医療を可能にする腸内細菌の相対的分類学的分布に関する貴重な情報をもたらした。 残念ながら、マイクロバイオームデータはクラス不均衡と対処しなければならない高次元の問題に悩まされている。 本研究では,マイクロバイオームデータ固有の問題に対処するために,データ工学アルゴリズムを実装した。 正常な成長パターンと異常な成長パターンを呈する嚢胞性線維症児のデータセットに, 標準的な機械学習分類器(LR), サポートベクターマシン(SVM), ランダムフォレスト(RF), 極端な勾配増強(XGB)決定木)を4種導入した。 データのクラス不均衡と高次元性の問題は、合成マイノリティオーバーサンプリング技術(SMOTE)と主成分分析(PCA)によって解決された。 宿主表現型の分類は,多段階の分類階層で行った。 以上の結果から,エンサンブル分類器 (RF, XGB決定木) はホスト表現型の予測に優れた分類精度を示した。 PCAの応用は高い分類精度を維持しながら試験時間を著しく短縮した。 最も高い分類精度は,ほとんどの分類器の種レベルで得られた。 この研究で使用されたプロトタイプは、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である。

The human gut microbiota is known to contribute to numerous physiological functions of the body through their interplay with multiple organs and also implicated in a myriad of pathological conditions. Prolific research work in the past few decades have yielded valuable information regarding the relative taxonomic distribution of the gut microbiota that could enable personalized medicine. Unfortunately, the microbiome data suffers from class imbalance and high dimensionality issues that must be addressed. In this study, we have implemented data engineering algorithms to address the above-mentioned issues inherent to microbiome data. Four standard machine learning classifiers (logistic regression (LR), support vector machines (SVM), random forests (RF), and extreme gradient boosting (XGB) decision trees) were implemented on a previously published dataset of infants with cystic fibrosis exhibiting normal vs abnormal growth patterns. The issue of class imbalance and high dimensionality of the data was addressed through synthetic minority oversampling technique (SMOTE) and principal component analysis (PCA). Classification of host phenotype was performed at multiple levels of taxonomic hierarchy. Our results indicate that ensemble classifiers (RF and XGB decision trees) exhibit superior classification accuracy in predicting the host phenotype. The application of PCA significantly reduced the testing time while maintaining high classification accuracy. The highest classification accuracy was obtained at the levels of species for most classifiers. The prototype employed in the study addresses the issues inherent to microbiome datasets and could be highly beneficial for providing personalized medicine.
翻訳日:2023-07-05 18:32:57 公開日:2023-06-30
# ガウス過程に基づくベイズ推論を用いた不確かさインフォームド最適資源配分

Uncertainty Informed Optimal Resource Allocation with Gaussian Process based Bayesian Inference ( http://arxiv.org/abs/2307.00032v1 )

ライセンス: Link先を確認
Samarth Gupta, Saurabh Amin(参考訳) 我々は,異種集団への医療資源(ワクチン)配分の不確実性の問題に焦点をあてた。 1) 病原性拡散の区画型常微分方程式(ode)モデルに対して, パラメータの不確かさを資源割当決定にどのように推定し, 統合できるのか? 2)資源割当に対する一般確率最適化問題に対して,非線形ODE制約とパラメータの不確実性の両方を計算的に処理する方法 私たちの知る限りでは、現在の文献はこれらの疑問を完全に解決していない。 本稿では,新しい確率最適化問題定式化において,パラメータの不確実性を正確にかつ気軽に表現するためのデータ駆動手法を開発した。 まず、ガウス過程によるベイズ推定を用いてODEモデルパラメータの分布を推定し、抽出可能なシナリオを生成する。 次に,シナリオ依存型非線形ODE制約を考慮した並列化解法を提案する。 我々のシナリオセット生成手法と解法アプローチは、どんな区画的疫学的ODEモデルでも扱えるように柔軟である。 2つの異なる非線形odeモデル(seirとsepihr)における計算実験により、重要な疫学パラメータの不確かさを考慮すれば、時間クリティカルな割り当て決定の有効性が4-8%向上することが示された。 この改善は、特に疫病の流行の初期段階において、病気の長期的経路に重大な影響を与える可能性がある、データ駆動的かつ最適な(戦略的な)性質に起因する可能性がある。

We focus on the problem of uncertainty informed allocation of medical resources (vaccines) to heterogeneous populations for managing epidemic spread. We tackle two related questions: (1) For a compartmental ordinary differential equation (ODE) model of epidemic spread, how can we estimate and integrate parameter uncertainty into resource allocation decisions? (2) How can we computationally handle both nonlinear ODE constraints and parameter uncertainties for a generic stochastic optimization problem for resource allocation? To the best of our knowledge current literature does not fully resolve these questions. Here, we develop a data-driven approach to represent parameter uncertainty accurately and tractably in a novel stochastic optimization problem formulation. We first generate a tractable scenario set by estimating the distribution on ODE model parameters using Bayesian inference with Gaussian processes. Next, we develop a parallelized solution algorithm that accounts for scenario-dependent nonlinear ODE constraints. Our scenario-set generation procedure and solution approach are flexible in that they can handle any compartmental epidemiological ODE model. Our computational experiments on two different non-linear ODE models (SEIR and SEPIHR) indicate that accounting for uncertainty in key epidemiological parameters can improve the efficacy of time-critical allocation decisions by 4-8%. This improvement can be attributed to data-driven and optimal (strategic) nature of vaccine allocations, especially in the early stages of the epidemic when the allocation strategy can crucially impact the long-term trajectory of the disease.
翻訳日:2023-07-05 18:32:27 公開日:2023-06-30
# 2層マルコフ決定プロセスによるチーム内のエージェント間スイッチの学習

Learning to Switch Among Agents in a Team via 2-Layer Markov Decision Processes ( http://arxiv.org/abs/2002.04258v3 )

ライセンス: Link先を確認
Vahid Balazadeh and Abir De and Adish Singla and Manuel Gomez-Rodriguez(参考訳) 強化学習エージェントは、完全に自律的な方法で運用されるという前提のもと、主に開発され、評価されてきた。 本研究の目的は,エージェント間の制御を切り替えることによって,既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発することである。 この目的のために、我々はまず、2層マルコフ決定プロセスを通じてチーム内のエージェント間の制御を切り替える学習の問題を正式に定義する。 そこで我々は,エージェントのポリシーと環境の遷移確率に高い信頼度を用いたオンライン学習アルゴリズムを開発し,スイッチングポリシのシーケンスを探索する。 最適な切替ポリシーに関するアルゴリズムの完全な後悔は、学習ステップの数に比例するものであり、複数のエージェントチームが同様の環境で活動するたびに、我々のアルゴリズムは、環境の遷移確率に対する共有信頼境界を保ち、問題に依存しないアルゴリズムよりも良い後悔境界を享受する。 障害物回避タスクにおけるシミュレーション実験は,問題の特定の構造を利用することにより,問題に依存しないアルゴリズムよりも優れていることを示す。

Reinforcement learning agents have been mostly developed and evaluated under the assumption that they will operate in a fully autonomous manner -- they will take all actions. In this work, our goal is to develop algorithms that, by learning to switch control between agents, allow existing reinforcement learning agents to operate under different automation levels. To this end, we first formally define the problem of learning to switch control among agents in a team via a 2-layer Markov decision process. Then, we develop an online learning algorithm that uses upper confidence bounds on the agents' policies and the environment's transition probabilities to find a sequence of switching policies. The total regret of our algorithm with respect to the optimal switching policy is sublinear in the number of learning steps and, whenever multiple teams of agents operate in a similar environment, our algorithm greatly benefits from maintaining shared confidence bounds for the environments' transition probabilities and it enjoys a better regret bound than problem-agnostic algorithms. Simulation experiments in an obstacle avoidance task illustrate our theoretical findings and demonstrate that, by exploiting the specific structure of the problem, our proposed algorithm is superior to problem-agnostic algorithms.
翻訳日:2023-07-05 18:30:49 公開日:2023-06-30
# 位置カメラと位置認識 : コンピュータビジョンのための自己中心認識論に向けて

Situated Cameras, Situated Knowledges: Towards an Egocentric Epistemology for Computer Vision ( http://arxiv.org/abs/2307.00064v1 )

ライセンス: Link先を確認
Samuel Goree and David Crandall(参考訳) 1988年の影響力のある論文『Situated Knowledges』で、ドナ・ハラウェイは科学的知識を議論するメタファーとして視覚と視点を使用している。 今日、エゴセントリックなコンピュータビジョンは、リテラルな視覚コンテキストを除いて、同じ問題の多くを論じている。 本稿では,そのメタファーを崩壊させ,フェミニストの認識論とエゴセントリックなCVの相互作用を「エゴセントリックな認識論」として探求する。 この枠組みを用いることで、CVにおける人群衆労働者のリテラルと比喩的視点を両立させるため、パフォーマンスベンチマークを補完する定性的、人間中心の手法を用いることを議論する。

In her influential 1988 paper, Situated Knowledges, Donna Haraway uses vision and perspective as a metaphor to discuss scientific knowledge. Today, egocentric computer vision discusses many of the same issues, except in a literal vision context. In this short position paper, we collapse that metaphor, and explore the interactions between feminist epistemology and egocentric CV as "Egocentric Epistemology." Using this framework, we argue for the use of qualitative, human-centric methods as a complement to performance benchmarks, to center both the literal and metaphorical perspective of human crowd workers in CV.
翻訳日:2023-07-05 18:22:29 公開日:2023-06-30
# 物理科学者のためのデータ駆動前駆体を用いた近ネストサンプリング

Proximal nested sampling with data-driven priors for physical scientists ( http://arxiv.org/abs/2307.00056v1 )

ライセンス: Link先を確認
Jason D. McEwen, Tob\'ias I. Liaudat, Matthew A. Price, Xiaohao Cai and Marcelo Pereyra(参考訳) 計算画像などの高次元問題に対してベイズモデル選択を行うために,近ネストサンプリングを導入した。 このフレームワークは、画像科学においてユビキタスな対流確率を持つモデルに適している。 この記事の目的は2つある。 まず, 物理科学者の枠組みを解明するために, 近位ネストサンプリングを教育的手法で検討した。 第2に,訓練データから学習した深層ニューラルネットワークなど,データ駆動前処理をサポートする経験ベイズ設定において,近位ネストサンプリングをどのように拡張できるかを示す。

Proximal nested sampling was introduced recently to open up Bayesian model selection for high-dimensional problems such as computational imaging. The framework is suitable for models with a log-convex likelihood, which are ubiquitous in the imaging sciences. The purpose of this article is two-fold. First, we review proximal nested sampling in a pedagogical manner in an attempt to elucidate the framework for physical scientists. Second, we show how proximal nested sampling can be extended in an empirical Bayes setting to support data-driven priors, such as deep neural networks learned from training data.
翻訳日:2023-07-05 18:22:02 公開日:2023-06-30
# ドメインウォールカラーコード

The domain wall color code ( http://arxiv.org/abs/2307.00054v1 )

ライセンス: Link先を確認
Konstantin Tiurev, Arthur Pesah, Peter-Jan H. S. Derks, Joschka Roffe, Jens Eisert, Markus S. Kesselring, and Jan-Michael Reiner(参考訳) 量子誤り訂正カラーコードの新しい変種であるドメインウォールカラーコードを導入し、バイアスドノイズを受ける量子ビットに対して、非常に高い符号容量誤差しきい値を示す。 無限バイアス状態において、2次元カラーコードは一連の繰り返し符号に分離され、エラー訂正しきい値が50%となる。 興味深いことに、有限バイアスにおいて、我々のカラーコードは、全ての単一キュービットパウリノイズチャネルに対するノイズ調整されたXZZX表面コードと同一の閾値を示す。 コードの設計原則は、ドメインの交差時にコードの興奮を透過するドメイン壁を導入することである。 実用的な実装のために、マッチングアルゴリズムに基づいたスケーラブルな制限デコーダでドメインウォールコードを補完する。 提案するコードは、現実的なノイズに適した、リソース効率のよい量子誤り訂正符号として同定される。

We introduce the domain wall color code, a new variant of the quantum error-correcting color code that exhibits exceptionally high code-capacity error thresholds for qubits subject to biased noise. In the infinite bias regime, a two-dimensional color code decouples into a series of repetition codes, resulting in an error-correcting threshold of 50%. Interestingly, at finite bias, our color code demonstrates thresholds identical to those of the noise-tailored XZZX surface code for all single-qubit Pauli noise channels. The design principle of the code is that it introduces domain walls which permute the code's excitations upon domain crossing. For practical implementation, we supplement the domain wall code with a scalable restriction decoder based on a matching algorithm. The proposed code is identified as a comparably resource-efficient quantum error-correcting code highly suitable for realistic noise.
翻訳日:2023-07-05 18:21:52 公開日:2023-06-30
# 正規化流を伴う限界確率の学習調和平均推定

Learned harmonic mean estimation of the marginal likelihood with normalizing flows ( http://arxiv.org/abs/2307.00048v1 )

ライセンス: Link先を確認
Alicja Polanska, Matthew A. Price, Alessio Spurio Mancini, and Jason D. McEwen(参考訳) 限界確率の計算(ベイズモデルエビデンスとも呼ばれる)はベイズモデル選択において重要な課題であり、モデルを比較するための原理化された定量的方法を提供する。 学習した高調波平均推定器は、元の高調波平均推定の爆発分散問題を解く。 学習した調和平均推定器は、最適分布に近似する重要サンプリング目標分布を学習する。 近似は高精度である必要はないが、爆発する分散問題を避けるために学習分布の確率質量が後方に含まれていることは重要である。 前回の作業では、この特性を満足させるためのトレーニングモデルに特有な最適化問題が導入されている。 本稿では, サンプリング対象分布の重要度を表現するために, 正規化フローについて述べる。 流れに基づくモデルは、最大確率推定によって後方からのサンプルに基づいて訓練される。 すると、フローの確率密度は、ベース分布のばらつきを下げること、すなわち「温度」を下げることによって集中し、その確率質量が後部に含まれることを保証する。 このアプローチは,パラメータの厳密な微調整と異常な最適化の問題を回避するため,より堅牢な手法が提案される。 さらに、正規化フローの使用は、高次元設定にスケールする可能性がある。 本研究では,高調波平均推定器における流れの利用の有効性を示す予備実験を行った。 学習した調和平均を実装するハーモニックコードがアップデートされ、フローの正規化がサポートされた。

Computing the marginal likelihood (also called the Bayesian model evidence) is an important task in Bayesian model selection, providing a principled quantitative way to compare models. The learned harmonic mean estimator solves the exploding variance problem of the original harmonic mean estimation of the marginal likelihood. The learned harmonic mean estimator learns an importance sampling target distribution that approximates the optimal distribution. While the approximation need not be highly accurate, it is critical that the probability mass of the learned distribution is contained within the posterior in order to avoid the exploding variance problem. In previous work a bespoke optimization problem is introduced when training models in order to ensure this property is satisfied. In the current article we introduce the use of normalizing flows to represent the importance sampling target distribution. A flow-based model is trained on samples from the posterior by maximum likelihood estimation. Then, the probability density of the flow is concentrated by lowering the variance of the base distribution, i.e. by lowering its "temperature", ensuring its probability mass is contained within the posterior. This approach avoids the need for a bespoke optimisation problem and careful fine tuning of parameters, resulting in a more robust method. Moreover, the use of normalizing flows has the potential to scale to high dimensional settings. We present preliminary experiments demonstrating the effectiveness of the use of flows for the learned harmonic mean estimator. The harmonic code implementing the learned harmonic mean, which is publicly available, has been updated to now support normalizing flows.
翻訳日:2023-07-05 18:21:40 公開日:2023-06-30
# ポリマースペーサプロセスによる{3d}積分超電導回路のパラメータターゲティングの改善

Improved Parameter Targeting in {3D}-Integrated Superconducting Circuits through a Polymer Spacer Process ( http://arxiv.org/abs/2307.00046v1 )

ライセンス: Link先を確認
Graham J. Norris, Laurent Michaud, David Pahl, Michael Kerschbaum, Christopher Eichler, Jean-Claude Besse, Andreas Wallraff(参考訳) 3次元デバイス統合は、制御ワイヤ、量子ビット、共振器などの素子を複数の層に分散することにより、数十量子ビット以上の超伝導量子情報プロセッサの構築を容易にする。 フリップチップ結合型マルチチップモジュールにおける共振器と量子ビットの周波数は、その近傍の導体と誘電体によって定義される電磁環境の詳細に依存する。 したがって、正確な周波数ターゲティングには、チップ間の分離と相対傾きの最小化の正確な制御が必要である。 本稿では, ポリマースペーサを用いてチップ間分離を制御する手法について述べる。 スペーサのない同一のプロセスと比較すると、測定された平面誤差は3.5倍、平均傾きは76(35)$\mu$rad、目標のチップ間分離からのずれは10倍、平均は0.4(8)$\mu$mである。 この過程を共平面導波管共振器試料に適用し、チップ・チップ共振器の周波数変動を50mhz以下で観測する(約1 %)。 内部品質係数は, 単光子レベルで5×10^5$であり, 付加スペーサは低損失デバイス製造と互換性があることが示唆された。

Three-dimensional device integration facilitates the construction of superconducting quantum information processors with more than several tens of qubits by distributing elements such as control wires, qubits, and resonators between multiple layers. The frequencies of resonators and qubits in flip-chip-bonded multi-chip modules depend on the details of their electromagnetic environment defined by the conductors and dielectrics in their vicinity. Accurate frequency targeting therefore requires precise control of the separation between chips and minimization of their relative tilt. Here, we describe a method to control the inter-chip separation by using polymer spacers. Compared to an identical process without spacers, we reduce the measured planarity error by a factor of 3.5, to a mean tilt of 76(35) $\mu$rad, and the deviation from the target inter-chip separation by a factor of ten, to a mean of 0.4(8) $\mu$m. We apply this process to coplanar waveguide resonator samples and observe chip-to-chip resonator frequency variations below 50 MHz ($\approx$ 1 %). We measure internal quality factors of $5 \times 10^5$ at the single-photon level, suggesting that the added spacers are compatible with low-loss device fabrication.
翻訳日:2023-07-05 18:21:19 公開日:2023-06-30
# ハニカム格子上の強結合2+1d su(2)格子ゲージ理論の量子シミュレーションのための単純ハミルトン

Simple Hamiltonian for Quantum Simulation of Strongly Coupled 2+1D SU(2) Lattice Gauge Theory on a Honeycomb Lattice ( http://arxiv.org/abs/2307.00045v1 )

ライセンス: Link先を確認
Berndt M\"uller and Xiaojun Yao(参考訳) 電場表現が$j_{\rm max}=\frac{1}{2}$で切り離されたハニカム格子上の2+1$次元 SU(2)格子ゲージ理論の物理的状態を記述する単純なスピンハミルトンが見つかる。 単純なスピンハミルトニアンは、ガウスの法則は完全に統合されているにもかかわらず、パウリ行列の局所積のみを含む。

We find a simple spin Hamiltonian to describe physical states of $2+1$ dimensional SU(2) lattice gauge theory on a honeycomb lattice with a truncation of the electric field representation at $j_{\rm max}=\frac{1}{2}$. The simple spin Hamiltonian only contains local products of Pauli matrices, even though Gauss's law has been completely integrated out.
翻訳日:2023-07-05 18:20:58 公開日:2023-06-30
# DisCo:現実世界における人間のダンス生成の参照制御

DisCo: Disentangled Control for Referring Human Dance Generation in Real World ( http://arxiv.org/abs/2307.00040v1 )

ライセンス: Link先を確認
Tan Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang(参考訳) 生成aiはコンピュータビジョン、特にテキスト記述に基づく画像/ビデオ合成において大きな進歩を遂げている。 進歩にもかかわらず、特にダンス合成のような人間中心のコンテンツの生成は困難である。 既存のダンス合成手法は、合成されたコンテンツと現実世界のダンスシナリオのギャップに苦しむ。 本稿では,3つの重要な特性を持つ実世界のダンスシナリオに着目した,人間のダンス生成を参照する。 (i)忠実性:合成は、基準画像からヒトの被写体前景及び背景の両方の外観を保ち、的位置を正確に追従しなければならない。 (ii) 汎用性:モデルは、人間の被写体、背景及びポーズを知覚しないものに一般化すべきである。 (三)構成性:異なるソースから見失う被写体、背景、ポーズの合成を可能にすること。 これらの課題に対処するために,ダンス合成の忠実性と構成性を改善するために,不連続制御を備えた新しいモデルアーキテクチャであるdiscoと,知覚不能な人間の一般化性を改善するための効果的な人間属性事前学習を含む新しいアプローチを提案する。 広範囲な質的、定量的な結果から、ディスコは多様な外観と柔軟な動きを持つ高品質な人間のダンスイメージや動画を生成できることが示されている。 コード、デモ、ビデオ、ビジュアライゼーションはhttps://disco-dance.github.io/。

Generative AI has made significant strides in computer vision, particularly in image/video synthesis conditioned on text descriptions. Despite the advancements, it remains challenging especially in the generation of human-centric content such as dance synthesis. Existing dance synthesis methods struggle with the gap between synthesized content and real-world dance scenarios. In this paper, we define a new problem setting: Referring Human Dance Generation, which focuses on real-world dance scenarios with three important properties: (i) Faithfulness: the synthesis should retain the appearance of both human subject foreground and background from the reference image, and precisely follow the target pose; (ii) Generalizability: the model should generalize to unseen human subjects, backgrounds, and poses; (iii) Compositionality: it should allow for composition of seen/unseen subjects, backgrounds, and poses from different sources. To address these challenges, we introduce a novel approach, DISCO, which includes a novel model architecture with disentangled control to improve the faithfulness and compositionality of dance synthesis, and an effective human attribute pre-training for better generalizability to unseen humans. Extensive qualitative and quantitative results demonstrate that DISCO can generate high-quality human dance images and videos with diverse appearances and flexible motions. Code, demo, video and visualization are available at: https://disco-dance.github.io/.
翻訳日:2023-07-05 18:20:50 公開日:2023-06-30
# 脳にインスパイアされたANNの欠点に対処する設計に向けて

Towards Brain Inspired Design for Addressing the Shortcomings of ANNs ( http://arxiv.org/abs/2307.00039v1 )

ライセンス: Link先を確認
Fahad Sarfraz, Elahe Arani, Bahram Zonooz(参考訳) 脳機能のメカニズムの理解が深まるにつれて、神経科学からAIアルゴリズムの開発に至るまでの洞察の価値はさらに考慮すべきである。 ここでは、既存のツリーベースのANNアーキテクチャと類似点を描き、最近の神経科学研究[27]では、エラー空間全体のパーソナライズされたビューの好みを共有する小脳の神経細胞のエラーベースの組織は、行動と学習のいくつかの望ましい特徴を考慮に入れているかもしれないと論じている。 次に、ANNにおける類似メカニズムの潜在的な利点を評価するために、様々なシナリオ下でモデルの学習行動と特性を分析する。 実験の結果,個人化された誤りビューを持つニューロン群を分離することで,クラス不均衡と限られたデータの下での効率的な学習が可能となり,意図しない近道戦略への感受性が低下し,一般化が促進されることが示唆された。 この研究は、脳の学習機械を新しい世代のANNの設計に翻訳する可能性を強調し、生物学的にインスパイアされたAIがANNの欠点を克服する鍵を握るかもしれないという主張に、さらなる信頼を与える。

As our understanding of the mechanisms of brain function is enhanced, the value of insights gained from neuroscience to the development of AI algorithms deserves further consideration. Here, we draw parallels with an existing tree-based ANN architecture and a recent neuroscience study[27] arguing that the error-based organization of neurons in the cerebellum that share a preference for a personalized view of the entire error space, may account for several desirable features of behavior and learning. We then analyze the learning behavior and characteristics of the model under varying scenarios to gauge the potential benefits of a similar mechanism in ANN. Our empirical results suggest that having separate populations of neurons with personalized error views can enable efficient learning under class imbalance and limited data, and reduce the susceptibility to unintended shortcut strategies, leading to improved generalization. This work highlights the potential of translating the learning machinery of the brain into the design of a new generation of ANNs and provides further credence to the argument that biologically inspired AI may hold the key to overcoming the shortcomings of ANNs.
翻訳日:2023-07-05 18:20:28 公開日:2023-06-30
# プロンプトを用いたトレーニングフリーオブジェクトカウント

Training-free Object Counting with Prompts ( http://arxiv.org/abs/2307.00038v1 )

ライセンス: Link先を確認
Zenglin Shi, Ying Sun, Mengmi Zhang(参考訳) 本稿では,画像中のオブジェクトのカウントの問題に取り組む。 既存のアプローチでは、各オブジェクトに対するポイントアノテーションを備えた広範なトレーニングデータに依存しているため、データ収集は労力と時間を要する。 そこで本研究では,カウントタスクをセグメンテーション問題として扱うトレーニングフリーオブジェクトカウンタを提案する。 我々のアプローチは、高品質なマスクとゼロショットセグメンテーション能力で知られるSAM(Segment Anything Model)を活用している。 しかし、SAMのバニラマスク生成法は、マスクのクラス固有の情報を欠いているため、カウント精度が劣る。 この制限を克服するために,3種類の先行をセグメンテーションプロセスに組み込んだマスク生成手法を導入し,効率と精度を向上させる。 さらに,参照対象選択と予め指示されたマスク生成を組み合わせた2段階のアプローチを提案することで,自由形式のテキストで指定されたオブジェクトをカウントする問題に取り組む。 標準データセットに関する広範な実験は、学習ベースのアプローチと比較して、トレーニングフリーカウンタの競争力を示すものです。 本稿では,広範囲なデータ収集とモデルトレーニングを必要とせず,様々なシナリオでオブジェクトを数える有望なソリューションを提案する。 コードはhttps://github.com/shizenglin/training-free-object-counterで入手できる。

This paper tackles the problem of object counting in images. Existing approaches rely on extensive training data with point annotations for each object, making data collection labor-intensive and time-consuming. To overcome this, we propose a training-free object counter that treats the counting task as a segmentation problem. Our approach leverages the Segment Anything Model (SAM), known for its high-quality masks and zero-shot segmentation capability. However, the vanilla mask generation method of SAM lacks class-specific information in the masks, resulting in inferior counting accuracy. To overcome this limitation, we introduce a prior-guided mask generation method that incorporates three types of priors into the segmentation process, enhancing efficiency and accuracy. Additionally, we tackle the issue of counting objects specified through free-form text by proposing a two-stage approach that combines reference object selection and prior-guided mask generation. Extensive experiments on standard datasets demonstrate the competitive performance of our training-free counter compared to learning-based approaches. This paper presents a promising solution for counting objects in various scenarios without the need for extensive data collection and model training. Code is available at https://github.com/shizenglin/training-free-object-counter.
翻訳日:2023-07-05 18:20:05 公開日:2023-06-30
# MARF: The Medial Atom Ray Field Object Representation

MARF: The Medial Atom Ray Field Object Representation ( http://arxiv.org/abs/2307.00037v1 )

ライセンス: Link先を確認
Peder Bergebakken Sundt, Theoharis Theoharis(参考訳) 我々は,カメラ1台のネットワーク評価で正確な微分可能な表面レンダリングを可能にする,新しいニューラルオブジェクト表現であるMedial Atom Ray Fields (MARFs)を提案する。 既存のニューラルネットワークは、多視点一貫性と表面の不連続を表現している。 marfsは、安価な幾何学的接地面正規値を生成する固体幾何学の二重表現であるメディアル形状表現を使用して、ネットワークが第2の微分を持たないにもかかわらず解析的な曲率を計算することができる。 marfsは、カメラの光線を複数の内側の交叉候補にマッピングし、光-球の交叉試験を行う。 学習したメディアル形状量は, 地下散乱, 部分分節化, および関節形状の空間表現にどのように適用されるかを示す。 形状事前の空間を学べるほど、MARFは形状検索や形状完備化といったタスクに有用であることが証明される。 コードとデータはhttps://github.com/pbsds/MARFで確認できる。

We propose Medial Atom Ray Fields (MARFs), a novel neural object representation that enables accurate differentiable surface rendering with a single network evaluation per camera ray. Existing neural ray fields struggle with multi-view consistency and representing surface discontinuities. MARFs address both using a medial shape representation, a dual representation of solid geometry that yields cheap geometrically grounded surface normals, in turn enabling computing analytical curvature despite the network having no second derivative. MARFs map a camera ray to multiple medial intersection candidates, subject to ray-sphere intersection testing. We illustrate how the learned medial shape quantities applies to sub-surface scattering, part segmentation, and aid representing a space of articulated shapes. Able to learn a space of shape priors, MARFs may prove useful for tasks like shape retrieval and shape completion, among others. Code and data can be found at https://github.com/pbsds/MARF.
翻訳日:2023-07-05 18:19:44 公開日:2023-06-30
# クイア人はまず人である:大規模言語モデルにおける性同一性ステレオタイプを分解する

Queer People are People First: Deconstructing Sexual Identity Stereotypes in Large Language Models ( http://arxiv.org/abs/2307.00101v1 )

ライセンス: Link先を確認
Harnoor Dhingra, Preetiha Jayashanker, Sayali Moghe, Emma Strubell(参考訳) 大規模言語モデル(llm)は、主に最小処理されたwebテキストに基づいて訓練され、そのコンテンツを作成した人間が持つ幅広い社会的バイアスを示す。 したがって、llmsによって生成されたテキストはlgbtqia+コミュニティのような限界グループに対して不注意にステレオタイプを持続することができる。 本稿では、llmが性同一性の違いを記述したテキストを生成する方法の比較研究を行う。 評価スコアを用いてLLMが生成したテキストのバイアスを分析すると、クイア人に対する測定可能なバイアスが示される。 そこで, SHAP分析を用いたチェーン・オブ・シークレットに基づくポストホック法は, LLMのアウトプットを損なうための有望なアプローチとして, 文の関連性を高めることができることを示す。

Large Language Models (LLMs) are trained primarily on minimally processed web text, which exhibits the same wide range of social biases held by the humans who created that content. Consequently, text generated by LLMs can inadvertently perpetuate stereotypes towards marginalized groups, like the LGBTQIA+ community. In this paper, we perform a comparative study of how LLMs generate text describing people with different sexual identities. Analyzing bias in the text generated by an LLM using regard score shows measurable bias against queer people. We then show that a post-hoc method based on chain-of-thought prompting using SHAP analysis can increase the regard of the sentence, representing a promising approach towards debiasing the output of LLMs in this setting.
翻訳日:2023-07-05 18:13:32 公開日:2023-06-30
# プロンプトクラス:弱教師付きセマンティックセグメンテーションにおけるプロンプトクラス学習の力を探る

Prompting classes: Exploring the Power of Prompt Class Learning in Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2307.00097v1 )

ライセンス: Link先を確認
Balamurali Murugesan, Rukhshanda Hussain, Rajarshi Bhattacharya, Ismail Ben Ayed, and Jose Dolz(参考訳) 近年、CLIPベースのアプローチは、対照的な言語ビジョン事前学習の力によって、一般化と少数ショット学習タスクにおいて顕著なパフォーマンスを示した。 特に,タスク関連テキストトークンを用いることで,事前学習した言語ビジョンモデルを下流タスクに適応するための効果的な手法として,プロンプトチューニングが登場している。 この進展に動機づけられ、本研究では、wsss(weakly supervised semantic segmentation)のような他の基本的な問題に対して、迅速なチューニングの恩恵を受けるかどうかを疑問視する。 以上の結果から,WSSSにおける即時チューニングの影響について,興味深い2つの観察結果が得られた。 まず、テキストプロンプトのクラストークンのみを変更すると、コンテキストを最適化するより複雑な戦略に比べて、クラスアクティベーションマップ(cam)に大きな影響を与える。 第二に、画像基底真理に関連するクラストークンは、必ずしも最高のCAMをもたらすカテゴリに対応しない。 これらの観測を動機として,PrOmpt cLass lEarning(POLE)戦略に基づく新しいアプローチを導入する。 大規模な実験を通じて、我々のシンプルで効率的なアプローチは、よく知られたWSSSベンチマークでSOTAのパフォーマンスを達成することを実証した。 これらの結果は、WSSSにおける言語ビジョンモデルの利点だけでなく、この問題に対する迅速な学習の可能性も浮き彫りにしている。 コードはhttps://github.com/rB080/WSS_POLEで公開されている。

Recently, CLIP-based approaches have exhibited remarkable performance on generalization and few-shot learning tasks, fueled by the power of contrastive language-vision pre-training. In particular, prompt tuning has emerged as an effective strategy to adapt the pre-trained language-vision models to downstream tasks by employing task-related textual tokens. Motivated by this progress, in this work we question whether other fundamental problems, such as weakly supervised semantic segmentation (WSSS), can benefit from prompt tuning. Our findings reveal two interesting observations that shed light on the impact of prompt tuning on WSSS. First, modifying only the class token of the text prompt results in a greater impact on the Class Activation Map (CAM), compared to arguably more complex strategies that optimize the context. And second, the class token associated with the image ground truth does not necessarily correspond to the category that yields the best CAM. Motivated by these observations, we introduce a novel approach based on a PrOmpt cLass lEarning (POLE) strategy. Through extensive experiments we demonstrate that our simple, yet efficient approach achieves SOTA performance in a well-known WSSS benchmark. These results highlight not only the benefits of language-vision models in WSSS but also the potential of prompt learning for this problem. The code is available at https://github.com/rB080/WSS_POLE.
翻訳日:2023-07-05 18:13:16 公開日:2023-06-30
# 決定モデルによるデータサイエンスの再検討

Redeeming Data Science by Decision Modelling ( http://arxiv.org/abs/2307.00088v1 )

ライセンス: Link先を確認
John Mark Agosta and Robert Horton(参考訳) データサイエンスの応用が爆発的に増えたことで、この分野は基礎から緩やかになった。 本稿では,「決定モデリング」と呼ぶモデル定式化のためのAI技術から借用することで,データサイエンスの実践を基礎にする必要がある,ベイズ的手法の研究者に親しむ領域における応用研究の新たなプログラムを提案する。 本稿は、図式化の過程を因果的グラフィカルモデルの構築として概観し、一般的なビジネス文献の枠組みである「emph{Decision Quality}」からなる6つの原則の観点で論じる。 適用可能なMLモデリングの取り組みには,これら6つの原則を含める必要がある,と私たちは主張する。 本稿では,従来の機械学習モデルと明示的な値モデルを組み合わせる方法を説明する。 具体的な例を示すために、モデルのROC曲線とユーティリティモデルを統合することで、これをどのように行うかを示す。

With the explosion of applications of Data Science, the field is has come loose from its foundations. This article argues for a new program of applied research in areas familiar to researchers in Bayesian methods in AI that are needed to ground the practice of Data Science by borrowing from AI techniques for model formulation that we term ``Decision Modelling.'' This article briefly reviews the formulation process as building a causal graphical model, then discusses the process in terms of six principles that comprise \emph{Decision Quality}, a framework from the popular business literature. We claim that any successful applied ML modelling effort must include these six principles. We explain how Decision Modelling combines a conventional machine learning model with an explicit value model. To give a specific example we show how this is done by integrating a model's ROC curve with a utility model.
翻訳日:2023-07-05 18:12:51 公開日:2023-06-30
# 膝関節領域検出のための部品ベースレジストレーション損失

A Parts Based Registration Loss for Detecting Knee Joint Areas ( http://arxiv.org/abs/2307.00083v1 )

ライセンス: Link先を確認
Juha Tiirola(参考訳) 本稿では, 膝関節部を微細化するためのパーツベース損失について検討する。 ここで、部品は位置を持つ抽象特徴ベクトルとして定義され、参照画像から自動的に選択される。 テスト画像では、検出された部品は、基準画像の対応する部品と同じような空間構成を推奨する。

In this paper, a parts based loss is considered for finetune registering knee joint areas. Here the parts are defined as abstract feature vectors with location and they are automatically selected from a reference image. For a test image the detected parts are encouraged to have a similar spatial configuration than the corresponding parts in the reference image.
翻訳日:2023-07-05 18:12:37 公開日:2023-06-30
# ケース間予測プロセスモニタリング: 量子機械学習の候補は?

Inter-case Predictive Process Monitoring: A candidate for Quantum Machine Learning? ( http://arxiv.org/abs/2307.00080v1 )

ライセンス: Link先を確認
Stefan Hill, David Fitzek, Patrick Delfmann, Carl Corea(参考訳) ドメインに関係なく、実行中のプロセスインスタンスの将来の振る舞いを予測することは、意思決定者、特に複数のインスタンスが相互作用するときの関心事である。 機械学習研究の最近の進歩により、プロセスの次の活動、結果または残り時間を自動予測するいくつかの方法が提案されている。 それでも、高い予測力を持つモデルを構築するには、イベントログデータから意味のある特徴を抽出する方法に関する本質的な知識と、データの複雑なパターンをキャプチャするモデルの両方が必要です。 この研究は、最近のケース間予測プロセスモニタリング(PPM)の進歩に基づいており、ケース間特徴が予測精度に与える影響を総合的にベンチマークしている。 さらに、量子機械学習モデルが含まれており、機能次元のスケーリング量を持つ古典的なモデルよりも優れていると期待されている。 bpiチャレンジによる実世界のトレーニングデータの評価は、ケース間の機能によって精度が4%以上向上し、量子アルゴリズムはいくつかの機能構成で競合していることを示している。 しかし、量子ハードウェアはまだ開発の初期段階にあるため、本論文はこれらの発見を、実行時、ノイズ、およびトレーニングデータに過剰に適合するリスクの観点から批判的に論じている。 最後に、オープンソースプラグインの実装は、Camundaのような最先端のワークフローエンジンをIBM量子コンピューティングクラウドサービスに接続する技術的可能性を示している。

Regardless of the domain, forecasting the future behaviour of a running process instance is a question of interest for decision makers, especially when multiple instances interact. Fostered by the recent advances in machine learning research, several methods have been proposed to predict the next activity, outcome or remaining time of a process automatically. Still, building a model with high predictive power requires both - intrinsic knowledge of how to extract meaningful features from the event log data and a model that captures complex patterns in data. This work builds upon the recent progress in inter-case Predictive Process Monitoring (PPM) and comprehensively benchmarks the impact of inter-case features on prediction accuracy. Moreover, it includes quantum machine learning models, which are expected to provide an advantage over classical models with a scaling amount of feature dimensions. The evaluation on real-world training data from the BPI challenge shows that the inter-case features provide a significant boost by more than four percent in accuracy and quantum algorithms are indeed competitive in a handful of feature configurations. Yet, as quantum hardware is still in its early stages of development, this paper critically discusses these findings in the light of runtime, noise and the risk to overfit on the training data. Finally, the implementation of an open-source plugin demonstrates the technical feasibility to connect a state-of-the-art workflow engine such as Camunda to an IBM quantum computing cloud service.
翻訳日:2023-07-05 18:12:31 公開日:2023-06-30
# データセットのバランスがモデルのパフォーマンスを損なう

Dataset balancing can hurt model performance ( http://arxiv.org/abs/2307.00079v1 )

ライセンス: Link先を確認
R. Channing Moore, Daniel P. W. Ellis, Eduardo Fonseca, Shawn Hershey, Aren Jansen, Manoj Plakal(参考訳) クラスごとのサンプルの歪んだ分布を持つトレーニングデータからの機械学習は、レアなクラスのパフォーマンスを犠牲にして、共通クラスのパフォーマンスを優先するモデルにつながる可能性がある。 AudioSetは、527のサウンドイベントクラスに対して、非常に幅広い先行性を持っている。 オーディオセットでの分類性能は、通常、クラス毎の単純な平均値によって評価される。 最近の論文では、AudioSetのパフォーマンス向上にデータセットバランシング技術を使用している。 しかし,公開AudioSet評価データの性能はバランスが向上する一方で,同じ条件下で収集した未公開評価セットの性能を損なうことが判明した。 バランスの程度を変えることで,その利点は脆弱であり,評価セットに依存することを示した。 また、バランスが一般的なクラスと比較して希少なクラスパフォーマンスを改善することを示す証拠も見つからない。 したがって、我々はバランスの盲目な適用や、公的評価セットの小さな改善にあまり注意を払わないことに注意する。

Machine learning from training data with a skewed distribution of examples per class can lead to models that favor performance on common classes at the expense of performance on rare ones. AudioSet has a very wide range of priors over its 527 sound event classes. Classification performance on AudioSet is usually evaluated by a simple average over per-class metrics, meaning that performance on rare classes is equal in importance to the performance on common ones. Several recent papers have used dataset balancing techniques to improve performance on AudioSet. We find, however, that while balancing improves performance on the public AudioSet evaluation data it simultaneously hurts performance on an unpublished evaluation set collected under the same conditions. By varying the degree of balancing, we show that its benefits are fragile and depend on the evaluation set. We also do not find evidence indicating that balancing improves rare class performance relative to common classes. We therefore caution against blind application of balancing, as well as against paying too much attention to small improvements on a public evaluation set.
翻訳日:2023-07-05 18:12:09 公開日:2023-06-30
# 量子状態割り当てフロー

Quantum State Assignment Flows ( http://arxiv.org/abs/2307.00075v1 )

ライセンス: Link先を確認
Jonathan Schwarz, Jonas Cassel, Bastian Boll, Martin G\"arttner, Peter Albers, Christoph Schn\"orr(参考訳) 本稿では,重み付きグラフの頂点に関連するデータを表現・解析するための状態空間として,密度行列に対する代入フローを提案する。 定義力学系の幾何積分による代入フローの決定は、グラフ全体の非可換状態の相互作用を引き起こし、収束後の各頂点への純粋(ランクワン)状態の割り当てを引き起こす。 情報幾何学からリーマン・ボゴリューボフ・クボ・モリ計量を採用すると、効率的に計算し、きめ細かい並列に実装できる閉形式局所表現が導かれる。 通勤密度行列のサブ多様体への制限は、有限集合からのラベルを各データポイントに割り当てるだけである分類的確率分布の割り当てフローを復元する。 これまでの研究で示されているように、量子状態代入フローの新たなクラスは、適切な再パラメータ化と下層の重み関数の穏やかな条件下での非局所的非凸ポテンシャルに対するリーマン勾配フローとして特徴付けられる。 この重み関数は、幾何積分スキームの各ステップに対応して生成されたニューラルネットワークの階層のパラメータを生成する。 数値的な結果は, 絡み合いとテンソル化によるデータ間の相関関係の表現を含む, 新たなデータ表現・解析手法の可能性を示す。

This paper introduces assignment flows for density matrices as state spaces for representing and analyzing data associated with vertices of an underlying weighted graph. Determining an assignment flow by geometric integration of the defining dynamical system causes an interaction of the non-commuting states across the graph, and the assignment of a pure (rank-one) state to each vertex after convergence. Adopting the Riemannian Bogoliubov-Kubo-Mori metric from information geometry leads to closed-form local expressions which can be computed efficiently and implemented in a fine-grained parallel manner. Restriction to the submanifold of commuting density matrices recovers the assignment flows for categorial probability distributions, which merely assign labels from a finite set to each data point. As shown for these flows in our prior work, the novel class of quantum state assignment flows can also be characterized as Riemannian gradient flows with respect to a non-local non-convex potential, after proper reparametrization and under mild conditions on the underlying weight function. This weight function generates the parameters of the layers of a neural network, corresponding to and generated by each step of the geometric integration scheme. Numerical results indicates and illustrate the potential of the novel approach for data representation and analysis, including the representation of correlations of data across the graph by entanglement and tensorization.
翻訳日:2023-07-05 18:11:53 公開日:2023-06-30
# 医療におけるトランスフォーマー:調査

Transformers in Healthcare: A Survey ( http://arxiv.org/abs/2307.00067v1 )

ライセンス: Link先を確認
Subhash Nerella, Sabyasachi Bandyopadhyay, Jiaqing Zhang, Miguel Contreras, Scott Siegel, Aysegul Bumin, Brandon Silva, Jessica Sena, Benjamin Shickel, Azra Bihorac, Kia Khezeli, Parisa Rashidi(参考訳) 人工知能(AI)が医療を含む社会の様々な側面に浸透するにつれ、トランスフォーマーニューラルネットワークアーキテクチャの採用は多くのアプリケーションに急速に変化している。 Transformerは、当初、汎用自然言語処理(NLP)タスクを解決するために開発されたディープラーニングアーキテクチャの一種であり、その後、医療を含む多くの分野に適応した。 本稿では, 医療画像, 構造化・非構造化電子健康記録(EHR), ソーシャルメディア, 生理信号, 生体分子配列など, 様々な形態のデータを解析するために, この構造がどのように採用されてきたかについて概説する。 これらのモデルは、臨床診断、レポート生成、データ再構成、薬物/タンパク質合成に役立つ。 本研究は,PRISMAガイドライン(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)を用いて検討した。 また、医療におけるトランスフォーマーの使用のメリットと限界についても論じ、計算コスト、モデル解釈可能性、公正性、人的価値との整合性、倫理的含意、環境影響などの問題を考察する。

With Artificial Intelligence (AI) increasingly permeating various aspects of society, including healthcare, the adoption of the Transformers neural network architecture is rapidly changing many applications. Transformer is a type of deep learning architecture initially developed to solve general-purpose Natural Language Processing (NLP) tasks and has subsequently been adapted in many fields, including healthcare. In this survey paper, we provide an overview of how this architecture has been adopted to analyze various forms of data, including medical imaging, structured and unstructured Electronic Health Records (EHR), social media, physiological signals, and biomolecular sequences. Those models could help in clinical diagnosis, report generation, data reconstruction, and drug/protein synthesis. We identified relevant studies using the Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) guidelines. We also discuss the benefits and limitations of using transformers in healthcare and examine issues such as computational cost, model interpretability, fairness, alignment with human values, ethical implications, and environmental impact.
翻訳日:2023-07-05 18:11:29 公開日:2023-06-30
# 分解適応による時系列予測の転送性の向上

Improving the Transferability of Time Series Forecasting with Decomposition Adaptation ( http://arxiv.org/abs/2307.00066v1 )

ライセンス: Link先を確認
Yan Gao, Yan Wang, Qiang Wang(参考訳) 効果的なパターンマイニングと特徴表現により、ディープラーニングに基づくニューラル予測モデルは大きな進歩を遂げた。 効果的な学習の前提は十分なデータを集めることである。 しかし,時系列予測では十分なデータを得ることが困難であり,ニューラル予測モデルの性能が制限される。 データ不足の制限を軽減するため,新たな転送アーキテクチャであるSeDAN(Sequence Decomposition Adaptation Network)を設計し,クロスドメインデータセットからの転送可能な知識を整合させることで,対象領域における予測性能を向上させる。 時系列データにおける特徴の伝達可能性を再考し,特徴を季節的・傾向的特徴を含むコンポーネントに分解するインプリシトコントラスト分解法を提案する。 次に,異なる領域の分解特徴に対して対応する適応法を設計する。 具体的には,季節的特徴に対して,協調的分布適応を行い,傾向的特徴に対して最適な局所的適応をデザインする。 多変量時系列予測のための5つのベンチマークデータセットについて広範な実験を行った。 その結果,SeDANの有効性が示された。 より効率的で安定した知識伝達を提供することができる。

Due to effective pattern mining and feature representation, neural forecasting models based on deep learning have achieved great progress. The premise of effective learning is to collect sufficient data. However, in time series forecasting, it is difficult to obtain enough data, which limits the performance of neural forecasting models. To alleviate the data scarcity limitation, we design Sequence Decomposition Adaptation Network (SeDAN) which is a novel transfer architecture to improve forecasting performance on the target domain by aligning transferable knowledge from cross-domain datasets. Rethinking the transferability of features in time series data, we propose Implicit Contrastive Decomposition to decompose the original features into components including seasonal and trend features, which are easier to transfer. Then we design the corresponding adaptation methods for decomposed features in different domains. Specifically, for seasonal features, we perform joint distribution adaptation and for trend features, we design an Optimal Local Adaptation. We conduct extensive experiments on five benchmark datasets for multivariate time series forecasting. The results demonstrate the effectiveness of our SeDAN. It can provide more efficient and stable knowledge transfer.
翻訳日:2023-07-05 18:11:10 公開日:2023-06-30
# マルチエージェント空間相互作用の質的予測

Qualitative Prediction of Multi-Agent Spatial Interactions ( http://arxiv.org/abs/2307.00065v1 )

ライセンス: Link先を確認
Sariah Mghames, Luca Castri, Marc Hanheide, Nicola Bellotto(参考訳) レストラン、倉庫、病院など、私たちの日常生活にサービスロボットを配置することは、密集したダイナミックなシーンで起きている相互作用を推論する必要がある。 本稿では,直観的定性表現の使用を含む,密集したシーンにおけるマルチエージェントインタラクションをモデル化し,予測するための3つの新しいアプローチを提案する。 提案する解は、個々の相互作用を予測するために静的および動的コンテキストを考慮に入れる。 彼らは入力と時間的アテンションのメカニズムを利用し、中長期の地平線でテストされる。 最初の2つのアプローチは、最先端のディープニューラルネットワーク内のいわゆる定性軌道計算(qtc)と異なる関係を統合し、空間的相互作用を予測するシンボル駆動ニューラルネットワークアーキテクチャを作成する。 第3のアプローチでは、動き予測のための純粋にデータ駆動ネットワークを実装し、その出力を後処理してQTC空間相互作用を予測する。 混み合ったシナリオの一般的なロボットデータセットの実験結果は、純粋にデータ駆動予測アプローチが他の2つを上回っていることを示している。 3つのアプローチは、その一般化能力を評価するために、異なるが関連する人間のシナリオでさらに評価された。

Deploying service robots in our daily life, whether in restaurants, warehouses or hospitals, calls for the need to reason on the interactions happening in dense and dynamic scenes. In this paper, we present and benchmark three new approaches to model and predict multi-agent interactions in dense scenes, including the use of an intuitive qualitative representation. The proposed solutions take into account static and dynamic context to predict individual interactions. They exploit an input- and a temporal-attention mechanism, and are tested on medium and long-term time horizons. The first two approaches integrate different relations from the so-called Qualitative Trajectory Calculus (QTC) within a state-of-the-art deep neural network to create a symbol-driven neural architecture for predicting spatial interactions. The third approach implements a purely data-driven network for motion prediction, the output of which is post-processed to predict QTC spatial interactions. Experimental results on a popular robot dataset of challenging crowded scenarios show that the purely data-driven prediction approach generally outperforms the other two. The three approaches were further evaluated on a different but related human scenarios to assess their generalisation capability.
翻訳日:2023-07-05 18:10:55 公開日:2023-06-30
# robotic Manipulation Network (ROMAN) -- 複雑なシーケンスタスクを解くためのハイブリッド階層学習

RObotic MAnipulation Network (ROMAN) -- Hybrid Hierarchical Learning for Solving Complex Sequential Tasks ( http://arxiv.org/abs/2307.00125v1 )

ライセンス: Link先を確認
Eleftherios Triantafyllidis, Fernando Acero, Zhaocheng Liu and Zhibin Li(参考訳) 長いシーケンシャルなタスクの解決は、人工知能の具体化において重要な課題となる。 多様な操作スキルで多様なシーケンシャルなタスクを実行するロボットシステムを実現することは、研究の活発な領域である。 本研究では,ロボット操作における複数の複雑なタスクを長時間にわたって解決する課題を解決するために,ハイブリッド階層学習フレームワークであるロボットマニピュレーションネットワーク(ROMAN)を提案する。 ROMANは、行動クローニング、模倣学習、強化学習を統合することで、タスクの汎用性と堅牢な障害回復を実現する。 様々なニューラルネットワークのアンサンブルを調整する中央操作ネットワークで構成され、それぞれが異なる組換え可能なサブタスクを専門とし、複雑な長方形操作タスクを解決するための正しいインシーケンスアクションを生成する。 実験結果から,これらの専門的な操作専門家の組織化と活性化により,ROMANは複雑な操作タスクの長いシーケンスを達成し,実演を超えて適応的な動作を実現するとともに,様々な感覚ノイズに対して頑健性を示す。 これらの結果は、自律的障害回復機能を備えたROMANの動的適応性の重要性と汎用性を示し、適応モータースキルを必要とする様々な自律操作タスクの可能性を強調した。

Solving long sequential tasks poses a significant challenge in embodied artificial intelligence. Enabling a robotic system to perform diverse sequential tasks with a broad range of manipulation skills is an active area of research. In this work, we present a Hybrid Hierarchical Learning framework, the Robotic Manipulation Network (ROMAN), to address the challenge of solving multiple complex tasks over long time horizons in robotic manipulation. ROMAN achieves task versatility and robust failure recovery by integrating behavioural cloning, imitation learning, and reinforcement learning. It consists of a central manipulation network that coordinates an ensemble of various neural networks, each specialising in distinct re-combinable sub-tasks to generate their correct in-sequence actions for solving complex long-horizon manipulation tasks. Experimental results show that by orchestrating and activating these specialised manipulation experts, ROMAN generates correct sequential activations for accomplishing long sequences of sophisticated manipulation tasks and achieving adaptive behaviours beyond demonstrations, while exhibiting robustness to various sensory noises. These results demonstrate the significance and versatility of ROMAN's dynamic adaptability featuring autonomous failure recovery capabilities, and highlight its potential for various autonomous manipulation tasks that demand adaptive motor skills.
翻訳日:2023-07-05 18:04:42 公開日:2023-06-30
# 繰り返し対話する学習ロボットを、人間ユーザはどうやって教えるのか?

How Do Human Users Teach a Continual Learning Robot in Repeated Interactions? ( http://arxiv.org/abs/2307.00123v1 )

ライセンス: Link先を確認
Ali Ayub, Jainish Mehta, Zachary De Francesco, Patrick Holthaus, Kerstin Dautenhahn and Chrystopher L. Nehaniv(参考訳) 近年,機械学習 (ML) とヒューマンロボットインタラクション (HRI) の交差点において,ロボットが人間との長期的な対話を通じて,環境内で継続的に学習できるように,連続学習 (CL) が重要な研究ルートとして浮上している。 しかし、継続学習のほとんどの研究は、静的データセットで新しい情報を素早く学習できる連続学習アルゴリズムを開発するためにロボット中心で行われている。 本稿では,人間中心の継続的学習のアプローチを取り入れ,人間が長期にわたって継続学習ロボットをどう教えるか,その教え方に違いがあるかを理解する。 我々は,連続学習ロボットと対話する40名を対象に,200セッションの対面実験を行った。 本研究では,Fetch移動マニピュレータロボットに搭載された2種類のCLモデルを用いた。 本研究で収集したデータの質的,定量的な分析により,個々の学習スタイルに個別化の必要性を示す個々の学習スタイルに有意な差異があることが示唆された。 また, 熟練者と非熟練者の間には授業スタイルの違いがあるものの, 連続学習ロボットの性能には影響を与えないことを示した。 最後に,本分析の結果から,ほとんどの継続学習技術をテストするために広く用いられている制約付き実験装置は,実際のユーザがさまざまな方法で対話し,継続学習ロボットを教えるため,不十分であることがわかった。 私たちのコードはhttps://github.com/aliayub7/cl_hriで利用可能です。

Continual learning (CL) has emerged as an important avenue of research in recent years, at the intersection of Machine Learning (ML) and Human-Robot Interaction (HRI), to allow robots to continually learn in their environments over long-term interactions with humans. Most research in continual learning, however, has been robot-centered to develop continual learning algorithms that can quickly learn new information on static datasets. In this paper, we take a human-centered approach to continual learning, to understand how humans teach continual learning robots over the long term and if there are variations in their teaching styles. We conducted an in-person study with 40 participants that interacted with a continual learning robot in 200 sessions. In this between-participant study, we used two different CL models deployed on a Fetch mobile manipulator robot. An extensive qualitative and quantitative analysis of the data collected in the study shows that there is significant variation among the teaching styles of individual users indicating the need for personalized adaptation to their distinct teaching styles. The results also show that although there is a difference in the teaching styles between expert and non-expert users, the style does not have an effect on the performance of the continual learning robot. Finally, our analysis shows that the constrained experimental setups that have been widely used to test most continual learning techniques are not adequate, as real users interact with and teach continual learning robots in a variety of ways. Our code is available at https://github.com/aliayub7/cl_hri.
翻訳日:2023-07-05 18:04:18 公開日:2023-06-30
# 携帯端末における視線推定と対話的応用のエンド・ツー・エンドレビュー

An End-to-End Review of Gaze Estimation and its Interactive Applications on Handheld Mobile Devices ( http://arxiv.org/abs/2307.00122v1 )

ライセンス: Link先を確認
Yaxiong Lei, Shijing He, Mohamed Khamis and Juan Ye(参考訳) 近年,携帯端末上では,視線を単一あるいは相補的な相互作用のモダリティとして活用する対話システムが増えてきている。 この傾向は、これらのデバイスの計算能力の向上、高分解能とカメラのキャパシティ、高度な機械学習技術、特にディープラーニングから得られる視線推定精度の向上によってもたらされる。 文献が急速に進歩しているため、芸術の状態をレビューし、境界線を明確にし、推定と相互作用を見つめる上で重要な研究課題と機会を特定する必要がある。 本稿では,この領域において,視線センサから視線推定ワークフロー,深層学習技術,視線対話型アプリケーションまで,エンドツーエンドの全体像を提示することで,この目的を達成することを目的とする。

In recent years we have witnessed an increasing number of interactive systems on handheld mobile devices which utilise gaze as a single or complementary interaction modality. This trend is driven by the enhanced computational power of these devices, higher resolution and capacity of their cameras, and improved gaze estimation accuracy obtained from advanced machine learning techniques, especially in deep learning. As the literature is fast progressing, there is a pressing need to review the state of the art, delineate the boundary, and identify the key research challenges and opportunities in gaze estimation and interaction. This paper aims to serve this purpose by presenting an end-to-end holistic view in this area, from gaze capturing sensors, to gaze estimation workflows, to deep learning techniques, and to gaze interactive applications.
翻訳日:2023-07-05 18:03:54 公開日:2023-06-30
# 実演検索を用いたメタトレーニングによる能率的少数ショット学習

Meta-training with Demonstration Retrieval for Efficient Few-shot Learning ( http://arxiv.org/abs/2307.00119v1 )

ライセンス: Link先を確認
Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed Firooz(参考訳) 大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。 しかし、これらのモデルはメモリと計算集約である。 メタトレーニングは、ドメイン一般およびタスク非依存の方法で、少数のショット一般化のために小さなモデルを利用することができるが、これらの手法だけでは、幅広いタスクに迅速に適応するのに十分なパラメータ化や知識を持たないモデルが得られる。 そこで我々は,より多彩な監視のために,意味的に類似したラベル付きデモンストレーションを各例に検索するために,高密度なパスレトリバーを用いたメタトレーニングを提案する。 モデルパラメータから外部知識を分離することにより、より多様なタスクでよく一般化されるパラメータ効率モデルのトレーニングにメタトレーニングを使用することができる。 我々はunifiedqaとcrossfitのメタトレーニングセットを構築し,unifiedqaタスクに基づいた実証バンクを提案する。 我々の知る限り、我々の研究は、検索とメタトレーニングを結合し、DPRモデルを使用してデモを検索し、ターゲットタスクのトレーニングセットからランダムにデモをサンプリングするのではなく、多くのタスクからのデモを同時に活用する。 提案手法は,QA,NLI,テキスト分類タスク(SQuAD,QNLI,TRECを含む)において,パラメータ効率と検索強化による多種多様な数ショット法より優れている。 このアプローチは,1つのGPU上で,メタトレーニングと微調整を迅速に行うことができる。

Large language models show impressive results on few-shot NLP tasks. However, these models are memory and computation-intensive. Meta-training allows one to leverage smaller models for few-shot generalization in a domain-general and task-agnostic manner; however, these methods alone results in models that may not have sufficient parameterization or knowledge to adapt quickly to a large variety of tasks. To overcome this issue, we propose meta-training with demonstration retrieval, where we use a dense passage retriever to retrieve semantically similar labeled demonstrations to each example for more varied supervision. By separating external knowledge from model parameters, we can use meta-training to train parameter-efficient models that generalize well on a larger variety of tasks. We construct a meta-training set from UnifiedQA and CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our knowledge, our work is the first to combine retrieval with meta-training, to use DPR models to retrieve demonstrations, and to leverage demonstrations from many tasks simultaneously, rather than randomly sampling demonstrations from the training set of the target task. Our approach outperforms a variety of targeted parameter-efficient and retrieval-augmented few-shot methods on QA, NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our approach can be meta-trained and fine-tuned quickly on a single GPU.
翻訳日:2023-07-05 18:03:39 公開日:2023-06-30
# 指示追従の目標表現:制御のための半監督言語インタフェース

Goal Representations for Instruction Following: A Semi-Supervised Language Interface to Control ( http://arxiv.org/abs/2307.00117v1 )

ライセンス: Link先を確認
Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine(参考訳) 私たちの目標は、ロボットが「電子レンジの横にタオルを置く」といった自然言語命令に従うことです。 しかし、大量のラベル付きデータ、すなわち言語命令でラベル付けされたタスクのデモを含むデータを得ることは禁じられている。 対照的に、イメージ目標に反応するポリシーの取得は、最終状態を目標として、自律的なトライアルやデモを後見でラベル付けできるため、はるかに容易である。 そこで本研究では,少量の言語データを用いて,画像と目標条件の共通ポリシーを言語で活用する手法を提案する。 先行研究は視覚言語モデルや共同で言語goal条件付きポリシーを訓練することでこれを進めてきたが、今のところどちらの手法も人間の注意を必要とせずに現実世界のロボットタスクに効果的にスケールしていない。 本手法は,目標画像に適合するラベル付きデータから,指示が対応する開始画像と目標画像の間の所望の変化を学習することで,実世界での堅牢な性能を実現する。 ポリシーはラベルのないすべてのデータから恩恵を受けますが、アライメントはポリシーを管理するための言語のためのインターフェースを提供します。 ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。 私たちのアプローチのビデオとコードは、私たちのWebサイトにある。

Our goal is for robots to follow natural language instructions like "put the towel next to the microwave." But getting large amounts of labeled data, i.e. data that contains demonstrations of tasks labeled with the language instruction, is prohibitive. In contrast, obtaining policies that respond to image goals is much easier, because any autonomous trial or demonstration can be labeled in hindsight with its final state as the goal. In this work, we contribute a method that taps into joint image- and goal- conditioned policies with language using only a small amount of language data. Prior work has made progress on this using vision-language models or by jointly training language-goal-conditioned policies, but so far neither method has scaled effectively to real-world robot tasks without significant human annotation. Our method achieves robust performance in the real world by learning an embedding from the labeled data that aligns language not to the goal image, but rather to the desired change between the start and goal images that the instruction corresponds to. We then train a policy on this embedding: the policy benefits from all the unlabeled data, but the aligned embedding provides an interface for language to steer the policy. We show instruction following across a variety of manipulation tasks in different scenes, with generalization to language instructions outside of the labeled data. Videos and code for our approach can be found on our website: http://tiny.cc/grif .
翻訳日:2023-07-05 18:02:51 公開日:2023-06-30
# 人間とロボットのインタラクションによって新たなブレークファストオプションを学習し作成する個人化家庭用補助ロボット

A Personalized Household Assistive Robot that Learns and Creates New Breakfast Options through Human-Robot Interaction ( http://arxiv.org/abs/2307.00114v1 )

ライセンス: Link先を確認
Ali Ayub, Chrystopher L. Nehaniv and Kerstin Dautenhahn(参考訳) ロボットがユーザーを助けるためには、まずユーザーからタスクについて学ぶ必要がある。 さらに、同じタスクを毎日同じ方法で行うことは、ロボットのユーザにとって退屈になるため、アシストロボットは家庭内でタスクを実行するための創造的な方法を見つけなければならない。 本稿では,家庭用補助ロボットの認知的構造について紹介し,利用者からパーソナライズされた朝食の選択肢を学習し,学習知識を用いて朝食のテーブルを設定する。 アーキテクチャは学習した知識を使って、長期間にわたって新しい朝食オプションを作成することもできる。 提案した認知アーキテクチャは、最先端の知覚学習アルゴリズム、メモリエンコーディングと学習の認知モデルの計算的実装、家庭内のオブジェクトの選択と配置のためのタスクプランナー、ユーザと対話するためのグラフィカルユーザインタフェース(GUI)、学習知識を用いて新しい朝食オプションを作成する新しいアプローチを組み合わせる。 このアーキテクチャはfetchモバイルマニピュレータロボットと統合され、複数のキッチンオブジェクトを備えた大規模屋内環境における概念実証システムの評価として検証される。 実験の結果,ロボットが学習しなかった朝食を,ユーザから学習し,新たな朝食を生成できる,という効果が実証された。

For robots to assist users with household tasks, they must first learn about the tasks from the users. Further, performing the same task every day, in the same way, can become boring for the robot's user(s), therefore, assistive robots must find creative ways to perform tasks in the household. In this paper, we present a cognitive architecture for a household assistive robot that can learn personalized breakfast options from its users and then use the learned knowledge to set up a table for breakfast. The architecture can also use the learned knowledge to create new breakfast options over a longer period of time. The proposed cognitive architecture combines state-of-the-art perceptual learning algorithms, computational implementation of cognitive models of memory encoding and learning, a task planner for picking and placing objects in the household, a graphical user interface (GUI) to interact with the user and a novel approach for creating new breakfast options using the learned knowledge. The architecture is integrated with the Fetch mobile manipulator robot and validated, as a proof-of-concept system evaluation in a large indoor environment with multiple kitchen objects. Experimental results demonstrate the effectiveness of our architecture to learn personalized breakfast options from the user and generate new breakfast options never learned by the robot.
翻訳日:2023-07-05 18:02:04 公開日:2023-06-30
# USMLEにおけるChatGPTの性能:AI支援医療教育における大規模言語モデルの可能性

Performance of ChatGPT on USMLE: Unlocking the Potential of Large Language Models for AI-Assisted Medical Education ( http://arxiv.org/abs/2307.00112v1 )

ライセンス: Link先を確認
Prabin Sharma, Kisan Thapa, Prastab Dhakal, Mala Deep Upadhaya, Santosh Adhikari, Salik Ram Khanal(参考訳) 人工知能はこれまで以上に勢いを増している。 言語モデルとAIベースのビジネスの人気は、ChatGPTがOpenAIを通じて一般公開されて以来、高まっている。 プロフェッショナルと個人の両方でChatGPTを使う人が増えている。 本研究は,ChatGPTの広汎な利用と,その信頼性を考慮し,複雑な医療・臨床問題に対するChatGPTの信頼性について検討した。 ハーバード大学の総合解剖学と米国医学ライセンス試験(USMLE)のアンケートが目的を達成するために用いられた。 本研究は2方向ANOVAとポストホック解析を用いて評価した。 どちらも形式とプロンプトの体系的な共変を示した。 さらに, 医師は, 結果の正確性, 一致性, 洞察性を独立に評価した。 分析の結果,ChatGPTが生成した回答は文脈指向であり,通常のGoogle検索結果よりも推論的推論のモデルとして優れていた。 さらに、ChatGPTは論理的質問で58.8%、倫理的質問で60%を得た。 これは、ChatGPTが論理的質問の通過範囲に近づき、倫理的質問のしきい値を超えたことを意味する。 論文は、ChatGPTや他の言語学習モデルがeラーナーにとって貴重なツールであると考えているが、この研究は、その正確性を改善する余地がまだ残っていることを示唆している。 今後のChatGPTの性能向上には,様々な質問にどのように答えられるかをよりよく理解するために,さらなる研究が必要である。

Artificial intelligence is gaining traction in more ways than ever before. The popularity of language models and AI-based businesses has soared since ChatGPT was made available to the general public via OpenAI. It is becoming increasingly common for people to use ChatGPT both professionally and personally. Considering the widespread use of ChatGPT and the reliance people place on it, this study determined how reliable ChatGPT can be for answering complex medical and clinical questions. Harvard University gross anatomy along with the United States Medical Licensing Examination (USMLE) questionnaire were used to accomplish the objective. The paper evaluated the obtained results using a 2-way ANOVA and posthoc analysis. Both showed systematic covariation between format and prompt. Furthermore, the physician adjudicators independently rated the outcome's accuracy, concordance, and insight. As a result of the analysis, ChatGPT-generated answers were found to be more context-oriented and represented a better model for deductive reasoning than regular Google search results. Furthermore, ChatGPT obtained 58.8% on logical questions and 60% on ethical questions. This means that the ChatGPT is approaching the passing range for logical questions and has crossed the threshold for ethical questions. The paper believes ChatGPT and other language learning models can be invaluable tools for e-learners; however, the study suggests that there is still room to improve their accuracy. In order to improve ChatGPT's performance in the future, further research is needed to better understand how it can answer different types of questions.
翻訳日:2023-07-05 18:01:26 公開日:2023-06-30
# Ticket-BERT: 言語モデルによるインシデント管理チケットのラベル付け

Ticket-BERT: Labeling Incident Management Tickets with Language Models ( http://arxiv.org/abs/2307.00108v1 )

ライセンス: Link先を確認
Zhexiong Liu, Cris Benge, Siduo Jiang(参考訳) 解決のためのインシデントチケットの優先順位付けの重要な側面は、きめ細かいカテゴリのチケットを効率的にラベル付けすることである。 However, ticket data is often complex and poses several unique challenges for modern machine learning methods: (1) tickets are created and updated either by machines with pre-defined algorithms or by engineers with domain expertise that share different protocols, (2) tickets receive frequent revisions that update ticket status by modifying all or parts of ticket descriptions, and (3) ticket labeling is time-sensitive and requires knowledge updates and new labels per the rapid software and hardware improvement lifecycle. これらの問題に対処するために,提案するチケットデータセットを用いて,簡易かつロバストなチケットラベリング言語モデルをトレーニングするticket-bertを導入する。 実験は、azure cognitive services上のベースラインや最先端テキスト分類器よりもticket-bertが優れていることを示す。 さらに、ticket-bertをアクティブな学習サイクルでカプセル化し、それをmicrosoft icmシステムにデプロイすることで、モデルが新しく収集したチケットにいくつかのアノテーションで素早く微調整することができる。

An essential aspect of prioritizing incident tickets for resolution is efficiently labeling tickets with fine-grained categories. However, ticket data is often complex and poses several unique challenges for modern machine learning methods: (1) tickets are created and updated either by machines with pre-defined algorithms or by engineers with domain expertise that share different protocols, (2) tickets receive frequent revisions that update ticket status by modifying all or parts of ticket descriptions, and (3) ticket labeling is time-sensitive and requires knowledge updates and new labels per the rapid software and hardware improvement lifecycle. To handle these issues, we introduce Ticket- BERT which trains a simple yet robust language model for labeling tickets using our proposed ticket datasets. Experiments demonstrate the superiority of Ticket-BERT over baselines and state-of-the-art text classifiers on Azure Cognitive Services. We further encapsulate Ticket-BERT with an active learning cycle and deploy it on the Microsoft IcM system, which enables the model to quickly finetune on newly-collected tickets with a few annotations.
翻訳日:2023-07-05 18:01:02 公開日:2023-06-30
# ストリームシナリオにおける距離関数と正規化

Distance Functions and Normalization Under Stream Scenarios ( http://arxiv.org/abs/2307.00106v1 )

ライセンス: Link先を確認
Eduardo V. L. Barboza, Paulo R. Lisboa de Almeida, Alceu de Souza Britto Jr, Rafael M. O. Cruz(参考訳) データ正規化は、分類システムのモデリングにおいて不可欠なタスクである。 データストリームを扱う場合、最小/最大値などの機能の性質を事前に知ることができないため、データ正規化は特に困難になります。 我々は,データストリーム中の8つのよく知られた距離関数が正規化せずに生成した精度を比較し,受信したデータの最初のバッチの統計値と受信した前のバッチの統計値から正規化する。 完全ストリームを正規化と見なすストリームの実験的なプロトコルは非現実的であり、バイアスと貧弱な結果をもたらす可能性がある。 以上の結果から,正規化を行なわずに元のデータストリームとキャンベラ距離を併用することは,データストリームに関する情報が事前に分かっていない場合によい組み合わせであることが示唆された。

Data normalization is an essential task when modeling a classification system. When dealing with data streams, data normalization becomes especially challenging since we may not know in advance the properties of the features, such as their minimum/maximum values, and these properties may change over time. We compare the accuracies generated by eight well-known distance functions in data streams without normalization, normalized considering the statistics of the first batch of data received, and considering the previous batch received. We argue that experimental protocols for streams that consider the full stream as normalized are unrealistic and can lead to biased and poor results. Our results indicate that using the original data stream without applying normalization, and the Canberra distance, can be a good combination when no information about the data stream is known beforehand.
翻訳日:2023-07-05 18:00:46 公開日:2023-06-30
# 無人航空機による煙パターンの時間解析による火災火災検出

Obscured Wildfire Flame Detection By Temporal Analysis of Smoke Patterns Captured by Unmanned Aerial Systems ( http://arxiv.org/abs/2307.00104v1 )

ライセンス: Link先を確認
Uma Meleti and Abolfazl Razi(参考訳) 本研究は,木や煙,雲など自然の障壁に覆われた火炎を,RGBカメラのみを搭載したドローンでリアルタイムに検出するという課題に対処するものである。 本稿では,ビデオシーケンス中の煙のパターンの時間的解析に基づくセマンティックセグメンテーションを用いた新しい手法を提案する。 本手法は,事前学習したcnnエンコーダを用いた深層畳み込みニューラルネットワークアーキテクチャに基づくエンコーダ-デコーダアーキテクチャと,時間的変動を生かすために特徴の逐次積み重ねを用いたデコードのための3次元畳み込みを用いる。 予測される火災場所は、ドローンが森林火災と効果的に戦うのを助けることができる。 本手法は,irビデオとともにrgbビデオを含むfreme2データセットから得られたキュレートデータセットに適用し,基礎的真理を判定する。 提案手法は, 火災を検知するユニークな特性を有し, 85.88%のサイススコアを達成し, 高精度92.47%, 分類精度90.67%を, 視覚的に検査すると有望な結果が得られる。 実際,ビデオレベルの火災分類では,MobileNet+CBAMをエンコーダのバックボーンとして,約100%の精度で達成し,他の手法よりも優れていた。

This research paper addresses the challenge of detecting obscured wildfires (when the fire flames are covered by trees, smoke, clouds, and other natural barriers) in real-time using drones equipped only with RGB cameras. We propose a novel methodology that employs semantic segmentation based on the temporal analysis of smoke patterns in video sequences. Our approach utilizes an encoder-decoder architecture based on deep convolutional neural network architecture with a pre-trained CNN encoder and 3D convolutions for decoding while using sequential stacking of features to exploit temporal variations. The predicted fire locations can assist drones in effectively combating forest fires and pinpoint fire retardant chemical drop on exact flame locations. We applied our method to a curated dataset derived from the FLAME2 dataset that includes RGB video along with IR video to determine the ground truth. Our proposed method has a unique property of detecting obscured fire and achieves a Dice score of 85.88%, while achieving a high precision of 92.47% and classification accuracy of 90.67% on test data showing promising results when inspected visually. Indeed, our method outperforms other methods by a significant margin in terms of video-level fire classification as we obtained about 100% accuracy using MobileNet+CBAM as the encoder backbone.
翻訳日:2023-07-05 18:00:31 公開日:2023-06-30
# 法を遵守し, 流れを追従する: 勾配流の保存法則

Abide by the Law and Follow the Flow: Conservation Laws for Gradient Flows ( http://arxiv.org/abs/2307.00144v1 )

ライセンス: Link先を確認
Sibylle Marcotte, R\'emi Gribonval, Gabriel Peyr\'e(参考訳) 勾配勾配勾配ダイナミクスの幾何学的性質を理解することは、最近の大規模機械学習モデルの成功を解読する鍵となる要素である。 顕著な観察は、訓練された過パラメータ化モデルが最適化初期化のいくつかの特性を保持することである。 この「単純バイアス」は、訓練されたモデルの好ましい性質に責任があり、それらの良い一般化特性を説明することができると信じられている。 この記事の目的は3つある。 まず、与えられたモデルの勾配流れ(例えば、所定のアーキテクチャを持つreluネットワーク)において保存される独立量の最大集合である「保存則」の定義と基本的な性質を、トレーニングデータと損失を伴って厳密に公開する。 次に、モデルのヤコビアンによって生成されるリー代数上で有限次元代数的操作を行うことにより、これらの量の正確な数を見つける方法を説明する。 最後に、アルゴリズム(SageMathで実装)を次のように提供します。 a) 多項式法則の族を計算すること。 b) 保存法則の数(必ずしも多項式ではない)を計算すること。 理論的に完全に検討した例を紹介します。 さらに、この2つのアルゴリズムを適用することで、既知のすべての法則がアルゴリズムによって回復され、他の法則が存在しないことを確認する。 このような計算ツールは、大規模機械学習モデルにおける最適化初期化の望ましい特性を理解するための道を開いた。

Understanding the geometric properties of gradient descent dynamics is a key ingredient in deciphering the recent success of very large machine learning models. A striking observation is that trained over-parameterized models retain some properties of the optimization initialization. This "implicit bias" is believed to be responsible for some favorable properties of the trained models and could explain their good generalization properties. The purpose of this article is threefold. First, we rigorously expose the definition and basic properties of "conservation laws", which are maximal sets of independent quantities conserved during gradient flows of a given model (e.g. of a ReLU network with a given architecture) with any training data and any loss. Then we explain how to find the exact number of these quantities by performing finite-dimensional algebraic manipulations on the Lie algebra generated by the Jacobian of the model. Finally, we provide algorithms (implemented in SageMath) to: a) compute a family of polynomial laws; b) compute the number of (not necessarily polynomial) conservation laws. We provide showcase examples that we fully work out theoretically. Besides, applying the two algorithms confirms for a number of ReLU network architectures that all known laws are recovered by the algorithm, and that there are no other laws. Such computational tools pave the way to understanding desirable properties of optimization initialization in large machine learning models.
翻訳日:2023-07-05 17:54:03 公開日:2023-06-30
# BuildingsBench:900Kビルの大規模データセットと短期負荷予測ベンチマーク

BuildingsBench: A Large-Scale Dataset of 900K Buildings and Benchmark for Short-Term Load Forecasting ( http://arxiv.org/abs/2307.00142v1 )

ライセンス: Link先を確認
Patrick Emami, Abhijeet Sahu, Peter Graf(参考訳) 住宅と商業ビルのエネルギー消費の短期予測は電力システムで広く使われており、引き続き重要性が増している。 データ駆動の短期負荷予測(STLF)は有望ではあるが、ビルディングの多様性の高い大規模データセットの欠如に悩まされている。 これにより、STLFのプレトレイン-then-finetuneパラダイムの探索が妨げられている。 これに対処するために ビルディングベンチを紹介します 1)ビルズ900k,米国の建物ストックを代表する900kシミュレートされた大規模データセット,及び 2) 7つのオープンデータセットから1,900以上の実住宅および商業ビルの評価プラットフォーム。 buildingsbenchは、未熟な建物で事前訓練されたモデルを微調整することなく評価するゼロショットslfと、目標の建物で事前訓練されたモデルを微調整する転送学習の2つの未熟なタスクをベンチマークする。 ベンチマーク分析の主な発見は、合成事前学習されたモデルが実際の商業ビルに驚くほどよく一般化していることです。 データセットのサイズと多様性がゼロショットの商業建築性能に与える影響を調べると、リターンが減少するパワーローが明らかになる。 また,実際の商業用および住宅用建物における微調整事前学習モデルにより,ほとんどの建物の性能が向上することを示した。 buildingsbenchが汎用stlfに関する今後の研究を奨励し、促進できることを願っている。 すべてのデータセットとコードは \url{https://github.com/NREL/BuildingsBench} からアクセスできる。

Short-term forecasting of residential and commercial building energy consumption is widely used in power systems and continues to grow in importance. Data-driven short-term load forecasting (STLF), although promising, has suffered from a lack of open, large-scale datasets with high building diversity. This has hindered exploring the pretrain-then-finetune paradigm for STLF. To help address this, we present BuildingsBench, which consists of 1) Buildings-900K, a large-scale dataset of 900K simulated buildings representing the U.S. building stock, and 2) an evaluation platform with over 1,900 real residential and commercial buildings from 7 open datasets. BuildingsBench benchmarks two under-explored tasks: zero-shot STLF, where a pretrained model is evaluated on unseen buildings without fine-tuning, and transfer learning, where a pretrained model is fine-tuned on a target building. The main finding of our benchmark analysis is that synthetically pretrained models generalize surprisingly well to real commercial buildings. An exploration of the effect of increasing dataset size and diversity on zero-shot commercial building performance reveals a power-law with diminishing returns. We also show that fine-tuning pretrained models on real commercial and residential buildings improves performance for a majority of target buildings. We hope that BuildingsBench encourages and facilitates future research on generalizable STLF. All datasets and code can be accessed from \url{https://github.com/NREL/BuildingsBench}.
翻訳日:2023-07-05 17:53:41 公開日:2023-06-30
# 凸最適化によるリスク感応的アクターフリー政策

Risk-sensitive Actor-free Policy via Convex Optimization ( http://arxiv.org/abs/2307.00141v1 )

ライセンス: Link先を確認
Ruoqi Zhang, Jens Sj\"olund(参考訳) 従来の強化学習手法は安全性を考慮せずにエージェントを最適化し、意図しない結果をもたらす可能性がある。 本稿では,リスクの条件値に基づいて,リスクに敏感な基準を最適化するアクターフリーポリシーを提案する。 リスクに敏感な目的関数は、入力凸ニューラルネットワークを用いて、動作に対する凸性を保証し、簡単な勾配追従法によるグローバルな最適行動の識別を可能にする。 実験の結果,本手法の有効性が実証された。

Traditional reinforcement learning methods optimize agents without considering safety, potentially resulting in unintended consequences. In this paper, we propose an optimal actor-free policy that optimizes a risk-sensitive criterion based on the conditional value at risk. The risk-sensitive objective function is modeled using an input-convex neural network ensuring convexity with respect to the actions and enabling the identification of globally optimal actions through simple gradient-following methods. Experimental results demonstrate the efficacy of our approach in maintaining effective risk control.
翻訳日:2023-07-05 17:53:15 公開日:2023-06-30
# SMILE:ソーシャルメディア言語理解のための評価とドメイン適応

SMILE: Evaluation and Domain Adaptation for Social Media Language Understanding ( http://arxiv.org/abs/2307.00135v1 )

ライセンス: Link先を確認
Vasilisa Bashlovkina, Riley Matthews, Zhaobin Kuang, Simon Baumgartner, Michael Bendersky(参考訳) ソーシャルメディア言語を理解するためのトランスフォーマーベース言語モデル(LM)について検討する。 ソーシャルメディア(SM)言語は標準言語とは異なるが、既存のベンチマークでは、この社会的、経済的、政治的に重要な領域におけるLMのパフォーマンスを捉えていない。 ソーシャルメディア言語と従来の言語との違いの程度を定量化し,トークン分布と言語シフト率の両面で差が重要であると結論付けた。 次に、4つのSMプラットフォームと11のタスクをカバーするSocial MedIa Language Evaluation(SMILE)のベンチマークを紹介する。 最後に,コントラクタの学習とソーシャルメディアと従来の言語の組み合わせによる事前学習により,SMILEスコアの4.2ポイントにおいて,最も優れた類似サイズの代替品よりも優れたLMが得られることを示す。

We study the ability of transformer-based language models (LMs) to understand social media language. Social media (SM) language is distinct from standard written language, yet existing benchmarks fall short of capturing LM performance in this socially, economically, and politically important domain. We quantify the degree to which social media language differs from conventional language and conclude that the difference is significant both in terms of token distribution and rate of linguistic shift. Next, we introduce a new benchmark for Social MedIa Language Evaluation (SMILE) that covers four SM platforms and eleven tasks. Finally, we show that learning a tokenizer and pretraining on a mix of social media and conventional language yields an LM that outperforms the best similar-sized alternative by 4.2 points on the overall SMILE score.
翻訳日:2023-07-05 17:53:07 公開日:2023-06-30
# アイデンティティ効果学習におけるグラフニューラルネットワークの一般化限界

Generalization Limits of Graph Neural Networks in Identity Effects Learning ( http://arxiv.org/abs/2307.00134v1 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno and Simone Brugiapaglia and Mirco Ravanelli(参考訳) グラフニューラルネットワーク(GNN)は、さまざまなグラフドメインでデータ駆動学習を行う強力なツールとして登場した。 それらは通常、メッセージパス機構に基づいており、表現力の点で同等であることが証明されたグラフ同型に対するWeisfeiler-Lehman (WL)テストと密接に関連している直感的な定式化で人気を高めている。 本研究では,物体が2つの同一成分からなるか否かを判断するタスク,いわゆるアイデンティティ効果の学習の文脈において,新たな一般化特性とgnnの基本限界を確立する。 本研究の目的は,GNNが単純な認知タスクを遂行する際の能力を理解することであり,計算言語学や化学への応用の可能性にある。 2つのケーススタディを分析しました (i)二文字の単語は、一線表現のような直交符号化を利用する場合、確率勾配降下により訓練されたGNNが、見知らぬ文字に一般化できないことを示す。 (ii)二環グラフ、すなわち2つのサイクルからなるグラフは、GNNとWLテストの接続を利用して正の存在結果を示す。 我々の理論解析は広範な数値研究によって裏付けられている。

Graph Neural Networks (GNNs) have emerged as a powerful tool for data-driven learning on various graph domains. They are usually based on a message-passing mechanism and have gained increasing popularity for their intuitive formulation, which is closely linked to the Weisfeiler-Lehman (WL) test for graph isomorphism to which they have been proven equivalent in terms of expressive power. In this work, we establish new generalization properties and fundamental limits of GNNs in the context of learning so-called identity effects, i.e., the task of determining whether an object is composed of two identical components or not. Our study is motivated by the need to understand the capabilities of GNNs when performing simple cognitive tasks, with potential applications in computational linguistics and chemistry. We analyze two case studies: (i) two-letters words, for which we show that GNNs trained via stochastic gradient descent are unable to generalize to unseen letters when utilizing orthogonal encodings like one-hot representations; (ii) dicyclic graphs, i.e., graphs composed of two cycles, for which we present positive existence results leveraging the connection between GNNs and the WL test. Our theoretical analysis is supported by an extensive numerical study.
翻訳日:2023-07-05 17:52:53 公開日:2023-06-30
# iMETRE:関係抽出のためのエンティティ型マーカの導入

iMETRE: Incorporating Markers of Entity Types for Relation Extraction ( http://arxiv.org/abs/2307.00132v1 )

ライセンス: Link先を確認
N Harsha Vardhan, Manav Chaudhary(参考訳) 文レベル関係抽出(re)は、文脈文が与えられた2つのエンティティ間の関係を識別することを目的としている。 この問題を解決する試みは数多くあったが、現在のソリューションには改善の余地がたくさんある。 本稿では,金融データセットREFinDにおける関係抽出の課題にアプローチする。 提案手法では,入力されたエンティティマーカーの表現とデータセットに微調整されたさまざまなモデルを導入し,検証セット上で69.65%のF1スコアを達成できた。 本稿では,様々なアプローチと限界について論じる。

Sentence-level relation extraction (RE) aims to identify the relationship between 2 entities given a contextual sentence. While there have been many attempts to solve this problem, the current solutions have a lot of room to improve. In this paper, we approach the task of relationship extraction in the financial dataset REFinD. Our approach incorporates typed entity markers representations and various models finetuned on the dataset, which has allowed us to achieve an F1 score of 69.65% on the validation set. Through this paper, we discuss various approaches and possible limitations.
翻訳日:2023-07-05 17:52:33 公開日:2023-06-30
# 低温プラズマモデリングとシミュレーションのための機械学習

Machine learning for advancing low-temperature plasma modeling and simulation ( http://arxiv.org/abs/2307.00131v1 )

ライセンス: Link先を確認
Jan Trieschmann, Luca Vialetto, Tobias Gergs(参考訳) 機械学習は多くの科学分野に大きな影響を与えた。 また、低温プラズマモデリングとシミュレーションの分野では、過去数年間で大きな関心を集めている。 その応用は一般に慎重に評価されるべきであるが、プラズマモデリングとシミュレーションの多くの側面は、機械学習とデータ駆動モデリングの分野における最近の発展から大きな恩恵を受けている。 本調査では,2つの目的にアプローチする。 (a)低温プラズマモデリングとシミュレーションへのアプローチに焦点をあてた現状を概観する。 プラズマ物理,プラズマ化学,プラズマ-表面相互作用,プラズマプロセス制御に調査を分割することで,文献から関連する事例を広く議論することを目的とする。 b)プラズマ科学と技術における潜在的な進歩の展望を提供する。 特に、他の科学分野からの適応によって実現される可能性のある進歩について詳しく述べる。 我々は、未知の未知だけでなく、未知の未知の未知も、データ中の隠れたパターンをスポットライトする固有の正当性のために発見できると主張している。

Machine learning has had an enormous impact in many scientific disciplines. Also in the field of low-temperature plasma modeling and simulation it has attracted significant interest within the past years. Whereas its application should be carefully assessed in general, many aspects of plasma modeling and simulation have benefited substantially from recent developments within the field of machine learning and data-driven modeling. In this survey, we approach two main objectives: (a) We review the state-of-the-art focusing on approaches to low-temperature plasma modeling and simulation. By dividing our survey into plasma physics, plasma chemistry, plasma-surface interactions, and plasma process control, we aim to extensively discuss relevant examples from literature. (b) We provide a perspective of potential advances to plasma science and technology. We specifically elaborate on advances possibly enabled by adaptation from other scientific disciplines. We argue that not only the known unknowns, but also unknown unknowns may be discovered due to an inherent propensity to spotlight hidden patterns in data.
翻訳日:2023-07-05 17:52:23 公開日:2023-06-30
# ドメインとジェネリック文書における情報抽出:ヒューリスティックなアプローチとデータ駆動アプローチから

Information Extraction in Domain and Generic Documents: Findings from Heuristic-based and Data-driven Approaches ( http://arxiv.org/abs/2307.00130v1 )

ライセンス: Link先を確認
Shiyu Yuan, Carlo Lipizzi(参考訳) 情報抽出(IE)は自然言語処理(NLP)において非常に重要な役割を担い、構造化されていないテキストデータから構造化された情報を抽出する多くのNLPアプリケーションにおいて基礎となる。 ヒューリスティックに基づく探索とデータ駆動学習は2つの主要なストリーム実装アプローチである。 しかし、IEタスクのジャンルや長さの影響を文書化するのにはあまり注意が払われていない。 このギャップを埋めるために,本研究では,ドメイン固有文書と汎用文書におけるエンティティ認識(NER)とセマンティックロールラベリング(SRL)という,ヒューリスティックな検索とデータ駆動による2つのIEタスクの精度と一般化能力について検討した。 第1に,短い文書は長文に比べて精度が向上する可能性があり,第2に,汎用文書は文書ジャンルの制限のトレーニングにより,ドメインに依存した文書に比べて優れた抽出結果を示す可能性がある。 以上の結果から,両タスクにおいて圧倒的な性能を示す方法が1つも示されなかった。 名前付きエンティティ抽出では、データ駆動アプローチは、特に短いテキストにおいて、精度の点でシンボリックメソッドよりも優れています。 意味的役割抽出では,構文表現を伴うヒューリスティックな探索手法とデータ駆動型モデルが,意味情報のみを考慮した純粋データ駆動型手法の性能を上回った。 さらに,異なる意味的役割が同一手法で異なる精度レベルを示すことを発見した。 本研究では,NER や SRL などの下流テキストマイニングタスクにおいて,文書の特徴やジャンルに対処する上で,重要な知見を提供する。

Information extraction (IE) plays very important role in natural language processing (NLP) and is fundamental to many NLP applications that used to extract structured information from unstructured text data. Heuristic-based searching and data-driven learning are two main stream implementation approaches. However, no much attention has been paid to document genre and length influence on IE tasks. To fill the gap, in this study, we investigated the accuracy and generalization abilities of heuristic-based searching and data-driven to perform two IE tasks: named entity recognition (NER) and semantic role labeling (SRL) on domain-specific and generic documents with different length. We posited two hypotheses: first, short documents may yield better accuracy results compared to long documents; second, generic documents may exhibit superior extraction outcomes relative to domain-dependent documents due to training document genre limitations. Our findings reveals that no single method demonstrated overwhelming performance in both tasks. For named entity extraction, data-driven approaches outperformed symbolic methods in terms of accuracy, particularly in short texts. In the case of semantic roles extraction, we observed that heuristic-based searching method and data-driven based model with syntax representation surpassed the performance of pure data-driven approach which only consider semantic information. Additionally, we discovered that different semantic roles exhibited varying accuracy levels with the same method. This study offers valuable insights for downstream text mining tasks, such as NER and SRL, when addressing various document features and genres.
翻訳日:2023-07-05 17:52:10 公開日:2023-06-30
# Marginal Pseudo-Likelihood を用いたガウス図形モデルの高次元ベイズ構造学習

High-Dimensional Bayesian Structure Learning in Gaussian Graphical Models using Marginal Pseudo-Likelihood ( http://arxiv.org/abs/2307.00127v1 )

ライセンス: Link先を確認
Reza Mohammadi, Marit Schoonhoven, Lucas Vogels, S. Ilker Birbil(参考訳) ガウス図形モデルは、多変量正規分布内の変数間の条件依存をグラフィカルフォーマットで表現する。 これらのグラフ構造の同定は構造学習として知られる領域である。 しかし、構造学習においてベイズ的手法を利用する場合、特に250ノードを超える高次元グラフでは計算複雑性が生じる。 本稿では,この計算課題に対処するために,辺縁的擬似類似性を用いた2つの革新的な探索アルゴリズムを提案する。 これらの手法は、標準コンピュータ上でわずか数分で1000変数を含む問題に対する信頼性の高い推定を迅速に生成できる。 実用アプリケーションに関心がある人のために、この新しいアプローチをサポートするコードは、RパッケージのBDgraphから入手できる。

Gaussian graphical models depict the conditional dependencies between variables within a multivariate normal distribution in a graphical format. The identification of these graph structures is an area known as structure learning. However, when utilizing Bayesian methodologies in structure learning, computational complexities can arise, especially with high-dimensional graphs surpassing 250 nodes. This paper introduces two innovative search algorithms that employ marginal pseudo-likelihood to address this computational challenge. These methods can swiftly generate reliable estimations for problems encompassing 1000 variables in just a few minutes on standard computers. For those interested in practical applications, the code supporting this new approach is made available through the R package BDgraph.
翻訳日:2023-07-05 17:51:40 公開日:2023-06-30
# 双レベル最適化のための超勾配降下の高速化

Accelerating Inexact HyperGradient Descent for Bilevel Optimization ( http://arxiv.org/abs/2307.00126v1 )

ライセンス: Link先を確認
Haikuo Yang, Luo Luo, Chris Junchi Li, Michael I. Jordan(参考訳) 一般の非凸-強凸二値最適化問題の解法を提案する。 この方法 -- \emph{restartedaccelerated hypergradient descend} (\textt{rahgd}) メソッド -- は、$\tilde{\mathcal{o}}(\kappa^{3.25}\epsilon^{-1.75})$ oracle の複雑性で、$\kappa$は低レベルの目的の条件番号、$\epsilon$は所望の精度である。 また,oracle の複雑性の同じ順序で $\big(\epsilon,\mathcal{o}(\kappa^{2.5}\sqrt{\epsilon}\,)\big)$-second-order stationary point を見つけるために, \textt{rahgd} の摂動型も提案する。 本研究は,2段階最適化における定常点の発見に関する理論的保証と,非凸凸凸凹型最小値最適化問題における2次定常点の探索における既定上の複雑性を改善することを目的とした。 本論文の理論的結果を検証するために実証的研究を行った。

We present a method for solving general nonconvex-strongly-convex bilevel optimization problems. Our method -- the \emph{Restarted Accelerated HyperGradient Descent} (\texttt{RAHGD}) method -- finds an $\epsilon$-first-order stationary point of the objective with $\tilde{\mathcal{O}}(\kappa^{3.25}\epsilon^{-1.75})$ oracle complexity, where $\kappa$ is the condition number of the lower-level objective and $\epsilon$ is the desired accuracy. We also propose a perturbed variant of \texttt{RAHGD} for finding an $\big(\epsilon,\mathcal{O}(\kappa^{2.5}\sqrt{\epsilon}\,)\big)$-second-order stationary point within the same order of oracle complexity. Our results achieve the best-known theoretical guarantees for finding stationary points in bilevel optimization and also improve upon the existing upper complexity bound for finding second-order stationary points in nonconvex-strongly-concave minimax optimization problems, setting a new state-of-the-art benchmark. Empirical studies are conducted to validate the theoretical results in this paper.
翻訳日:2023-07-05 17:51:31 公開日:2023-06-30
# 整数線形プログラミング推論クックブック

The Integer Linear Programming Inference Cookbook ( http://arxiv.org/abs/2307.00171v1 )

ライセンス: Link先を確認
Vivek Srikumar, Dan Roth(参考訳) 長年にわたり、整数線形プログラムは、多くの自然言語処理問題における推論のモデル化に用いられてきた。 この調査は、整数線形プログラムのインスタンスとして新しい推論問題をフレーミングするプロセスを通じて読者を導くことを目的としており、レシピのコレクションとして構成されている。 最後に、これらのレシピの使用例を2つ紹介します。

Over the years, integer linear programs have been employed to model inference in many natural language processing problems. This survey is meant to guide the reader through the process of framing a new inference problem as an instance of an integer linear program and is structured as a collection of recipes. At the end, we will see two worked examples to illustrate the use of these recipes.
翻訳日:2023-07-05 17:43:36 公開日:2023-06-30
# ディラックフェルミオンのデコヒーレンスフリーエントロピー重力

Decoherence-Free Entropic Gravity for Dirac Fermion ( http://arxiv.org/abs/2307.00170v1 )

ライセンス: Link先を確認
Eric J. Sung, Andre G. Campos, Hartmut Abele, Denys I. Bondar(参考訳) エントロピー重力の理論は、重力は基本的な力ではなく熱力学的に現れると推測する。 エントロピー重力の主な批判の1つは、量子質量粒子が自由落下でコヒーレンスを失うことであり、これは実験的に観測されていない。 この批判は『phys』で否定された. rev. research {\bf 3}, 033065 (2021)] では、重力をオープン量子系相互作用としてモデル化する非相対論的マスター方程式が、強い結合限界においてコヒーレンスを維持でき、従来の自由落下ダイナミクスを再現できることを示した。 さらに、非相対論的マスター方程式は超低温中性子に対するqBounce実験と完全互換であることが示されている。 これにより、これらの結果を重力的に加速するディラックフェルミオンに拡張する。 我々は、リンドラー空間におけるディラック方程式を用いて、エントロピー重力を熱浴としてモデル化することにより、オープン量子システムアプローチも採用する。 強結合限界において、我々のエントロピー重力モデルはディラックフェルミオンの量子コヒーレンスを維持することを実証する。 さらに,スピンはエントロピー重力に影響されないことを示した。 foldy-wouthysen変換を用いて非相対論的マスター方程式に還元し、ディラックフェルミオンのエントロピー重力仮説を支持することを証明した。 また、自由落下反粒子に対するディラック方程式から反重力が生じる様子を実証するが、数値シミュレーションを用いて、この現象がジッタベグングから発生し、同値原理に違反しないことを示す。

The theory of entropic gravity conjectures that gravity emerges thermodynamically rather than being a fundamental force. One of the main criticisms of entropic gravity is that it would lead to quantum massive particles losing coherence in free fall, which is not observed experimentally. This criticism was refuted in [Phys. Rev. Research {\bf 3}, 033065 (2021)], where a nonrelativistic master equation modeling gravity as an open quantum system interaction demonstrated that in the strong coupling limit, coherence could be maintained and reproduce conventional free fall dynamics. Moreover, the nonrelativistic master equation was shown to be fully compatible with the qBounce experiment for ultracold neutrons. Motivated by this, we extend these results to gravitationally accelerating Dirac fermions. We achieve this by using the Dirac equation in Rindler space and modeling entropic gravity as a thermal bath thus adopting the open quantum systems approach as well. We demonstrate that in the strong coupling limit, our entropic gravity model maintains quantum coherence for Dirac fermions. In addition, we demonstrate that spin is not affected by entropic gravity. We use the Foldy-Wouthysen transformation to demonstrate that it reduces to the nonrelativistic master equation, supporting the entropic gravity hypothesis for Dirac fermions. Also, we demonstrate how anti-gravity seemingly arises from the Dirac equation for free-falling anti-particles but use numerical simulations to show that this phenomenon originates from zitterbewegung thus not violating the equivalence principle.
翻訳日:2023-07-05 17:43:29 公開日:2023-06-30
# VoxWatch:VoxCelebのオープンセット話者認識ベンチマーク

VoxWatch: An open-set speaker recognition benchmark on VoxCeleb ( http://arxiv.org/abs/2307.00169v1 )

ライセンス: Link先を確認
Raghuveer Peri and Seyed Omid Sadjadi and Daniel Garcia-Romero(参考訳) 詐欺防止などの幅広い実践的応用にもかかわらず、オープンセット話者識別(OSI)は話者認証(SV)と比較して話者認識コミュニティにおいてあまり注目されていない。 osiは、テスト音声サンプルが(セット内)事前登録された個人から話者に属しているかどうか、またはセット外の話者であるかどうかを判断する。 音声の変動にまつわる典型的な課題に加えて、OSIは「偽アラーム問題」に陥りがちであり、インセット話者人口(すなわちウォッチリスト)が大きくなるにつれて、オフ・オブ・セットスコアが大きくなり、誤警報率が増大する。 特に金融機関や国境警備のアプリケーションでは、ウォッチリストのサイズが数千人の話者の順番である場合、これは特に困難である。 したがって、誤警報問題を体系的に定量化し、ウォッチリストサイズが検出性能に与える影響を軽減する技術を開発することが重要である。 この問題に関する先行研究は乏しく、体系的な評価のための共通のベンチマークが欠如している。 本稿では,VoxCelebデータセットを用いて開発したOSIの公開ベンチマークについて述べる。 本研究では,3つの強力なニューラルネットワークシステムを用いて,watchlistに基づく話者検出タスクにおけるwatchlistサイズと音声持続時間の影響を定量化する。 先行研究の結果とは対照的に,一般的に採用されている適応スコア正規化は,このタスクの性能向上を保証していない。 一方,スコアキャリブレーションとスコアフュージョンはSVで広く使われている2つの手法であり,OSIの性能は大幅に向上した。

Despite its broad practical applications such as in fraud prevention, open-set speaker identification (OSI) has received less attention in the speaker recognition community compared to speaker verification (SV). OSI deals with determining if a test speech sample belongs to a speaker from a set of pre-enrolled individuals (in-set) or if it is from an out-of-set speaker. In addition to the typical challenges associated with speech variability, OSI is prone to the "false-alarm problem"; as the size of the in-set speaker population (a.k.a watchlist) grows, the out-of-set scores become larger, leading to increased false alarm rates. This is in particular challenging for applications in financial institutions and border security where the watchlist size is typically of the order of several thousand speakers. Therefore, it is important to systematically quantify the false-alarm problem, and develop techniques that alleviate the impact of watchlist size on detection performance. Prior studies on this problem are sparse, and lack a common benchmark for systematic evaluations. In this paper, we present the first public benchmark for OSI, developed using the VoxCeleb dataset. We quantify the effect of the watchlist size and speech duration on the watchlist-based speaker detection task using three strong neural network based systems. In contrast to the findings from prior research, we show that the commonly adopted adaptive score normalization is not guaranteed to improve the performance for this task. On the other hand, we show that score calibration and score fusion, two other commonly used techniques in SV, result in significant improvements in OSI performance.
翻訳日:2023-07-05 17:43:01 公開日:2023-06-30
# U-Calibration: 未知のエージェントの予測

U-Calibration: Forecasting for an Unknown Agent ( http://arxiv.org/abs/2307.00168v1 )

ライセンス: Link先を確認
Robert Kleinberg, Renato Paes Leme, Jon Schneider, Yifeng Teng(参考訳) 予測に応答して行動を起こす有理エージェントが予測を消費するが、予測者にとって有用性が不明な二元イベントの予測を評価する問題を考える。 単一のスコアリングルール(例えばブライアスコア)に対する予測の最適化は、すべてのエージェントに対して低い後悔を保証できないことを示す。 対照的に、よく校正された予測は、全てのエージェントがサブリニア後悔を引き起こすことを保証している。 しかし、キャリブレーションは必要な基準ではない(調整された予測は、可能なすべてのエージェントに対して十分な後悔を与えることができる)し、キャリブレーションされた予測手順は、単一のスコアリングルールを目標とした予測手順よりも確実に収束率を低下させている。 そこで本研究では,u-calibration(u-calibration,u-calibration,u-calibration,u-calibration,u-calibration)と呼ばれる予測値を評価するための新しい指標を提案する。 サブリニアu-校正誤差は,すべてのエージェントがサブリニア後悔保証を実現するための必要十分条件であることを示す。 さらに、U-キャリブレーション誤差を効率的に計算する方法を示し、U-キャリブレーション誤差を$O(\sqrt{T})$ U-キャリブレーション誤差を達成するオンラインアルゴリズムを提供する。 最後に,マルチクラス予測設定の一般化について論じる。

We consider the problem of evaluating forecasts of binary events whose predictions are consumed by rational agents who take an action in response to a prediction, but whose utility is unknown to the forecaster. We show that optimizing forecasts for a single scoring rule (e.g., the Brier score) cannot guarantee low regret for all possible agents. In contrast, forecasts that are well-calibrated guarantee that all agents incur sublinear regret. However, calibration is not a necessary criterion here (it is possible for miscalibrated forecasts to provide good regret guarantees for all possible agents), and calibrated forecasting procedures have provably worse convergence rates than forecasting procedures targeting a single scoring rule. Motivated by this, we present a new metric for evaluating forecasts that we call U-calibration, equal to the maximal regret of the sequence of forecasts when evaluated under any bounded scoring rule. We show that sublinear U-calibration error is a necessary and sufficient condition for all agents to achieve sublinear regret guarantees. We additionally demonstrate how to compute the U-calibration error efficiently and provide an online algorithm that achieves $O(\sqrt{T})$ U-calibration error (on par with optimal rates for optimizing for a single scoring rule, and bypassing lower bounds for the traditionally calibrated learning procedures). Finally, we discuss generalizations to the multiclass prediction setting.
翻訳日:2023-07-05 17:42:34 公開日:2023-06-30
# 自己教師型音声モデルは単語について何を知っているか?

What do self-supervised speech models know about words? ( http://arxiv.org/abs/2307.00162v1 )

ライセンス: Link先を確認
Ankita Pasad, Chung-Ming Chien, Shane Settle, Karen Livescu(参考訳) 多くの自己教師型音声モデル(S3M)が近年導入され、様々な音声タスクのパフォーマンスとデータ効率が改善されている。 異なるS3Mが言語情報を異なる層にエンコードし、また一部のS3Mが電話のようなサブワード単位を学習している証拠が浮上している。 しかし、これらのモデルが単語などのより大きな言語単位を捕捉し、単語関連情報が符号化される範囲は、まだ不明である。 本研究では,3つのS3Mの異なる層から抽出された単語セグメント表現(wav2vec2, HuBERT, WavLM)について解析を行った。 我々は,これらの表現と単語レベルの言語特性の類似性を測定するために,軽量な分析ツールであるcanonical correlation analysis (cca)を用いた。 単語レベルの言語内容の最大値は中間モデル層で見られる傾向にあり、発音のような低レベルな情報もヒューバートやワーヴルムの上位層に残されている。 構文的および意味的単語属性は、同様の階層的振舞いを持つ。 また、テストされたすべてのモデルにおいて、単語識別情報が各単語セグメントの中心付近に集中していることも分かりました。 次に, 音響的単語識別, 単語分割, 意味的文の類似性などのタスクにおいて, 学習パラメータを付加せずに直接使用する場合, 同一モデルの層別性能をテストした。 さらに、hubertやwavlmの最もパフォーマンスの高い層を使用することで、より複雑な既存のアプローチに匹敵する単語分割や文の類似性において、パフォーマンスを実現することが可能であることが分かりました。

Many self-supervised speech models (S3Ms) have been introduced over the last few years, producing performance and data efficiency improvements for a variety of speech tasks. Evidence is emerging that different S3Ms encode linguistic information in different layers, and also that some S3Ms appear to learn phone-like sub-word units. However, the extent to which these models capture larger linguistic units, such as words, and where word-related information is encoded, remains unclear. In this study, we conduct several analyses of word segment representations extracted from different layers of three S3Ms: wav2vec2, HuBERT, and WavLM. We employ canonical correlation analysis (CCA), a lightweight analysis tool, to measure the similarity between these representations and word-level linguistic properties. We find that the maximal word-level linguistic content tends to be found in intermediate model layers, while some lower-level information like pronunciation is also retained in higher layers of HuBERT and WavLM. Syntactic and semantic word attributes have similar layer-wise behavior. We also find that, for all of the models tested, word identity information is concentrated near the center of each word segment. We then test the layer-wise performance of the same models, when used directly with no additional learned parameters, on several tasks: acoustic word discrimination, word segmentation, and semantic sentence similarity. We find similar layer-wise trends in performance, and furthermore, find that when using the best-performing layer of HuBERT or WavLM, it is possible to achieve performance on word segmentation and sentence similarity that rivals more complex existing approaches.
翻訳日:2023-07-05 17:42:04 公開日:2023-06-30
# FFPDG:高速で公平でプライベートなデータ生成

FFPDG: Fast, Fair and Private Data Generation ( http://arxiv.org/abs/2307.00161v1 )

ライセンス: Link先を確認
Weijie Xu, Jinjin Zhao, Francis Iannacci, Bo Wang(参考訳) 生成モデリングは、合成データ生成に頻繁に使われている。 公正性とプライバシーは、合成データにとって大きな関心事である。 最近の GAN [\cite{goodfellow2014generative}] ベースの手法は、プライバシを保存する上で良い結果を示すが、生成されたデータはより偏りがあるかもしれない。 同時に、これらの手法は高い計算資源を必要とする。 本研究では,高速で公平でフレキシブルでプライベートなデータ生成手法を設計する。 本手法の有効性を理論的および実証的に示す。 提案手法により生成されたデータに基づいてトレーニングされたモデルが,実際のアプリケーションシナリオ上で(推論段階で)良好に動作可能であることを示す。

Generative modeling has been used frequently in synthetic data generation. Fairness and privacy are two big concerns for synthetic data. Although Recent GAN [\cite{goodfellow2014generative}] based methods show good results in preserving privacy, the generated data may be more biased. At the same time, these methods require high computation resources. In this work, we design a fast, fair, flexible and private data generation method. We show the effectiveness of our method theoretically and empirically. We show that models trained on data generated by the proposed method can perform well (in inference stage) on real application scenarios.
翻訳日:2023-07-05 17:41:36 公開日:2023-06-30
# 不均衡分類問題におけるモデル挙動に及ぼすバランシング法の影響

The Effect of Balancing Methods on Model Behavior in Imbalanced Classification Problems ( http://arxiv.org/abs/2307.00157v1 )

ライセンス: Link先を確認
Adrian Stando, Mustafa Cavus, Przemys{\l}aw Biecek(参考訳) 不均衡データは、マイノリティクラスからの学習不足によってモデルの性能が影響を受けるため、分類において重大な課題となる。 この問題に対処するために、バランシング手法がよく使用される。 しかし、そのような技術は情報の過剰なフィッティングや損失といった問題を引き起こす可能性がある。 この研究は、バランスをとる方法のより困難な側面、すなわちモデル行動への影響に対処する。 これらの変化を捉えるために、説明可能な人工知能ツールを使用して、バランスをとる前後にデータセットでトレーニングされたモデルを比較する。 本研究は,変数重要度法に加えて,部分的依存プロファイルと局所効果の蓄積手法を用いた。 実際のデータセットとシミュレーションデータセットがテストされ、この分析を容易にするためにオープンソースのPythonパッケージedgaroが開発されている。 その結果, バランスの取れた分布に偏ったモデルが導かれるため, モデル挙動に大きな変化が見られた。 これらの結果は、機械学習モデルの信頼性を高めるために、バランシング分析がモデル性能比較を超えることを確認する。 そこで本研究では,データバランシング戦略において,モデル行動の変化とパフォーマンスゲインの変化の指標を解析し,バランシング手法の最適選択を行うための新しい手法を提案する。

Imbalanced data poses a significant challenge in classification as model performance is affected by insufficient learning from minority classes. Balancing methods are often used to address this problem. However, such techniques can lead to problems such as overfitting or loss of information. This study addresses a more challenging aspect of balancing methods - their impact on model behavior. To capture these changes, Explainable Artificial Intelligence tools are used to compare models trained on datasets before and after balancing. In addition to the variable importance method, this study uses the partial dependence profile and accumulated local effects techniques. Real and simulated datasets are tested, and an open-source Python package edgaro is developed to facilitate this analysis. The results obtained show significant changes in model behavior due to balancing methods, which can lead to biased models toward a balanced distribution. These findings confirm that balancing analysis should go beyond model performance comparisons to achieve higher reliability of machine learning models. Therefore, we propose a new method performance gain plot for informed data balancing strategy to make an optimal selection of balancing method by analyzing the measure of change in model behavior versus performance gain.
翻訳日:2023-07-05 17:41:27 公開日:2023-06-30
# ViTはフレキシブルなビジョンバックボーン

Stitched ViTs are Flexible Vision Backbones ( http://arxiv.org/abs/2307.00154v1 )

ライセンス: Link先を確認
Zizheng Pan, Jing Liu, Haoyu He, Jianfei Cai, Bohan Zhuang(参考訳) 大きな事前訓練されたプレーンビジョントランスフォーマー(vits)は多くの下流タスクの作業馬であった。 しかし、個々のサイズのViTを採用するには個別のトレーニングが必要であり、一定のパフォーマンス効率のトレードオフによって制限されるため、既製のViTを使用する既存の作業は、トレーニングとデプロイメントの面で非効率である。 本稿では,事前学習したモデルファミリを縫い合わせることで,リッチサブネットワークをカバーする1つのモデルを安価に作成する新フレームワークであるstitchable neural networksに着想を得た。 この基盤の上に構築されたSN-Netv2は、ダウンストリームタスク適応を容易にするために、体系的に改良されたモデル縫合フレームワークである。 具体的には,縫合空間を拡大する2方向縫合法を提案する。 次に,資源制約付きサンプリング戦略を設計し,その基盤となるFLOP分布を考慮し,サンプリングの改善を図る。 最後に,ステッチ層の学習は低ランク更新であり,ダウンストリームタスクにおいて重要な役割を担い,トレーニングを安定させ,適切なparetoフロンティアを確保する。 ImageNet-1K、ADE20K、COCO-Stuff-10K、NYUv2、COCO-2017の広範な実験により、SN-Netv2は柔軟なビジョンバックボーンとして機能する強力な能力を示し、トレーニング効率と適応の両方において大きな利点を享受している。 コードはhttps://github.com/ziplab/sn-netv2でリリースされる。

Large pretrained plain vision Transformers (ViTs) have been the workhorse for many downstream tasks. However, existing works utilizing off-the-shelf ViTs are inefficient in terms of training and deployment, because adopting ViTs with individual sizes requires separate training and is restricted by fixed performance-efficiency trade-offs. In this paper, we are inspired by stitchable neural networks, which is a new framework that cheaply produces a single model that covers rich subnetworks by stitching pretrained model families, supporting diverse performance-efficiency trade-offs at runtime. Building upon this foundation, we introduce SN-Netv2, a systematically improved model stitching framework to facilitate downstream task adaptation. Specifically, we first propose a Two-way stitching scheme to enlarge the stitching space. We then design a resource-constrained sampling strategy that takes into account the underlying FLOPs distributions in the space for improved sampling. Finally, we observe that learning stitching layers is a low-rank update, which plays an essential role on downstream tasks to stabilize training and ensure a good Pareto frontier. With extensive experiments on ImageNet-1K, ADE20K, COCO-Stuff-10K, NYUv2 and COCO-2017, SN-Netv2 demonstrates strong ability to serve as a flexible vision backbone, achieving great advantages in both training efficiency and adaptation. Code will be released at https://github.com/ziplab/SN-Netv2.
翻訳日:2023-07-05 17:41:09 公開日:2023-06-30
# プログラミング課題に対するフィードバック自動化のための大規模言語モデル(GPT)

Large Language Models (GPT) for automating feedback on programming assignments ( http://arxiv.org/abs/2307.00150v1 )

ライセンス: Link先を確認
Maciej Pankiewicz and Ryan S. Baker(参考訳) プログラムの割り当てに対してパーソナライズされたフィードバックを生成するという課題に対処するには、コードの構文の複雑さやタスクを正しく解決するさまざまな方法など、いくつかの要因がある。 本研究では,OpenAI の GPT-3.5 モデルを用いてフィードバック生成プロセスの自動化を行い,自動評価プラットフォーム上でのプログラミング課題解決のためのパーソナライズされたヒントを生成する。 学生はGPT生成ヒントの有用性を肯定的に評価した。 gptのヒントが有効になっている)実験グループは、プラットフォームの定期的なフィードバックに頼らず、gptのヒントが有効になったタスクの連続的な試みにおいて、成功率でパフォーマンスが向上した。 gptフィードバックが利用できないタスクの場合、実験グループは課題を解決する時間を大幅に削減する必要があった。 さらに, GPTヒントが得られない場合, 実験条件の学生は, 課題を正しく解決する可能性が低かった。 これは、GPT生成フィードバックに過度に依存する可能性があることを示唆している。 しかし, 実験条件の学生は, 適度に迅速に正解し, 7回の提出試験で正解率に達した。 GPTヒントの入手は学生の感情状態に大きな影響を与えなかった。

Addressing the challenge of generating personalized feedback for programming assignments is demanding due to several factors, like the complexity of code syntax or different ways to correctly solve a task. In this experimental study, we automated the process of feedback generation by employing OpenAI's GPT-3.5 model to generate personalized hints for students solving programming assignments on an automated assessment platform. Students rated the usefulness of GPT-generated hints positively. The experimental group (with GPT hints enabled) relied less on the platform's regular feedback but performed better in terms of percentage of successful submissions across consecutive attempts for tasks, where GPT hints were enabled. For tasks where the GPT feedback was made unavailable, the experimental group needed significantly less time to solve assignments. Furthermore, when GPT hints were unavailable, students in the experimental condition were initially less likely to solve the assignment correctly. This suggests potential over-reliance on GPT-generated feedback. However, students in the experimental condition were able to correct reasonably rapidly, reaching the same percentage correct after seven submission attempts. The availability of GPT hints did not significantly impact students' affective state.
翻訳日:2023-07-05 17:40:40 公開日:2023-06-30
# 制御可能なCADモデル生成のための階層型ニューラルネットワーク

Hierarchical Neural Coding for Controllable CAD Model Generation ( http://arxiv.org/abs/2307.00149v1 )

ライセンス: Link先を確認
Xiang Xu, Pradeep Kumar Jayaraman, Joseph G. Lambourne, Karl D.D. Willis, Yasutaka Furukawa(参考訳) 本稿では,CAD(Computer Aided Design)のための新しい生成モデルを提案する。 1)cadモデルの高レベル設計概念を,大域的な部分配置から局所曲線幾何学まで,ニューラルネットワークの3段階階層木として表現する。 2)コードツリーを用いてターゲット設計を指定することによりCADモデルの生成や完成を制御する。 具体的には、"masked skip connection"を持つベクトル量子化vaeの新しい変種は、3段階のニューラルコードブックとして設計のバリエーションを抽出する。 2段階のカスケード自動回帰変換器は、不完全なCADモデルからコードツリーを生成し、意図された設計に従ってCADモデルを完成させる。 広範な実験により、条件付き生成タスクの新たなインタラクション機能を実現しつつ、ランダム生成などの従来のタスクで優れた性能を示す。 コードはhttps://github.com/samxuxiang/hnc-cadで入手できる。

This paper presents a novel generative model for Computer Aided Design (CAD) that 1) represents high-level design concepts of a CAD model as a three-level hierarchical tree of neural codes, from global part arrangement down to local curve geometry; and 2) controls the generation or completion of CAD models by specifying the target design using a code tree. Concretely, a novel variant of a vector quantized VAE with "masked skip connection" extracts design variations as neural codebooks at three levels. Two-stage cascaded auto-regressive transformers learn to generate code trees from incomplete CAD models and then complete CAD models following the intended design. Extensive experiments demonstrate superior performance on conventional tasks such as random generation while enabling novel interaction capabilities on conditional generation tasks. The code is available at https://github.com/samxuxiang/hnc-cad.
翻訳日:2023-07-05 17:40:20 公開日:2023-06-30
# 言語モデルのためのまだ嘘検出器がない:経験的および概念的ブロックの探索

Still No Lie Detector for Language Models: Probing Empirical and Conceptual Roadblocks ( http://arxiv.org/abs/2307.00175v1 )

ライセンス: Link先を確認
B.A. Levinstein and Daniel A. Herrmann(参考訳) 大型言語モデル(LLM)が信念を持っているかどうか、そしてそれらがそうであるかどうか、どのようにそれらを測定するべきか、という疑問を考察する。 まず, azaria と mitchell (2023) によるアプローチと burns et al. (2022) によるアプローチの評価を行った。 これらの手法が極めて基本的な方法で一般化できないことを示す実験結果を提供する。 そして, LLM が信念を持っているとしても, 概念的理由からこれらの手法が成功する可能性は低いと論じる。 したがって、LLMに対する嘘検出はいまだに存在しない。 経験的な結果について説明した後、一歩後退して、LLMがそもそも信念のようなものを持つべきかどうかを検討します。 LLMが信念を持てないことを示すための最近の議論について考察する。 これらの議論は誤解されている。 我々は, LLMにおける信念の状況に関する質問のより生産的な枠組みを提供し, 問題の実証的な性質を強調する。 我々は、将来の仕事のための具体的な道を提案することで締めくくります。

We consider the questions of whether or not large language models (LLMs) have beliefs, and, if they do, how we might measure them. First, we evaluate two existing approaches, one due to Azaria and Mitchell (2023) and the other to Burns et al. (2022). We provide empirical results that show that these methods fail to generalize in very basic ways. We then argue that, even if LLMs have beliefs, these methods are unlikely to be successful for conceptual reasons. Thus, there is still no lie-detector for LLMs. After describing our empirical results we take a step back and consider whether or not we should expect LLMs to have something like beliefs in the first place. We consider some recent arguments aiming to show that LLMs cannot have beliefs. We show that these arguments are misguided. We provide a more productive framing of questions surrounding the status of beliefs in LLMs, and highlight the empirical nature of the problem. We conclude by suggesting some concrete paths for future work.
翻訳日:2023-07-05 17:31:54 公開日:2023-06-30
# 医用画像分割のためのマルチスケールプログレッシブテキストプロンプトネットワーク

Multiscale Progressive Text Prompt Network for Medical Image Segmentation ( http://arxiv.org/abs/2307.00174v1 )

ライセンス: Link先を確認
Xianjun Han, Qianqian Chen, Zhaoyang Xie, Xuejun Li, Hongyu Yang(参考訳) 医用画像の正確なセグメンテーションは、信頼できる形態統計を得るための重要なステップである。 しかし、このタスクのためにディープニューラルネットワークをトレーニングするには、高い正確性を保証するために大量のラベル付きデータが必要である。 この問題に対処するために,先行知識としてプログレッシブテキストプロンプトを用いたセグメンテーションプロセスのガイドを提案する。 私たちのモデルは2つの段階からなる。 第1段階では,自然画像のコントラスト学習を行い,強力な事前プロンプトエンコーダ(ppe)を事前学習する。 PPEはテキスト先行プロンプトを利用してマルチモーダリティ機能を生成する。 第2段では、第1段から継承されたPPEに医療画像とテキスト先行プロンプトを送り、下流の医療画像セグメンテーションタスクを達成する。 マルチスケール機能融合ブロック(MSFF)は、PPEの機能を組み合わせてマルチスケール機能を生成する。 これら2つのプログレッシブな特徴は意味的ギャップを埋めるだけでなく、予測精度を向上させる。 最後に、UpAttentionブロックは画像とテキスト機能をマージすることで予測結果を洗練する。 この設計は、医療画像セグメンテーションのために、マルチスケールのプログレッシブテキストプリプロンプトを利用するためのシンプルで正確な方法を提供する。 画像のみを用いた場合と比較して,データアノテーションコストの低い高品質な結果が得られる。 また,本モデルは,医療画像の信頼性と妥当性に優れるだけでなく,自然画像においても良好に機能する。 異なる画像データセットに対する実験結果から,我々のモデルは画像セグメンテーションに有効で堅牢であることが示された。

The accurate segmentation of medical images is a crucial step in obtaining reliable morphological statistics. However, training a deep neural network for this task requires a large amount of labeled data to ensure high-accuracy results. To address this issue, we propose using progressive text prompts as prior knowledge to guide the segmentation process. Our model consists of two stages. In the first stage, we perform contrastive learning on natural images to pretrain a powerful prior prompt encoder (PPE). This PPE leverages text prior prompts to generate multimodality features. In the second stage, medical image and text prior prompts are sent into the PPE inherited from the first stage to achieve the downstream medical image segmentation task. A multiscale feature fusion block (MSFF) combines the features from the PPE to produce multiscale multimodality features. These two progressive features not only bridge the semantic gap but also improve prediction accuracy. Finally, an UpAttention block refines the predicted results by merging the image and text features. This design provides a simple and accurate way to leverage multiscale progressive text prior prompts for medical image segmentation. Compared with using only images, our model achieves high-quality results with low data annotation costs. Moreover, our model not only has excellent reliability and validity on medical images but also performs well on natural images. The experimental results on different image datasets demonstrate that our model is effective and robust for image segmentation.
翻訳日:2023-07-05 17:31:37 公開日:2023-06-30
# 深層強化学習における転校学習:調査

Transfer Learning in Deep Reinforcement Learning: A Survey ( http://arxiv.org/abs/2009.07888v6 )

ライセンス: Link先を確認
Zhuangdi Zhu, Kaixiang Lin, Anil K. Jain, and Jiayu Zhou(参考訳) 強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。 近年,深層ニューラルネットワークの急速な発展に伴い,強化学習が著しく進展している。 ロボット工学やゲームプレイングといった多くの分野における強化学習の有望な展望とともに、翻訳学習は、強化学習が直面する様々な課題に取り組み、外部の専門知識から知識を移譲して学習プロセスの効率化と有効性を促進する。 本研究では,深層強化学習の文脈における転校学習アプローチの最近の進歩を体系的に調査する。 具体的には,最先端のトランスファー学習のアプローチを分類するためのフレームワークを提供し,それらの目標,方法論,互換性のある強化学習バックボーン,実践的応用について分析する。 また,強化学習の観点からは,転校学習と関連する他の話題との関係を導き,今後の研究の進展を待ち受けている課題を探究する。

Reinforcement learning is a learning paradigm for solving sequential decision-making problems. Recent years have witnessed remarkable progress in reinforcement learning upon the fast development of deep neural networks. Along with the promising prospects of reinforcement learning in numerous domains such as robotics and game-playing, transfer learning has arisen to tackle various challenges faced by reinforcement learning, by transferring knowledge from external expertise to facilitate the efficiency and effectiveness of the learning process. In this survey, we systematically investigate the recent progress of transfer learning approaches in the context of deep reinforcement learning. Specifically, we provide a framework for categorizing the state-of-the-art transfer learning approaches, under which we analyze their goals, methodologies, compatible reinforcement learning backbones, and practical applications. We also draw connections between transfer learning and other relevant topics from the reinforcement learning perspective and explore their potential challenges that await future research progress.
翻訳日:2023-07-04 16:43:04 公開日:2023-06-30
# 分散行列因子化

Deviance Matrix Factorization ( http://arxiv.org/abs/2110.05674v3 )

ライセンス: Link先を確認
Liang Wang, Luis Carvalho(参考訳) 逸脱に基づくデータ損失に対する一般化行列因子分解について検討し、ユビキタス特異値分解を二乗誤差損失を超えて拡張する。 同様の手法がこれまで検討されてきたが,本手法は一般化線形モデル(GLMs)から古典統計手法を活用し,入射重みによる構造零点の許容に十分柔軟な効率的なアルゴリズムを提供する。 さらに、GLM理論の結果に適応することにより、これらの分解を支援する。 (i)GLM設定下において強い整合性を示す。 (ii)一般化ホスマー・ルメショー検定による選択指数関数族の妥当性の検証、及び (iii)最大固有値ギャップ法による分解のランクを決定する。 本研究は, 画像認識, 自然言語処理, ネットワーク解析, バイオメディカル研究から得られたベンチマークデータセットを用いて, 分解仮定に対する堅牢性を評価するためのシミュレーション研究を行う。 理論的および実証的な結果から,提案手法はより柔軟で汎用的で堅牢であり,類似手法と比較して性能が向上することが示された。 応用を容易にするため、効率的なモデルフィッティング及びファミリー及びランク決定を備えたRパッケージも提供される。

We investigate a general matrix factorization for deviance-based data losses, extending the ubiquitous singular value decomposition beyond squared error loss. While similar approaches have been explored before, our method leverages classical statistical methodology from generalized linear models (GLMs) and provides an efficient algorithm that is flexible enough to allow for structural zeros via entry weights. Moreover, by adapting results from GLM theory, we provide support for these decompositions by (i) showing strong consistency under the GLM setup, (ii) checking the adequacy of a chosen exponential family via a generalized Hosmer-Lemeshow test, and (iii) determining the rank of the decomposition via a maximum eigenvalue gap method. To further support our findings, we conduct simulation studies to assess robustness to decomposition assumptions and extensive case studies using benchmark datasets from image face recognition, natural language processing, network analysis, and biomedical studies. Our theoretical and empirical results indicate that the proposed decomposition is more flexible, general, and robust, and can thus provide improved performance when compared to similar methods. To facilitate applications, an R package with efficient model fitting and family and rank determination is also provided.
翻訳日:2023-07-04 16:39:01 公開日:2023-06-30
# サンプリングのための近似アルゴリズム

A Proximal Algorithm for Sampling ( http://arxiv.org/abs/2202.13975v3 )

ライセンス: Link先を確認
Jiaming Liang, Yongxin Chen(参考訳) 滑らかさに欠ける電位に関連するサンプリング問題について検討する。 ポテンシャルは凸か非凸である。 標準的な滑らかな設定から外れると、ポテンシャルは弱滑らかか非スムースか、あるいは複数の関数の和であると仮定される。 我々は,この難解なサンプリングタスクの最適化において,近位アルゴリズムに類似したサンプリングアルゴリズムを開発した。 本アルゴリズムは,交代サンプリングフレームワーク (asf) として知られるギブスサンプリングの特別な場合に基づいている。 この研究の重要な貢献は、必ずしも滑らかでない非凸ポテンシャルと凸ポテンシャルの両方に対する拒絶サンプリングに基づくasfの実践的実現である。 この研究で考慮されたサンプリングのほとんど全てのケースにおいて、我々の近位サンプリングアルゴリズムは、既存の全ての方法よりもより良い複雑さを達成する。

We study sampling problems associated with potentials that lack smoothness. The potentials can be either convex or non-convex. Departing from the standard smooth setting, the potentials are only assumed to be weakly smooth or non-smooth, or the summation of multiple such functions. We develop a sampling algorithm that resembles proximal algorithms in optimization for this challenging sampling task. Our algorithm is based on a special case of Gibbs sampling known as the alternating sampling framework (ASF). The key contribution of this work is a practical realization of the ASF based on rejection sampling for both non-convex and convex potentials that are not necessarily smooth. In almost all the cases of sampling considered in this work, our proximal sampling algorithm achieves better complexity than all existing methods.
翻訳日:2023-07-04 16:28:34 公開日:2023-06-30
# 第2次ミラーダイス:ゲームにおける平均とカウント以上の収束性

Second-Order Mirror Descent: Convergence in Games Beyond Averaging and Discounting ( http://arxiv.org/abs/2111.09982v4 )

ライセンス: Link先を確認
Bolin Gao, Lacra Pavel(参考訳) 本稿では,連続時間ゲーム理論ミラー降下(mdd)ダイナミクスの2次拡張法を提案する。md2は時間平均やディスカウントといった一般的な補助技術を用いずに,単に(必ずしも厳密ではないが)変分安定状態(vss)に収束する。 MD2 は, 若干の修正を加えて, 強い VSS への収束率と指数関数的収束率を満足することを示す。 md2は、多くの新しい連続時間原始空間ダイナミクスを導出するためにも用いられる。 次に,確率近似法を用いて離散時間MD2の収束保証を行い,内部VSSに対するノイズ観測を行った。 結果を説明するために選択されたシミュレーションが提供される。

In this paper, we propose a second-order extension of the continuous-time game-theoretic mirror descent (MD) dynamics, referred to as MD2, which provably converges to mere (but not necessarily strict) variationally stable states (VSS) without using common auxiliary techniques such as time-averaging or discounting. We show that MD2 enjoys no-regret as well as an exponential rate of convergence towards strong VSS upon a slight modification. MD2 can also be used to derive many novel continuous-time primal-space dynamics. We then use stochastic approximation techniques to provide a convergence guarantee of discrete-time MD2 with noisy observations towards interior mere VSS. Selected simulations are provided to illustrate our results.
翻訳日:2023-07-04 16:26:04 公開日:2023-06-30
# ラスト層再訓練はスプリアス相関に対するロバスト性に十分である

Last Layer Re-Training is Sufficient for Robustness to Spurious Correlations ( http://arxiv.org/abs/2204.02937v2 )

ライセンス: Link先を確認
Polina Kirichenko, Pavel Izmailov, Andrew Gordon Wilson(参考訳) ニューラルネットワーク分類器は、予測を行うために、バックグラウンドなどの単純なスプリアス機能に大きく依存する。 しかし,これらの場合においても,近年の知見とは対照的に,データの所望の属性に関連するコア機能を学習することが多い。 この知見に触発されて、単純なラストレイヤリトレーニングは、スプリアス相関ベンチマークで最先端のアプローチに匹敵するだけでなく、複雑さと計算コストを大幅に削減できることを示した。 さらに,大規模イメージネット学習モデルにおける最終層再トレーニングにより,背景情報やテクスチャ情報への依存度が著しく低下し,単一のgpu上でのトレーニング後,コバリアントシフトに対するロバスト性が向上することを示した。

Neural network classifiers can largely rely on simple spurious features, such as backgrounds, to make predictions. However, even in these cases, we show that they still often learn core features associated with the desired attributes of the data, contrary to recent findings. Inspired by this insight, we demonstrate that simple last layer retraining can match or outperform state-of-the-art approaches on spurious correlation benchmarks, but with profoundly lower complexity and computational expenses. Moreover, we show that last layer retraining on large ImageNet-trained models can also significantly reduce reliance on background and texture information, improving robustness to covariate shift, after only minutes of training on a single GPU.
翻訳日:2023-07-04 16:18:04 公開日:2023-06-30
# MABe22: 学習された行動表現のためのマルチタスクベンチマーク

MABe22: A Multi-Species Multi-Task Benchmark for Learned Representations of Behavior ( http://arxiv.org/abs/2207.10553v2 )

ライセンス: Link先を確認
Jennifer J. Sun, Markus Marks, Andrew Ulmer, Dipam Chakraborty, Brian Geuther, Edward Hayes, Heng Jia, Vivek Kumar, Sebastian Oleszko, Zachary Partridge, Milan Peelman, Alice Robie, Catherine E. Schretter, Keith Sheppard, Chao Sun, Param Uttarwar, Julian M. Wagner, Eric Werner, Joseph Parker, Pietro Perona, Yisong Yue, Kristin Branson, Ann Kennedy(参考訳) 我々は,学習行動表現の質を評価するための大規模マルチエージェントビデオおよびトラジェクトリベンチマークMABe22を紹介する。 このデータセットは様々な生物学実験から収集され、相互作用するマウス(470万フレームのビデオ+目的追跡データ、1000万フレームのみのポーズ)、共生する甲虫の相互作用(1000万フレームのビデオデータ)、相互作用するハエのグループ(440万フレームのポーズ追跡データ)を含む。 そこで本研究では,実験条件(ひずみ,日時,光刺激など)および動物の行動に関する情報の保存性を評価することにより,学習表現の質を評価するための,実生活下流分析タスクのパネルを紹介する。 複数の最先端の自己教師型ビデオとトラジェクトリ表現学習手法を試行し、我々のベンチマークの使用を実証し、人間の行動データセットを用いた手法が動物データセットに完全に翻訳されないことを示した。 当社のベンチマークとデータセットが,種や設定をまたがる行動表現学習方法の広範な探求を促進することを願っています。

We introduce MABe22, a large-scale, multi-agent video and trajectory benchmark to assess the quality of learned behavior representations. This dataset is collected from a variety of biology experiments, and includes triplets of interacting mice (4.7 million frames video+pose tracking data, 10 million frames pose only), symbiotic beetle-ant interactions (10 million frames video data), and groups of interacting flies (4.4 million frames of pose tracking data). Accompanying these data, we introduce a panel of real-life downstream analysis tasks to assess the quality of learned representations by evaluating how well they preserve information about the experimental conditions (e.g. strain, time of day, optogenetic stimulation) and animal behavior. We test multiple state-of-the-art self-supervised video and trajectory representation learning methods to demonstrate the use of our benchmark, revealing that methods developed using human action datasets do not fully translate to animal datasets. We hope that our benchmark and dataset encourage a broader exploration of behavior representation learning methods across species and settings.
翻訳日:2023-07-04 15:58:09 公開日:2023-06-30
# 記号回帰データセットの再考と科学的発見のためのベンチマーク

Rethinking Symbolic Regression Datasets and Benchmarks for Scientific Discovery ( http://arxiv.org/abs/2206.10540v3 )

ライセンス: Link先を確認
Yoshitomo Matsubara, Naoya Chiba, Ryo Igarashi, Yoshitaka Ushiku(参考訳) 本稿では,その科学的発見の可能性に焦点を当てたシンボリック回帰(SR)のデータセットと評価基準を再検討する。 feynman lectures on physicsに基づく既存のデータセットで使われる式セットに着目し,120のデータセットを再現し,srsd(symbolive regression for scientific discovery)の性能について検討した。 120個のSRSDデータセットのそれぞれに対して、この公式とその変数の特性を慎重にレビューし、合理的に現実的なサンプリング範囲を設計し、新しいSRSDデータセットを使用して、SRメソッドがそれらのデータセットから物理法則を(再)発見できるかどうかを評価する。 また、ダミー変数を含む120のデータセットを作成し、SRメソッドが必要な変数のみを選択できるかどうかを調べる。 さらに、予測方程式と真の方程式木との間の正規化編集距離(NED)を用いて、既存のSRメトリクスが与えられた入力に対するターゲット値とSRモデルの予測値の間の二進的または誤りである重要な問題に対処する。 6つのSRSD手法を用いて新しいSRSDデータセットの実験を行った。 実験結果から,我々はより現実的な性能評価を行い,NEDは既存のSR測定値よりも極めて高い相関性を示した。

This paper revisits datasets and evaluation criteria for Symbolic Regression (SR), specifically focused on its potential for scientific discovery. Focused on a set of formulas used in the existing datasets based on Feynman Lectures on Physics, we recreate 120 datasets to discuss the performance of symbolic regression for scientific discovery (SRSD). For each of the 120 SRSD datasets, we carefully review the properties of the formula and its variables to design reasonably realistic sampling ranges of values so that our new SRSD datasets can be used for evaluating the potential of SRSD such as whether or not an SR method can (re)discover physical laws from such datasets. We also create another 120 datasets that contain dummy variables to examine whether SR methods can choose necessary variables only. Besides, we propose to use normalized edit distances (NED) between a predicted equation and the true equation trees for addressing a critical issue that existing SR metrics are either binary or errors between the target values and an SR model's predicted values for a given input. We conduct experiments on our new SRSD datasets using six SR methods. The experimental results show that we provide a more realistic performance evaluation, and our user study shows that the NED correlates with human judges significantly more than an existing SR metric.
翻訳日:2023-07-04 15:57:13 公開日:2023-06-30
# 臨床研究におけるImputation Strategies : アルゴリズムフェアネスへの影響

Imputation Strategies Under Clinical Presence: Impact on Algorithmic Fairness ( http://arxiv.org/abs/2208.06648v3 )

ライセンス: Link先を確認
Vincent Jeanselme, Maria De-Arteaga, Zhe Zhang, Jessica Barrett and Brian Tom(参考訳) 機械学習は、データに存在するバイアスを補強するリスクを負う。 医療において、バイアスは医療の歴史を象徴し、辺境化した集団に不平等なケアをもたらす。 欠落したデータのパターンはしばしばこれらのグループ不一致を反映するが、グループ固有の欠落のアルゴリズム的公正さはよく理解されていない。 その潜在的な影響にもかかわらず、インプテーションはしばしば見過ごされる前処理のステップであり、リコンストラクションエラーと全体的なパフォーマンスの低下に注目し、インプテーションがグループにどのように影響するかを無視している。 本研究は,インプテーション選択がグループ間の再構成誤差や下流予測のアルゴリズム的公平性に与える影響について検討する。

Machine learning risks reinforcing biases present in data, and, as we argue in this work, in what is absent from data. In healthcare, biases have marked medical history, leading to unequal care affecting marginalised groups. Patterns in missing data often reflect these group discrepancies, but the algorithmic fairness implications of group-specific missingness are not well understood. Despite its potential impact, imputation is often an overlooked preprocessing step, with attention placed on the reduction of reconstruction error and overall performance, ignoring how imputation can affect groups differently. Our work studies how imputation choices affect reconstruction errors across groups and algorithmic fairness properties of downstream predictions.
翻訳日:2023-07-04 15:47:37 公開日:2023-06-30
# ニューラルネットワークによる解釈可能な分類のための学習信号時相論理

Learning Signal Temporal Logic through Neural Network for Interpretable Classification ( http://arxiv.org/abs/2210.01910v2 )

ライセンス: Link先を確認
Danyang Li, Mingyu Cai, Cristian-Ioan Vasile, Roberto Tron(参考訳) ニューラルネットワークを用いた機械学習技術は時系列データ分類において有望な成功を収めた。 しかし、それらが生成するモデルは検証と解釈が難しい。 本稿では,時系列行動の分類のための説明可能なニューラルシンボリック・フレームワークを提案する。 特に,信号時相論理(signal temporal logic:stl)という表現論的形式言語を用いて,ニューラルネットワークの計算グラフの探索を制約する。 ニューラルSTLフレームワークの音質と精度を向上させるために,新しい時間関数と疎ソフトマックス関数を設計する。 その結果,市販の勾配型ツールを用いて,時系列データの分類のためのコンパクトなstl式を効率的に学習できる。 提案手法の計算効率, コンパクト性, 解釈可能性について, 現状のベースラインと比較して, シナリオの駆動と海軍の監視事例研究による検証を行った。

Machine learning techniques using neural networks have achieved promising success for time-series data classification. However, the models that they produce are challenging to verify and interpret. In this paper, we propose an explainable neural-symbolic framework for the classification of time-series behaviors. In particular, we use an expressive formal language, namely Signal Temporal Logic (STL), to constrain the search of the computation graph for a neural network. We design a novel time function and sparse softmax function to improve the soundness and precision of the neural-STL framework. As a result, we can efficiently learn a compact STL formula for the classification of time-series data through off-the-shelf gradient-based tools. We demonstrate the computational efficiency, compactness, and interpretability of the proposed method through driving scenarios and naval surveillance case studies, compared with state-of-the-art baselines.
翻訳日:2023-07-04 15:39:42 公開日:2023-06-30
# 強化学習のための因果説明:状態と時間的重要性の定量化

Causal Explanation for Reinforcement Learning: Quantifying State and Temporal Importance ( http://arxiv.org/abs/2210.13507v2 )

ライセンス: Link先を確認
Xiaoxiao Wang, Fanyu Meng, Xin Liu, Zhaodan Kong, Xin Chen(参考訳) 説明責任は機械学習においてますます重要な役割を果たす。 さらに、人間は因果レンズを通して世界を見るので、関連性のあるものよりも因果説明を好む。 そこで本稿では,行動における状態の因果的重要性と時間的重要性を定量化する因果的説明機構を開発する。 また, 農作物の灌水, ブラックジャック, 衝突回避, 月面着陸など, 一連のシミュレーション研究を通じて, RL政策の説明の観点から, 最先端のアソシエーション手法に対する我々のメカニズムの利点を示す。

Explainability plays an increasingly important role in machine learning. Furthermore, humans view the world through a causal lens and thus prefer causal explanations over associational ones. Therefore, in this paper, we develop a causal explanation mechanism that quantifies the causal importance of states on actions and such importance over time. We also demonstrate the advantages of our mechanism over state-of-the-art associational methods in terms of RL policy explanation through a series of simulation studies, including crop irrigation, Blackjack, collision avoidance, and lunar lander.
翻訳日:2023-07-04 15:30:34 公開日:2023-06-30
# カメラインクリメンタル人物再同定におけるラベルの不確かさの取り扱い

Handling Label Uncertainty for Camera Incremental Person Re-Identification ( http://arxiv.org/abs/2210.08710v3 )

ライセンス: Link先を確認
Zexian Yang, Dayan Wu, Wanqian Zhang, Bo Li, Weiping Wang(参考訳) ReID(Incremental Learning for person re-identification)は、継続的データストリームでトレーニング可能なモデルを開発することを目的としている。 しかし、既存のインクリメンタルReID法は、カメラが固定されたことと、新しいデータを以前のクラスから分離したことを強く仮定する。 以前観測された歩行者は再び現れ、新しいカメラで撮影される可能性があるため、これは非現実的だ。 本稿では,カメラインクリメンタル・パーソナリティ(CIPR)と呼ばれる未探索シナリオにおいて,クラス重複問題を考慮し,既存寿命のReIDを推し進める人物ReIDについて検討する。 特に、新しいカメラから収集された新しいデータには、以前に見られた未知のidの割合が含まれている可能性がある。 これにより、プライバシー上の懸念から、新しいデータに対するクロスカメラアノテーションが欠如する。 これらの課題に対処するために,新しいフレームワークであるExtendedOVAを提案する。 まず、クラスオーバーラップの問題に対処するために、インスタンスレベルで以前見られたアイデンティティを見つけるために、インスタンスワイドのクラス識別モジュールを導入します。 そこで我々は,信頼度の高いID関連候補を選択するための基準を提案し,擬似ラベルの雑音問題を修正するための早期学習正規化用語を考案した。 さらに, 従来のデータ不足を補うため, 原型記憶バンクを用いて代理機能を作成し, クロスカメラ蒸留損失を補正し, カメラ間関係をさらに維持する。 複数のベンチマークによる包括的な実験結果から,extendovaは最先端の技術を著しく上回っていることが分かる。

Incremental learning for person re-identification (ReID) aims to develop models that can be trained with a continuous data stream, which is a more practical setting for real-world applications. However, the existing incremental ReID methods make two strong assumptions that the cameras are fixed and the new-emerging data is class-disjoint from previous classes. This is unrealistic as previously observed pedestrians may re-appear and be captured again by new cameras. In this paper, we investigate person ReID in an unexplored scenario named Camera Incremental Person ReID (CIPR), which advances existing lifelong person ReID by taking into account the class overlap issue. Specifically, new data collected from new cameras may probably contain an unknown proportion of identities seen before. This subsequently leads to the lack of cross-camera annotations for new data due to privacy concerns. To address these challenges, we propose a novel framework ExtendOVA. First, to handle the class overlap issue, we introduce an instance-wise seen-class identification module to discover previously seen identities at the instance level. Then, we propose a criterion for selecting confident ID-wise candidates and also devise an early learning regularization term to correct noise issues in pseudo labels. Furthermore, to compensate for the lack of previous data, we resort prototypical memory bank to create surrogate features, along with a cross-camera distillation loss to further retain the inter-camera relationship. The comprehensive experimental results on multiple benchmarks show that ExtendOVA significantly outperforms the state-of-the-arts with remarkable advantages.
翻訳日:2023-07-04 15:29:12 公開日:2023-06-30
# 可逆部分代数

Invertible subalgebras ( http://arxiv.org/abs/2211.02086v3 )

ライセンス: Link先を確認
Jeongwan Haah(参考訳) 格子上の局所作用素代数の可逆部分代数を導入する。 可逆部分代数は、すべての局所作用素が可逆部分代数と可換部分代数の要素によって局所的に表現されるように定義される。 二次元格子上では、可逆部分代数は可換ハミルトニアンによるキラル・エノン理論をホストするが、これは任意の局所作用素環上では不可能であると考えられている。 我々は、{\mathsf d$-dimensional invertible subalgebras の安定同値類がテンソル積の下でアーベル群を形成し、すべての$\mathsf d + 1$ dimensional qca modulo の同値とシフトをブレンドする群に同型であることを証明する。 付録において、無限格子上のすべての qca の群上の計量を考え、計量完備が局所ハミルトニアンの時間発展を含むことを証明し、これはほぼ局所性保存である。 我々の計量トポロジーは強いトポロジーよりも厳密である。

We introduce invertible subalgebras of local operator algebras on lattices. An invertible subalgebra is defined to be one such that every local operator can be locally expressed by elements of the inveritible subalgebra and those of the commutant. On a two-dimensional lattice, an invertible subalgebra hosts a chiral anyon theory by a commuting Hamiltonian, which is believed not to be possible on any full local operator algebra. We prove that the stable equivalence classes of $\mathsf d$-dimensional invertible subalgebras form an abelian group under tensor product, isomorphic to the group of all $\mathsf d + 1$ dimensional QCA modulo blending equivalence and shifts. In an appendix, we consider a metric on the group of all QCA on infinite lattices and prove that the metric completion contains the time evolution by local Hamiltonians, which is only approximately locality-preserving. Our metric topology is strictly finer than the strong topology.
翻訳日:2023-07-04 15:19:32 公開日:2023-06-30
# 開ボソニック系と確率微分方程式の対応

Correspondence between open bosonic systems and stochastic differential equations ( http://arxiv.org/abs/2302.01962v2 )

ライセンス: Link先を確認
Alexander Engel and Scott E. Parker(参考訳) ボソニック平均場理論(bosonic mean-field theory)は、$n \gg 1$のボソン系の力学を近似することができる。 ボゾン系が環境との相互作用を含むように一般化され、平均場理論が確率微分方程式に置き換えられるとき、有限$n$で正確な対応が存在することを示す。 n \to \infty$ の極限を取ると、この微分方程式の確率項は消滅し、平均場理論が復活する。 有限量子系の振舞いと$n \to \infty$で与えられる古典的な極限との差についての洞察を提供するだけでなく、発達した数学は確率的非線形微分方程式を解く量子アルゴリズムの基礎を与えることができる。 これらの量子アルゴリズムの効率性に関する条件について議論し,確率的システムサイズのログにおける複雑性が多項式となる可能性に注目した。 確率的離散非線形シュル'{o}ディンガー方程式の形をした特定の系をより詳細に解析する。

Bosonic mean-field theories can approximate the dynamics of systems of $n$ bosons provided that $n \gg 1$. We show that there can also be an exact correspondence at finite $n$ when the bosonic system is generalized to include interactions with the environment and the mean-field theory is replaced by a stochastic differential equation. When the $n \to \infty$ limit is taken, the stochastic terms in this differential equation vanish, and a mean-field theory is recovered. Besides providing insight into the differences between the behavior of finite quantum systems and their classical limits given by $n \to \infty$, the developed mathematics can provide a basis for quantum algorithms that solve some stochastic nonlinear differential equations. We discuss conditions on the efficiency of these quantum algorithms, with a focus on the possibility for the complexity to be polynomial in the log of the stochastic system size. A particular system with the form of a stochastic discrete nonlinear Schr\"{o}dinger equation is analyzed in more detail.
翻訳日:2023-07-04 14:51:48 公開日:2023-06-30
# 国家の安全強化学習に関する調査

State-wise Safe Reinforcement Learning: A Survey ( http://arxiv.org/abs/2302.03122v3 )

ライセンス: Link先を確認
Weiye Zhao, Tairan He, Rui Chen, Tianhao Wei, Changliu Liu(参考訳) シミュレーション環境でRL(Reinforcement Learning)アルゴリズムが驚くほど成功したにもかかわらず、実世界のアプリケーションにRLを適用することは、まだ多くの課題に直面している。 主な懸念事項は安全性、つまり制約満足度である。 状態毎の制約は、現実世界のアプリケーションで最も一般的な制約の1つであり、safe rlで最も難しい制約の1つです。 自律運転やロボット操作など,多くの課題に対して,国家的制約の実施が不可欠である。 本稿では、RLにおける状態制約に対処する既存のアプローチを包括的にレビューする。 SCMDP(State-wise Constrained Markov Decision Process)の枠組みの下で、既存のアプローチの関連、相違、トレードオフについて議論する。 (i)安全性の保証と拡張性。 (ii)安全と報酬の成果、及び (iii)収束後及び訓練中の安全性。 また,現在の手法の限界を要約し,今後の方向性について考察する。

Despite the tremendous success of Reinforcement Learning (RL) algorithms in simulation environments, applying RL to real-world applications still faces many challenges. A major concern is safety, in another word, constraint satisfaction. State-wise constraints are one of the most common constraints in real-world applications and one of the most challenging constraints in Safe RL. Enforcing state-wise constraints is necessary and essential to many challenging tasks such as autonomous driving, robot manipulation. This paper provides a comprehensive review of existing approaches that address state-wise constraints in RL. Under the framework of State-wise Constrained Markov Decision Process (SCMDP), we will discuss the connections, differences, and trade-offs of existing approaches in terms of (i) safety guarantee and scalability, (ii) safety and reward performance, and (iii) safety after convergence and during training. We also summarize limitations of current methods and discuss potential future directions.
翻訳日:2023-07-04 14:40:41 公開日:2023-06-30
# 宝くじのメニューと2部関税を最大化する学習収益

Learning Revenue Maximizing Menus of Lotteries and Two-Part Tariffs ( http://arxiv.org/abs/2302.11700v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Hedyeh Beyhaghi(参考訳) 我々は、近年の学習理論と計算経済学の交点において、経済に特有なメカニズムの2つのクラス、すなわち宝くじのメニューと二部関税の学習可能性を研究することによって、繁栄している業績の列を前進させる。 前者は複数の商品を売るために設計されたランダム化されたメカニズムのファミリーであり、後者は自動車や自転車シェアリングサービスのような現実世界のシナリオでアプリケーションを1つのアイテムの複数のユニット(コピー)を売るために設計されている。 我々は,この形態の高頻度なメカニズムを,購入者の評価データから事前に購入者の評価データにアクセスでき,かつ,購入者が1対1で到着し,その価値について分布的な仮定をしない,より困難で調査の少ないオンライン設定の両方で学習することに注力する。 私たちの主な貢献は、宝くじのメニューと2部関税のためのオンライン学習アルゴリズムの提案です。 一般に,有限個の専門家に還元を行い,限定的なバイヤータイプの場合,オンラインリニア最適化の削減を示すとともに,バイヤーにバリセントリックスパンナーに対応するメニューを提示することにより,リニア最適化の不要な保証を得ることができる。 さらに、配電設定の事前作業よりも、実行時間を改善するアルゴリズムも提供します。 これらの設定で学習アルゴリズムを導出する際の重要な困難は、関連する収益関数が急激な遷移境界を持っていることである。 このような非構造化関数の学習に関する最近の文献とは対照的に,これらの学習には単純な離散化に基づく手法が十分であることを示す。

We advance a recently flourishing line of work at the intersection of learning theory and computational economics by studying the learnability of two classes of mechanisms prominent in economics, namely menus of lotteries and two-part tariffs. The former is a family of randomized mechanisms designed for selling multiple items, known to achieve revenue beyond deterministic mechanisms, while the latter is designed for selling multiple units (copies) of a single item with applications in real-world scenarios such as car or bike-sharing services. We focus on learning high-revenue mechanisms of this form from buyer valuation data in both distributional settings, where we have access to buyers' valuation samples up-front, and the more challenging and less-studied online settings, where buyers arrive one-at-a-time and no distributional assumption is made about their values. Our main contribution is proposing the first online learning algorithms for menus of lotteries and two-part tariffs with strong regret-bound guarantees. In the general case, we provide a reduction to a finite number of experts, and in the limited buyer type case, we show a reduction to online linear optimization, which allows us to obtain no-regret guarantees by presenting buyers with menus that correspond to a barycentric spanner. In addition, we provide algorithms with improved running times over prior work for the distributional settings. The key difficulty when deriving learning algorithms for these settings is that the relevant revenue functions have sharp transition boundaries. In stark contrast with the recent literature on learning such unstructured functions, we show that simple discretization-based techniques are sufficient for learning in these settings.
翻訳日:2023-07-04 14:32:51 公開日:2023-06-30
# 非線形シュリンガー方程式の観点からみたガウス波束力学法の一家系

Family of Gaussian wavepacket dynamics methods from the perspective of a nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2302.10221v2 )

ライセンス: Link先を確認
Ji\v{r}\'i J. L. Van\'i\v{c}ek(参考訳) 時間依存schr\"odinger方程式の多くの近似解は、系の状態に依存する効果的なハミルトニアン作用素を持つ非線形schr\"odinger方程式の厳密解として定式化することができる。 Heller の元々のソードガウス近似や Coalson や Karplus の変分ガウス近似のようなよく知られたガウス波束力学法が、実効ポテンシャルが状態依存係数を持つ二次多項式である場合、この枠組みに適合することを示す。 特に、ガウスのパラメータの一般運動方程式を導出し、時間の可逆性とノルム保存を実証し、エネルギー、有効エネルギー、シンプレクティック構造の保存を解析する。 また、この非線形シュリンガー方程式の数値解の時間ステップにおいて、任意の偶数の精度の効率的な幾何積分器を記述する。 一般表現は、変分および非変量解法および凍結ガウス近似を含むガウス波束力学のこのファミリーの例と、大域調和、局所調和、単一ヘッシアン、局所立方体、ポテンシャルエネルギーの単一四次近似に基づくこれらの方法の特別な極限によって示される。 提案手法はコストを大幅に増加させることなく,局所的な立方体近似よりも精度を向上させるとともに,より高価な局所的四量体近似とは対照的に,有効エネルギーとシンプレクティック構造の両方を保存できる。 ほとんどの結果は、ガウス波束のヘラーとヘッジルンのパラメトリゼーションで示される。

Many approximate solutions of the time-dependent Schr\"odinger equation can be formulated as exact solutions of a nonlinear Schr\"odinger equation with an effective Hamiltonian operator depending on the state of the system. We show that several well-known Gaussian wavepacket dynamics methods, such as Heller's original thawed Gaussian approximation or Coalson and Karplus's variational Gaussian approximation, fit into this framework if the effective potential is a quadratic polynomial with state-dependent coefficients. We study such a nonlinear Schr\"odinger equation in general: in particular, we derive general equations of motion for the Gaussian's parameters, demonstrate the time reversibility and norm conservation, and analyze conservation of the energy, effective energy, and symplectic structure. We also describe efficient geometric integrators of arbitrary even orders of accuracy in the time step for the numerical solution of this nonlinear Schr\"odinger equation. The general presentation is illustrated by examples of this family of Gaussian wavepacket dynamics, including the variational and nonvariational thawed and frozen Gaussian approximations, and special limits of these methods based on the global harmonic, local harmonic, single-Hessian, local cubic, and single quartic approximations for the potential energy. Without substantially increasing the cost, the proposed single quartic variational thawed Gaussian wavepacket dynamics improves the accuracy over the local cubic approximation and, at the same time, conserves both the effective energy and symplectic structure, in contrast to the much more expensive local quartic approximation. Most results are presented in both Heller's and Hagedorn's parametrizations of the Gaussian wavepacket.
翻訳日:2023-07-04 14:30:11 公開日:2023-06-30
# 量子チャネルの重ね合わせによる実験的コミュニケーション

Experimental Communication Through Superposition of Quantum Channels ( http://arxiv.org/abs/2302.14820v2 )

ライセンス: Link先を確認
Arthur O. T. Pang, Noah Lupu-Gladstein, Hugo Ferretti, Y. Batuhan Yilmaz, Aharon Brodutch, and Aephraim M. Steinberg(参考訳) チャネルのコヒーレント制御による情報キャパシティの強化は、チャネル因果順序のコヒーレント制御、チャネル重ね合わせ、情報エンコーディングの効果を探求する作業とともに、最近多くの注目を集めている。 コヒーレントに制御するチャネルは、キュービットチャネルを重畳するチャネル記述の非自明な拡張を必要とする。 本稿では,qubitチャネルの非分極化と関連する重畳チャネルとqutritチャネルによる最大コヒーレント情報の比較により,チャネルの重畳化に対するキャパシティエンハンスメントの性質について検討する。 重畳を使わずにキャパシティ・エンハンスメントを説明するには,拡張クォートチャネルの記述自体が十分であることを示す。

Information capacity enhancement through the coherent control of channels has attracted much attention of late, with work exploring the effect of coherent control of channel causal orders, channel superpositions, and information encoding. Coherently controlling channels necessitates a non-trivial expansion of the channel description, which for superposing qubit channels, is equivalent to expanding the channel to act on qutrits. Here we explore the nature of this capacity enhancement for the superposition of channels by comparing the maximum coherent information through depolarizing qubit channels and relevant superposed and qutrit channels. We show that the expanded qutrit channel description in itself is sufficient to explain the capacity enhancement without any use of superposition.
翻訳日:2023-07-04 14:22:47 公開日:2023-06-30
# 古典から量子情報幾何学へ:物理学者のためのガイド

From Classical to Quantum Information Geometry: A Guide for Physicists ( http://arxiv.org/abs/2302.13515v3 )

ライセンス: Link先を確認
J. Lambert, E. S. S{\o}rensen(参考訳) 近年、量子多体物理学への情報幾何の応用にかなりの関心が寄せられている。 この関心は3つの異なる研究線によって引き起こされ、量子情報幾何学の異なる面として理解することができる。 まず、チャーン数によって特徴づけられる物質の位相位相の研究は、物理学の文献でベリー曲率として知られる量子状態空間のシンプレクティック構造に根付いている。 第二に、量子相転移の研究において、忠実性感受性は、明らかに識別可能な順序パラメータを持たないシステムでさえも、量子臨界性の普遍的なプローブとして突出している。 最後に、多くの身体系における量子フィッシャー情報(QFI)の研究は、真のマルチパーティライトの絡み合いの証人としての役割や、量子リソースの量子化器としての利用、特に量子センシングに有用なもののために、関心が高まりつつある。 我々の目的は、徹底的なレビューではなく、量子情報幾何学の幅広い応用、深い数学的ルーツへの入門的なガイドとして機能する共通の概念的枠組みの中で重要な結果を、量子多体および凝縮物質物理学の研究者の聴衆と結びつけることである。

Recently, there has been considerable interest in the application of information geometry to quantum many body physics. This interest has been driven by three separate lines of research, which can all be understood as different facets of quantum information geometry. First, the study of topological phases of matter characterized by Chern number is rooted in the symplectic structure of the quantum state space, known in the physics literature as Berry curvature. Second, in the study of quantum phase transitions, the fidelity susceptibility has gained prominence as a universal probe of quantum criticality, even for systems that lack an obviously discernible order parameter. Finally, the study of quantum Fisher information (QFI) in many body systems has seen a surge of interest due to its role as a witness of genuine multipartite entanglement and owing to its utility as a quantifier of quantum resources, in particular those useful in quantum sensing. Rather than a thorough review, our aim is to connect key results within a common conceptual framework that may serve as an introductory guide to the extensive breadth of applications, and deep mathematical roots, of quantum information geometry, with an intended audience of researchers in quantum many body and condensed matter physics.
翻訳日:2023-07-04 14:21:33 公開日:2023-06-30
# 暗黙的バランスと正則化:過パラメータ非対称行列センシングの一般化と収束保証

Implicit Balancing and Regularization: Generalization and Convergence Guarantees for Overparameterized Asymmetric Matrix Sensing ( http://arxiv.org/abs/2303.14244v2 )

ライセンス: Link先を確認
Mahdi Soltanolkotabi, Dominik St\"oger, Changzhi Xie(参考訳) 近年,過パラメータ学習モデルの学習のための勾配型手法の収束特性と一般化特性の理解が著しく進展している。 しかし、小さなランダム初期化の役割や、勾配に基づく更新においてモデルの様々なパラメータがどのように結合されるかといった多くの側面は、良い一般化を促進するためにほとんど謎のままである。 最近の一連の論文は、いくつかの線形測定から低ランクPSD行列の再構成を含む対称正の半定値(PSD)行列の非凸定式化におけるこの役割について研究し始めている。 基礎となる対称性/PSDnessは、この問題に対する既存の収束と一般化の保証に不可欠である。 本稿では,非対称な長方形低ランク行列を線形測定から再構成したいという,一般的な過パラメータ化低ランク行列検出問題について検討する。 偏微分勾配勾配からトレーニングした過パラメータ化モデルが、測定結果を生成する低ランク行列に収束することが証明された。 この設定では,(1)勾配更新軌道を通して因子が様々な方法で結合される勾配勾配の軌道の結合と,(2)係数化モデルの過度な性質にもかかわらず,反復が低ランクモデルに対する正当性を示すアルゴリズム正則性という2つの暗黙的な性質が示される。 これらの2つの暗黙的な性質は、小さなランダム初期化からの勾配降下軌道が、大域的に最適かつ一般化された解へと移動することを示す。

Recently, there has been significant progress in understanding the convergence and generalization properties of gradient-based methods for training overparameterized learning models. However, many aspects including the role of small random initialization and how the various parameters of the model are coupled during gradient-based updates to facilitate good generalization remain largely mysterious. A series of recent papers have begun to study this role for non-convex formulations of symmetric Positive Semi-Definite (PSD) matrix sensing problems which involve reconstructing a low-rank PSD matrix from a few linear measurements. The underlying symmetry/PSDness is crucial to existing convergence and generalization guarantees for this problem. In this paper, we study a general overparameterized low-rank matrix sensing problem where one wishes to reconstruct an asymmetric rectangular low-rank matrix from a few linear measurements. We prove that an overparameterized model trained via factorized gradient descent converges to the low-rank matrix generating the measurements. We show that in this setting, factorized gradient descent enjoys two implicit properties: (1) coupling of the trajectory of gradient descent where the factors are coupled in various ways throughout the gradient update trajectory and (2) an algorithmic regularization property where the iterates show a propensity towards low-rank models despite the overparameterized nature of the factorized model. These two implicit properties in turn allow us to show that the gradient descent trajectory from small random initialization moves towards solutions that are both globally optimal and generalize well.
翻訳日:2023-07-04 14:02:14 公開日:2023-06-30
# コラボレーションAIのルーツと要件

Roots and Requirements for Collaborative AI ( http://arxiv.org/abs/2303.12040v2 )

ライセンス: Link先を確認
Mark Stefik(参考訳) AI協力者のビジョンは、人工知能エージェントが協力と人間のコミュニケーションのニュアンスを理解する科学フィクションの根幹をなしてきた。 彼らは人間のパートナーとチームを支援し、特別な才能を貢献します。 AIの政府諮問グループとリーダーは、AIは人間互換で効果的な協力者であるべきだと長年主張してきた。 それでも、才能のある人たちのように協力する堅牢なAIは、まだ手の届かないままだ。 本研究は, 効果的でロバストなコラボレーションに必要なものを分析するため, 心理学と社会科学について述べる。 人工知能(AI)と人工知能(AI)の初期のビジョンから始まる、人工協力者のための公開とAIのビジョンをスケッチする。 これは、AIとAI協力者をブートストラップする方法を推奨する第2位の論文(Stefik & Price, 2023)のモチベーションとコンテキストとして意図されている。

The vision of AI collaborators has long been a staple of science fiction, where artificial agents understand nuances of collaboration and human communication. They assist their human partners and teams and contribute special talents. Government advisory groups and leaders in AI have advocated for years that AIs should be human compatible and effective collaborators. Nonetheless, robust AIs that collaborate like talented people remain out of reach. This position paper draws on psychology and social sciences for an analysis of what effective and robust collaboration requires. It sketches a history of public and AI visions for artificial collaborators, starting with early visions of intelligence augmentation (IA) and artificial intelligence (AI). It is intended as motivation and context for a second position paper that recommends how to bootstrap AIs and AI collaborators (Stefik & Price, 2023).
翻訳日:2023-07-04 14:01:26 公開日:2023-06-30
# コンフォメーション予測のためのポストセレクション推論:精度のためにカバレッジをトレードオフする

Post-selection Inference for Conformal Prediction: Trading off Coverage for Precision ( http://arxiv.org/abs/2304.06158v3 )

ライセンス: Link先を確認
Siddhaarth Sarkar, Arun Kumar Kuchibhotla(参考訳) 共形推論は、有限サンプル保証付きブラックボックスml予測アルゴリズムの不確実性定量化に重要な役割を果たしている。 伝統的に、共形予測推論はデータに依存しない発見レベルの仕様を必要とする。 現実的な応用では、予測セットを計算した後、誤発見レベルを更新したいかもしれない。 例えば、二項分類の文脈では、アナリストは95$\%の予測セットから始め、ほとんどの予測セットがすべての結果クラスを含んでいることを確認する。 両方のクラスが望ましくない予測セット アナリストは、例えば 80$\%$ の予測セットについて検討したいかもしれない。 データ依存的ミスカバーレベルのカバレッジを保証する予測セットの構築は、選択後の推論問題と見なすことができる。 本研究では,データ依存的誤発見レベルを考慮した同時共形推論を開発する。 独立分布観測と同一分布観測の仮定の下で,提案手法はすべての誤発見レベルに対して有限標本同時保証を有する。 これにより、従来の共形推論と類似した有限サンプル保証を維持しながら、任意の選択の基準(予測セットのサイズなど)によって設定された予測の品質に対して、自由にカバー確率を交換することができる。

Conformal inference has played a pivotal role in providing uncertainty quantification for black-box ML prediction algorithms with finite sample guarantees. Traditionally, conformal prediction inference requires a data-independent specification of miscoverage level. In practical applications, one might want to update the miscoverage level after computing the prediction set. For example, in the context of binary classification, the analyst might start with a 95$\%$ prediction sets and see that most prediction sets contain all outcome classes. Prediction sets with both classes being undesirable, the analyst might desire to consider, say 80$\%$ prediction set. Construction of prediction sets that guarantee coverage with data-dependent miscoverage level can be considered as a post-selection inference problem. In this work, we develop simultaneous conformal inference to account for data-dependent miscoverage levels. Under the assumption of independent and identically distributed observations, our proposed methods have a finite sample simultaneous guarantee over all miscoverage levels. This allows practitioners to trade freely coverage probability for the quality of the prediction set by any criterion of their choice (say size of prediction set) while maintaining the finite sample guarantees similar to traditional conformal inference.
翻訳日:2023-07-04 13:52:10 公開日:2023-06-30
# 変形性膝関節症早期発見のための選択的シャッフル位置埋め込みとキーパッチ交換法

Transformer with Selective Shuffled Position Embedding and Key-Patch Exchange Strategy for Early Detection of Knee Osteoarthritis ( http://arxiv.org/abs/2304.08364v2 )

ライセンス: Link先を確認
Zhe Wang and Aladine Chetouani and Mohamed Jarraya and Didier Hans and Rachid Jennane(参考訳) 膝骨関節炎(KOA)は、高齢者の運動に深刻な影響を与える筋骨格障害である。 不十分な医療データは、データラベリングに伴う高コストのため、モデルを効果的に訓練する上で重要な障害となる。 現在、ディープラーニングベースのモデルは、データ拡張技術を利用して一般化能力を改善し、過剰適合を軽減する。 しかし、従来のデータ拡張技術は主に元のデータに基づいており、データセットにかなりの多様性を導入できない。 本稿では,KL-0 対 KL-2 対 KOA の早期検出のためのデータ拡張手法として,元の Selective Shuffled Position Embedding (SSPE) と Key-patch Exchange 戦略を用いた Vision Transformer (ViT) モデルに基づく新しい手法を提案する。 具体的には、キーパッチと非キーパッチの位置埋め込みをそれぞれ修正し、シャッフルする。 そして、対象画像に対して、トレーニングセットから他の候補画像をランダムに選択して、キーパッチを交換し、異なる入力シーケンスを得る。 最後に、異なる種類の配列に対して複数の損失関数を組み込んだハイブリッド損失関数を開発する。 実験結果によると, 生成したデータは, モデル分類性能の顕著な向上につながるため, 有効と考えられる。

Knee OsteoArthritis (KOA) is a widespread musculoskeletal disorder that can severely impact the mobility of older individuals. Insufficient medical data presents a significant obstacle for effectively training models due to the high cost associated with data labelling. Currently, deep learning-based models extensively utilize data augmentation techniques to improve their generalization ability and alleviate overfitting. However, conventional data augmentation techniques are primarily based on the original data and fail to introduce substantial diversity to the dataset. In this paper, we propose a novel approach based on the Vision Transformer (ViT) model with original Selective Shuffled Position Embedding (SSPE) and key-patch exchange strategies to obtain different input sequences as a method of data augmentation for early detection of KOA (KL-0 vs KL-2). More specifically, we fix and shuffle the position embedding of key and non-key patches, respectively. Then, for the target image, we randomly select other candidate images from the training set to exchange their key patches and thus obtain different input sequences. Finally, a hybrid loss function is developed by incorporating multiple loss functions for different types of the sequences. According to the experimental results, the generated data are considered valid as they lead to a notable improvement in the model's classification performance.
翻訳日:2023-07-04 13:42:05 公開日:2023-06-30
# 非エルミート量子力学におけるガウス固有状態ピンニング

Gaussian eigenstate pinning in non-Hermitian quantum mechanics ( http://arxiv.org/abs/2304.14818v2 )

ライセンス: Link先を確認
Qi-Bo Zeng and Rong L\"u(参考訳) 単粒子連続schr\"odinger方程式によって記述され,解析的に解かれる,線形に変化する虚ベクトルポテンシャルの1次元系について検討した。 アイジェネギースペクトルは開境界条件 (OBC) の下では実数であるが、周期境界条件 (PBC) の下で複素エネルギー平面において放物線を形成する。 固有状態は常に変調ガウス分布を示し、すべて同じ位置にピン留めされ、虚ベクトルポテンシャルと境界条件によって決定される。 これらの挙動は、一定の虚ベクトルポテンシャルを持つ系の非エルミート皮膚効果(NHSE)とは対照的であり、固有状態はOBCの下で指数関数的に分布するがPBCで拡張される。 さらに, PBCのスペクトルは開曲線であるにもかかわらず, ガウス型NHSEは依然として位相的起源を持ち, PBCスペクトルの非消滅巻数によって特徴付けられることを示した。 放物線の内部エネルギーは半無限境界条件下で局所的なエッジ状態をサポートすることができる。 対応する強結合格子モデルも同様の性質を示すが、PBCスペクトルは閉ループを形成する。 我々の研究は、空間的に異なる虚ベクトルポテンシャルを持つ量子系の研究の扉を開く。

We study a one-dimensional system subjected to a linearly varying imaginary vector potential, which is described by the single-particle continuous Schr\"odinger equation and is analytically solved. The eigenenergy spectrum is found to be real under open boundary condition (OBC) but forms a parabola in the complex energy plane under periodic boundary condition (PBC). The eigenstates always exhibit a modulated Gaussian distribution and are all pinned on the same position, which is determined by the imaginary vector potential and boundary conditions. These behaviors are in sharp contrast to the non-Hermitian skin effect (NHSE) in systems with constant imaginary vector potential, where the eigenstates are exponentially distributed under OBC but become extended under PBC. We further demonstrate that even though the spectrum under PBC is an open curve, the Gaussian type of NHSE still has a topological origin and is characterized by a nonvanishing winding number in the PBC spectrum. The energies interior to the parabola can support localized edge states under semi-infinite boundary condition. The corresponding tight-binding lattice models also show similar properties, except that the PBC spectrum forms closed loops. Our work opens a door for the study of quantum systems with spatially varying imaginary vector potentials.
翻訳日:2023-07-04 13:33:37 公開日:2023-06-30
# プラトンの洞窟におけるマニフォールド学習について--マニフォールド学習と物理現象について

On Manifold Learning in Plato's Cave: Remarks on Manifold Learning and Physical Phenomena ( http://arxiv.org/abs/2304.14248v2 )

ライセンス: Link先を確認
Roy R. Lederman and Bogdan Toader(参考訳) 機械学習における多くの技術は、基礎となる物理現象の低次元多様体構造を、その現象や測定装置の明示的なモデルなしで測定から推測しようとする。 本稿では,良性環境における計測の幾何学と基礎現象の幾何学との相違について考察する。 本論文で示した計量の変形は、一般的な場合では数学的に単純で避けられないものであり、類似した効果の1つに過ぎない。 これは必ずしも問題とは限りませんが、この効果が一見単純な質問に対する誤った答えにつながる、標準的で無害なデータ処理の例を示します。 多様体学習に焦点をあてるが、これらの問題は次元減少と教師なし学習に広く適用される。

Many techniques in machine learning attempt explicitly or implicitly to infer a low-dimensional manifold structure of an underlying physical phenomenon from measurements without an explicit model of the phenomenon or the measurement apparatus. This paper presents a cautionary tale regarding the discrepancy between the geometry of measurements and the geometry of the underlying phenomenon in a benign setting. The deformation in the metric illustrated in this paper is mathematically straightforward and unavoidable in the general case, and it is only one of several similar effects. While this is not always problematic, we provide an example of an arguably standard and harmless data processing procedure where this effect leads to an incorrect answer to a seemingly simple question. Although we focus on manifold learning, these issues apply broadly to dimensionality reduction and unsupervised learning.
翻訳日:2023-07-04 13:32:31 公開日:2023-06-30
# ベイズモデル平均化によるソーシャルメディア上の気候キャンペーンの分析

Analysis of Climate Campaigns on Social Media using Bayesian Model Averaging ( http://arxiv.org/abs/2305.06174v2 )

ライセンス: Link先を確認
Tunazzina Islam, Ruqi Zhang, Dan Goldwasser(参考訳) 気候変動は私たちの時代の決定的な問題であり、私たちは決定的な瞬間にあります。 様々な利害団体、社会運動組織、個人がソーシャルメディア上でこの問題に対して集団行動を行う。 また、ソーシャルメディア上でのイシューアドボケーションキャンペーンは、特にエネルギー産業が直面している社会的な懸念に応えて発生することが多い。 本研究の目的は,これらの産業,支援団体,気候擁護団体がソーシャルメディアを用いて,気候変動に関する物語にどのように影響を与えるかを分析することである。 本研究では,facebook上での気候広告のスタンスを特定するために,メッセージテーマと組み合わせたモデルスープ[57]アプローチを提案する。 最後に,気候変動の姿勢の自動検出と意見マイニングに関する今後の取り組みに向けて,気候キャンペーンに関連する姿勢データセット,モデル,テーマセットをリリースする。

Climate change is the defining issue of our time, and we are at a defining moment. Various interest groups, social movement organizations, and individuals engage in collective action on this issue on social media. In addition, issue advocacy campaigns on social media often arise in response to ongoing societal concerns, especially those faced by energy industries. Our goal in this paper is to analyze how those industries, their advocacy group, and climate advocacy group use social media to influence the narrative on climate change. In this work, we propose a minimally supervised model soup [57] approach combined with messaging themes to identify the stances of climate ads on Facebook. Finally, we release our stance dataset, model, and set of themes related to climate campaigns for future work on opinion mining and the automatic detection of climate change stances.
翻訳日:2023-07-04 13:22:44 公開日:2023-06-30
# 物理インフォームド・ローカライズド・ラーニングによる対流拡散反応系

Physics-Informed Localized Learning for Advection-Diffusion-Reaction Systems ( http://arxiv.org/abs/2305.03774v2 )

ライセンス: Link先を確認
Surya T. Sathujoda and Soham M. Sheth(参考訳) 二酸化炭素の捕獲・隔離と地熱などのグリーンエネルギーソリューションを推進する世界的な取り組みは、現在の最先端の地下流体シミュレーターに新たな需要を押し付けている。 大量の貯水池状態を同時にシミュレートするために必要な要件は、短時間で、代理モデリングに機械学習技術を適用する機会の扉を開いた。 本稿では,E2C(Embed-to-Control)モデルとEmbed-to-Control and Observe(E2CO)モデルを拡張し,Advection-Diffusion Reaction Systemにおける大域的状態変数の局所表現を学習する新しい物理インフォームドおよび境界条件認識型局所学習法を提案する。 貯留層シミュレーションデータに基づいてトレーニングした結果,本モデルでは,与えられた制御セットに対して,利用可能な情報のほんの一部で,システムの将来の状態を予測できることがわかった。 これにより、オリジナルのE2CやE2COモデルと比較してトレーニング時間が大幅に短縮され、最適な制御問題に適用できる。

The global push to advance Carbon Capture and Sequestration initiatives and green energy solutions, such as geothermal, have thrust new demands upon the current state-of-the-art subsurface fluid simulators. The requirement to be able to simulate a large order of reservoir states simultaneously, in a short period of time, has opened the door of opportunity for the application of machine learning techniques for surrogate modelling. We propose a novel physics-informed and boundary condition-aware Localized Learning method which extends the Embed-to-Control (E2C) and Embed-to-Control and Observe (E2CO) models to learn local representations of global state variables in an Advection-Diffusion Reaction system. Trained on reservoir simulation data, we show that our model is able to predict future states of the system, for a given set of controls, to a great deal of accuracy with only a fraction of the available information. It hence reduces training times significantly compared to the original E2C and E2CO models, lending to its benefit in application to optimal control problems.
翻訳日:2023-07-04 13:22:13 公開日:2023-06-30
# GUARD: 安全な強化学習ベンチマーク

GUARD: A Safe Reinforcement Learning Benchmark ( http://arxiv.org/abs/2305.13681v3 )

ライセンス: Link先を確認
Weiye Zhao, Rui Chen, Yifan Sun, Ruixuan Liu, Tianhao Wei, Changliu Liu(参考訳) 試行錯誤の性質のため、そのようなエラーが許容できない自律運転、人間とロボットのインタラクション、ロボット操作など、安全クリティカルな現実世界のアプリケーションにRLアルゴリズムを適用するのは難しい。 近年、安全なRL(すなわち制約付きRL)は、制約を満たすとともに、エージェントが環境を探索する文献に急速に現れている。 アルゴリズムとタスクの多様性のため、既存の安全なRLアルゴリズムを比較するのは難しい。 このギャップを埋めるため,我々は,統一型安全強化学習開発ベンチマークであるguardを紹介する。 GUARDは既存のベンチマークと比べていくつかの利点がある。 まず、GUARDは様々なRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。 第2に、ガードは自己完結型実装による最先端の安全なrlアルゴリズムを包括的にカバーする。 第3に、GUARDはタスクやアルゴリズムで高度にカスタマイズできる。 本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。

Due to the trial-and-error nature, it is typically challenging to apply RL algorithms to safety-critical real-world applications, such as autonomous driving, human-robot interaction, robot manipulation, etc, where such errors are not tolerable. Recently, safe RL (i.e. constrained RL) has emerged rapidly in the literature, in which the agents explore the environment while satisfying constraints. Due to the diversity of algorithms and tasks, it remains difficult to compare existing safe RL algorithms. To fill that gap, we introduce GUARD, a Generalized Unified SAfe Reinforcement Learning Development Benchmark. GUARD has several advantages compared to existing benchmarks. First, GUARD is a generalized benchmark with a wide variety of RL agents, tasks, and safety constraint specifications. Second, GUARD comprehensively covers state-of-the-art safe RL algorithms with self-contained implementations. Third, GUARD is highly customizable in tasks and algorithms. We present a comparison of state-of-the-art safe RL algorithms in various task settings using GUARD and establish baselines that future work can build on.
翻訳日:2023-07-04 13:12:15 公開日:2023-06-30
# 点雲からの物体再同定

Object Re-Identification from Point Clouds ( http://arxiv.org/abs/2305.10210v2 )

ライセンス: Link先を確認
Benjamin Th\'erien, Chengjie Huang, Adrian Chow, Krzysztof Czarnecki(参考訳) 本研究では,3次元多対象追跡(MOT)コンテキストにおけるオブジェクト再識別(ReID)の問題について,収穫したオブジェクトのペア(例えば予測された3次元境界ボックス)の点雲観測を学習することによって検討する。 しかし、3D MOTのSOTAパフォーマンスには関心がありません。 現実的な追跡検出のコンテキストでは、ポイントクラウドからのオブジェクトReIDは、画像からのReIDと比較してどのように機能しますか? このような研究を可能にするために,任意の集合やシーケンス処理バックボーン(PointNetやViTなど)に結合可能な軽量なマッチングヘッドを提案する。 提案するポイントクラウドReIDネットワークは,シアム方式で実行することで,リアルタイム(10hz)で数千のペア比較を行うことができる。 以上の結果より, センサの高分解能化と画像ReIDの高密度化による性能向上が示唆された。 さらに,3次元マルチオブジェクトトラッキング(MOT)を向上するネットワークの能力について検討し,強力なモーションベースのトラッカーをエラーに導くオブジェクトの識別に成功していることを示す。 我々の知る限り、我々は3次元多目的追跡コンテキストにおける点雲からのリアルタイム物体再同定を初めて研究している。

In this work, we study the problem of object re-identification (ReID) in a 3D multi-object tracking (MOT) context, by learning to match pairs of objects from cropped (e.g., using their predicted 3D bounding boxes) point cloud observations. We are not concerned with SOTA performance for 3D MOT, however. Instead, we seek to answer the following question: In a realistic tracking by-detection context, how does object ReID from point clouds perform relative to ReID from images? To enable such a study, we propose a lightweight matching head that can be concatenated to any set or sequence processing backbone (e.g., PointNet or ViT), creating a family of comparable object ReID networks for both modalities. Run in siamese style, our proposed point-cloud ReID networks can make thousands of pairwise comparisons in real-time (10 hz). Our findings demonstrate that their performance increases with higher sensor resolution and approaches that of image ReID when observations are sufficiently dense. Additionally, we investigate our network's ability to enhance 3D multi-object tracking (MOT), showing that our point-cloud ReID networks can successfully re-identify objects which led a strong motion-based tracker into error. To our knowledge, we are the first to study real-time object re-identification from point clouds in a 3D multi-object tracking context.
翻訳日:2023-07-04 13:11:41 公開日:2023-06-30
# w-procer: 重み付き原型的コントラスト学習による医療用少数ショットエンティティ認識

W-procer: Weighted Prototypical Contrastive Learning for Medical Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2305.18624v3 )

ライセンス: Link先を確認
Mingchen Li, Yang Ye, Jeremy Yeung, Huixue Zhou, Huaiyuan Chu, Rui Zhang(参考訳) 対照的学習は、NER(Non-shot Name Entity Regniation)の一般的なソリューションとなっている。 従来の構成では、同じラベルを持つトークン間の距離を減らし、異なるラベルを持つトークン間の距離を増やそうとしている。 しかし、医療分野では、OUTSIDE (O) として注釈付けされたエンティティが多数存在し、現在の対照的な学習方法によってOUTSIDE (O) とラベル付けされていない他のエンティティに非推奨にプッシュされ、ラベルのセマンティックな表現のためのノイズの多いプロトタイプで終わるが、OUTSIDE (O) にラベル付けされたエンティティがラベル付けされたエンティティに関連するものも多い。 この課題に対処するために,医用フリューショット名義エンティティ認識のためのWeighted Prototypeal Contrastive Learning (W-PROCER) という新しい手法を提案する。 当社のアプローチは主に,プロトタイプベースの契約損失と重み付けネットワークの構築を中心に展開している。 これらのコンポーネントは、外部(o)トークンから負のサンプルを区別し、コントラスト学習の識別能力を高める上で、モデルを支援する上で重要な役割を果たす。 実験の結果,提案するW-PROCERフレームワークは,3つのベンチマークデータセットの強いベースラインを著しく上回ることがわかった。

Contrastive learning has become a popular solution for few-shot Name Entity Recognization (NER). The conventional configuration strives to reduce the distance between tokens with the same labels and increase the distance between tokens with different labels. The effect of this setup may, however, in the medical domain, there are a lot of entities annotated as OUTSIDE (O), and they are undesirably pushed apart to other entities that are not labeled as OUTSIDE (O) by the current contrastive learning method end up with a noisy prototype for the semantic representation of the label, though there are many OUTSIDE (O) labeled entities are relevant to the labeled entities. To address this challenge, we propose a novel method named Weighted Prototypical Contrastive Learning for Medical Few Shot Named Entity Recognization (W-PROCER). Our approach primarily revolves around constructing the prototype-based contractive loss and weighting network. These components play a crucial role in assisting the model in differentiating the negative samples from OUTSIDE (O) tokens and enhancing the discrimination ability of contrastive learning. Experimental results show that our proposed W-PROCER framework significantly outperforms the strong baselines on the three medical benchmark datasets.
翻訳日:2023-07-04 13:03:51 公開日:2023-06-30
# LLM-Blender: Pairwise RankingとGenerative Fusionを備えた大規模言語モデルの構築

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion ( http://arxiv.org/abs/2306.02561v3 )

ライセンス: Link先を確認
Dongfu Jiang, Xiang Ren, Bill Yuchen Lin(参考訳) llm-blenderは,複数のオープンソース大規模言語モデル(llm)の多様な強みを活用して,一貫して優れたパフォーマンスを実現するためのフレームワークである。 pairranker と genfuser という2つのモジュールで構成されており、異なる例に対する最適な llm の観測に対処しています。 PairRankerは、候補出力間の微妙な違いを区別するために、特殊なペアワイズ比較手法を使用している。 入力テキストと候補のペアを共同でエンコードし、クロスアテンションエンコーダを使用して上位のテキストを決定する。 以上の結果から,PairRankerはChatGPTによるランキングよりも高い相関を示した。 そしてGenFuserは、上位候補をマージし、その強みを活かして弱点を緩和することで、改善されたアウトプットを生成する。 大規模評価を容易にするために,オラクル対比較を特徴とする複数の命令データセットを混合したベンチマークデータセットMixInstructを導入する。 我々のLLM-Blenderは、様々な指標で個々のLLMとベースラインメソッドを著しく上回り、大きなパフォーマンスギャップを確立しました。

We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.
翻訳日:2023-07-04 12:53:27 公開日:2023-06-30
# Train Offline, Test Online: 本物のロボット学習ベンチマーク

Train Offline, Test Online: A Real Robot Learning Benchmark ( http://arxiv.org/abs/2306.00942v2 )

ライセンス: Link先を確認
Gaoyue Zhou, Victoria Dean, Mohan Kumar Srirama, Aravind Rajeswaran, Jyothish Pari, Kyle Hatch, Aryan Jain, Tianhe Yu, Pieter Abbeel, Lerrel Pinto, Chelsea Finn, Abhinav Gupta(参考訳) 3つの課題は、ロボットの学習研究の進歩を制限する。ロボットは高価(実験室は参加できない)、全員が異なるロボットを使っている(フィッシングは実験室全体で一般化しない)。 これらの課題は、Train Offline、Test Online (TOTO)という新しいベンチマークを通じて解決します。 TOTOは、共通タスクのメソッドを評価するための共有ロボティックハードウェアへのアクセスと、オフライントレーニングのためのこれらのタスクのオープンソースデータセットを提供する。 その操作タスクスイートは、目に見えないオブジェクト、位置、照明の一般化に挑戦する必要がある。 本稿では,5つの機関が遠隔でコントリビュートした5つの事前学習された視覚表現と4つのオフラインポリシー学習ベースラインを比較した最初の結果を示す。 しかし、totoの真の約束は、将来にある。私たちは、どんなユーザからでも追加の提出を行うベンチマークをリリースし、ハードウェアを入手したりデータを集める必要なしに、いくつかのメソッドと簡単に直接比較できるようにします。

Three challenges limit the progress of robot learning research: robots are expensive (few labs can participate), everyone uses different robots (findings do not generalize across labs), and we lack internet-scale robotics data. We take on these challenges via a new benchmark: Train Offline, Test Online (TOTO). TOTO provides remote users with access to shared robotic hardware for evaluating methods on common tasks and an open-source dataset of these tasks for offline training. Its manipulation task suite requires challenging generalization to unseen objects, positions, and lighting. We present initial results on TOTO comparing five pretrained visual representations and four offline policy learning baselines, remotely contributed by five institutions. The real promise of TOTO, however, lies in the future: we release the benchmark for additional submissions from any user, enabling easy, direct comparison to several methods without the need to obtain hardware or collect data.
翻訳日:2023-07-04 12:52:06 公開日:2023-06-30
# 大規模言語モデルの透かしの信頼性について

On the Reliability of Watermarks for Large Language Models ( http://arxiv.org/abs/2306.04634v3 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum and Tom Goldstein(参考訳) LLMが一般的になるにつれて、機械生成テキストはスパム、ソーシャルメディアボット、価値のないコンテンツでインターネットを溢れさせる可能性がある。 ウォーターマーキングは、LCM生成テキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。 しかし、重要な疑問が残る: 現実的な環境において、ウォーターマークはどの程度信頼できるのか? そこで、透かし付きテキストはユーザーの要求に合うように修正されるか、検出を避けるために完全に書き換えられる。 本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。 人や機械の言い回しをしても、透かしは検出可能である。 これらの攻撃は透かしの強さを薄めるが、パラフレーズは統計学的にn-gramまたは元のテキストのより長い断片をリークし、十分なトークンが観測されたときに高い信頼度を検出する。 例えば、強い人間のパラフレージングの後、1e-5の偽陽性率を設定する場合、平均800トークンを観測した後、透かしを検出できる。 我々はまた、大きな文書に埋め込まれた透かしの短いテキストに敏感な新しい検出方法についても検討し、透かしの頑健さを他の種類の検出器と比較する。

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user's needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.
翻訳日:2023-07-04 12:43:50 公開日:2023-06-30
# 難治性密度を最適化するメトロポリスハスティングの差別化

Differentiating Metropolis-Hastings to Optimize Intractable Densities ( http://arxiv.org/abs/2306.07961v3 )

ライセンス: Link先を確認
Gaurav Arya, Ruben Seyer, Frank Sch\"afer, Kartik Chandra, Alexander K. Lew, Mathieu Huot, Vikash K. Mansinghka, Jonathan Ragan-Kelley, Christopher Rackauckas and Moritz Schauer(参考訳) 本研究では,メトロポリス・ハスティングス検層の自動識別アルゴリズムを開発し,モデルに離散成分が存在する場合であっても確率的推論により識別を行う。 提案手法は,従来のマルコフ連鎖結合スキームと確率的自動微分の最近の進歩を融合させ,バイアスのない低分散勾配推定器を提供する。 これにより、難解なターゲット密度に対する期待として表現された目的に勾配に基づく最適化を適用することができる。 本研究では,ガウス混合モデルにおける不明瞭な観測とイジングモデルにおける比熱の最大化によるアプローチを示す。

We develop an algorithm for automatic differentiation of Metropolis-Hastings samplers, allowing us to differentiate through probabilistic inference, even if the model has discrete components within it. Our approach fuses recent advances in stochastic automatic differentiation with traditional Markov chain coupling schemes, providing an unbiased and low-variance gradient estimator. This allows us to apply gradient-based optimization to objectives expressed as expectations over intractable target densities. We demonstrate our approach by finding an ambiguous observation in a Gaussian mixture model and by maximizing the specific heat in an Ising model.
翻訳日:2023-07-04 12:32:12 公開日:2023-06-30
# 国家規制政策最適化

State-wise Constrained Policy Optimization ( http://arxiv.org/abs/2306.12594v2 )

ライセンス: Link先を確認
Weiye Zhao, Rui Chen, Yifan Sun, Tianhao Wei and Changliu Liu(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムはシミュレーション環境では非常に成功したが、実世界の問題への適用には大きな課題が伴い、安全性が大きな懸念事項となっている。 特に、自律運転やロボット操作といった多くの課題に対して、国家的制約の実施が不可欠である。 しかし、CMDP(Constrained Markov Decision Process)の枠組みに基づく既存の安全なRLアルゴリズムは、状態制約を考慮していない。 このギャップに対処するため,我々は,状態制約強化学習のための最初の汎用ポリシー探索アルゴリズムであるstate-wise restricteded policy optimization (scpo)を提案する。 SCPOは、期待する状態の制約満足度を保証する。 特に,最大マルコフ決定プロセスの枠組みを導入し,最悪の安全違反がSCPOに拘束されていることを証明する。 本研究は, エージェントが様々な状態的安全性制約を満たさなければならない, 広範なロボット移動タスクに対するニューラルネットワークポリシーの訓練における本手法の有効性を実証する。 以上の結果から,SCPOは既存の手法を著しく上回り,高次元ロボット作業における状態制約を処理できることが示唆された。

Reinforcement Learning (RL) algorithms have shown tremendous success in simulation environments, but their application to real-world problems faces significant challenges, with safety being a major concern. In particular, enforcing state-wise constraints is essential for many challenging tasks such as autonomous driving and robot manipulation. However, existing safe RL algorithms under the framework of Constrained Markov Decision Process (CMDP) do not consider state-wise constraints. To address this gap, we propose State-wise Constrained Policy Optimization (SCPO), the first general-purpose policy search algorithm for state-wise constrained reinforcement learning. SCPO provides guarantees for state-wise constraint satisfaction in expectation. In particular, we introduce the framework of Maximum Markov Decision Process, and prove that the worst-case safety violation is bounded under SCPO. We demonstrate the effectiveness of our approach on training neural network policies for extensive robot locomotion tasks, where the agent must satisfy a variety of state-wise safety constraints. Our results show that SCPO significantly outperforms existing methods and can handle state-wise constraints in high-dimensional robotics tasks.
翻訳日:2023-07-04 12:25:48 公開日:2023-06-30
# 静的ホルスタイン模型による電界駆動加熱の量子化機構

Electronic Mechanism that Quenches Field-Driven Heating as Illustrated with the Static Holstein Model ( http://arxiv.org/abs/2107.04096v2 )

ライセンス: Link先を確認
Manuel Weber, James K. Freericks(参考訳) 量子系の時間依存性の駆動は、熱平衡から遠く離れたエキゾチック相を工学する強力なツールとして現れてきたが、多体相互作用の存在下では、熱を逃がし、ジェネリック系は特徴のない無限温度状態に達するまで加熱すると考えられている。 このような熱死を遅くしたり、避けたりするメカニズムを理解することは大きな目標であり、そのようなメカニズムの1つは運動量空間内の電子の均等な分布に向かって進むことである。 ここでは、強いdc電場によって駆動される場合、この機構が、相互作用する電荷密度波鎖の暴走加熱を回避し、電流が0に早めに駆動されるにつれて、非自明分布関数を持つミニバンドが発達することを示す。 さらに、ゼロ温度共鳴に近づくと、各ミニバンドに対して正、負、あるいは無限に近い有効温度で磁場強度を調整できる。 以上の結果から, 量子系の非自明な準安定分布関数は, 遅いボソニックモードと結合した熱前領域で実現されることが示唆された。

Time-dependent driving of quantum systems has emerged as a powerful tool to engineer exotic phases far from thermal equilibrium, but in the presence of many-body interactions it also leads to runaway heating, so that generic systems are believed to heat up until they reach a featureless infinite-temperature state. Understanding the mechanisms by which such a heat death can be slowed down or even avoided is a major goal -- one such mechanism is to drive toward an even distribution of electrons in momentum space. Here we show how such a mechanism avoids runaway heating for an interacting charge-density-wave chain with a macroscopic number of conserved quantities when driven by a strong dc electric field; minibands with nontrivial distribution functions develop as the current is prematurely driven to zero. Moreover, when approaching a zero-temperature resonance, the field strength can tune between positive, negative, or close-to-infinite effective temperatures for each miniband. Our results suggest that nontrivial metastable distribution functions should be realized in the prethermal regime of quantum systems coupled to slow bosonic modes.
翻訳日:2023-07-03 16:22:09 公開日:2023-06-30
# ビデオにおける人間行動推定のための関係に基づく連想的結合位置

Relation-Based Associative Joint Location for Human Pose Estimation in Videos ( http://arxiv.org/abs/2107.03591v3 )

ライセンス: Link先を確認
Yonghao Dang and Jianqin Yin and Shaojie Zhang(参考訳) ビデオベースの人間のポーズ推定(VHPE)は不可欠だが難しい課題である。 深層学習法はVHPEに大きな進歩を遂げているが、この課題に対するほとんどのアプローチは、畳み込みの受容領域を大きくすることで、関節間の長距離相互作用を暗黙的にモデル化している。 従来の方法とは異なり, 軽量かつプラグアンドプレイのジョイント関係抽出器 (jre) を設計し, ジョイント間の結合関係を明示的に自動的にモデル化する。 JREはジョイントの擬熱マップを入力として、擬熱マップ間の類似性を計算する。 このようにして、JREは2つの関節の関係を柔軟に学習し、人間のポーズの豊かな空間構成を学習することができる。 また、jre は目視関節の関係に応じて目視関節を推定することができ、モデルが目視関節を見つけるのに有用である。 そして、時間的意味連続性モデリングと組み合わせて、ビデオに基づく人間のポーズ推定のための関係に基づくPose Semantics Transfer Network (RPSTN)を提案する。 具体的には、ポーズの時間的ダイナミクスを捉えるために、現在のフレームのポーズ意味情報を結合関係案内ポーズ意味伝達器(JRPSP)で次のフレームに転送する。 提案モデルでは,非閉塞フレームから隠蔽フレームにポーズセマンティックな特徴を移すことが可能であり,この手法は隠蔽に頑健である。 さらに,JREモジュールは画像に基づく人間のポーズ推定にも適している。 提案したRPSTNは、ビデオベースのPenn Actionデータセット、Sub-JHMDBデータセット、PoseTrack2018データセットの最先端結果を達成する。 さらに、提案されたJREは、イメージベースのCOCO2017データセットのバックボーンのパフォーマンスを改善している。 コードはhttps://github.com/YHDang/pose-estimationで入手できる。

Video-based human pose estimation (VHPE) is a vital yet challenging task. While deep learning methods have made significant progress for the VHPE, most approaches to this task implicitly model the long-range interaction between joints by enlarging the receptive field of the convolution. Unlike prior methods, we design a lightweight and plug-and-play joint relation extractor (JRE) to model the associative relationship between joints explicitly and automatically. The JRE takes the pseudo heatmaps of joints as input and calculates the similarity between pseudo heatmaps. In this way, the JRE flexibly learns the relationship between any two joints, allowing it to learn the rich spatial configuration of human poses. Moreover, the JRE can infer invisible joints according to the relationship between joints, which is beneficial for the model to locate occluded joints. Then, combined with temporal semantic continuity modeling, we propose a Relation-based Pose Semantics Transfer Network (RPSTN) for video-based human pose estimation. Specifically, to capture the temporal dynamics of poses, the pose semantic information of the current frame is transferred to the next with a joint relation guided pose semantics propagator (JRPSP). The proposed model can transfer the pose semantic features from the non-occluded frame to the occluded frame, making our method robust to the occlusion. Furthermore, the proposed JRE module is also suitable for image-based human pose estimation. The proposed RPSTN achieves state-of-the-art results on the video-based Penn Action dataset, Sub-JHMDB dataset, and PoseTrack2018 dataset. Moreover, the proposed JRE improves the performance of backbones on the image-based COCO2017 dataset. Code is available at https://github.com/YHDang/pose-estimation.
翻訳日:2023-07-03 16:21:41 公開日:2023-06-30
# 短期量子コンピュータにおける摂動的読み出し誤差軽減

Perturbative readout error mitigation for near term quantum computers ( http://arxiv.org/abs/2105.08161v2 )

ライセンス: Link先を確認
Evan Peters, Andy C. Y. Li, Gabriel N. Perdue(参考訳) 短期量子コンピュータにおける読み出し誤差は、量子回路の出力からサンプリングされた経験的確率分布に重大な誤差をもたらす可能性がある。 これらの誤差は、各計算基底状態の測定に関連する誤差を記述する実験的な \emph{response matrix} へのアクセスによって古典的な後処理によって緩和することができる。 しかし、完全な応答行列を特徴付け、修正された確率分布を量子ビット数で指数関数的に計算するのに必要なリソースは$n$である。 本研究では,高次ビットフリップイベントの確率が強く抑制される場合,2つの摂動近似を用いて,複雑性と境界誤差を著しく低減した標準行列逆変換手法を改良する。 特性的エラーレート$q$が与えられると、最初の方法は、応答行列の小さな部分空間のみをサンプリングして、読み出しエラーを反転させ、$\text{poly}\left(2^{n} / \big(\begin{smallmatrix} n \\w \end{smallmatrix}\big)\right)$ という相対的なスピードアップを生成することで、全ゼロビット文字列$p_0$の確率を回復します。 次に、摂動限界において$O(q^w)$エラーで全出力分布を効率よく復元する一般化手法を提案する。 これらの読み出し誤差補正の近似技術は、短期量子コンピューティングアプリケーションを大幅に加速する可能性がある。

Readout errors on near-term quantum computers can introduce significant error to the empirical probability distribution sampled from the output of a quantum circuit. These errors can be mitigated by classical postprocessing given the access of an experimental \emph{response matrix} that describes the error associated with measurement of each computational basis state. However, the resources required to characterize a complete response matrix and to compute the corrected probability distribution scale exponentially in the number of qubits $n$. In this work, we modify standard matrix inversion techniques using two perturbative approximations with significantly reduced complexity and bounded error when the likelihood of high order bitflip events is strongly suppressed. Given a characteristic error rate $q$, our first method recovers the probability of the all-zeros bitstring $p_0$ by sampling only a small subspace of the response matrix before inverting readout error resulting in a relative speedup of $\text{poly}\left(2^{n} / \big(\begin{smallmatrix} n \\ w \end{smallmatrix}\big)\right)$, which we motivate using a simplified error model for which the approximation incurs only $O(q^w)$ error for some integer $w$. We then provide a generalized technique to efficiently recover full output distributions with $O(q^w)$ error in the perturbative limit. These approximate techniques for readout error correction may greatly accelerate near term quantum computing applications.
翻訳日:2023-07-03 16:21:11 公開日:2023-06-30
# Wasserstein生成逆数ネットワークによる確率分布の近似

Approximating Probability Distributions by using Wasserstein Generative Adversarial Networks ( http://arxiv.org/abs/2103.10060v4 )

ライセンス: Link先を確認
Yihang Gao, Michael K. Ng, Mingjie Zhou(参考訳) ここで研究されているのは、GroupSortニューラルネットワークを識別するWasserstein生成敵ネットワーク(WGAN)である。 対象分布に対する近似の誤差境界は, 生成器と判別器の幅と深さ(容量)と, 訓練中のサンプル数に依存することが示された。 生成した分布と対象分布の間のワッサーシュタイン距離に対して量子化された一般化境界を確立する。 理論的な結果によると、WGANはジェネレータよりも識別器の容量の要求が高いが、これは既存の結果と一致している。 さらに重要なことに、過度に深い(高容量)ジェネレータによる結果が、判別器が不十分に強い場合、低容量ジェネレータを持つ結果よりも悪化する可能性がある。 スイスロールとMNISTデータセットを用いて得られた数値結果から理論的結果が確認された。

Studied here are Wasserstein generative adversarial networks (WGANs) with GroupSort neural networks as their discriminators. It is shown that the error bound of the approximation for the target distribution depends on the width and depth (capacity) of the generators and discriminators and the number of samples in training. A quantified generalization bound is established for the Wasserstein distance between the generated and target distributions. According to the theoretical results, WGANs have a higher requirement for the capacity of discriminators than that of generators, which is consistent with some existing results. More importantly, the results with overly deep and wide (high-capacity) generators may be worse than those with low-capacity generators if discriminators are insufficiently strong. Numerical results obtained using Swiss roll and MNIST datasets confirm the theoretical results.
翻訳日:2023-07-03 16:20:37 公開日:2023-06-30
# 因果規則:不均一な治療効果の解釈的発見と推論

Causal Rule Ensemble: Interpretable Discovery and Inference of Heterogeneous Treatment Effects ( http://arxiv.org/abs/2009.09036v5 )

ライセンス: Link先を確認
Falco J. Bargagli-Stoffi and Riccardo Cadei and Kwonsang Lee and Francesca Dominici(参考訳) 健康・社会科学においては、集団平均に対する治療効果(HTE)の顕著な均一性が存在する研究集団のサブグループを特定することが重要である。 決定木は高い解釈性のため,データ駆動によるHTE発見に広く採用されている。 しかし、単一木によるHTEの発見は不安定であり、過剰に単純化される。 本稿では,木組アプローチによるHTE発見と推定のための新しい手法であるCausal Rule Ensemble (CRE)を紹介する。 CREにはいくつかの重要な機能がある。 1) HTEの解釈可能な表現 2)複雑不均一パターンを探索する能力,及び 3) サブグループ発見の安定性が高い。 発見された部分群は解釈可能な決定規則によって定義される。 理論的保証を提供する2段階アプローチを用いて,サブグループ特異的因果効果の推定を行う。 シミュレーションにより,cre手法は最先端技術と比較して高い競合性を示す。 最後に,米国中の353万人のメディケア受益者の死亡率に対する大気汚染曝露による異質な健康影響の発見にcreを応用した。

In health and social sciences, it is critically important to identify subgroups of the study population where there is notable heterogeneity of treatment effects (HTE) with respect to the population average. Decision trees have been proposed and commonly adopted for data-driven discovery of HTE due to their high level of interpretability. However, single-tree discovery of HTE can be unstable and oversimplified. This paper introduces Causal Rule Ensemble (CRE), a new method for HTE discovery and estimation through an ensemble-of-trees approach. CRE offers several key features, including 1) an interpretable representation of the HTE; 2) the ability to explore complex heterogeneity patterns; and 3) high stability in subgroups discovery. The discovered subgroups are defined in terms of interpretable decision rules. Estimation of subgroup-specific causal effects is performed via a two-stage approach for which we provide theoretical guarantees. Via simulations, we show that the CRE method is highly competitive when compared to state-of-the-art techniques. Finally, we apply CRE to discover the heterogeneous health effects of exposure to air pollution on mortality for 35.3 million Medicare beneficiaries across the contiguous U.S.
翻訳日:2023-07-03 16:20:12 公開日:2023-06-30
# よいソリューションから始めるとき、ランタイム分析に向かう最初のステップ

First Steps Towards a Runtime Analysis When Starting With a Good Solution ( http://arxiv.org/abs/2006.12161v3 )

ライセンス: Link先を確認
Denis Antipov, Maxim Buzdalov, Benjamin Doerr(参考訳) 進化的アルゴリズムの数学的ランタイム解析は、伝統的にアルゴリズムがランダムな集団で初期化する際に特定の品質の解を見つける必要がある時間を扱う。 現実的な応用では、ランダムな解よりも優れた解を推測することができる。 このような状況に対する数学的ランタイム解析を始める。 我々は、異なるアルゴリズムがより良い初期化から全く異なる程度に利益をもたらすことを観察する。 また,アルゴリズムの最適パラメータ化は初期解の品質に強く依存することを示した。 この困難を克服するために、自己調整およびランダム化された重み付きパラメータ選択は利益を得ることができる。 最後に、最高の進化的アルゴリズムの性能と対応するブラックボックスの複雑さとの間の大きなギャップを観察する。 このことは、進化的アルゴリズムが優れた初期解をうまく活用できることを示唆している。 これらの最初の発見は、OneMaxベンチマークで$(1+1)$進化アルゴリズムと静的、自己調整、重み付き$(1 + (\lambda,\lambda)$ GAのパフォーマンスを分析することに由来する。 よい初期ソリューションから利益を得る方法は、これらの最初の例以上の興味深いものである、という質問は楽観的です。

The mathematical runtime analysis of evolutionary algorithms traditionally regards the time an algorithm needs to find a solution of a certain quality when initialized with a random population. In practical applications it may be possible to guess solutions that are better than random ones. We start a mathematical runtime analysis for such situations. We observe that different algorithms profit to a very different degree from a better initialization. We also show that the optimal parameterization of the algorithm can depend strongly on the quality of the initial solutions. To overcome this difficulty, self-adjusting and randomized heavy-tailed parameter choices can be profitable. Finally, we observe a larger gap between the performance of the best evolutionary algorithm we found and the corresponding black-box complexity. This could suggest that evolutionary algorithms better exploiting good initial solutions are still to be found. These first findings stem from analyzing the performance of the $(1+1)$ evolutionary algorithm and the static, self-adjusting, and heavy-tailed $(1 + (\lambda,\lambda))$ GA on the OneMax benchmark. We are optimistic that the question how to profit from good initial solutions is interesting beyond these first examples.
翻訳日:2023-07-03 16:19:58 公開日:2023-06-30
# 高次元データ強化:解釈可能、高速、データ効率

High Dimensional Data Enrichment: Interpretable, Fast, and Data-Efficient ( http://arxiv.org/abs/1806.04047v4 )

ライセンス: Link先を確認
Amir Asiaee, Samet Oymak, Kevin R. Coombes, Arindam Banerjee(参考訳) 高次元環境におけるマルチタスク学習の問題点を考察する。 特に,データエンリッチメント/シェアリングとして知られる多重連結線形回帰問題に対して,推定器を導入し,その統計的・計算的性質について検討する。 インタータスク接続はクロスタスク \emph{common parameters} によってキャプチャされ、これはper-task \emph{individual parameters} によって洗練される。 任意の凸関数、例えばノルムは、共通パラメータと個別パラメータの両方の構造を特徴づけることができる。 我々は,推定器のサンプル複雑性を記述し,幾何学的条件下で全てのパラメータの誤差を推定するための高確率非漸近境界を与える。 一般的なパラメータの回復は、プールされたサンプルの \emph{all} から得られる。 本研究では,幾何収束率の反復推定アルゴリズムを提案し,理論解析を合成データ実験で補う。 総じて,データ共有モデルにおける推論の統計学的および計算的解析を初めて行った。

We consider the problem of multi-task learning in the high dimensional setting. In particular, we introduce an estimator and investigate its statistical and computational properties for the problem of multiple connected linear regressions known as Data Enrichment/Sharing. The between-tasks connections are captured by a cross-tasks \emph{common parameter}, which gets refined by per-task \emph{individual parameters}. Any convex function, e.g., norm, can characterize the structure of both common and individual parameters. We delineate the sample complexity of our estimator and provide a high probability non-asymptotic bound for estimation error of all parameters under a geometric condition. We show that the recovery of the common parameter benefits from \emph{all} of the pooled samples. We propose an iterative estimation algorithm with a geometric convergence rate and supplement our theoretical analysis with experiments on synthetic data. Overall, we present a first thorough statistical and computational analysis of inference in the data-sharing model.
翻訳日:2023-07-03 16:19:20 公開日:2023-06-30
# ガウス混合モデルに対するベイズフィルタアルゴリズム

A Bayesian Filtering Algorithm for Gaussian Mixture Models ( http://arxiv.org/abs/1705.05495v2 )

ライセンス: Link先を確認
Adrian G. Wills and Johannes Hendriks and Christopher Renton and Brett Ninness(参考訳) ガウス混合によりモデル化可能な状態空間系のクラスに対してベイズフィルタアルゴリズムが開発された。 一般に、このフィルタリング問題の厳密な解は混合項の数を指数関数的に増加させることであり、これは時間と測定の更新の後にガウス混合還元ステップを利用する。 さらに、統一アルゴリズムの平方根実装を示し、このアルゴリズムを複数のシミュレートされたシステムでプロファイルする。 これには、この論文で考慮されたクラス外にある2つの非線形システムの状態推定が含まれる。

A Bayesian filtering algorithm is developed for a class of state-space systems that can be modelled via Gaussian mixtures. In general, the exact solution to this filtering problem involves an exponential growth in the number of mixture terms and this is handled here by utilising a Gaussian mixture reduction step after both the time and measurement updates. In addition, a square-root implementation of the unified algorithm is presented and this algorithm is profiled on several simulated systems. This includes the state estimation for two non-linear systems that are strictly outside the class considered in this paper.
翻訳日:2023-07-03 16:19:06 公開日:2023-06-30
# 不均質な情報源を問う会話的質問

Conversational Question Answering on Heterogeneous Sources ( http://arxiv.org/abs/2204.11677v2 )

ライセンス: Link先を確認
Philipp Christmann, Rishiraj Saha Roy, Gerhard Weikum(参考訳) 会話型質問応答(ConvQA)は、フォローアップ質問のコンテキストを暗黙的に残すシーケンシャルな情報要求に対処する。 現在のconvqaシステムは、知識ベース(kb)またはテキストコーパス、あるいはテーブルの集合といった、均質な情報ソース上で動作します。 本稿では,これらすべてを共同で打つという新たな課題に対処し,回答のカバレッジと信頼性を高める。 異種ソース上のConvQAのエンドツーエンドパイプラインであるCONVINSEを3段階に分けて紹介する。 一 入ってくる質問及びその会話的文脈の明示的な構造化表現を学ぶこと。 二 この枠状の表現を利用して、KB、テキスト及び表から一様に証拠をつかむこと。 三 解答を生成するために融合復号器モデルを実行すること。 convqa用の最初のベンチマークであるconvmixをヘテロジニアスソース上で構築し、エンティティアノテーション、完成した質問発話、質問パラフレーズとともに、3000の実際のユーザ会話と16000の質問からなる。 実験では,最先端のベースラインと比較し,本手法の有効性と利点を実証した。

Conversational question answering (ConvQA) tackles sequential information needs where contexts in follow-up questions are left implicit. Current ConvQA systems operate over homogeneous sources of information: either a knowledge base (KB), or a text corpus, or a collection of tables. This paper addresses the novel issue of jointly tapping into all of these together, this way boosting answer coverage and confidence. We present CONVINSE, an end-to-end pipeline for ConvQA over heterogeneous sources, operating in three stages: i) learning an explicit structured representation of an incoming question and its conversational context, ii) harnessing this frame-like representation to uniformly capture relevant evidences from KB, text, and tables, and iii) running a fusion-in-decoder model to generate the answer. We construct and release the first benchmark, ConvMix, for ConvQA over heterogeneous sources, comprising 3000 real-user conversations with 16000 questions, along with entity annotations, completed question utterances, and question paraphrases. Experiments demonstrate the viability and advantages of our method, compared to state-of-the-art baselines.
翻訳日:2023-07-03 16:12:17 公開日:2023-06-30
# 完全教師なし人物の再同定とテキストオーサシップへの活用と自己指導型学習

Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised Person Re-Identification and Text Authorship Attribution ( http://arxiv.org/abs/2202.03126v4 )

ライセンス: Link先を確認
Gabriel Bertocco, Ant\^onio Theophilo, Fernanda Andal\'o and Anderson Rocha(参考訳) 完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。 近年の自己教師付き学習法は,クラス間距離がクラス間距離よりもかなり低いため,クラス間の意味的差異が著しい場合に,完全ラベル付きデータを扱う際に有効であることが示されている。 しかし、クラスが類似のセマンティクスを持ち、トレーニングとテストセットが相反するアイデンティティを持つ法医学的応用の場合、これはそうではない。 一般的な自己教師型学習手法は、このシナリオで差別的特徴を学習できないため、より堅牢な戦略を必要とする。 異なるクラスからのサンプルが顕著に多様でない場合でも、ラベルのないデータから学習できるようにし、人物の再同定とテキストの著者シップの帰属に取り組む戦略を提案する。 本研究では,異なる構成から派生したクラスタを組み合わせ,教師なしの方法でデータサンプルのより優れたグループ化を実現する,アンサンブルベースのクラスタリング戦略を提案する。 この戦略により、異なる密度と高いバラエティを持つクラスタが出現し、データセットごとに最適な構成を見つける必要がなくなることなく、クラス内の不一致を低減できる。 また,標本間の特徴抽出と後続距離計算のために,異なる畳み込みニューラルネットワークも検討する。 コンテキストを組み込んでそれらをグループ化し、補完的な情報を取得することで、これらの距離を洗練します。 提案手法は,各タスク間のロバストで,データモダリティが異なり,ラベル付けや人的介入を伴わずに,完全教師なしのソリューションで最先端の手法より優れている。

Learning from fully-unlabeled data is challenging in Multimedia Forensics problems, such as Person Re-Identification and Text Authorship Attribution. Recent self-supervised learning methods have shown to be effective when dealing with fully-unlabeled data in cases where the underlying classes have significant semantic differences, as intra-class distances are substantially lower than inter-class distances. However, this is not the case for forensic applications in which classes have similar semantics and the training and test sets have disjoint identities. General self-supervised learning methods might fail to learn discriminative features in this scenario, thus requiring more robust strategies. We propose a strategy to tackle Person Re-Identification and Text Authorship Attribution by enabling learning from unlabeled data even when samples from different classes are not prominently diverse. We propose a novel ensemble-based clustering strategy whereby clusters derived from different configurations are combined to generate a better grouping for the data samples in a fully-unsupervised way. This strategy allows clusters with different densities and higher variability to emerge, reducing intra-class discrepancies without requiring the burden of finding an optimal configuration per dataset. We also consider different Convolutional Neural Networks for feature extraction and subsequent distance computations between samples. We refine these distances by incorporating context and grouping them to capture complementary information. Our method is robust across both tasks, with different data modalities, and outperforms state-of-the-art methods with a fully-unsupervised solution without any labeling or human intervention.
翻訳日:2023-07-03 16:11:57 公開日:2023-06-30
# コンフォメーション予測によるエキスパート予測の改善

Improving Expert Predictions with Conformal Prediction ( http://arxiv.org/abs/2201.12006v5 )

ライセンス: Link先を確認
Eleni Straitouri and Lequn Wang and Nastaran Okati and Manuel Gomez Rodriguez(参考訳) 自動意思決定支援システムは、人間の専門家がより効率的かつ正確にマルチクラス分類タスクを解決できるようにする。 しかし、既存のシステムは一般に専門家に、いつエージェンシーをシステムに割譲するか、いつ独自のエージェンシーを行使するかを理解する必要がある。 さもなければ、専門家は自分で分類タスクを解くのが良いかもしれない。 本研究は,自動意思決定支援システムの開発であり,設計上,システムの性能向上をいつ信頼するかを専門家が理解する必要がなくなる。 これらの予測をいつ信頼するかを専門家が判断する代わりに、このシステムは適合予測$\unicode{x2014}$prediction set$\unicode{x2014}$を用いて構築されたラベル予測セットを提供し、専門家にこれらのセットからラベルを予測するよう強制的に要求する。 共形予測を用いて,本システムでは,真のラベルが予測セットに含まれていない確率と,専門家がシステムを用いて解決しなければならない分類作業の難しさを判断する予測セットのサイズを正確にトレードオフすることができる。 さらに,本システムの利用により,専門家が最も利益を享受できる共形予測器を効率よく,ほぼ最適に探索する手法を開発した。 合成および実エキスパート予測を用いたシミュレーション実験により,コンフォーメーション予測器が依存する分類器の精度にロバストな精度で,より正確な予測を行うことができることを示す。

Automated decision support systems promise to help human experts solve multiclass classification tasks more efficiently and accurately. However, existing systems typically require experts to understand when to cede agency to the system or when to exercise their own agency. Otherwise, the experts may be better off solving the classification tasks on their own. In this work, we develop an automated decision support system that, by design, does not require experts to understand when to trust the system to improve performance. Rather than providing (single) label predictions and letting experts decide when to trust these predictions, our system provides sets of label predictions constructed using conformal prediction$\unicode{x2014}$prediction sets$\unicode{x2014}$and forcefully asks experts to predict labels from these sets. By using conformal prediction, our system can precisely trade-off the probability that the true label is not in the prediction set, which determines how frequently our system will mislead the experts, and the size of the prediction set, which determines the difficulty of the classification task the experts need to solve using our system. In addition, we develop an efficient and near-optimal search method to find the conformal predictor under which the experts benefit the most from using our system. Simulation experiments using synthetic and real expert predictions demonstrate that our system may help experts make more accurate predictions and is robust to the accuracy of the classifier the conformal predictor relies on.
翻訳日:2023-07-03 16:11:28 公開日:2023-06-30
# 十分統計メモリAMP

Sufficient-Statistic Memory AMP ( http://arxiv.org/abs/2112.15327v4 )

ライセンス: Link先を確認
Lei Liu, Shunqi Huang, YuZhi Yang, Zhaoyang Zhang and Brian M. Kurkoski(参考訳) 近似メッセージパッシング(AMP)型アルゴリズムは、ある大きなランダム線形系の信号再構成に広く用いられている。 amp型アルゴリズムの重要な特徴は、そのダイナミクスが状態進化によって正しく記述できることである。 状態進化は有用な分析ツールであるが、その収束は保証されていない。 amp型アルゴリズムの収束問題を原理的に解くため,本論文では,ss-mampアルゴリズムのフレームワークとして,右一意不変なセンシング行列,リプシッツ連続局所プロセッサ,および十分統計制約(すなわち,各局所プロセッサの現在のメッセージは,現在与えられた信号ベクトルの十分統計量である)を条件として提案する。 SS-MAMPの共分散行列はLバンドで収束しており、Lipschitz-Continuousローカルプロセッサが与えられたAMP型アルゴリズムに対して(局所MMSE/LMMSEの観点から)最適なフレームワークであることを示す。 任意の MAMP が与えられると、減衰によって SS-MAMP を構築することができ、状態進化の収束を保証するだけでなく、直交性、すなわち状態進化によってその力学を正しく記述することができる。 副産物としてベイズ最適直交ベクトルAMP(BO-OAMP/VAMP)がSS-MAMPであることが証明される。 例えば、状態進化が最小(すなわちベイズ最適)平均二乗誤差(mse)に収束する十分統計的なベイズ最適マンプ(ss-bo-mamp)を構築し、それが一意な不動点を持つとき、レプリカ法によって予測される。 さらに、SS-BO-MAMPのMSEは、オリジナルのBO-MAMPよりも悪くはない。 最後に、理論結果を支持するシミュレーションが提供される。

Approximate message passing (AMP) type algorithms have been widely used in the signal reconstruction of certain large random linear systems. A key feature of the AMP-type algorithms is that their dynamics can be correctly described by state evolution. While state evolution is a useful analytic tool, its convergence is not guaranteed. To solve the convergence problem of the state evolution of AMP-type algorithms in principle, this paper proposes a sufficient-statistic memory AMP (SS-MAMP) algorithm framework under the conditions of right-unitarily invariant sensing matrices, Lipschitz-continuous local processors and the sufficient-statistic constraint (i.e., the current message of each local processor is a sufficient statistic of the signal vector given the current and all preceding messages). We show that the covariance matrices of SS-MAMP are L-banded and convergent, which is an optimal framework (from the local MMSE/LMMSE perspective) for AMP-type algorithms given the Lipschitz-continuous local processors. Given an arbitrary MAMP, we can construct an SS-MAMP by damping, which not only ensures the convergence of the state evolution, but also preserves the orthogonality, i.e., its dynamics can be correctly described by state evolution. As a byproduct, we prove that the Bayes-optimal orthogonal/vector AMP (BO-OAMP/VAMP) is an SS-MAMP. As an example, we construct a sufficient-statistic Bayes-optimal MAMP (SS-BO-MAMP) whose state evolution converges to the minimum (i.e., Bayes-optimal) mean square error (MSE) predicted by replica methods when it has a unique fixed point. In addition, the MSE of SS-BO-MAMP is not worse than the original BO-MAMP. Finally, simulations are provided to support the theoretical results.
翻訳日:2023-07-03 16:11:02 公開日:2023-06-30
# LTD:ロバスト対抗訓練のための低温蒸留

LTD: Low Temperature Distillation for Robust Adversarial Training ( http://arxiv.org/abs/2111.02331v3 )

ライセンス: Link先を確認
Erh-Chung Chen, Che-Rung Lee(参考訳) 敵のトレーニングは、敵の攻撃に対するニューラルネットワークモデルの堅牢性を高めるために広く使われている。 ニューラルネットワークモデルの人気にもかかわらず、これらのモデルの自然な精度と堅牢さの間には大きなギャップがある。 本稿では,このギャップの主な原因の1つとして,画像認識の学習過程を妨げる1ホットベクトルをラベルとして用いていることを挙げる。 1ホットベクトルによる曖昧な像の表現は不正確であり、モデルが最適でない解へと導く可能性がある。 そこで本研究では, 低温蒸留法 (LTD) を改良した知識蒸留フレームワークを用いて軟質ラベルを生成する手法を提案する。 従来のアプローチとは異なり、LTDは教師モデルでは比較的低温を使用し、教師モデルと生徒モデルでは温度が異なる。 この変更は、防御蒸留で対処された勾配マスキング問題に遭遇することなく、モデルの堅牢性を高める。 実験の結果,CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, それぞれ58.19%, 31.13%, 42.08%の堅牢な精度を達成し, 追加のラベル付きデータなしでLTD法の有効性を示した。

Adversarial training has been widely used to enhance the robustness of neural network models against adversarial attacks. Despite the popularity of neural network models, a significant gap exists between the natural and robust accuracy of these models. In this paper, we identify one of the primary reasons for this gap is the common use of one-hot vectors as labels, which hinders the learning process for image recognition. Representing ambiguous images with one-hot vectors is imprecise and may lead the model to suboptimal solutions. To overcome this issue, we propose a novel method called Low Temperature Distillation (LTD) that generates soft labels using the modified knowledge distillation framework. Unlike previous approaches, LTD uses a relatively low temperature in the teacher model and fixed, but different temperatures for the teacher and student models. This modification boosts the model's robustness without encountering the gradient masking problem that has been addressed in defensive distillation. The experimental results demonstrate the effectiveness of the proposed LTD method combined with previous techniques, achieving robust accuracy rates of 58.19%, 31.13%, and 42.08% on CIFAR-10, CIFAR-100, and ImageNet data sets, respectively, without additional unlabeled data.
翻訳日:2023-07-03 16:10:22 公開日:2023-06-30
# カタストロフィック・フォーミングを伴わない事前学習言語モデルのジェンダーフェアネスの改善

Improving Gender Fairness of Pre-Trained Language Models without Catastrophic Forgetting ( http://arxiv.org/abs/2110.05367v3 )

ライセンス: Link先を確認
Zahra Fatemi, Chen Xing, Wenhao Liu, Caiming Xiong(参考訳) 事前学習された言語モデルのジェンダーバイアスに対処する既存の研究は、通常、小さな性中立なデータセットを構築し、そのようなデータを用いてモデル上で第2フェーズ事前トレーニングを行う。 しかし、男女中立データの限られたサイズと集中的な焦点を考えると、第二期事前トレーニング中に破滅的な忘れが生じる。 元のトレーニングデータに情報を埋め込むことは、モデルの下流のパフォーマンスを大きなマージンで損なう可能性がある。 本研究では, GLUE の一般的な NLP タスクで評価することで, 破滅的な忘れが生じることを実証的に示す。 そこで本研究では,前訓練モデルの性公平性を改善するための新しい方法である性平等プロンプト(geep)を提案する。 GEEPは事前学習されたモデルを凍結し、性中立データを用いて性別関連プロンプトを学習する。 実験の結果,GEEPはジェンダーフェアネスのタスクにおいてSOTAのパフォーマンスを達成できるだけでなく,GLUEの性能も向上することがわかった。

Existing studies addressing gender bias of pre-trained language models, usually build a small gender-neutral data set and conduct a second phase pre-training on the model with such data. However, given the limited size and concentrated focus of the gender-neutral data, catastrophic forgetting would occur during second-phase pre-training. Forgetting information in the original training data may damage the model's downstream performance by a large margin. In this work, we empirically show that catastrophic forgetting occurs in such methods by evaluating them with general NLP tasks in GLUE. Then, we propose a new method, GEnder Equality Prompt (GEEP), to improve gender fairness of pre-trained models with less forgetting. GEEP freezes the pre-trained model and learns gender-related prompts with gender-neutral data. Empirical results show that GEEP not only achieves SOTA performances on gender fairness tasks, but also forgets less and performs better on GLUE by a large margin.
翻訳日:2023-07-03 16:09:59 公開日:2023-06-30
# 大気汚染に対する母体曝露のパーソナライズ効果を推定する不均一分散ラグモデル

Heterogeneous Distributed Lag Models to Estimate Personalized Effects of Maternal Exposures to Air Pollution ( http://arxiv.org/abs/2109.13763v3 )

ライセンス: Link先を確認
Daniel Mork, Marianthi-Anna Kioumourtzoglou, Marc Weisskopf, Brent A Coull, Ander Wilson(参考訳) 子どもの健康研究は、母親の環境暴露と子供の出生結果の関連を支持する。 共通する目標は、妊娠中の感受性期間の重要な窓を識別することであり、母性曝露と将来の予後との関係が高まることである。 臨界窓のタイミングと関係の規模は、個人、家族、近隣の特性の異なるレベルにおいて多様である可能性が高い。 コロラド州の出生コホートを用いて、妊娠中と出生体重中における毎週の被曝と微粒子物質(PM$_{2.5}$)の個別化の関係を推定した。 この目的を達成するために,分散ラグモデルとベイズ付加回帰木を組み合わせた統計的学習手法を提案する。 pm$_{2.5}$-出生体重関係における不均一性の証拠を見いだし、一部の母子ダイナドは、人口平均と比較してiqr曝露の増加(5.9~8.5$\mu g/m^3$pm$_{2.5}$)に対して出生体重の3倍の低下を示した。 特に,非ヒスパニック系母親の身体集団指数が高いか,教育的達成率が低いかの順応性が高まった。 私たちのケーススタディは、クリティカルウィンドウの最初の精密健康調査です。

Children's health studies support an association between maternal environmental exposures and children's birth outcomes. A common goal is to identify critical windows of susceptibility--periods during gestation with increased association between maternal exposures and a future outcome. The timing of the critical windows and magnitude of the associations are likely heterogeneous across different levels of individual, family, and neighborhood characteristics. Using an administrative Colorado birth cohort we estimate the individualized relationship between weekly exposures to fine particulate matter (PM$_{2.5}$) during gestation and birth weight. To achieve this goal, we propose a statistical learning method combining distributed lag models and Bayesian additive regression trees to estimate critical windows at the individual level and identify characteristics that induce heterogeneity from a high-dimensional set of potential modifying factors. We find evidence of heterogeneity in the PM$_{2.5}$-birth weight relationship, with some mother-child dyads showing a 3 times larger decrease in birth weight for an IQR increase in exposure (5.9 to 8.5 $\mu g/m^3$ PM$_{2.5}$) compared to the population average. Specifically, we find increased susceptibility for non-Hispanic mothers who are either younger, have higher body mass index or lower educational attainment. Our case study is the first precision health study of critical windows.
翻訳日:2023-07-03 16:09:39 公開日:2023-06-30
# 一級ノベルティ検出のためのプログレッシブガンス蒸留の新展開

New Perspective on Progressive GANs Distillation for One-class Novelty Detection ( http://arxiv.org/abs/2109.07295v3 )

ライセンス: Link先を確認
Zhiwei Zhang, Yu Dong, Hanyu Peng, Shifeng Chen(参考訳) 期待される通常のインスタンスと異なる分布を持つ異常なインスタンスを特定するために、一級ノベルティ検出を行う。 本稿では,Encoder-Decoder-Encoderスキーム(EDE-GAN)に基づくジェネレーティブ・アドバイサル・ネットワークにより,最先端の性能を実現する。 上記の目的を果たす要因は2つある。 1)EDE-GANは,画像間の再構成誤差を利用して,2つの潜伏ベクトル間の距離を異常スコアとして算出する。 2) バッチサイズが 1 に設定されると,モデルが最もよい結果が得られる。 それらの優位性を説明するため、我々は新しいGANアーキテクチャを設計し、異なるバッチサイズで性能を比較する。 さらに,実験が発見に繋がることにより,モデル学習を行う際に潜在空間にどの程度有益な制約があるかを示す証拠が得られた。 コンパクトかつ高速なモデルを学習するために, 設計した蒸留損失により2つの標準GANを接続する新しい技術であるプログレッシブ知識蒸留(P-KDGAN)を提案する。 2段階のプログレッシブ・ラーニングは学生のGANのパフォーマンスを継続的に向上させ、シングルステップのアプローチよりも改善する。 CIFAR-10, MNIST, FMNISTデータセットによる実験結果から, P-KDGANは, 計算率24.45:1, 311.11:1, 700:1をそれぞれ圧縮した場合に, 学生のGANの性能を2.44%, 1.77%, 1.73%向上させることがわかった。

One-class novelty detection is conducted to identify anomalous instances, with different distributions from the expected normal instances. In this paper, the Generative Adversarial Network based on the Encoder-Decoder-Encoder scheme (EDE-GAN) achieves state-of-the-art performance. The two factors bellow serve the above purpose: 1) The EDE-GAN calculates the distance between two latent vectors as the anomaly score, which is unlike the previous methods by utilizing the reconstruction error between images. 2) The model obtains best results when the batch size is set to 1. To illustrate their superiority, we design a new GAN architecture, and compare performances according to different batch sizes. Moreover, with experimentation leads to discovery, our result implies there is also evidence of just how beneficial constraint on the latent space are when engaging in model training. In an attempt to learn compact and fast models, we present a new technology, Progressive Knowledge Distillation with GANs (P-KDGAN), which connects two standard GANs through the designed distillation loss. Two-step progressive learning continuously augments the performance of student GANs with improved results over single-step approach. Our experimental results on CIFAR-10, MNIST, and FMNIST datasets illustrate that P-KDGAN improves the performance of the student GAN by 2.44%, 1.77%, and 1.73% when compressing the computationat ratios of 24.45:1, 311.11:1, and 700:1, respectively.
翻訳日:2023-07-03 16:09:17 公開日:2023-06-30
# ベイズ語の学習規則

The Bayesian Learning Rule ( http://arxiv.org/abs/2107.04562v3 )

ライセンス: Link先を確認
Mohammad Emtiyaz Khan and H{\aa}vard Rue(参考訳) 多くの機械学習アルゴリズムがベイズ学習則と呼ばれる単一のアルゴリズムの特定の例であることを示す。 この規則はベイズ原理から派生したもので、最適化、ディープラーニング、グラフィカルモデルといった分野から幅広いアルゴリズムを導出する。 これにはリッジ回帰、ニュートン法、カルマンフィルタのような古典的なアルゴリズムや、確率勾配降下、rmsprop、ドロップアウトといった現代のディープラーニングアルゴリズムが含まれる。 このようなアルゴリズムを導出する鍵となるアイデアは、自然勾配を用いて推定された候補分布を用いて後部を近似することである。 異なる候補分布は異なるアルゴリズムとなり、さらに自然勾配への近似はそれらのアルゴリズムの変種を引き起こす。 私たちの仕事は、既存のアルゴリズムを統一、一般化、改善するだけでなく、新しいアルゴリズムの設計にも役立ちます。

We show that many machine-learning algorithms are specific instances of a single algorithm called the Bayesian learning rule. The rule, derived from Bayesian principles, yields a wide-range of algorithms from fields such as optimization, deep learning, and graphical models. This includes classical algorithms such as ridge regression, Newton's method, and Kalman filter, as well as modern deep-learning algorithms such as stochastic-gradient descent, RMSprop, and Dropout. The key idea in deriving such algorithms is to approximate the posterior using candidate distributions estimated by using natural gradients. Different candidate distributions result in different algorithms and further approximations to natural gradients give rise to variants of those algorithms. Our work not only unifies, generalizes, and improves existing algorithms, but also helps us design new ones.
翻訳日:2023-07-03 16:08:25 公開日:2023-06-30
# 確率最適化のためのコーシーランダム摂動を用いた勾配平滑化関数アルゴリズム

A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random Perturbations for Stochastic Optimization ( http://arxiv.org/abs/2208.00290v4 )

ライセンス: Link先を確認
Akash Mondal, Prashanth L. A., Shalabh Bhatnagar(参考訳) 本稿では,ノイズのあるコストサンプルに対する期待値である滑らかな目的関数を最小化するための確率的勾配アルゴリズムを提案する。 提案アルゴリズムでは, デルタ球面から発生する散乱コーシー分布を用いて, ランダム摂動を用いた勾配推定手法を用いる。 提案した勾配推定器のバイアスとばらつきを解析する。 本アルゴリズムは, 目的関数が凸でない場合, パラメータ次元が高い場合に特に有用であることがわかった。 漸近収束解析により、我々のアルゴリズムは目的関数の定常点の集合にほぼ確実に収束し、漸近収束率を得る。 また,本アルゴリズムは不安定な平衡を回避し,局所最小値への収束を示唆することを示す。 さらに,本アルゴリズムの非漸近収束解析を行う。 特に、ここでは非凸目的関数のエプシロン定常点を見つけるための非漸近境界を確立する。 最後に,GSF,SPSA,RDSAの性能が,いくつかの非凸設定よりもかなり優れており,その性能が凸(ノイズ)目標よりも優れていることをシミュレーションにより数値的に示す。

In this paper, we present a stochastic gradient algorithm for minimizing a smooth objective function that is an expectation over noisy cost samples, and only the latter are observed for any given parameter. Our algorithm employs a gradient estimation scheme with random perturbations, which are formed using the truncated Cauchy distribution from the delta sphere. We analyze the bias and variance of the proposed gradient estimator. Our algorithm is found to be particularly useful in the case when the objective function is non-convex, and the parameter dimension is high. From an asymptotic convergence analysis, we establish that our algorithm converges almost surely to the set of stationary points of the objective function and obtains the asymptotic convergence rate. We also show that our algorithm avoids unstable equilibria, implying convergence to local minima. Further, we perform a non-asymptotic convergence analysis of our algorithm. In particular, we establish here a non-asymptotic bound for finding an epsilon-stationary point of the non-convex objective function. Finally, we demonstrate numerically through simulations that the performance of our algorithm outperforms GSF, SPSA, and RDSA by a significant margin over a few non-convex settings and further validate its performance over convex (noisy) objectives.
翻訳日:2023-07-03 16:03:24 公開日:2023-06-30
# 重み制約付き最短経路問題に対する拡張法

Enhanced Methods for the Weight Constrained Shortest Path Problem ( http://arxiv.org/abs/2207.14744v2 )

ライセンス: Link先を確認
Saman Ahmadi, Guido Tack, Daniel Harabor, Philip Kilby, Mahdi Jalili(参考訳) 制約付きパスフィンディングの古典的な問題は、コミュニケーションや輸送などさまざまな分野の幅広い応用を持つAIにおいて、十分に研究されているが難しいトピックである。 WCSPP (Weight Constrained Shortest Path Problem) は、制約付きパスフィニングの基本的な形式であり、一方の制約のみで、重量/資源使用量に制限のあるコスト最適化パスを計画することを目的としている。 この問題の双基準性(すなわちパスのコストと重みを扱う)を考えると、WCSPPに対処する手法は双対象探索に共通する性質を持つ。 本稿では,制約付きパスフィンディングと双対象探索の両方において最近の最先端技術を活用し,A*探索に基づくWCSPPに対する2つの新しい解法を提案する。 我々は,大規模で現実的な問題インスタンス上でのアルゴリズムの性能を実証的に評価し,時間と空間の両方で最先端のアルゴリズムに対して優位性を示す。 本稿では,A*を用いた制約探索における優先度待ち行列の重要性についても検討する。 本稿では,実数グラフとランダム化グラフの両方について,結束のないバケット型キューが,a*型bi-criteria探索のアルゴリズム性能を効果的に改善できることを示す。

The classic problem of constrained pathfinding is a well-studied, yet challenging, topic in AI with a broad range of applications in various areas such as communication and transportation. The Weight Constrained Shortest Path Problem (WCSPP), the base form of constrained pathfinding with only one side constraint, aims to plan a cost-optimum path with limited weight/resource usage. Given the bi-criteria nature of the problem (i.e., dealing with the cost and weight of paths), methods addressing the WCSPP have some common properties with bi-objective search. This paper leverages the recent state-of-the-art techniques in both constrained pathfinding and bi-objective search and presents two new solution approaches to the WCSPP on the basis of A* search, both capable of solving hard WCSPP instances on very large graphs. We empirically evaluate the performance of our algorithms on a set of large and realistic problem instances and show their advantages over the state-of-the-art algorithms in both time and space metrics. This paper also investigates the importance of priority queues in constrained search with A*. We show with extensive experiments on both realistic and randomised graphs how bucket-based queues without tie-breaking can effectively improve the algorithmic performance of exhaustive A*-based bi-criteria searches.
翻訳日:2023-07-03 16:02:58 公開日:2023-06-30
# 開量子系における安定バイポーラロン

Stable bipolarons in open quantum systems ( http://arxiv.org/abs/2207.08243v2 )

ライセンス: Link先を確認
Mattia Moroder, Martin Grundner, Fran\c{c}ois Damanet, Ulrich Schollw\"ock, Sam Mardazad, Stuart Flannigan, Thomas K\"ohler, Sebastian Paeckel(参考訳) 数値的な手法の最近の進歩は、量子化された格子振動に結合した電子の理解を著しく推し進めた。 この段階では、物理的に避けられない環境の影響も考慮しておくことがますます重要になる。 特に,強い電子-フォノン結合を特徴とする多種多様な物質を散逸環境に接触させてモデル化したハバード・ホルシュタイン・ハミルトンの輸送特性について検討した。 一次元かつ孤立な場合でさえ、そのような系の量子力学を高い精度でシミュレートすることは、フォニックヒルベルト空間の無限次元性のために非常に困難である。 このため,このような系のコンダクタンス特性に対する散逸の影響は系統的に検討されていない。 純粋状態法の非マルコフ階層とマルコフ量子ジャンプ法と、新しく導入された投影された密度行列再正規化群を組み合わせることで、散逸量子多体系に対する強力なテンソルネットワーク法を作成する。 その数値的性質を調べると、従来のテンソルネットワーク技術と比較して、最大で$\sim 30$という大きなスピードアップが見出される。 これらの手法を散逸性クエンチェの研究に適用し,バイポーラロンの形成,安定性,準粒子特性の深い理解を目指している。 驚くべきことに、金属相の散逸は間接量子ゼノン効果を想起させるバイポーラロンを局在化する。 しかし、バイポーラロン結合エネルギーは強い散逸の存在下でも主に影響を受けておらず、顕著なバイポーラロン安定性を示す。 これらの結果は、フォノンを媒介とする超伝導の高-$t_\mathrm{c}$を実材料として設計する問題に光を当てた。

Recent advances in numerical methods significantly pushed forward the understanding of electrons coupled to quantized lattice vibrations. At this stage, it becomes increasingly important to also account for the effects of physically inevitable environments. In particular, we study the transport properties of the Hubbard-Holstein Hamiltonian that models a large class of materials characterized by strong electron-phonon coupling, in contact with a dissipative environment. Even in the one-dimensional and isolated case, simulating the quantum dynamics of such a system with high accuracy is very challenging due to the infinite dimensionality of the phononic Hilbert spaces. For this reason, the effects of dissipation on the conductance properties of such systems have not been investigated systematically so far. We combine the non-Markovian hierarchy of pure states method and the Markovian quantum jumps method with the newly introduced projected purified density-matrix renormalization group, creating powerful tensor-network methods for dissipative quantum many-body systems. Investigating their numerical properties, we find a significant speedup up to a factor $\sim 30$ compared to conventional tensor-network techniques. We apply these methods to study dissipative quenches, aiming for an in-depth understanding of the formation, stability, and quasi-particle properties of bipolarons. Surprisingly, our results show that in the metallic phase dissipation localizes the bipolarons, which is reminiscent of an indirect quantum Zeno effect. However, the bipolaronic binding energy remains mainly unaffected, even in the presence of strong dissipation, exhibiting remarkable bipolaron stability. These findings shed light on the problem of designing real materials exhibiting phonon-mediated high-$T_\mathrm{C}$ superconductivity.
翻訳日:2023-07-03 16:02:04 公開日:2023-06-30
# 次の購入予測のための逐次レコメンデーションモデル

Sequential Recommendation Model for Next Purchase Prediction ( http://arxiv.org/abs/2207.06225v2 )

ライセンス: Link先を確認
Xin Chen, Alex Reibman, Sanjay Arora(参考訳) 現代のデジタルマーケティング体験を提供する際に、タイムラインと推奨のコンテキストの正確さがますます重要になっている。 従来のレコメンデーションシステム(rs)は、過去の購入を考慮し、関連するが時間不変な項目をユーザに提案している。 これらのレコメンデーションは、購入直前の顧客の特定のニーズよりも、顧客の一般的な嗜好にのみ対応します。 対照的に、進化する好みを測定するためのトランザクション、購入、または経験の順番を考えるrssは、顧客に対してより有意義で効果的な推奨を提供する: 逐次rssは、ユーザの現在のニーズに対するより優れた行動的理解から利益を得るだけでなく、予測力も得る。 本稿では,46Kカード保有者を対象とした270万枚以上のクレジットカード取引データを用いて,シーケンシャルレコメンデーションシステムの有効性を実証・ランク付けする。 まず、生のトランザクションデータにオートエンコーダを使用し、観測されたトランザクションエンコーディングをGRUベースのシーケンシャルモデルに送信する。 シーケンシャルモデルは、既存の研究に従って、サンプル外テストセットでMAP@1メトリックの47%を生成する。 また,スケーラブルで低レイテンシ,イベントベースのディジタルエクスペリエンスアーキテクチャであるnexusにシーケンシャルrsを用いたリアルタイム予測を組み込むことの意味についても論じる。

Timeliness and contextual accuracy of recommendations are increasingly important when delivering contemporary digital marketing experiences. Conventional recommender systems (RS) suggest relevant but time-invariant items to users by accounting for their past purchases. These recommendations only map to customers' general preferences rather than a customer's specific needs immediately preceding a purchase. In contrast, RSs that consider the order of transactions, purchases, or experiences to measure evolving preferences can offer more salient and effective recommendations to customers: Sequential RSs not only benefit from a better behavioral understanding of a user's current needs but also better predictive power. In this paper, we demonstrate and rank the effectiveness of a sequential recommendation system by utilizing a production dataset of over 2.7 million credit card transactions for 46K cardholders. The method first employs an autoencoder on raw transaction data and submits observed transaction encodings to a GRU-based sequential model. The sequential model produces a MAP@1 metric of 47% on the out-of-sample test set, in line with existing research. We also discuss implications for embedding real-time predictions using the sequential RS into Nexus, a scalable, low-latency, event-based digital experience architecture.
翻訳日:2023-07-03 16:01:30 公開日:2023-06-30
# 超伝導回路用高忠実量子ゲート

High-Fidelity Qutrit Entangling Gates for Superconducting Circuits ( http://arxiv.org/abs/2206.07216v3 )

ライセンス: Link先を確認
Noah Goss, Alexis Morvan, Brian Marinelli, Bradley K. Mitchell, Long B. Nguyen, Ravi K. Naik, Larry Chen, Christian J\"unger, John Mark Kreikebaum, David I. Santiago, Joel J. Wallman, Irfan Siddiqi(参考訳) 超伝導デバイスにおける第三次量子情報処理は、より大きく、より接続された計算空間を通じて、より人気のある二進法に代わる有望な代替手段となり、量子シミュレーションと誤り訂正の利点が提案される。 一般には量子ビットとして動作するが、トランスモンは容易に高いレベルに対応可能であり、量子3レベルシステム(qutrits)として動作するための自然な候補となる。 トランスモンデバイスにおける最近の研究は、高忠実度単一クォート動作を実現している。 それでも、トランスモン装置におけるクトリット処理を実現する上では、忠実度の高い2量子エンタングルメントを効果的に設計することが重要な課題である。 本研究では,2つの固定周波数トランスモン量子ビット間のフレキシブル,マイクロ波活性化,動的クロスカーエンタングルを実装するために,差分ACスタークシフトを適用して,トランスモン量子ビットとZZ$の相互作用を行う。 この相互作用を用いて効率良く高精度なクトリット cz$^\dag$ と cz ゲートを設計、それぞれ 97.3(1)% と 95.2(3)% と推定し、マルチトランスポートデバイス上でクトリットを操作するための重要なステップである。

Ternary quantum information processing in superconducting devices poses a promising alternative to its more popular binary counterpart through larger, more connected computational spaces and proposed advantages in quantum simulation and error correction. Although generally operated as qubits, transmons have readily addressable higher levels, making them natural candidates for operation as quantum three-level systems (qutrits). Recent works in transmon devices have realized high fidelity single qutrit operation. Nonetheless, effectively engineering a high-fidelity two-qutrit entanglement remains a central challenge for realizing qutrit processing in a transmon device. In this work, we apply the differential AC Stark shift to implement a flexible, microwave-activated, and dynamic cross-Kerr entanglement between two fixed-frequency transmon qutrits, expanding on work performed for the $ZZ$ interaction with transmon qubits. We then use this interaction to engineer efficient, high-fidelity qutrit CZ$^\dag$ and CZ gates, with estimated process fidelities of 97.3(1)% and 95.2(3)% respectively, a significant step forward for operating qutrits on a multi-transmon device.
翻訳日:2023-07-03 16:01:12 公開日:2023-06-30
# Plurality Veto: 最適なメトリック歪みを実現するシンプルな投票ルール

Plurality Veto: A Simple Voting Rule Achieving Optimal Metric Distortion ( http://arxiv.org/abs/2206.07098v2 )

ライセンス: Link先を確認
Fatih Erdem Kizilkaya and David Kempe(参考訳) 計量歪みフレームワークは、n人の有権者とm人の候補者が互いにメートル法空間に埋め込まれており、投票者がそれに近い候補者をランク付けすることを示している。 投票規則の目的は、投票者までの距離が最小の候補者を選ぶことである。 その結果、最悪の場合、各決定論的ルールは、全距離が最適なものよりも少なくとも3倍大きい候補、すなわち少なくとも3倍の歪みを持つ候補を選択する。 最近のブレークスルーの結果、この3の限界を達成することは可能であることが示されているが、証明は非構成的であり、投票ルール自体が複雑な徹底的な探索である。 我々の主な結果は、Plurality Vetoと呼ばれる非常に単純な投票規則であり、これは3の最適歪みを達成している。 各候補者は1位の得票数に等しいスコアでスタートする。 これらのスコアは、候補がスコアが0に達したときにドロップアウトするnラウンドベトプロセスによって徐々に減少する。 次から次へと、有権者は最下位の候補のうち最下位のスコアを割り出し、最後の候補が勝利する。 この投票規則が歪み 3 を達成することを1パラグラフで証明する。 このルールは極めて実用的であり、各投票者に対して2つのクエリしか行わないため、通信オーバーヘッドが低い。 また、複数のvetoをランダム化された投票ルールのクラスに一般化する: 複数のvetoは、k < n ラウンドに対してのみ実行され、残りのスコアに比例する確率で候補が選択される。 この一般規則はランダムディクターシップ(k=0 の場合)と Plurality Veto(k=n-1 の場合)を補間し、k は出力の分散を制御する。 すべての k に対して、この規則は最大で 3 つの歪みを持つ。

The metric distortion framework posits that n voters and m candidates are jointly embedded in a metric space such that voters rank candidates that are closer to them higher. A voting rule's purpose is to pick a candidate with minimum total distance to the voters, given only the rankings, but not the actual distances. As a result, in the worst case, each deterministic rule picks a candidate whose total distance is at least three times larger than that of an optimal one, i.e., has distortion at least 3. A recent breakthrough result showed that achieving this bound of 3 is possible; however, the proof is non-constructive, and the voting rule itself is a complicated exhaustive search. Our main result is an extremely simple voting rule, called Plurality Veto, which achieves the same optimal distortion of 3. Each candidate starts with a score equal to his number of first-place votes. These scores are then gradually decreased via an n-round veto process in which a candidate drops out when his score reaches zero. One after the other, voters decrement the score of their bottom choice among the standing candidates, and the last standing candidate wins. We give a one-paragraph proof that this voting rule achieves distortion 3. This rule is also immensely practical, and it only makes two queries to each voter, so it has low communication overhead. We also generalize Plurality Veto into a class of randomized voting rules in the following way: Plurality veto is run only for k < n rounds; then, a candidate is chosen with probability proportional to his residual score. This general rule interpolates between Random Dictatorship (for k=0) and Plurality Veto (for k=n-1), and k controls the variance of the output. We show that for all k, this rule has distortion at most 3.
翻訳日:2023-07-03 16:00:48 公開日:2023-06-30
# ユーザレベルのプライバシに基づくヒストグラム推定のためのバウンディングコントリビューションアルゴリズム

Algorithms for bounding contribution for histogram estimation under user-level privacy ( http://arxiv.org/abs/2206.03008v2 )

ライセンス: Link先を確認
Yuhan Liu, Ananda Theertha Suresh, Wennan Zhu, Peter Kairouz, Marco Gruteser(参考訳) ユーザレベルの差分プライバシに基づくヒストグラム推定の問題について検討し,その目的は,ユーザのすべてのエントリのプライバシを維持することである。 ユーザ毎にデータの量が異なる異種シナリオを考察する。 このシナリオでは、差分プライバシーを得るためにヒストグラムに注入されるノイズの量は最大ユーザの貢献に比例する。 これを回避する1つのアプローチは、各ユーザのヒストグラムへの貢献を束縛(あるいは制限)することである。 しかし、ユーザーが少額の貢献に制限された場合、かなりの量のデータが破棄される。 本研究では,境界領域と非境界領域の両方において,ヒストグラム推定に最適なユーザ貢献度を選択するアルゴリズムを提案する。 ドメインのサイズが制限されている場合は、後から見て最善の貢献に対してほぼ近似を達成するユーザ貢献バウンディング戦略を提案する。 本研究では,非有界領域ヒストグラム推定法として,最適寄与度に対する対数近似アルゴリズムを提案する。 この結果は、データに対する分布の仮定なしに成り立つ。 実データと合成データの両方における実験は、理論的な知見を検証し、アルゴリズムの有効性を実証する。 また,境界ユーザの貢献によって引き起こされるクリップングバイアスは,独立した関心を持つような軽度分布仮定の下で低減できることを示した。

We study the problem of histogram estimation under user-level differential privacy, where the goal is to preserve the privacy of all entries of any single user. We consider the heterogeneous scenario where the quantity of data can be different for each user. In this scenario, the amount of noise injected into the histogram to obtain differential privacy is proportional to the maximum user contribution, which can be amplified by few outliers. One approach to circumvent this would be to bound (or limit) the contribution of each user to the histogram. However, if users are limited to small contributions, a significant amount of data will be discarded. In this work, we propose algorithms to choose the best user contribution bound for histogram estimation under both bounded and unbounded domain settings. When the size of the domain is bounded, we propose a user contribution bounding strategy that almost achieves a two-approximation with respect to the best contribution bound in hindsight. For unbounded domain histogram estimation, we propose an algorithm that is logarithmic-approximation with respect to the best contribution bound in hindsight. This result holds without any distribution assumptions on the data. Experiments on both real and synthetic datasets verify our theoretical findings and demonstrate the effectiveness of our algorithms. We also show that clipping bias introduced by bounding user contribution may be reduced under mild distribution assumptions, which can be of independent interest.
翻訳日:2023-07-03 16:00:17 公開日:2023-06-30
# メトリクスの再ロード:画像分析検証の推奨

Metrics reloaded: Recommendations for image analysis validation ( http://arxiv.org/abs/2206.01653v6 )

ライセンス: Link先を確認
Lena Maier-Hein, Annika Reinke, Patrick Godau, Minu D. Tizabi, Florian B\"uttner, Evangelia Christodoulou, Ben Glocker, Fabian Isensee, Jens Kleesiek, Michal Kozubek, Mauricio Reyes, Michael A. Riegler, Manuel Wiesenfarth, A. Emre Kavur, Carole H. Sudre, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, A. Tim R\"adsch, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel Benis, Matthew Blaschko, M. Jorge Cardoso, Veronika Cheplygina, Beth A. Cimini, Gary S. Collins, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Robert Haase, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Florian Kofler, Annette Kopp-Schneider, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, Jens Petersen, Nasir Rajpoot, Nicola Rieke, Julio Saez-Rodriguez, Clara I. S\'anchez, Shravya Shetty, Maarten van Smeden, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Paul F. J\"ager(参考訳) 機械学習(ML)アルゴリズム検証の欠陥が過小評価されているグローバルな問題であることを示す証拠が増加する。 特に自動バイオメディカル画像解析において、選択されたパフォーマンス指標は、しばしばドメインの関心を反映せず、科学的な進歩を適切に測定できず、ML技術の実践的な翻訳を妨げる。 これを解決するために、当社の大手国際専門家コンソーシアムは、メトリクスの選択を問題視する研究者を導く包括的なフレームワークであるmetrics reloadedを作成しました。 アプリケーションドメイン間のML方法論の収束に続いて、Metrics Reloadedは検証方法論の収束を促進する。 このフレームワークは多段階のDelphiプロセスで開発され、問題指紋(問題指紋)という新しい概念に基づいており、ドメインの関心事からターゲット構造の性質、データセット、アルゴリズムの出力まで、メートル法選択に関連するすべての側面をキャプチャする、与えられた問題の構造化された表現である。 問題の指紋に基づいて、ユーザは潜在的な落とし穴を認識しながら適切な検証指標を選択し、適用するプロセスを通じてガイドされる。 Metrics Reloadedは画像、オブジェクト、ピクセルレベルでの分類タスク、すなわち画像レベルの分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションタスクとして解釈できるイメージ分析の問題をターゲットにしている。 ユーザエクスペリエンスを改善するために、私たちはMetrics Reloadedオンラインツールにフレームワークを実装しました。 各種の生物学的・医学的画像解析症例のインスタンス化により, ドメイン間のフレームワークの広範な適用性を実証した。

Increasing evidence shows that flaws in machine learning (ML) algorithm validation are an underestimated global problem. Particularly in automatic biomedical image analysis, chosen performance metrics often do not reflect the domain interest, thus failing to adequately measure scientific progress and hindering translation of ML techniques into practice. To overcome this, our large international expert consortium created Metrics Reloaded, a comprehensive framework guiding researchers in the problem-aware selection of metrics. Following the convergence of ML methodology across application domains, Metrics Reloaded fosters the convergence of validation methodology. The framework was developed in a multi-stage Delphi process and is based on the novel concept of a problem fingerprint - a structured representation of the given problem that captures all aspects that are relevant for metric selection, from the domain interest to the properties of the target structure(s), data set and algorithm output. Based on the problem fingerprint, users are guided through the process of choosing and applying appropriate validation metrics while being made aware of potential pitfalls. Metrics Reloaded targets image analysis problems that can be interpreted as a classification task at image, object or pixel level, namely image-level classification, object detection, semantic segmentation, and instance segmentation tasks. To improve the user experience, we implemented the framework in the Metrics Reloaded online tool, which also provides a point of access to explore weaknesses, strengths and specific recommendations for the most common validation metrics. The broad applicability of our framework across domains is demonstrated by an instantiation for various biological and medical image analysis use cases.
翻訳日:2023-07-03 15:59:51 公開日:2023-06-30
# 2つのパラメトリック駆動機械モードを持つ光学系における負の空洞光子スペクトル関数

Negative cavity photon spectral function in an optomechanical system with two parametrically-driven mechanical modes ( http://arxiv.org/abs/2205.15314v2 )

ライセンス: Link先を確認
Ali Motazedifard, A. Dalafi and M. H. Naderi(参考訳) 負の吸収に等価な負の空洞光子スペクトル関数(CPSF)を実現するための実験的に実現可能な光学的手法を提案する。 検討中のシステムは、バネ係数のコヒーレント時間変調を通じてパラメトリック駆動しながら、放射圧を介して共通のキャビティモードと線形に結合する2つのメカニカル(フォノニック)モードからなる光力学系である。 一般化線形応答理論の枠組みで得られたキャビティ遅延グリーン関数の運動方程式を用いて, 負のCPSFに対応する周波数依存性有効キャビティ減衰率(ECDR)は, 系の安定な状態にある間に, 協調性と変調パラメータを制御して実現できることを示した。 それにもかかわらず、オプトメカニカルゲインとして働くそのような負性性は、標準的な(変調されていない素の)キャビティオトメカニカルシステムでは決して発生しない。 また,2つの変調メカニカル自由度の存在は,単一の変調メカニカル発振器のセットアップと比較して,cpsfのネガティビティの大きさと帯域幅よりも制御性が高いことがわかった。 興味深いことに、導入されたネガティビティは、光学トランジスタとして使用できるスイッチ可能な帯域幅を持つ完全な波長可変光機械フィルタにつながる(出力で入力信号が増幅される)異常な(修正された)光機械的に誘起される透明性を実現するための新しいプラットフォームを開くかもしれない。

We propose an experimentally feasible optomechanical scheme to realize a negative cavity photon spectral function (CPSF) which is equivalent to a negative absorption. The system under consideration is an optomechanical system consisting of two mechanical (phononic) modes which are linearly coupled to a common cavity mode via the radiation pressure while parametrically driven through the coherent time-modulation of their spring coefficients. Using the equations of motion for the cavity retarded Green's function obtained in the framework of the generalized linear response theory, we show that in the red-detuned and weak-coupling regimes a frequency-dependent effective cavity damping rate (ECDR) corresponding to a negative CPSF can be realized by controlling the cooperativities and modulation parameters while the system still remains in the stable regime. Nevertheless, such a negativity which acts as an optomechanical gain never occurs in a standard (an unmodulated bare) cavity optomechanical system. Besides, we find that the presence of two modulated mechanical degrees of freedom provides more controllability over the magnitude and bandwidth of the negativity of CPSF, in comparison to the setup with a single modulated mechanical oscillator. Interestingly, the introduced negativity may open a new platform to realize an extraordinary (modified) optomechanically induced transparency (in which the input signal is amplified in the output) leading to a perfect tunable optomechanical filter with switchable bandwidth which can be used as an optical transistor.
翻訳日:2023-07-03 15:59:23 公開日:2023-06-30
# マルチUAV制御による信頼性・エネルギー効率の高いモバイルアクセスのための協調的マルチエージェント深層強化学習

Cooperative Multi-Agent Deep Reinforcement Learning for Reliable and Energy-Efficient Mobile Access via Multi-UAV Control ( http://arxiv.org/abs/2210.00945v2 )

ライセンス: Link先を確認
Chanyoung Park, Soohyun Park, Soyi Jung, Carlos Cordeiro, and Joongheon Kim(参考訳) 本稿では,複数の無人航空機(UAV)の協調作業(UAVが移動基地局として機能する)のための,MADRLに基づく新しい位置決めアルゴリズムについて述べる。 提案アルゴリズムの主な目的は、セルラー車間通信(C-V2X)のための信頼性の高い移動アクセスネットワークを確立することで、高品質なインテリジェントトランスポートシステム(ITS)の実現を容易にすることである。 信頼できるモバイルアクセスサービスは、以下の2つの方法で実現できる。 一 エネルギー効率のよいuav運転及び 二 信頼できる無線通信サービス エネルギー効率のよいUAV運用において,提案アルゴリズムの報奨は,効率的な運用を実現するために,UAVエネルギー消費モデルの特徴を含む。 さらに、信頼性の高い無線通信サービスでは、個々のユーザのqos(quality of service)要件が報奨の一部として考慮され、60ghzmm波無線がモバイルアクセスに使用される。 本稿では、60GHzmmWaveアクセスによる利点の活用について考察する。 一 マルチGbps高速通信のための超広帯域 二 密集したユーザにとって明らかな空間再利用のための高方向性通信 最後に,マルチUAV位置決めのためのMADRLに基づくアルゴリズムの総合的およびデータ集約的な性能評価を行った。 これらの評価の結果,提案手法が既存のアルゴリズムよりも優れていることがわかった。

This paper addresses a novel multi-agent deep reinforcement learning (MADRL)-based positioning algorithm for multiple unmanned aerial vehicles (UAVs) collaboration (i.e., UAVs work as mobile base stations). The primary objective of the proposed algorithm is to establish dependable mobile access networks for cellular vehicle-to-everything (C-V2X) communication, thereby facilitating the realization of high-quality intelligent transportation systems (ITS). The reliable mobile access services can be achieved in following two ways, i.e., i) energy-efficient UAV operation and ii) reliable wireless communication services. For energy-efficient UAV operation, the reward of our proposed MADRL algorithm contains the features for UAV energy consumption models in order to realize efficient operations. Furthermore, for reliable wireless communication services, the quality of service (QoS) requirements of individual users are considered as a part of rewards and 60GHz mmWave radio is used for mobile access. This paper considers the 60GHz mmWave access for utilizing the benefits of i) ultra-wide-bandwidth for multi-Gbps high-speed communications and ii) high-directional communications for spatial reuse that is obviously good for densely deployed users. Lastly, the comprehensive and data-intensive performance evaluation of the proposed MADRL-based algorithm for multi-UAV positioning is conducted in this paper. The results of these evaluations demonstrate that the proposed algorithm outperforms other existing algorithms.
翻訳日:2023-07-03 15:50:57 公開日:2023-06-30
# 量子エラー低減

Quantum Error Mitigation ( http://arxiv.org/abs/2210.00921v2 )

ライセンス: Link先を確認
Zhenyu Cai, Ryan Babbush, Simon C. Benjamin, Suguru Endo, William J. Huggins, Ying Li, Jarrod R. McClean, Thomas E. O'Brien(参考訳) 量子コンピュータが実世界の問題をうまく解くためには、ノイズの課題、すなわち不完全な相互作用によって基本的な物理コンポーネントで発生するエラーに取り組む必要がある。 量子フォールトトレランスの理論は、長期的には答えを与えることができるが、今後の 'NISQ' マシンでは、エラーを完全に除去するよりも、エラーを軽減する必要がある。 本稿では、量子エラー軽減のために提案された様々な手法を調査し、その原理的有効性を評価し、これまでに達成されたハードウェア実証について述べる。 提案手法の共通点と制限点を同定し,アルゴリズム的誤りを含む主要なノイズの種類に応じて緩和方法を選択する方法について述べる。 この分野のオープンな問題は特定され、科学とビジネスに影響を与える量子的優位性をもたらすことができる緩和ベースのデバイスの実現の可能性について論じる。

For quantum computers to successfully solve real-world problems, it is necessary to tackle the challenge of noise: the errors which occur in elementary physical components due to unwanted or imperfect interactions. The theory of quantum fault tolerance can provide an answer in the long term, but in the coming era of `NISQ' machines we must seek to mitigate errors rather than completely remove them. This review surveys the diverse methods that have been proposed for quantum error mitigation, assesses their in-principle efficacy, and then describes the hardware demonstrations achieved to date. We identify the commonalities and limitations among the methods, noting how mitigation methods can be chosen according to the primary type of noise present, including algorithmic errors. Open problems in the field are identified and we discuss the prospects for realising mitigation-based devices that can deliver quantum advantage with an impact on science and business.
翻訳日:2023-07-03 15:50:36 公開日:2023-06-30
# 合成湾曲時空における重力レンズと機械的波動のトンネル

Gravitational lensing and tunneling of mechanical waves in synthetic curved spacetime ( http://arxiv.org/abs/2210.00464v2 )

ライセンス: Link先を確認
Sayan Jana, Lea Sirota(参考訳) 古典的形式主義においては、光がなくても、重力によってその近傍から逃れることはできないため、ブラックホールは我々の宇宙に存在する最も興味深い天体であると考えられている。 重力ポテンシャルは、重力レンズで知られている穴に向かって光を曲げる。 本稿では,不均質なノルダル傾きプロファイルを持つワイル半金属の類似凝縮物形式に基づく,機械回路のラボスケールの2次元ネットワークにおいて,この現象を合成的に実現する。 基礎となるネットワーク結合のいくつかは不安定で非相互的であり、全体の安定化された構造に埋め込まれたアクティブフィードバック相互作用によって実装されている。 ファンネルのようなポテンシャルをプログラムしてネットワークを通して機械的波束を伝播させ、円の中心に向かって波を曲げることによるレンズリングの実証を行った。 次に、ホーキング放射と呼ばれる事象地平線を通して粒子の量子トンネルを模倣するように再プログラミングし、ホール内の元の質量損失率に例外的に対応させることで、プラットフォームの汎用性を実証する。 ネットワーク結合とポテンシャルは、他の曲率や関連する相対論的現象を実現するためにさらに再プログラムすることができる。

Black holes are considered among the most fascinating objects that exist in our universe, since in the classical formalism nothing, even no light, can escape from their vicinity due to gravity. The gravitational potential causes the light to bend towards the hole, which is known by gravitational lensing. Here we present a synthetic realization of this phenomenon in a lab-scale two-dimensional network of mechanical circuits, based on analogous condensed matter formalism of Weyl semimetals with inhomogeneous nodal tilt profiles. Some of the underlying network couplings turn out as unstable and non-reciprocal, and are implemented by embedded active feedback interactions in an overall stabilized structure. We demonstrate the lensing by propagating mechanical wavepackets through the network with a programmed funnel-like potential, achieving wave bending towards the circle center. We then demonstrate the versatility of our platform by reprogramming it to mimic quantum tunneling of particles through the event horizon, known by Hawking radiation, achieving an exceptional correspondence to the original mass loss rate within the hole. The network couplings and the potential can be further reprogrammed to realize other curvatures and associated relativistic phenomena.
翻訳日:2023-07-03 15:50:22 公開日:2023-06-30
# マジック:準ロバスト分類器の反転によるマスク誘導画像合成

MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust Classifier ( http://arxiv.org/abs/2209.11549v3 )

ライセンス: Link先を確認
Mozhdeh Rouhsedaghat, Masoud Monajatipoor, C.-C. Jay Kuo, Iacopo Masi(参考訳) 我々は,強力な正則化器を備えた準ロバスト分類器を反転させることで,単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。 提案手法であるmagicは,事前学習された準ロバスト分類器からの構造化勾配を活用し,その分類精度を維持しつつ入力セマンティクスを保存し,合成の信頼性を保証する。 複雑なプリミティブを使用してプロセスを監視したり、注意マップを弱い監視信号として使用する現在の方法とは異なり、MAGICは強力な空間的先行を強制するガイド二項マスクによって駆動される入力上の勾配を集約する。 magicは、形状と位置制御、強い非剛性変形、繰り返しオブジェクトの存在下でのコピー/モブ操作を実現する1つのフレームワークで一連の操作を実装し、ユーザーはバイナリガイドマスクを単純に指定するだけで合成をしっかりと制御できる。 本研究と知見は,imagenetから採取した同一画像の質的比較,および機械知覚を用いた定量的解析,および100名以上の合成品質を支持できるユーザ調査によって裏付けられた。 プロジェクトページ: https://mozhdehrouhsedaghat.github.io/magic.html コードはhttps://github.com/mozhdehrouhsedaghat/magicで入手できる。

We offer a method for one-shot mask-guided image synthesis that allows controlling manipulations of a single image by inverting a quasi-robust classifier equipped with strong regularizers. Our proposed method, entitled MAGIC, leverages structured gradients from a pre-trained quasi-robust classifier to better preserve the input semantics while preserving its classification accuracy, thereby guaranteeing credibility in the synthesis. Unlike current methods that use complex primitives to supervise the process or use attention maps as a weak supervisory signal, MAGIC aggregates gradients over the input, driven by a guide binary mask that enforces a strong, spatial prior. MAGIC implements a series of manipulations with a single framework achieving shape and location control, intense non-rigid shape deformations, and copy/move operations in the presence of repeating objects and gives users firm control over the synthesis by requiring to simply specify binary guide masks. Our study and findings are supported by various qualitative comparisons with the state-of-the-art on the same images sampled from ImageNet and quantitative analysis using machine perception along with a user survey of 100+ participants that endorse our synthesis quality. Project page at https://mozhdehrouhsedaghat.github.io/magic.html. Code is available at https://github.com/mozhdehrouhsedaghat/magic
翻訳日:2023-07-03 15:50:00 公開日:2023-06-30
# コダイカナル太陽観測所で観測された393.37nmの太陽プラッジの画像処理による検出

An Image Processing approach to identify solar plages observed at 393.37 nm by the Kodaikanal Solar Observatory ( http://arxiv.org/abs/2209.10631v4 )

ライセンス: Link先を確認
Sarvesh Gharat, Bhaskar Bose, Abhimanyu Borthakur and Rakesh Mazumder(参考訳) 太陽プラヘは、太陽の表面の明るい領域であり、太陽活動の重要な指標である。 本研究では,高台県立太陽観測所から得られたCa K波長太陽データ中の太陽プラッジを自動同定するアルゴリズムを提案する。 このアルゴリズムは、画像中の視覚的識別可能なすべてのプラージュをアノテートし、対応する計算されたプラージュインデックスを出力する。 アルゴリズムの信頼性とロバスト性をテストするため,複数の太陽周期にわたるplage指数(ローリング平均)の時系列解析を行った。 その結果,計算されたplage指数と先行研究で報告された値との間に強い相関が認められた。 すべての太陽周期で得られた相関係数は0.90以上であり、モデルの信頼性を示している。 また、webベースのアプリケーションを用いて、特定の画像に対して適切にハイパーパラメータを調整することで、モデルの効率を向上できると提案する。 アルゴリズムはstreamlit community cloudプラットフォームにデプロイされ、ユーザーは画像のアップロードと、望ましい結果のためにハイパーパラメータをカスタマイズできる。 この研究で使用される入力データは、KSOデータアーカイブから自由に入手でき、コードと生成されたデータはGitHubリポジトリで公開されています。 提案アルゴリズムは、太陽活動とその地球の気候、技術、宇宙天気への影響を研究するのに有効である。

Solar plages, which are bright regions on the Sun's surface, are an important indicator of solar activity. In this study, we propose an automated algorithm for identifying solar plages in Ca K wavelength solar data obtained from the Kodaikanal Solar Observatory. The algorithm successfully annotates all visually identifiable plages in an image and outputs the corresponding calculated plage index. We perform a time series analysis of the plage index (rolling mean) across multiple solar cycles to test the algorithm's reliability and robustness. The results show a strong correlation between the calculated plage index and those reported in a previous study. The correlation coefficients obtained for all the solar cycles are higher than 0.90, indicating the reliability of the model. We also suggest that adjusting the hyperparameters appropriately for a specific image using our web-based app can increase the model's efficiency. The algorithm has been deployed on the Streamlit Community Cloud platform, where users can upload images and customize the hyperparameters for desired results. The input data used in this study is freely available from the KSO data archive, and the code and the generated data are publicly available on our GitHub repository. Our proposed algorithm provides an efficient and reliable method for identifying solar plages, which can aid the study of solar activity and its impact on the Earth's climate, technology, and space weather.
翻訳日:2023-07-03 15:49:37 公開日:2023-06-30
# 自由電子のための量子論理ゲート

A quantum logic gate for free electrons ( http://arxiv.org/abs/2209.07123v2 )

ライセンス: Link先を確認
Stefan L\"offler, Thomas Schachinger, Peter Hartel, Peng-Han Lu, Rafal E. Dunin-Borkowski, Martin Obermair, Manuel Dries, Dagmar Gerthsen, Peter Schattschneider(参考訳) 渦電子の位相電荷 $m$ は無限次元ヒルベルト空間にまたがる。 m=\pm 1$ の2次元部分空間を選択すると、透過電子顕微鏡(tem)内のビーム電子はカラム内で自由に伝播する量子ビット(量子ビット)と見なすことができる。 電子光学四極子レンズの組み合わせは、実験者の判断においてそのような量子ビットを操作する普遍的な装置として機能することができる。 我々はTEMプローブ形成レンズシステムを量子ゲートとして設置し,その動作を数値的,実験的に実証した。 収差補正器を備えたハイエンドTEMは、そのような実験のための有望なプラットフォームであり、電子顕微鏡における量子論理ゲートの研究の道を開く。

The topological charge $m$ of vortex electrons spans an infinite-dimensional Hilbert space. Selecting a two-dimensional subspace spanned by $m=\pm 1$, a beam electron in a transmission electron microscope (TEM) can be considered as a quantum bit (qubit) freely propagating in the column. A combination of electron optical quadrupole lenses can serve as a universal device to manipulate such qubits at the experimenter's discretion. We set up a TEM probe forming lens system as a quantum gate and demonstrate its action numerically and experimentally. High-end TEMs with aberration correctors are a promising platform for such experiments, opening the way to study quantum logic gates in the electron microscope.
翻訳日:2023-07-03 15:48:38 公開日:2023-06-30
# コヒーレンス、非局所性、文脈性を目撃する不平等

Inequalities witnessing coherence, nonlocality, and contextuality ( http://arxiv.org/abs/2209.02670v2 )

ライセンス: Link先を確認
Rafael Wagner, Rui Soares Barbosa, Ernesto F. Galv\~ao(参考訳) 量子コヒーレンス(quantum coherence)、非局所性(nonlocality)、文脈性(contextity)は、計量学、通信、計算における量子優位の重要な資源である。 我々は、局所的、非文脈的、コヒーレンスのないモデルに縛られる古典性不等式を導出するグラフベースのアプローチを導入し、これらの異なる量子資源を統一的に記述する。 提案手法は,最近提案された基底非依存コヒーレンス証人を一般化し,排他的グラフアプローチのすべての非文脈性不等式を回復する。 さらに、ある古典的不平等の違反は、文脈的な準備を目撃する。 このような古典的不等式をすべて探索するアルゴリズムを記述し、それを用いて最も単純なシナリオを解析する。

Quantum coherence, nonlocality, and contextuality are key resources for quantum advantage in metrology, communication, and computation. We introduce a graph-based approach to derive classicality inequalities that bound local, non-contextual, and coherence-free models, offering a unified description of these seemingly disparate quantum resources. Our approach generalizes recently proposed basis-independent coherence witnesses, and recovers all non-contextuality inequalities of the exclusivity graph approach. Moreover, violations of certain classicality inequalities witness preparation contextuality. We describe an algorithm to find all such classicality inequalities, and use it to analyze some of the simplest scenarios.
翻訳日:2023-07-03 15:48:26 公開日:2023-06-30
# ニューラルネットワークを用いた混合整数計画のための生涯学習

Lifelong Learning for Neural powered Mixed Integer Programming ( http://arxiv.org/abs/2208.12226v3 )

ライセンス: Link先を確認
Sahil Manchanda, Sayan Ranu(参考訳) 混合整数プログラム(mips)は一般に分岐・境界アルゴリズムによって解かれる。 近年,MIPの解決に要する実行時間を短縮することに成功したため,専門家の強い分岐ヒューリスティックの高速近似を模倣する学習が注目されている。 しかし、既存の学習とブランチの手法では、トレーニングデータ全体が単一のトレーニングセッションで利用できると仮定している。 この仮定はしばしば真実ではなく、トレーニングデータが連続的に供給された場合、既存のテクニックは破滅的な忘れがちである。 本研究では,混合整数プログラムの分岐に対する生涯学習の未探索パラダイムについて検討する。 破滅的な忘れを緩和するために,二部グラフの形でMIPインスタンスをモデル化し,二部グラフアテンションネットワークを用いて埋め込み空間にマップするLIMIPを提案する。 このリッチな埋め込み空間は、知識蒸留と弾性重み付けの応用による破滅的な忘れ込みを回避し、有効性を維持するためのパラメーターを学習し、したがって大きなドリフトから保護される。 我々は,NP-hard問題に対するLIMIPの評価を行い,既存のベースラインと比較すると,生涯学習に直面すると,LIMIPが最大50%向上することが確認された。

Mixed Integer programs (MIPs) are typically solved by the Branch-and-Bound algorithm. Recently, Learning to imitate fast approximations of the expert strong branching heuristic has gained attention due to its success in reducing the running time for solving MIPs. However, existing learning-to-branch methods assume that the entire training data is available in a single session of training. This assumption is often not true, and if the training data is supplied in continual fashion over time, existing techniques suffer from catastrophic forgetting. In this work, we study the hitherto unexplored paradigm of Lifelong Learning to Branch on Mixed Integer Programs. To mitigate catastrophic forgetting, we propose LIMIP, which is powered by the idea of modeling an MIP instance in the form of a bipartite graph, which we map to an embedding space using a bipartite Graph Attention Network. This rich embedding space avoids catastrophic forgetting through the application of knowledge distillation and elastic weight consolidation, wherein we learn the parameters key towards retaining efficacy and are therefore protected from significant drift. We evaluate LIMIP on a series of NP-hard problems and establish that in comparison to existing baselines, LIMIP is up to 50% better when confronted with lifelong learning.
翻訳日:2023-07-03 15:48:13 公開日:2023-06-30
# 表現的アーキテクチャは、ダイナミクスに基づく神経集団モデルの解釈性を高める

Expressive architectures enhance interpretability of dynamics-based neural population models ( http://arxiv.org/abs/2212.03771v4 )

ライセンス: Link先を確認
Andrew R. Sedler, Christopher Versteeg, Chethan Pandarinath(参考訳) 記録された神経活動から潜伏するダイナミクスを回復できる人工ニューラルネットワークは、生物学的計算の基礎となる動的モチーフを特定し解釈するための強力な手段を提供する。 ニューラルネットワークのみが潜時力学系を一意に決定しないことを考えると、解釈可能なアーキテクチャは正確かつ低次元の潜時力学を優先すべきである。 そこで本研究では,ニューラルネットワークを用いたカオスアトラクションの回復におけるシーケンシャルオートエンコーダ(SAE)の性能評価を行った。 その結果, 広範に使用されるリカレントニューラルネットワーク(RNN)を用いたSAEでは, 真の潜在状態次元での正確な発射速度を推定できず, より大きなRNNはデータに存在しない動的特徴に依存していることがわかった。 一方,神経常微分方程式(ノード)に基づくsaeは,真の潜在状態次元における正確な速度を推定すると同時に,潜在軌道や不動点構造も復元する。 アブレーションは、主にNODがベクトル場をモデル化するために高容量多層パーセプトロン(MLP)を使用でき、(2)次の状態よりもデリバティブを予測できるためである。 潜在次元からダイナミクスモデルのキャパシティを分離することで、ノードはrnn細胞が失敗する必要な低次元ダイナミクスを学ぶことができる。 さらに、NODEが導関数を予測するという事実は、潜伏状態に先立って有用な自己回帰を課す。 広く使われているrnnベースのダイナミクスの準最適解釈性は、低次元の潜在空間における正確なダイナミクスの学習を可能にするノードのような代替アーキテクチャの置き換えを動機付ける可能性がある。

Artificial neural networks that can recover latent dynamics from recorded neural activity may provide a powerful avenue for identifying and interpreting the dynamical motifs underlying biological computation. Given that neural variance alone does not uniquely determine a latent dynamical system, interpretable architectures should prioritize accurate and low-dimensional latent dynamics. In this work, we evaluated the performance of sequential autoencoders (SAEs) in recovering latent chaotic attractors from simulated neural datasets. We found that SAEs with widely-used recurrent neural network (RNN)-based dynamics were unable to infer accurate firing rates at the true latent state dimensionality, and that larger RNNs relied upon dynamical features not present in the data. On the other hand, SAEs with neural ordinary differential equation (NODE)-based dynamics inferred accurate rates at the true latent state dimensionality, while also recovering latent trajectories and fixed point structure. Ablations reveal that this is mainly because NODEs (1) allow use of higher-capacity multi-layer perceptrons (MLPs) to model the vector field and (2) predict the derivative rather than the next state. Decoupling the capacity of the dynamics model from its latent dimensionality enables NODEs to learn the requisite low-D dynamics where RNN cells fail. Additionally, the fact that the NODE predicts derivatives imposes a useful autoregressive prior on the latent states. The suboptimal interpretability of widely-used RNN-based dynamics may motivate substitution for alternative architectures, such as NODE, that enable learning of accurate dynamics in low-dimensional latent spaces.
翻訳日:2023-07-03 15:42:52 公開日:2023-06-30
# 精度ブースター:dnnトレーニングのためのエポック駆動混合マニサブロック浮動小数点

Accuracy Boosters: Epoch-Driven Mixed-Mantissa Block Floating-Point for DNN Training ( http://arxiv.org/abs/2211.10737v3 )

ライセンス: Link先を確認
Simla Burcu Harma, Ayan Chakraborty, Babak Falsafi, Martin Jaggi, Yunho Oh(参考訳) DNNモデルの複雑さ、サイズ、トレーニングデータの量に対する前例のない成長は、コンピューティングの需要の増大と最小エンコーディングの探索につながった。 近年、HBFP(Hybrid Block Floating Point)は、計算演算の大部分を8ビットの固定点に変換することで、加速器のシリコン供給を最小限に抑えることを提唱している。 本稿では,HBFP設計空間を数学的ツールを用いて大規模に探索し,様々なパラメータ間の相互作用を研究し,層やエポックをまたいでさらに小さなエンコーディングを行う機会を特定する。 提案手法は,6ビットのマンティッサを最後のエポック層と第1層と第1層にのみ使用し,さらに4ビットのマンティッサを99.7 %の価格でトレーニングを行う。 解析モデルを用いて、HBFPトレーニングアクセラレータの算術密度をFP32と比較して最大21.3\times$、他のSOTAフォーマットであるBfloat16と比較して最大4.4\times$で増加し、FP32の精度を保留または上回ることを示す。

The unprecedented growth in DNN model complexity, size, and amount of training data has led to a commensurate increase in demand for computing and a search for minimal encoding. Recent research advocates Hybrid Block Floating Point (HBFP) to minimize silicon provisioning in accelerators by converting the majority of arithmetic operations in training to 8-bit fixed point. In this paper, we perform a full-scale exploration of the HBFP design space using mathematical tools to study the interplay among various parameters and identify opportunities for even smaller encodings across layers and epochs. Based on our findings, we propose Accuracy Boosters, an epoch-driven mixed-mantissa HBFP technique that uses 6-bit mantissas only in the last epoch and first/last layers, and 4-bit mantissas for $99.7\%$ of all other arithmetic operations in training. Using analytic models, we show Accuracy Boosters enable increasing arithmetic density for an HBFP training accelerator by up to $21.3\times$ compared to FP32 and up to $4.4\times$ compared to another SOTA format Bfloat16, while preserving or outperforming FP32 accuracy.
翻訳日:2023-07-03 15:42:24 公開日:2023-06-30
# マジック蒸留プロトコルにおけるcss符号の一般エントロピー制約

General entropic constraints on CSS codes within magic distillation protocols ( http://arxiv.org/abs/2211.07535v3 )

ライセンス: Link先を確認
Rhea Alexander, Si Gvirtz-Chen, Nikolaos Koukoulekidis, David Jennings(参考訳) マジック状態はフォールトトレラント量子コンピューティングへの道のりの基本構成要素である。 cssコードは、マジック蒸留プロトコルの構築において重要な役割を果たす。 以前の研究では、準確率分布の統計力学によって普遍量子コンピューティングが記述される位相空間設定において、奇数次元$d$の量子コンピューティングをマジック状態でキャストしている。 ここでは、このフレームワークを重要な$d=2$ qubitのケースに拡張し、CSS回路の共通構造を利用して、実際的な利害関係において以前のモノトン境界を上回り得る蒸留境界を得ることができることを示す。 さらに、cssコード投影の場合、所望の蒸留を特徴付けるパラメータの観点から、cssコードのコード長$n$の新たなカットオフ結果に到達します。 これらのエントロピック制約は単にデータ処理の不等式によるものではなく、そのようなプロトコルの確率的表現に明示的に依存している。

Magic states are fundamental building blocks on the road to fault-tolerant quantum computing. CSS codes play a crucial role in the construction of magic distillation protocols. Previous work has cast quantum computing with magic states for odd dimension $d$ within a phase space setting in which universal quantum computing is described by the statistical mechanics of quasiprobability distributions. Here we extend this framework to the important $d=2$ qubit case and show that we can exploit common structures in CSS circuits to obtain distillation bounds capable of out-performing previous monotone bounds in regimes of practical interest. Moreover, in the case of CSS code projections, we arrive at a novel cut-off result on the code length $n$ of the CSS code in terms of parameters characterising a desired distillation, which implies that for fixed target error rate and acceptance probability, one needs only consider CSS codes below a threshold number of qubits. These entropic constraints are not due simply to the data-processing inequality but rely explicitly on the stochastic representation of such protocols.
翻訳日:2023-07-03 15:41:35 公開日:2023-06-30
# GEC:MDP、POMDPなどにおけるインタラクティブな意思決定のための統一フレームワーク

GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP, and Beyond ( http://arxiv.org/abs/2211.01962v4 )

ライセンス: Link先を確認
Han Zhong, Wei Xiong, Sirui Zheng, Liwei Wang, Zhaoran Wang, Zhuoran Yang, Tong Zhang(参考訳) 本稿では,マルコフ決定プロセス(MDP),部分的に観測可能なマルコフ決定プロセス(POMDP),予測状態表現(PSR)などを含む対話型意思決定の一般的な枠組みの下で,サンプル効率的な強化学習(RL)について検討する。 そこで本研究では,オンライン対話的意思決定における探索と搾取の基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化eluder coefficient(gec)を提案する。 具体的には、更新ポリシーの性能予測誤差と、過去のデータに基づいて評価されたサンプル内トレーニング誤差を比較することで、探索の難しさを捉える。 低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定するものである。 さらに,アルゴリズム設計の観点からは,モデルフリーとモデルベースの両方で,完全に観測可能かつ部分的に観測可能な設定で実装可能な,汎用的な後続サンプリングアルゴリズムを提案する。 提案アルゴリズムは,標準的な後部サンプリングアルゴリズムを2つの側面で修正する。 (i)より高い値の仮説に偏りを示す楽観的な事前分布を用いる。 (i)ログ型関数は過去のデータから評価された経験的損失であり,損失関数の選択はモデル自由学習とモデルベース学習の両方をサポートする。 提案アルゴリズムは, GEC の観点から, サブ線形後悔上限を確立することで, サンプリング効率がよいことを示す。 まとめると、我々は完全に観測可能かつ部分的に観測可能なRLについて、新しく統一された理解を提供する。

We study sample efficient reinforcement learning (RL) under the general framework of interactive decision making, which includes Markov decision process (MDP), partially observable Markov decision process (POMDP), and predictive state representation (PSR) as special cases. Toward finding the minimum assumption that empowers sample efficient learning, we propose a novel complexity measure, generalized eluder coefficient (GEC), which characterizes the fundamental tradeoff between exploration and exploitation in online interactive decision making. In specific, GEC captures the hardness of exploration by comparing the error of predicting the performance of the updated policy with the in-sample training error evaluated on the historical data. We show that RL problems with low GEC form a remarkably rich class, which subsumes low Bellman eluder dimension problems, bilinear class, low witness rank problems, PO-bilinear class, and generalized regular PSR, where generalized regular PSR, a new tractable PSR class identified by us, includes nearly all known tractable POMDPs and PSRs. Furthermore, in terms of algorithm design, we propose a generic posterior sampling algorithm, which can be implemented in both model-free and model-based fashion, under both fully observable and partially observable settings. The proposed algorithm modifies the standard posterior sampling algorithm in two aspects: (i) we use an optimistic prior distribution that biases towards hypotheses with higher values and (ii) a loglikelihood function is set to be the empirical loss evaluated on the historical data, where the choice of loss function supports both model-free and model-based learning. We prove that the proposed algorithm is sample efficient by establishing a sublinear regret upper bound in terms of GEC. In summary, we provide a new and unified understanding of both fully observable and partially observable RL.
翻訳日:2023-07-03 15:41:16 公開日:2023-06-30
# 量子資源の異なる非協力型ゲームにおける社会福祉の改善

Improving social welfare in non-cooperative games with different types of quantum resources ( http://arxiv.org/abs/2211.01687v2 )

ライセンス: Link先を確認
Alastair A. Abbott, Mehdi Mhalla and Pierre Pocreau(参考訳) 本研究では,多分野の非協力型ゲームにおいて,異なる種類の量子資源が新たなnash平衡にどのようにつながり,社会福祉(均衡の質の尺度)を改善するかを検討する。 2つの異なる量子設定が分析される: 1つ目は、プレイヤーが絡み合った量子状態に直接アクセスする、もう1つは、ここで紹介する量子デバイスから得られる古典的なアドバイスのみを与える。 与えられたゲーム $g$ に対して、これらの2つの設定は、それぞれ平衡相関集合 $q_\textrm{corr}(g)$ と $q(g)$ によって特徴づけられる異なる平衡性をもたらす。 q(g)\subseteq q_\textrm{corr}(g)$ であり、いくつかの相関の自己テスト性を利用することで、一部のゲームではその包含が厳しいことが示されている。 我々は、SDP最適化技術を用いて、これらの量子資源が社会福祉を改善する方法を研究し、それぞれの設定で到達可能な社会福祉の上下限を得る。 いくつかのゲームにおいて,社会福祉がゲームのバイアスにどのように依存しているかを調査し,疑似テレパシーソリューションを用いて得られた分離により改善する。

We investigate what quantum advantages can be obtained in multipartite non-cooperative games by studying how different types of quantum resources can lead to new Nash equilibria and improve social welfare -- a measure of the quality of an equilibrium. Two different quantum settings are analysed: a first, in which players are given direct access to an entangled quantum state, and a second, which we introduce here, in which they are only given classical advice obtained from quantum devices. For a given game $G$, these two settings give rise to different equilibria characterised by the sets of equilibrium correlations $Q_\textrm{corr}(G)$ and $Q(G)$, respectively. We show that $Q(G)\subseteq Q_\textrm{corr}(G)$, and by exploiting the self-testing property of some correlations, that the inclusion is strict for some games $G$. We make use of SDP optimisation techniques to study how these quantum resources can improve social welfare, obtaining upper and lower bounds on the social welfare reachable in each setting. We investigate, for several games, how the social welfare depends on the bias of the game and improve upon a separation that was previously obtained using pseudo-telepathic solutions.
翻訳日:2023-07-03 15:40:46 公開日:2023-06-30
# ERL-Re$^2$:共有状態表現と個別政策表現による効率的な進化的強化学習

ERL-Re$^2$: Efficient Evolutionary Reinforcement Learning with Shared State Representation and Individual Policy Representation ( http://arxiv.org/abs/2210.17375v2 )

ライセンス: Link先を確認
Jianye Hao, Pengyi Li, Hongyao Tang, Yan Zheng, Xian Fu, Zhaopeng Meng(参考訳) 深層強化学習(Deep Reinforcement Learning、ディープRL)と進化的アルゴリズム(Evolutionary Algorithms、EA)は、異なる学習原理を持つ政策最適化の2つの主要なパラダイムである。 魅力的な研究方向は、Deep RLとEAを統合して、補完的な利点を融合して新しい方法を考案することである。 しかし、Deep RLとEAの組み合わせには2つの共通の欠点がある。 1) rlエージェント及びeaエージェントは、そのポリシーを個別に学習し、有用な共通知識の効率的な共有を怠る。 2) パラメータレベルのポリシー最適化は、ea側の行動進化の意味レベルを保証しません。 本稿では,上記の2つの欠点に対する新しい解法である2スケール状態表現とポリシー表現(erl-re$^2$)を用いた進化的強化学習を提案する。 ERL-Re$^2$の鍵となる考え方は2スケールの表現である: すべてのEAおよびRLポリシーは、個々の線形ポリシー表現を維持しながら同じ非線形状態表現を共有する。 状態表現は、すべてのエージェントが学習した環境の表現的共通特性を伝達する。線形政策表現は、新しい行動レベルのクロスオーバーと突然変異操作が可能な効率的な政策最適化のための好適な空間を提供する。 さらに、線形政策表現は、政策拡張値関数近似器(pevfa)の助けを借りて、政策適合性の簡便な一般化を可能にし、適合度推定のサンプル効率をさらに向上させる。 一連の連続制御タスクの実験により、ERL-Re$^2$は、高度ベースラインを一貫して上回り、最先端アート(SOTA)を達成することが示された。 私たちのコードはhttps://github.com/yeshenpy/erl-re2で利用可能です。

Deep Reinforcement Learning (Deep RL) and Evolutionary Algorithms (EA) are two major paradigms of policy optimization with distinct learning principles, i.e., gradient-based v.s. gradient-free. An appealing research direction is integrating Deep RL and EA to devise new methods by fusing their complementary advantages. However, existing works on combining Deep RL and EA have two common drawbacks: 1) the RL agent and EA agents learn their policies individually, neglecting efficient sharing of useful common knowledge; 2) parameter-level policy optimization guarantees no semantic level of behavior evolution for the EA side. In this paper, we propose Evolutionary Reinforcement Learning with Two-scale State Representation and Policy Representation (ERL-Re$^2$), a novel solution to the aforementioned two drawbacks. The key idea of ERL-Re$^2$ is two-scale representation: all EA and RL policies share the same nonlinear state representation while maintaining individual} linear policy representations. The state representation conveys expressive common features of the environment learned by all the agents collectively; the linear policy representation provides a favorable space for efficient policy optimization, where novel behavior-level crossover and mutation operations can be performed. Moreover, the linear policy representation allows convenient generalization of policy fitness with the help of the Policy-extended Value Function Approximator (PeVFA), further improving the sample efficiency of fitness estimation. The experiments on a range of continuous control tasks show that ERL-Re$^2$ consistently outperforms advanced baselines and achieves the State Of The Art (SOTA). Our code is available on https://github.com/yeshenpy/ERL-Re2.
翻訳日:2023-07-03 15:40:09 公開日:2023-06-30
# 消去変換を用いた捕捉イオン準安定状態による量子誤差補正

Quantum Error Correction with Metastable States of Trapped Ions Using Erasure Conversion ( http://arxiv.org/abs/2210.15024v4 )

ライセンス: Link先を確認
Mingyu Kang, Wesley C. Campbell, Kenneth R. Brown(参考訳) 消去(または既知の位置のエラー)は、ポーリの誤りよりも量子誤り訂正符号の誤りの好適なタイプである。 物理ノイズを消去に変換することで、量子誤差補正の性能が大幅に向上する。 ここでは、wu, kolkowitz, puri, and thompson [nat. comm. 13, 4657 (2022)] によって提唱された準安定原子状態への量子ビットのエンコードによる消去変換を捕獲イオンに適用する。 準安定イオン量子ビットの消去変換方式を提案し,様々な種類の誤差の詳細なモデルを開発する。 次に, 各種物理制約下での地上および準安定量子ビットの論理的性能を比較し, 準安定量子ビットに対して達成可能なレーザーパワーが高い場合, 準安定量子ビットは基底量子ビットより優れていると結論づける。

Erasures, or errors with known locations, are a more favorable type of error for quantum error-correcting codes than Pauli errors. Converting physical noise into erasures can significantly improve the performance of quantum error correction. Here we apply the idea of performing erasure conversion by encoding qubits into metastable atomic states, proposed by Wu, Kolkowitz, Puri, and Thompson [Nat. Comm. 13, 4657 (2022)], to trapped ions. We suggest an erasure-conversion scheme for metastable trapped-ion qubits and develop a detailed model of various types of errors. We then compare the logical performance of ground and metastable qubits on the surface code under various physical constraints, and conclude that metastable qubits may outperform ground qubits when the achievable laser power is higher for metastable qubits.
翻訳日:2023-07-03 15:39:35 公開日:2023-06-30
# 等価拡散モデルを用いた構造に基づく薬物設計

Structure-based Drug Design with Equivariant Diffusion Models ( http://arxiv.org/abs/2210.13695v2 )

ライセンス: Link先を確認
Arne Schneuing, Yuanqi Du, Charles Harris, Arian Jamasb, Ilia Igashov, Weitao Du, Tom Blundell, Pietro Li\'o, Carla Gomes, Max Welling, Michael Bronstein, Bruno Correia(参考訳) SBDD(Structure-based drug design)は、タンパク質標的に高親和性と特異性に結合する小分子リガンドを設計することを目的としている。 本稿では,SBDDを3次元条件生成問題として定式化し,タンパク質ポケット上に条件付きリガンドを生成するSE(3)等価な3次元条件拡散モデルDiffSBDDを提案する。 包括的なシリコ実験では、競合するドッキングスコアを持つ新規で多様な薬物様リガンドの生成におけるdiffsbddの効率性と有効性が示される。 さらに,本研究は,市販品の特性最適化やインパインティングによる部分的分子設計など,薬物設計キャンペーンにおける幅広いタスクに対する拡散フレームワークの柔軟性について検討する。

Structure-based drug design (SBDD) aims to design small-molecule ligands that bind with high affinity and specificity to pre-determined protein targets. In this paper, we formulate SBDD as a 3D-conditional generation problem and present DiffSBDD, an SE(3)-equivariant 3D-conditional diffusion model that generates novel ligands conditioned on protein pockets. Comprehensive in silico experiments demonstrate the efficiency and effectiveness of DiffSBDD in generating novel and diverse drug-like ligands with competitive docking scores. We further explore the flexibility of the diffusion framework for a broader range of tasks in drug design campaigns, such as off-the-shelf property optimization and partial molecular design with inpainting.
翻訳日:2023-07-03 15:39:07 公開日:2023-06-30
# ボース・アインシュタイン凝縮体に浸漬したFew-Body Bose系の発酵

Fermionization of a Few-Body Bose System Immersed into a Bose-Einstein Condensate ( http://arxiv.org/abs/2302.01743v4 )

ライセンス: Link先を確認
Tim Keller, Thom\'as Fogarty, Thomas Busch(参考訳) ボース・アインシュタイン凝縮体に没入した成分が有限種内相互作用強度を持つ場合、準1次元2成分量子気体中の最近導入された自己ピン遷移(Phys. Lett. 128, 053401 (2022))について検討する。 物質波バックアクションの結果、無限種内反発の限界におけるフェルミオン化は、静的トラップポテンシャルの漸近的挙動とは対照的に、自己ピンド状態への一階の相転移によって起こる。 このシステムはまた、種間相互作用が種内反発を克服できる場合、浸漬された成分に対して追加の超流動状態を示す。 解析モデルにおける超流動状態を近似し,二元系においてよく知られた相分離基準と一致する相転移線の表現を導出する。 システムの全位相図は、没入成分中の2原子と3原子の場合に数値的にマッピングされる。

We study the recently introduced self-pinning transition [Phys. Rev. Lett. 128, 053401 (2022)] in a quasi-one-dimensional two-component quantum gas in the case where the component immersed into the Bose-Einstein condensate has a finite intraspecies interaction strength. As a result of the matter-wave backaction, the fermionization in the limit of infinite intraspecies repulsion occurs via a first-order phase transition to the self-pinned state, which is in contrast to the asymptotic behavior in static trapping potentials. The system also exhibits an additional superfluid state for the immersed component if the interspecies interaction is able to overcome the intraspecies repulsion. We approximate the superfluid state in an analytical model and derive an expression for the phase transition line that coincides with well-known phase separation criteria in binary Bose systems. The full phase diagram of the system is mapped out numerically for the case of two and three atoms in the immersed component.
翻訳日:2023-07-03 15:31:47 公開日:2023-06-30
# upop:視覚言語トランスフォーマー圧縮のための統一的でプログレッシブなプルーニング

UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers ( http://arxiv.org/abs/2301.13741v3 )

ライセンス: Link先を確認
Dachuan Shi, Chaofan Tao, Ying Jin, Zhendong Yang, Chun Yuan, Jiaqi Wang(参考訳) 現実世界のデータには膨大なマルチモーダル情報が含まれており、視覚と言語は2つの代表的なモダリティである。 さらに、より重いモデルである \textit{e} も増えている。 \textit{g}。 Transformersは、圧縮をモデル化する研究者の注目を集めている。 しかし、マルチモーダルモデル、特にバイソン言語変換器の圧縮方法はまだ未定である。 本稿では,ユニバーサルビゾン言語トランスフォーマー圧縮フレームワークとして, {textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}})を提案する。 1) 圧縮可能なモダリティ及び構造間のプルーニング比の自動割り当てを可能にする原モデルから連続最適化空間内のマルチモーダルサブネットを統一的に探索すること。 2) より高い圧縮率を達成するために探索と再訓練の間の収束を維持するサブネットの段階的な探索と再訓練。 さまざまなタスク、データセット、モデルアーキテクチャの実験は、提案されたUPopフレームワークの有効性と汎用性を示している。 コードはhttps://github.com/sdc17/UPop.comで公開されている。

Real-world data contains a vast amount of multimodal information, among which vision and language are the two most representative modalities. Moreover, increasingly heavier models, \textit{e}.\textit{g}., Transformers, have attracted the attention of researchers to model compression. However, how to compress multimodal models, especially vison-language Transformers, is still under-explored. This paper proposes the \textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}}) as a universal vison-language Transformer compression framework, which incorporates 1) unifiedly searching multimodal subnets in a continuous optimization space from the original model, which enables automatic assignment of pruning ratios among compressible modalities and structures; 2) progressively searching and retraining the subnet, which maintains convergence between the search and retrain to attain higher compression ratios. Experiments on various tasks, datasets, and model architectures demonstrate the effectiveness and versatility of the proposed UPop framework. The code is available at https://github.com/sdc17/UPop.
翻訳日:2023-07-03 15:31:28 公開日:2023-06-30
# WDC製品: 多次元エンティティマッチングベンチマーク

WDC Products: A Multi-Dimensional Entity Matching Benchmark ( http://arxiv.org/abs/2301.09521v2 )

ライセンス: Link先を確認
Ralph Peeters, Reng Chiz Der, Christian Bizer(参考訳) エンティティマッチングタスクの難しさは、コーナーケースペアの量、トレーニング中に見られなかったテストセット内のエンティティの割合、開発セットのサイズといった、複数の要因の組み合わせに依存する。 現在のエンティティマッチングベンチマークは、通常、そのような次元に沿った空間内の単一点を表すか、単一の次元に沿ったマッチングメソッドの評価(例えばトレーニングデータの量)を提供する。 本稿では,実世界のデータに依存しつつ,3次元の組み合わせによるマッチングシステムの体系的評価を行うエンティティマッチングベンチマークWDC Productsを提案する。 3次元は (i)コーナーケースの量 (二 見えない実体への一般化、及び (iii)開発設定サイズ(訓練セット+検証セット) unseenエンティティへの一般化は、既存の英語ベンチマークではカバーされていない次元であるが、エンティティマッチングシステムの堅牢性を評価するために重要である。 エンティティペアのマッチング方法を学ぶ代わりに、エンティティマッチングは、マーカが個々のエンティティを認識する必要があるマルチクラス分類タスクとして定式化することもできる。 WDC Productsは、ペアワイズとマルチクラスの同じタスクの定式化を提供する最初のベンチマークである。 我々は,Ditto,HierGAT,R-SupConなど,最先端のマッチングシステムを用いてWDC製品を評価する。 評価の結果、全てのマッチングシステムは、異なる程度に認識されない実体に苦しむことが示された。 また、エンティティマッチングのためのコントラスト学習は、クロスエンコーダよりもトレーニングデータ効率が高いことも示している。

The difficulty of an entity matching task depends on a combination of multiple factors such as the amount of corner-case pairs, the fraction of entities in the test set that have not been seen during training, and the size of the development set. Current entity matching benchmarks usually represent single points in the space along such dimensions or they provide for the evaluation of matching methods along a single dimension, for instance the amount of training data. This paper presents WDC Products, an entity matching benchmark which provides for the systematic evaluation of matching systems along combinations of three dimensions while relying on real-world data. The three dimensions are (i) amount of corner-cases (ii) generalization to unseen entities, and (iii) development set size (training set plus validation set). Generalization to unseen entities is a dimension not covered by any of the existing English-language benchmarks yet but is crucial for evaluating the robustness of entity matching systems. Instead of learning how to match entity pairs, entity matching can also be formulated as a multi-class classification task that requires the matcher to recognize individual entities. WDC Products is the first benchmark that provides a pair-wise and a multi-class formulation of the same tasks. We evaluate WDC Products using several state-of-the-art matching systems, including Ditto, HierGAT, and R-SupCon. The evaluation shows that all matching systems struggle with unseen entities to varying degrees. It also shows that for entity matching contrastive learning is more training data efficient compared to cross-encoders.
翻訳日:2023-07-03 15:30:48 公開日:2023-06-30
# out-of-sample 保証によるオフポリシー評価

Off-Policy Evaluation with Out-of-Sample Guarantees ( http://arxiv.org/abs/2301.08649v3 )

ライセンス: Link先を確認
Sofia Ek, Dave Zachariah, Fredrik D. Johansson, Petre Stoica(参考訳) 過去の観測データを用いた意思決定ポリシーの性能評価の問題点を考察する。 政策の結果は、損失(すなわち不利または負の報酬)の観点から測定され、主要な問題は、過去のデータが異なる、おそらく未知のポリシーの下で観察されたときに、その外損失に関する有効な推論を行うことである。 サンプルスプリッティング法を用いて, 損失分布全体について, 有限サンプルカバレッジによる推定を, 単にその平均ではなく, 完全損失分布を保証できることを示す。 重要なのは、この手法が過去のポリシーのモデルの誤定義を考慮に入れることだ。 この評価方法は、所定の信頼可能なモデル仮定の範囲で観測データを用いてポリシーの性能を認証するために用いられる。

We consider the problem of evaluating the performance of a decision policy using past observational data. The outcome of a policy is measured in terms of a loss (aka. disutility or negative reward) and the main problem is making valid inferences about its out-of-sample loss when the past data was observed under a different and possibly unknown policy. Using a sample-splitting method, we show that it is possible to draw such inferences with finite-sample coverage guarantees about the entire loss distribution, rather than just its mean. Importantly, the method takes into account model misspecifications of the past policy - including unmeasured confounding. The evaluation method can be used to certify the performance of a policy using observational data under a specified range of credible model assumptions.
翻訳日:2023-07-03 15:30:28 公開日:2023-06-30
# ケースベースニューラルネットワーク:時間変動と高次相互作用による生存率解析

Case-Base Neural Networks: survival analysis with time-varying, higher-order interactions ( http://arxiv.org/abs/2301.06535v2 )

ライセンス: Link先を確認
Jesse Islam, Maxime Turgeon, Robert Sladek, Sahir Bhatnagar(参考訳) ニューラルネットワークに基づく生存法は、データ駆動の共変量相互作用をモデル化することができる。 これらの手法は回帰に基づくアプローチよりも優れた予測性能を提供するが、時間変動相互作用や複雑なベースラインハザードをモデル化できるわけではない。 そこで本研究では,ケースベースサンプリングフレームワークとフレキシブルニューラルネットワークアーキテクチャを組み合わせた新しいアプローチとして,ケースベースニューラルネットワーク(cbnns)を提案する。 新たなサンプリング手法とデータ拡張を用いて、自然に検閲を考慮し、入力として時間がかかるかもしれないフィードフォワードニューラルネットワークを構築する。 cbnnは特定の瞬間に発生する事象の確率を予測し、ハザード関数を推定する。 CBNNの性能と回帰とニューラルネットワークに基づく生存法を比較したシミュレーションと,2つの時間依存メトリクスを用いた3つのケーススタディを行った。 まず, 複雑なベースラインハザードと時間変動の相互作用を含むシミュレーションの性能を検証し, cbnn が競争相手を上回り, 全手法を評価する。 次に,3つの実データアプリケーションに適用し,CBNNは2つの研究で競合するモデルより優れており,第3に同様の性能を示す。 本研究は,ケースベースサンプリングと深層学習を組み合わせることで,データ駆動型・時間変動相互作用モデリングのための簡易かつ柔軟なモデリングフレームワークを提供する。 Rパッケージはhttps://github.com/Jesse-Islam/cbnnで入手できる。

Neural network-based survival methods can model data-driven covariate interactions. While these methods can provide better predictive performance than regression-based approaches, not all can model time-varying interactions and complex baseline hazards. To address this, we propose Case-Base Neural Networks (CBNNs) as a new approach that combines the case-base sampling framework with flexible neural network architectures. Using a novel sampling scheme and data augmentation to naturally account for censoring, we construct a feed-forward neural network that may take time as an input. CBNNs predict the probability of an event occurring at a given moment to estimate the hazard function. We compare the performance of CBNNs to regression and neural network-based survival methods in a simulation and three case studies using two time-dependent metrics. First, we examine performance on a simulation involving a complex baseline hazard and time-varying interactions to assess all methods, with CBNN outperforming competitors. Then, we apply all methods to three real data applications, with CBNNs outperforming the competing models in two studies and showing similar performance in the third. Our results highlight the benefit of combining case-base sampling with deep learning to provide a simple and flexible modeling framework for data-driven, time-varying interaction modeling of single event survival outcomes. An R package is available at https://github.com/Jesse-Islam/cbnn.
翻訳日:2023-07-03 15:30:15 公開日:2023-06-30
# 作業前を対象とする統一オブジェクトカウントネットワーク

A Unified Object Counting Network with Object Occupation Prior ( http://arxiv.org/abs/2212.14193v3 )

ライセンス: Link先を確認
Shengqin Jiang, Qing Wang, Fengna Cheng, Yuankai Qi, Qingshan Liu(参考訳) 多数のアプリケーション(例えば、群衆数、トラフィック統計)で基本的な役割を果たすカウントタスクは、さまざまな密度を持つオブジェクトの数を予測することを目的としている。 既存のオブジェクトカウントタスクは単一のオブジェクトクラスのために設計されます。 しかし、私たちの現実世界で新しいクラスで新しいデータに遭遇するのは避けられない。 このシナリオを \textit{evolving object counting} と命名します。 本稿では,最初の進化するオブジェクト計数データセットを構築し,この課題に対する最初の試みとして統一オブジェクト計数ネットワークを提案する。 提案モデルは,クラスに依存しないマスクモジュールとクラスインクリメンタルモジュールの2つの重要なコンポーネントから構成される。 クラス非依存マスクモジュールは、クラス非依存なバイナリマスクを予測して、汎用オブジェクトの占有を事前に学習する(例えば、1は、画像中の考慮位置にあるオブジェクトが存在し、それ以外は0であることを示す)。 class-incrementalモジュールは新しい来るべきクラスを扱うために使われ、密度マップ予測のための判別クラスガイダンスを提供する。 クラス非依存マスクモジュールと画像特徴抽出器の組合せ出力を用いて最終密度マップを予測する。 新しいクラスが来たら、まずクラスインクリメンタルモジュールの最後の回帰層と分類層に新しいニューラルネットワークを追加します。 そして、モデルをスクラッチから再トレーニングするのではなく、モデルが以前のオブジェクトクラスについて既に学んだことを思い出すのに役立つ知識蒸留を利用する。 また、各クラスの典型的なトレーニングサンプルを少数のサポートサンプルバンクに格納することで、モデルが古いデータのキー情報を忘れないようにしています。 この設計により,大規模再トレーニングを行わずに,既存のデータのパフォーマンスを維持しつつ,新しいクラスに効率的に適応することができる。 収集したデータセットに関する広範な実験は、優れたパフォーマンスを示している。

The counting task, which plays a fundamental role in numerous applications (e.g., crowd counting, traffic statistics), aims to predict the number of objects with various densities. Existing object counting tasks are designed for a single object class. However, it is inevitable to encounter newly coming data with new classes in our real world. We name this scenario as \textit{evolving object counting}. In this paper, we build the first evolving object counting dataset and propose a unified object counting network as the first attempt to address this task. The proposed model consists of two key components: a class-agnostic mask module and a class-incremental module. The class-agnostic mask module learns generic object occupation prior via predicting a class-agnostic binary mask (e.g., 1 denotes there exists an object at the considering position in an image and 0 otherwise). The class-incremental module is used to handle new coming classes and provides discriminative class guidance for density map prediction. The combined outputs of class-agnostic mask module and image feature extractor are used to predict the final density map. When new classes come, we first add new neural nodes into the last regression and classification layers of class-incremental module. Then, instead of retraining the model from scratch, we utilize knowledge distillation to help the model remember what have already learned about previous object classes. We also employ a support sample bank to store a small number of typical training samples of each class, which are used to prevent the model from forgetting key information of old data. With this design, our model can efficiently and effectively adapt to new coming classes while keeping good performance on already seen data without large-scale retraining. Extensive experiments on the collected dataset demonstrate the favorable performance.
翻訳日:2023-07-03 15:29:22 公開日:2023-06-30
# 一様磁場下での電子の基底および励起状態に対する第一量子固有溶媒

First-quantized eigensolver for ground and excited states of electrons under a uniform magnetic field ( http://arxiv.org/abs/2212.13800v3 )

ライセンス: Link先を確認
Taichi Kosugi, Hirofumi Nishi, Yu-ichiro Matsushita(参考訳) first-quantized eigensolver (fqe) は、確率的虚数時間発展に基づく相互作用電子系の基底状態を得るために最近提案された量子計算の枠組みである。 本研究では,FQE計算に一様磁場を導入する手法を提案する。 資源推定により、各電子に割り当てられた量子ビット数の観点から、磁場に責任を持つ追加回路をライナー深さで実装できることを示し、計算コスト全体のリードオーダーに何の影響も及ぼさないことを示した。 地中および励起状態の数値シミュレーションにより,エネルギー固有状態のフィルタ回路を用いて本手法の有効性を確認した。 また, 導関数回路の一般構成と, 測定に基づく公式も提供する。 特殊な場合として、電子系の電流密度を求め、磁気応答の微視的起源に関する洞察を得ることができる。

First-quantized eigensolver (FQE) is a recently proposed framework of quantum computation for obtaining the ground state of an interacting electronic system based on probabilistic imaginary-time evolution. In this study, we propose a method for introducing a uniform magnetic field to an FQE calculation. We demonstrate via resource estimation that the additional circuit responsible for the magnetic field can be implemented with a liner depth in terms of the number of qubits assigned to each electron, giving rise to no impact on the leading order of whole computational cost. We confirm the validity of our method via numerical simulations for ground and excited states by employing the filtration circuits for energy eigenstates. We also provide the generic construction of derivative circuits together with measurement-based formulae. As a special case of them, we can obtain the electric-current density in an electronic system to get insights into the microscopic origin of magnetic response.
翻訳日:2023-07-03 15:28:53 公開日:2023-06-30
# 高階論理への変換によるQMLTP問題の解法

Solving QMLTP Problems by Translation to Higher-order Logic ( http://arxiv.org/abs/2212.09570v2 )

ライセンス: Link先を確認
Alexander Steen, Geoff Sutcliffe, Tobias Scholl, Christoph Benzm\"uller(参考訳) 本稿では,一階モーダル論理問題のqmltpライブラリから取り出された問題に対する自動定理証明(atp)システムの評価について述べる。 主に、この問題は埋め込み手法を用いてTPTP言語の高階論理に変換され、高階論理ATPシステムを用いて解決される。 さらに, ネイティブなモーダル論理ATPシステムの結果を, 組込み方式と比較して検討した。 その結果, 組込みプロセスの信頼性と成功, バックエンドATPシステムの選択は組込みアプローチの性能に大きく影響し, 組込みアプローチよりもネイティブなモーダル論理ATPシステムが優れており, 組込みアプローチは, ネイティブなモーダルシステムよりも広い範囲のモーダル論理に対処できることがわかった。

This paper describes an evaluation of Automated Theorem Proving (ATP) systems on problems taken from the QMLTP library of first-order modal logic problems. Principally, the problems are translated to higher-order logic in the TPTP language using an embedding approach, and solved using higher-order logic ATP systems. Additionally, the results from native modal logic ATP systems are considered, and compared with those from the embedding approach. The findings are that the embedding process is reliable and successful, the choice of backend ATP system can significantly impact the performance of the embedding approach, native modal logic ATP systems outperform the embedding approach, and the embedding approach can cope with a wider range modal logics than the native modal systems considered.
翻訳日:2023-07-03 15:28:38 公開日:2023-06-30
# 近接球の6自由度のナノスケールフィードバック制御

Nanoscale feedback control of six degrees of freedom of a near-sphere ( http://arxiv.org/abs/2303.02831v3 )

ライセンス: Link先を確認
M. Kamba, R. Shimizu, K. Aikawa(参考訳) 我々は, 球面近傍のナノ粒子の全ての角運動のフィードバック冷却を行い, 反射冷却された全ての遷移運動を基底状態付近に示す。 3つの翻訳運動の職業番号は、$6 \pm 1$、$6 \pm 1$、$0.69 \pm 0.18$である。 厳密な異方性光閉じ込めは、3つの角振動をはっきりと観察し、2つの半径と長い半径の比を$\unit[0.09]{\%}$で特定することを可能にする。 ナノ粒子の電気双極子モーメントを電気的に制御することにより、3つの角振動に対する温度測定を開発し、それらを$\unit[0.03]{K}$以下の温度まで冷却する。 我々の研究は、捕捉されたナノ粒子を正確に特徴付ける方法だけでなく、それらを加速度センシングに利用し、翻訳と回転の自由度の両方で量子力学的挙動を探索する基礎を形成する。

We demonstrate feedback cooling of all the angular motions of a near-spherical neutral nanoparticle with all the translational motions feedback-cooled to near the ground state. The occupation numbers of the three translational motions are $6 \pm 1$, $6 \pm 1$, and $0.69 \pm 0.18$. A tight, anisotropic optical confinement allows us to clearly observe three angular oscillations and to identify the ratio of two radii to the longest radius with a precision of $\unit[0.09]{\%}$. We develop a thermometry for three angular oscillations and realize feedback cooling of them to temperatures of lower than $\unit[0.03]{K}$ by electrically controlling the electric dipole moment of the nanoparticle. Our work not only paves the way to precisely characterize trapped nanoparticles, but also forms the basis of utilizing them for acceleration sensing and for exploring quantum mechanical behaviors with both their translational and rotational degrees of freedom.
翻訳日:2023-07-03 15:22:32 公開日:2023-06-30
# 漁業情報に基づく証拠深層学習による不確実性推定

Uncertainty Estimation by Fisher Information-based Evidential Deep Learning ( http://arxiv.org/abs/2303.02045v3 )

ライセンス: Link先を確認
Danruo Deng, Guangyong Chen, Yang Yu, Furui Liu, Pheng-Ann Heng(参考訳) 不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする重要な要素である。 近年提案された顕在ニューラルネットワークは,ディリクレ分布のパラメータ化の証拠としてネットワークの出力を扱い,不確実性推定において顕著な性能を発揮する。 しかし、高いデータ不確実性サンプルに対して、1ホットラベルに注釈を付けると、これらの誤記されたクラスに対するエビデンス学習プロセスは過度に罰せられ、いまだ妨げられている。 この問題に対処するために,fisher information-based obviousial deep learning (\mathcal{i}$-edl) という新しい手法を提案する。 特に,fim(fisher information matrix)を導入することで,各サンプルが持つエビデンスの情報量を測定し,目的の損失項を動的に重み付けし,不確定クラスの表現学習にネットワークをより集中させることができる。 PAC-Bayesian境界を最適化することにより,ネットワークの一般化能力をさらに向上する。 実証実験により,提案手法は複数の不確実性推定タスク,特により難易度の高い数ショット分類設定において,従来のEDL関連アルゴリズムより一貫して優れていた。

Uncertainty estimation is a key factor that makes deep learning reliable in practical applications. Recently proposed evidential neural networks explicitly account for different uncertainties by treating the network's outputs as evidence to parameterize the Dirichlet distribution, and achieve impressive performance in uncertainty estimation. However, for high data uncertainty samples but annotated with the one-hot label, the evidence-learning process for those mislabeled classes is over-penalized and remains hindered. To address this problem, we propose a novel method, Fisher Information-based Evidential Deep Learning ($\mathcal{I}$-EDL). In particular, we introduce Fisher Information Matrix (FIM) to measure the informativeness of evidence carried by each sample, according to which we can dynamically reweight the objective loss terms to make the network more focused on the representation learning of uncertain classes. The generalization ability of our network is further improved by optimizing the PAC-Bayesian bound. As demonstrated empirically, our proposed method consistently outperforms traditional EDL-related algorithms in multiple uncertainty estimation tasks, especially in the more challenging few-shot classification settings.
翻訳日:2023-07-03 15:22:15 公開日:2023-06-30
# 1次ANILは不特定潜在次元に拘わらず線形表現を学習する

First-order ANIL learns linear representations despite misspecified latent dimension ( http://arxiv.org/abs/2303.01335v2 )

ライセンス: Link先を確認
O\u{g}uz Kaan Yuksel and Etienne Boursier and Nicolas Flammarion(参考訳) 数少ない分類と強化学習での経験的成功により、メタラーニングは近年大きな関心を集めている。 メタラーニング手法は,従来のタスクからのデータを利用して,サンプル効率のよい新しいタスクを学習する。 特に、モデルに依存しない手法は、勾配降下が新しいタスクに迅速に適応する初期化点を探す。 このような手法は事前学習中に共有表現を学習することでうまく機能すると実証的に示唆されているが、理論的な証拠は限られている。 さらに重要なことに、これらのメソッドがアーキテクチャの誤用にもかかわらず共有構造を学習していることが厳密には示されていない。 この方向では、無限個のタスクの極限において、線形二層ネットワークアーキテクチャを持つ一階ANILが線形共有表現をうまく学習できることが示されている。 共有表現の次元よりも広い幅を持つと、漸近的に低ランクの解が得られる。 learntソリューションは、単一の勾配ステップの後に、新しいタスクに対して適切な適応性能をもたらす。 全体としてこれは、一階のANILのようなモデルに依存しないメソッドがいかに共有表現を学べるかを示している。

Due to its empirical success in few-shot classification and reinforcement learning, meta-learning has recently received significant interest. Meta-learning methods leverage data from previous tasks to learn a new task in a sample-efficient manner. In particular, model-agnostic methods look for initialisation points from which gradient descent quickly adapts to any new task. Although it has been empirically suggested that such methods perform well by learning shared representations during pretraining, there is limited theoretical evidence of such behavior. More importantly, it has not been rigorously shown that these methods still learn a shared structure, despite architectural misspecifications. In this direction, this work shows, in the limit of an infinite number of tasks, that first-order ANIL with a linear two-layer network architecture successfully learns linear shared representations. This result even holds with a misspecified network parameterisation; having a width larger than the dimension of the shared representations results in an asymptotically low-rank solution. The learnt solution then yields a good adaptation performance on any new task after a single gradient step. Overall this illustrates how well model-agnostic methods such as first-order ANIL can learn shared representations.
翻訳日:2023-07-03 15:21:53 公開日:2023-06-30
# ファクトかアーティファクトか? 種々のannアーキテクチャにおける層間相関伝播の修正

Fact or Artifact? Revise Layer-wise Relevance Propagation on various ANN Architectures ( http://arxiv.org/abs/2302.12317v2 )

ライセンス: Link先を確認
Marco Landt-Hayen, Willi Rath, Martin Claus and Peer Kr\"oger(参考訳) layer-wise associated propagation (lrp) は、様々な人工ニューラルネットワーク(ann)アーキテクチャに対する洞察を明らかにするために広く使われている強力な技術である。 LRPは画像分類の文脈でよく用いられる。 入力サンプルのどの部分が高い関連性を持ち、従ってモデル予測に最も影響を与えるのかを理解することを目的とする。 関連性は、各入力ピクセルに特定のスコアをアトリビュートするために、ネットワークを通して遡ることができる。 関連スコアは組み合わせてヒートマップとして表示され、人間に分類モデルの直感的な視覚的理解を与える。 分類エンジンを詳細に理解するためにブラックボックスを開くことは、ドメインの専門家がANNモデルへの信頼を得るために不可欠である。 しかし、得られた関連地図に含まれるモデルにかかわるアーティファクトの観点では落とし穴があり、容易に見逃すことができる。 しかし、正当な解釈のために、これらのアーティファクトは無視してはならない。 本稿では,地理空間および合成データの分類器として訓練された各種ANNアーキテクチャにLRPを適用し,改訂する。 ネットワークアーキテクチャによって、モデル焦点を制御する技術を示し、成果物から事実を分離するために得られた関連マップの品質を改善するためのガイダンスを与える。

Layer-wise relevance propagation (LRP) is a widely used and powerful technique to reveal insights into various artificial neural network (ANN) architectures. LRP is often used in the context of image classification. The aim is to understand, which parts of the input sample have highest relevance and hence most influence on the model prediction. Relevance can be traced back through the network to attribute a certain score to each input pixel. Relevance scores are then combined and displayed as heat maps and give humans an intuitive visual understanding of classification models. Opening the black box to understand the classification engine in great detail is essential for domain experts to gain trust in ANN models. However, there are pitfalls in terms of model-inherent artifacts included in the obtained relevance maps, that can easily be missed. But for a valid interpretation, these artifacts must not be ignored. Here, we apply and revise LRP on various ANN architectures trained as classifiers on geospatial and synthetic data. Depending on the network architecture, we show techniques to control model focus and give guidance to improve the quality of obtained relevance maps to separate facts from artifacts.
翻訳日:2023-07-03 15:21:35 公開日:2023-06-30
# MalProtect:MLベースのマルウェア検出における逆クエリ攻撃に対するステートフル防御

MalProtect: Stateful Defense Against Adversarial Query Attacks in ML-based Malware Detection ( http://arxiv.org/abs/2302.10739v3 )

ライセンス: Link先を確認
Aqib Rashid and Jose Such(参考訳) mlモデルは、逆クエリ攻撃に対して脆弱であることが知られている。 これらの攻撃では、クエリは出力以外にターゲットモデルに関する知識のない特定のクラスに対して反復的に摂動される。 リモートホスト型ML分類モデルとMachine-Learning-as-a-Serviceプラットフォームの普及は、クエリアタックがこれらのシステムのセキュリティに本当の脅威をもたらすことを意味する。 これに対処するため、システムで受信されたクエリのシーケンスを監視し分析することで、クエリアタックの検出と敵の例の発生を防止するために、ステートフルな防御が提案されている。 近年、いくつかの国家防衛が提案されている。 しかし、これらの防御は、他の領域で有効な類似性または分散検出方法のみに依存している。 マルウェア検出領域では、敵の例を生成する方法は本質的に異なるため、そのような検出機構は著しく効果が低い。 そこで本研究では,マルウェア検出領域におけるクエリアタックに対するステートフルな防御であるMalProtectを提案する。 MalProtectはいくつかの脅威指標を使用して攻撃を検出する。 以上の結果から,Android および Windows マルウェアでは,さまざまな攻撃シナリオにおいて,敵クエリ攻撃の回避率を 80 % 削減できることがわかった。 この種の最初の評価では、malprotectは、特に最大の敵の脅威下で、以前の国家的防御よりも優れています。

ML models are known to be vulnerable to adversarial query attacks. In these attacks, queries are iteratively perturbed towards a particular class without any knowledge of the target model besides its output. The prevalence of remotely-hosted ML classification models and Machine-Learning-as-a-Service platforms means that query attacks pose a real threat to the security of these systems. To deal with this, stateful defenses have been proposed to detect query attacks and prevent the generation of adversarial examples by monitoring and analyzing the sequence of queries received by the system. Several stateful defenses have been proposed in recent years. However, these defenses rely solely on similarity or out-of-distribution detection methods that may be effective in other domains. In the malware detection domain, the methods to generate adversarial examples are inherently different, and therefore we find that such detection mechanisms are significantly less effective. Hence, in this paper, we present MalProtect, which is a stateful defense against query attacks in the malware detection domain. MalProtect uses several threat indicators to detect attacks. Our results show that it reduces the evasion rate of adversarial query attacks by 80+\% in Android and Windows malware, across a range of attacker scenarios. In the first evaluation of its kind, we show that MalProtect outperforms prior stateful defenses, especially under the peak adversarial threat.
翻訳日:2023-07-03 15:21:17 公開日:2023-06-30
# 電流雑音量子コンピュータにおける誤差推定

Error estimation in current noisy quantum computers ( http://arxiv.org/abs/2302.06870v2 )

ライセンス: Link先を確認
Unai Aseguinolaza, Nahual Sobrino, Gabriel Sobrino, Joaquim Jornet-Somoza and Juan Borge(参考訳) ノイズの多い中間スケール量子(nisq)時代の最も重要な特徴の1つは、エラーの正しい評価と考慮である。 本稿では、現在の(IBM)量子コンピュータにおけるエラーの主な原因を分析し、任意の量子回路で期待される総エラー確率を容易にするために有用なツール(TED-qc)を提案する。 我々は、この総誤差確率を、nisq時代の忠実度の下限を推定する最善の方法として提案し、量子計算と古典的計算を比較する必要性を回避した。 ツールの頑健さを対照的にするために、3つの異なる量子モデルで起こりうる総誤差確率を計算する。 1)Isingモデル。 2)量子位相推定(QPE)と 3)Groverのアルゴリズム。 各モデルにおいて、主な関心量を計算し、代表的かつ統計的に有意なサンプルサイズに対する誤差確率の関数として参照シミュレータの結果に対してベンチマークする。 この分析は99.5%以上のケースで十分である。 また,測定中に発生するノイズを,誤差軽減手法がいかに除去できるかについて検討する。

One of the main important features of the noisy intermediate-scale quantum (NISQ) era is the correct evaluation and consideration of errors. In this paper, we analyze the main sources of errors in current (IBM) quantum computers and we present a useful tool (TED-qc) designed to facilitate the total error probability expected for any quantum circuit. We propose this total error probability as the best way to estimate a lower bound for the fidelity in the NISQ era, avoiding the necessity of comparing the quantum calculations with any classical one. In order to contrast the robustness of our tool we compute the total error probability that may occur in three different quantum models: 1) the Ising model, 2) the Quantum-Phase Estimation (QPE), and 3) the Grover's algorithm. For each model, the main quantities of interest are computed and benchmarked against the reference simulator's results as a function of the error probability for a representative and statistically significant sample size. The analysis is satisfactory in more than the $99\%$ of the cases. In addition, we study how error mitigation techniques are able to eliminate the noise induced during the measurement.
翻訳日:2023-07-03 15:20:54 公開日:2023-06-30
# 低レベル強い凸性のない二レベル最適化のための平均乗算器法

Averaged Method of Multipliers for Bi-Level Optimization without Lower-Level Strong Convexity ( http://arxiv.org/abs/2302.03407v2 )

ライセンス: Link先を確認
Risheng Liu, Yaohua Liu, Wei Yao, Shangzhi Zeng and Jin Zhang(参考訳) グラデーション手法は、学習分野におけるbi-level optimization (blo) の主流技術となっている。 既存の作業の妥当性は、制限的下層強凸性(LLSC)条件か、あるいは精度の高い一連の近似サブプロブレムの解決に大きく依存している。 本研究では,上層および下層の目的を平均化することにより,大規模BLOに対して単純かつ効率的かつ限定的なLLSC制約を排除した,BLOのための単一ループBiレベル乗算器(sl-BAMM)を提案する。 さらに,sl-bammのkkt定常点への非漸近収束解析を行い,この解析の利点は,常に他者が要求する強勾配有界性仮定が存在しないことにある。 したがって、この理論は、特に上層目的が下層変数の二次 w.r.t. である深層学習における幅広い応用を安全に捉えている。 実験の結果,本手法の優位性が示された。

Gradient methods have become mainstream techniques for Bi-Level Optimization (BLO) in learning fields. The validity of existing works heavily rely on either a restrictive Lower-Level Strong Convexity (LLSC) condition or on solving a series of approximation subproblems with high accuracy or both. In this work, by averaging the upper and lower level objectives, we propose a single loop Bi-level Averaged Method of Multipliers (sl-BAMM) for BLO that is simple yet efficient for large-scale BLO and gets rid of the limited LLSC restriction. We further provide non-asymptotic convergence analysis of sl-BAMM towards KKT stationary points, and the comparative advantage of our analysis lies in the absence of strong gradient boundedness assumption, which is always required by others. Thus our theory safely captures a wider variety of applications in deep learning, especially where the upper-level objective is quadratic w.r.t. the lower-level variable. Experimental results demonstrate the superiority of our method.
翻訳日:2023-07-03 15:20:10 公開日:2023-06-30
# トランスモンアレイにおける標準および所定の測定値による相転移

Phase transitions induced by standard and predetermined measurements in transmon arrays ( http://arxiv.org/abs/2302.02934v3 )

ライセンス: Link先を確認
Gonzalo Mart\'in-V\'azquez, Taneli Tolppanen, Matti Silveri(参考訳) ユニタリダイナミクスと非ユニタリ測定の合流は、一般に測定誘起相転移と呼ばれる興味深い現象と関連する現象を引き起こす。 これらの遷移は、閉じ込められたイオンと超伝導回路からなる量子系で観察されている。 しかし、その実験的な実現には、主に軌跡のポストセレクションとして知られる測定結果の古典的な追跡のために、かなりの資源が必要である。 そこで本研究では, レプリカ法と非エルミート摂動理論の組み合わせを用いて, 繰り返し測定される相互作用トランスモンアレイの統計特性を記述し, 領域法相における関連量の挙動を予測した。 測定を行った後,特定の状態において局所的にシステムを強制する所定の測定値を用いることで,個々の軌道の絡み合いにおける位相遷移の間接診断として,単一地点で測定されたボゾン数分布を活用できることを示す。 興味深いことに、吸収状態を考慮せずに相転移が得られる。 これは、所定の測定アプローチが、選択後に必要とせずにシステムのフェーズを決定するための有効な実験的な選択肢であることを示唆している。 また,ボソン数の局所的な測定を確率的にインターリーブした魅力的なBose-Hubbardモデルでモデル化したトランスモンアレイは,定常状態における軌道のアンサンブルのエントロピー特性の位相遷移を示すことを示す。

The confluence of unitary dynamics and non-unitary measurements gives rise to intriguing and relevant phenomena, generally referred to as measurement-induced phase transitions. These transitions have been observed in quantum systems composed of trapped ions and superconducting circuits. However, their experimental realization demands substantial resources, primarily owing to the classical tracking of measurement outcomes, known as post-selection of trajectories. In this work, we first describe the statistical properties of an interacting transmon array which is repeatedly measured and predict the behavior of relevant quantities in the area-law phase using a combination of the replica method and non-Hermitian perturbation theory. We show that by using predetermined measurements that force the system to be locally in a certain state after performing a measurement we can make use of the distribution of the number of bosons measured at a single site as an indirect diagnostic for the phase transition in the entanglement of individual trajectories. Interestingly, a phase transition is obtained without considering an absorbing state. This implies that the predetermined measurement approach might be a viable experimental option to determine the phase of the system without requiring post-selection. We also show numerically that a transmon array, modeled by an attractive Bose-Hubbard model, in which local measurements of the number of bosons are probabilistically interleaved, exhibits a phase transition in the entanglement entropy properties of the ensemble of trajectories in the steady state.
翻訳日:2023-07-03 15:19:50 公開日:2023-06-30
# LLM応答改善のためのフェデレーションプロンプティングとチェーン・オブ・サート推論

Federated Prompting and Chain-of-Thought Reasoning for Improving LLMs Answering ( http://arxiv.org/abs/2304.13911v2 )

ライセンス: Link先を確認
Xiangyang Liu, Tianqi Pang, Chenyou Fan(参考訳) クラウドベースLarge Language Models (LLMs) を用いた分散ユーザによる質問に対する回答精度の向上について検討した。 本研究は,同じ数学的推論ステップと問題解決手順を含む類似クエリをユーザが質問する典型的な状況に焦点を当てる。 LLMのゼロショットに対する不満足な精度のため,自己整合性(SC)とCoT(Chain-of-Thought)技術を用いて,分散同義語問題を改善することを提案する。 具体的には,まずクラウドソースデータベースから同義語質問を抽出し,連合質問プールを作成する。 これらを同一または異なるパラメータsp-questionまたはdp-questionの連合同義語問題と呼ぶ。 この手法をFed-SP-SCとFed-DP-CoTと呼び、洗練されたモデルチューニングを必要とせず、全てのユーザクエリに対してはるかに正確な回答を生成できる。 より広範な実験により,提案手法は質問の同義性や回答の一貫性を十分に探求することにより,質問精度を大幅に向上させることができることを示した。

We investigate how to enhance answer precision in frequently asked questions posed by distributed users using cloud-based Large Language Models (LLMs). Our study focuses on a typical situations where users ask similar queries that involve identical mathematical reasoning steps and problem-solving procedures. Due to the unsatisfactory accuracy of LLMs' zero-shot prompting with standalone questions, we propose to improve the distributed synonymous questions using Self-Consistency (SC) and Chain-of-Thought (CoT) techniques. Specifically, we first retrieve synonymous questions from a crowd-sourced database and create a federated question pool. We call these federated synonymous questions with the same or different parameters SP-questions or DP-questions, respectively. We refer to our methods as Fed-SP-SC and Fed-DP-CoT, which can generate significantly more accurate answers for all user queries without requiring sophisticated model-tuning. Through extensive experiments, we demonstrate that our proposed methods can significantly enhance question accuracy by fully exploring the synonymous nature of the questions and the consistency of the answers.
翻訳日:2023-07-03 15:12:23 公開日:2023-06-30
# ATMキャッシュリサイクルプロセスの多目的ロジスティックス最適化

Multiobjective Logistics Optimization for Automated ATM Cash Replenishment Process ( http://arxiv.org/abs/2304.13671v4 )

ライセンス: Link先を確認
Bui Tien Thanh, Dinh Van Tuan, Tuan Anh Chi, Nguyen Van Dai, Nguyen Tai Quang Dinh, and Nguyen Thu Thuy(参考訳) デジタルトランスフォーメーションの時代、銀行業務のあらゆる側面にデジタル技術を統合することで、プロセスの自動化、コスト効率、サービスレベルの改善が向上します。 ATMキャッシュのロジスティクスは、運用コストと消費者満足度に影響を与える重要なタスクであるが、それを強化する努力はほとんどなかった。 特にベトナムでは、ATMが全国で2万台以上あるため、この問題を解決できる研究と技術ソリューションは依然として乏しい。 本稿では,ATMキャッシュ補充のための車両ルーティング問題を一般化し,数学的モデルを提案し,様々な状況を評価するためのツールを提供した。 シミュレーションデータセットで評価すると,ATMキャッシュの運用コストを削減することで,提案手法とモデルが有効であることがわかった。

In the digital transformation era, integrating digital technology into every aspect of banking operations improves process automation, cost efficiency, and service level improvement. Although logistics for ATM cash is a crucial task that impacts operating costs and consumer satisfaction, there has been little effort to enhance it. Specifically, in Vietnam, with a market of more than 20,000 ATMs nationally, research and technological solutions that can resolve this issue remain scarce. In this paper, we generalized the vehicle routing problem for ATM cash replenishment, suggested a mathematical model and then offered a tool to evaluate various situations. When being evaluated on the simulated dataset, our proposed model and method produced encouraging results with the benefits of cutting ATM cash operating costs.
翻訳日:2023-07-03 15:12:04 公開日:2023-06-30
# マルチデータ因果探索を用いた機械学習アプリケーションのためのロバスト特徴の選択

Selecting Robust Features for Machine Learning Applications using Multidata Causal Discovery ( http://arxiv.org/abs/2304.05294v5 )

ライセンス: Link先を確認
Saranya Ganesh S., Tom Beucler, Frederick Iat-Hin Tam, Milton S. Gomez, Jakob Runge, and Andreas Gerhardus(参考訳) 信頼性と解釈可能な機械学習(ML)モデルを作成するには、ロバストな機能選択が不可欠だ。 ドメイン知識が限られ、基礎となる相互作用が不明な場合に統計的予測モデルを設計する場合、最適な特徴セットを選択することはしばしば困難である。 この問題を軽減するために,時系列データセットのアンサンブルを同時に処理し,1組の因果ドライバを生成するマルチデータ(m)因果特徴選択手法を導入する。 このアプローチでは、Tigramite Pythonパッケージに実装されているPC1またはPCMCIの因果発見アルゴリズムを使用する。 これらのアルゴリズムは条件付き独立テストを利用して因果グラフの一部を推論する。 我々の因果的特徴選択手法は、ターゲットを予測するMLモデル(多重線形回帰、ランダムフォレスト)への入力として、残りの因果的特徴を渡す前に因果的特徴リンクをフィルタリングする。 我々は,西太平洋熱帯サイクロン (TC) の統計的強度予測に我々の枠組みを適用し,ドライバの正確な選択と次元削減(時間ラグ,垂直レベル,面積拡大)が困難な場合が多い。 条件付き独立テストでより厳密な重要性のしきい値を使用することは、スプリアス因果関係を排除するのに役立つ。 機能の少ないM-PC1は、M-PCMCI、非因果ML、その他の特徴選択方法(ラベル付き相関、ランダム)よりも優れており、eXplainable Artificial Intelligenceに基づく機能選択よりも若干優れています。 因果的特徴の選択から得られた最適な因果的ドライバは、基礎的関係の理解を深め、tc強化の新たな潜在的なドライバを提案するのに役立つ。

Robust feature selection is vital for creating reliable and interpretable Machine Learning (ML) models. When designing statistical prediction models in cases where domain knowledge is limited and underlying interactions are unknown, choosing the optimal set of features is often difficult. To mitigate this issue, we introduce a Multidata (M) causal feature selection approach that simultaneously processes an ensemble of time series datasets and produces a single set of causal drivers. This approach uses the causal discovery algorithms PC1 or PCMCI that are implemented in the Tigramite Python package. These algorithms utilize conditional independence tests to infer parts of the causal graph. Our causal feature selection approach filters out causally-spurious links before passing the remaining causal features as inputs to ML models (Multiple linear regression, Random Forest) that predict the targets. We apply our framework to the statistical intensity prediction of Western Pacific Tropical Cyclones (TC), for which it is often difficult to accurately choose drivers and their dimensionality reduction (time lags, vertical levels, and area-averaging). Using more stringent significance thresholds in the conditional independence tests helps eliminate spurious causal relationships, thus helping the ML model generalize better to unseen TC cases. M-PC1 with a reduced number of features outperforms M-PCMCI, non-causal ML, and other feature selection methods (lagged correlation, random), even slightly outperforming feature selection based on eXplainable Artificial Intelligence. The optimal causal drivers obtained from our causal feature selection help improve our understanding of underlying relationships and suggest new potential drivers of TC intensification.
翻訳日:2023-07-03 15:11:51 公開日:2023-06-30
# GRIL: 機械学習のための2ドルのパラメータ永続化に基づくベクトル化

GRIL: A $2$-parameter Persistence Based Vectorization for Machine Learning ( http://arxiv.org/abs/2304.04970v2 )

ライセンス: Link先を確認
Cheng Xin, Soham Mukherjee, Shreyas N. Samaga, Tamal K. Dey(参考訳) トポロジカルデータ分析(TDA)の基盤となる1ドルパラメトリ・永続ホモロジーは、連結成分やデータに隠されたサイクルなどのトポロジ的特徴の進化を研究する。 グラフニューラルネットワーク(GNN)のようなディープラーニングモデルの表現力を向上するために応用されている。 トポロジカルな特徴の表現を豊かにするために,双濾過関数によって誘導されるパラメータ持続モジュールについて検討する。 これらの表現を機械学習モデルに組み込むために,2ドルのパーシステンスモジュールに対して一般化ランク不変ランドスケープ(gril)と呼ばれる新しいベクトル表現を導入する。 このベクトル表現は、基礎となる濾過関数に対して安定で微分可能であり、トポロジ的特徴を符号化するために機械学習モデルに容易に組み込むことができることを示す。 ベクトル表現を効率的に計算するアルゴリズムを提案する。 私たちはまた、合成グラフとベンチマークグラフデータセットでメソッドをテストし、その結果を1ドルのパラメータと2ドルのパーシステンスモジュールの以前のベクター表現と比較します。 さらに、GRIL機能付きGNNを拡張し、GRILがGNNを豊かにする追加機能をキャプチャできることを示す性能向上を観察する。 提案手法の完全なコードはhttps://github.com/soham0209/mpml-graphで利用可能である。

$1$-parameter persistent homology, a cornerstone in Topological Data Analysis (TDA), studies the evolution of topological features such as connected components and cycles hidden in data. It has been applied to enhance the representation power of deep learning models, such as Graph Neural Networks (GNNs). To enrich the representations of topological features, here we propose to study $2$-parameter persistence modules induced by bi-filtration functions. In order to incorporate these representations into machine learning models, we introduce a novel vector representation called Generalized Rank Invariant Landscape (GRIL) for $2$-parameter persistence modules. We show that this vector representation is $1$-Lipschitz stable and differentiable with respect to underlying filtration functions and can be easily integrated into machine learning models to augment encoding topological features. We present an algorithm to compute the vector representation efficiently. We also test our methods on synthetic and benchmark graph datasets, and compare the results with previous vector representations of $1$-parameter and $2$-parameter persistence modules. Further, we augment GNNs with GRIL features and observe an increase in performance indicating that GRIL can capture additional features enriching GNNs. We make the complete code for the proposed method available at https://github.com/soham0209/mpml-graph.
翻訳日:2023-07-03 15:11:23 公開日:2023-06-30
# 任意の2次元閉じ込めを伴うシュリンガー問題にアプローチするディープラーニングニューラルネットワーク

Deep learning neural network for approaching Schr\"odinger problems with arbitrary two-dimensional confinement ( http://arxiv.org/abs/2304.01325v2 )

ライセンス: Link先を確認
Adrian Radu, Carlos A. Duque(参考訳) 本稿では,ニューラルネットワークを用いた自動学習法に基づく2次元シュリンガー方程式へのアプローチを提案する。 これは、解の知識から多くの任意のサンプル問題まで、任意の二次元ポテンシャルに閉じ込められた粒子の基底状態を決定することを目的としている。 基底状態の波動関数とエネルギーを予測するために,二つの隠れ層を持つネットワークアーキテクチャを提案する。 ニューラルネットワークが提供する推定値を検証するために,いくつかの精度指標を提案する。 トレーニングされたネットワークのテストは、学習プロセスで使用されるものとは異なる大量の閉じ込めポテンシャルに適用することで行われる。 対称ポテンシャルを持つ特定のケースを具体例として解き、良好なネットワーク予測精度を示す。

This article presents an approach to the two-dimensional Schr\"odinger equation based on automatic learning methods with neural networks. It is intended to determine the ground state of a particle confined in any two-dimensional potential, starting from the knowledge of the solutions to a large number of arbitrary sample problems. A network architecture with two hidden layers is proposed to predict the wave function and energy of the ground state. Several accuracy indicators are proposed for validating the estimates provided by the neural network. The testing of the trained network is done by applying it to a large set of confinement potentials different from those used in the learning process. Some particular cases with symmetrical potentials are solved as concrete examples, and a good network prediction accuracy is found.
翻訳日:2023-07-03 15:10:28 公開日:2023-06-30
# 固定予算バンディット同定における複雑性の存在について

On the Existence of a Complexity in Fixed Budget Bandit Identification ( http://arxiv.org/abs/2303.09468v2 )

ライセンス: Link先を確認
R\'emy Degenne(参考訳) 固定予算帯域識別では、アルゴリズムは複数の分布から与えられた最終時点までのサンプルを逐次観察する。 その後、分布の集合に関する問い合わせに答える。 良いアルゴリズムは誤りの確率が小さいだろう。 この確率は最終時刻に指数関数的に減少するが、ほとんどの識別タスクにおいて最高の到達可能率は正確には分かっていない。 固定予算タスクが、すべてのバンディット問題において同じアルゴリズムによって達成される誤差の確率の下限として定義される複雑性を認めると、その問題に対する最適な非適応サンプリング手順によって複雑性が決定されることを示す。 2本の腕を持つベルヌーイのベストアーム識別を含むいくつかの固定予算識別タスクには、そのような複雑さがないことを示す: 可能な最良率を至る所で達成する単一のアルゴリズムは存在しない。

In fixed budget bandit identification, an algorithm sequentially observes samples from several distributions up to a given final time. It then answers a query about the set of distributions. A good algorithm will have a small probability of error. While that probability decreases exponentially with the final time, the best attainable rate is not known precisely for most identification tasks. We show that if a fixed budget task admits a complexity, defined as a lower bound on the probability of error which is attained by the same algorithm on all bandit problems, then that complexity is determined by the best non-adaptive sampling procedure for that problem. We show that there is no such complexity for several fixed budget identification tasks including Bernoulli best arm identification with two arms: there is no single algorithm that attains everywhere the best possible rate.
翻訳日:2023-07-03 15:09:56 公開日:2023-06-30
# 等角不変超弾性規則化による同相画像登録の学習

Learning Homeomorphic Image Registration via Conformal-Invariant Hyperelastic Regularisation ( http://arxiv.org/abs/2303.08113v2 )

ライセンス: Link先を確認
Jing Zou, No\'emie Debroux, Lihao Liu, Jing Qin, Carola-Bibiane Sch\"onlieb, and Angelica I Aviles-Rivero(参考訳) 変形可能な画像登録は、医療画像解析の基本的な課題であり、幅広い臨床応用において重要な役割を果たす。 近年,変形可能な医用画像登録のための深層学習アプローチが広く研究され,有望な成果を上げている。 しかし、既存のディープラーニング画像登録技術は、トポロジー保存変換を理論的に保証していない。 これは解剖学的構造を保存し、実際の臨床で使用できる、妥当な変換を達成するための重要な特性である。 変形可能な画像登録のための新しいフレームワークを提案する。 まず, 非線形弾性設定において, 共形不変性に基づく新しい正則性を導入する。 我々の正規化器は変形場を滑らかで、可逆的で、配向保存するために強制する。 さらに,臨床的に有意な登録を得られるトポロジー保存を厳格に保証する。 第2に,登録済み画像を連続的に識別可能なエンティティとして見ることのできる座標MLPを用いて,正規化器の性能を向上する。 我々は,数値的および視覚的な実験により,現在の画像登録手法を上回ることができることを示す。

Deformable image registration is a fundamental task in medical image analysis and plays a crucial role in a wide range of clinical applications. Recently, deep learning-based approaches have been widely studied for deformable medical image registration and achieved promising results. However, existing deep learning image registration techniques do not theoretically guarantee topology-preserving transformations. This is a key property to preserve anatomical structures and achieve plausible transformations that can be used in real clinical settings. We propose a novel framework for deformable image registration. Firstly, we introduce a novel regulariser based on conformal-invariant properties in a nonlinear elasticity setting. Our regulariser enforces the deformation field to be smooth, invertible and orientation-preserving. More importantly, we strictly guarantee topology preservation yielding to a clinical meaningful registration. Secondly, we boost the performance of our regulariser through coordinate MLPs, where one can view the to-be-registered images as continuously differentiable entities. We demonstrate, through numerical and visual experiments, that our framework is able to outperform current techniques for image registration.
翻訳日:2023-07-03 15:09:44 公開日:2023-06-30
# 弦測定演算子を用いた絡み合いダイナミクス

Entanglement dynamics with string measurement operators ( http://arxiv.org/abs/2303.07102v2 )

ライセンス: Link先を確認
Giulia Piccitto, Angelo Russomanno and Davide Rossini(参考訳) ガウス保存作用素をフェルミオンガウス状態に適用する方法を説明する。 この手法を用いて、弦測度演算子を持つリンドブラッド力学に続くイジングスピン鎖の絡み合いエントロピーの進化を研究し、そのようなリンドブラディアンの量子ジャンプ展開に注目した。 漸近的絡み合いエントロピーは、有限範囲弦作用素の領域則と、系の大きさにスケールする弦の範囲の体積則に従うことが分かる。 同じ挙動が測定のみのダイナミクスで観察され、測定がこの文脈で主要な役割を果たすことを示唆している。

We explain how to apply a Gaussian-preserving operator to a fermionic Gaussian state. We use this method to study the evolution of the entanglement entropy of an Ising spin chain following a Lindblad dynamics with string measurement operators, focusing on the quantum-jump unraveling of such Lindbladian. We find that the asymptotic entanglement entropy obeys an area law for finite-range string operators and a volume law for ranges of the string which scale with the system size. The same behavior is observed for the measurement-only dynamics, suggesting that measurements can play a leading role in this context.
翻訳日:2023-07-03 15:09:29 公開日:2023-06-30
# ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト

Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering ( http://arxiv.org/abs/2306.00526v2 )

ライセンス: Link先を確認
Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang(参考訳) レイアウト対応マルチモーダル事前学習モデルに基づく事前学習・微調整パラダイムは,文書画像質問応答において大きな進歩を遂げた。 しかし、追加のビジュアル、レイアウト、タスクモジュールのためのドメイン事前トレーニングとタスクの微調整は、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接活用することを妨げる。 文書画像質問応答の領域に言語モデルを整合させるのとは対照的に,ゼロショット機能を利用するために,シェルから外れた命令チューニング言語基礎モデルに文書画像質問応答を整合させる。 具体的には、レイアウト対応文書の内容とタスク対応記述からなるLATIN-Promptと呼ばれるレイアウトおよびタスク対応命令プロンプトを提案する。 前者は、OCRツールからテキストセグメント間のレイアウト情報を適切なスペースと線分で復元する。 後者は、タスクの詳細な記述を通じて、モデルが要求、特にフォーマット要求を満たす回答を生成することを保証します。 3つのベンチマークによる実験結果から,LATIN-Promptは文書画像質問応答に基づく命令調整言語基礎モデルのゼロショット性能を改善し,事前学習学習パラダイムに基づくSOTAに匹敵するレベルを達成できることが示されている。 定量的解析と質的分析により,ラテン・プロンプトの有効性が示された。 補助的なコードを提供し、将来の研究を促進するためのコードをリリースします。

The pre-training-fine-tuning paradigm based on layout-aware multimodal pre-trained models has achieved significant progress on document image question answering. However, domain pre-training and task fine-tuning for additional visual, layout, and task modules prevent them from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Contrary to aligning language models to the domain of document image question answering, we align document image question answering to off-the-shell instruction-tuning language foundation models to utilize their zero-shot capability. Specifically, we propose layout and task aware instruction prompt called LATIN-Prompt, which consists of layout-aware document content and task-aware descriptions. The former recovers the layout information among text segments from OCR tools by appropriate spaces and line breaks. The latter ensures that the model generates answers that meet the requirements, especially format requirements, through a detailed description of task. Experimental results on three benchmarks show that LATIN-Prompt can improve the zero-shot performance of instruction-tuning language foundation models on document image question answering and help them achieve comparable levels to SOTAs based on the pre-training-fine-tuning paradigm. Quantitative analysis and qualitative analysis demonstrate the effectiveness of LATIN-Prompt. We provide the code in supplementary and will release the code to facilitate future research.
翻訳日:2023-07-03 15:04:12 公開日:2023-06-30
# 自然言語説明に対する忠実性テスト

Faithfulness Tests for Natural Language Explanations ( http://arxiv.org/abs/2305.18029v2 )

ライセンス: Link先を確認
Pepa Atanasova, Oana-Maria Camburu, Christina Lioma, Thomas Lukasiewicz, Jakob Grue Simonsen, Isabelle Augenstein(参考訳) ニューラルモデルの説明は、その予測に対するモデルの意思決定過程を明らかにすることを目的としている。 しかし、最近の研究は、モデルの内部の作業に不満足な理由を提示する傾向があるため、サリエンシマップや反ファクトアルなどの説明を行う現在の手法が誤解を招く可能性があることを示している。 本研究は自然言語説明(nles)の忠実性を評価するという難題を提起する。 この目的のために、我々は2つのテストを示す。 まず,偽の予測につながるがnlesには反映されない理由を挿入する偽の入力エディタを提案する。 次に、生成したNLEに記述された理由から入力を再構成し、同じ予測にどれだけの頻度で導かれるかを確認する。 我々のテストは、新しいNLEモデルを評価することができ、忠実なNLEの開発における基本的なツールを証明できる。

Explanations of neural models aim to reveal a model's decision-making process for its predictions. However, recent work shows that current methods giving explanations such as saliency maps or counterfactuals can be misleading, as they are prone to present reasons that are unfaithful to the model's inner workings. This work explores the challenging question of evaluating the faithfulness of natural language explanations (NLEs). To this end, we present two tests. First, we propose a counterfactual input editor for inserting reasons that lead to counterfactual predictions but are not reflected by the NLEs. Second, we reconstruct inputs from the reasons stated in the generated NLEs and check how often they lead to the same predictions. Our tests can evaluate emerging NLE models, proving a fundamental tool in the development of faithful NLEs.
翻訳日:2023-07-03 15:03:26 公開日:2023-06-30
# 改良されたreluネットワーク特徴学習のための神経特性アクティベーション値解析

Neural Characteristic Activation Value Analysis for Improved ReLU Network Feature Learning ( http://arxiv.org/abs/2305.15912v2 )

ライセンス: Link先を確認
Wenlin Chen, Hong Ge(参考訳) ニューラルネットワークにおける個々のReLUユニットの特性活性化値について検討する。 入力空間におけるそのような特性活性化値に対する対応する集合をReLUユニットの特性活性化集合と呼ぶ。 特徴アクティベーションセットとReLUネットワークにおける学習特徴との間に明確な関係を描いている。 この接続は、現代のディープラーニングアーキテクチャで使用される様々なニューラルネットワーク正規化技術がsgd最適化を規則化し安定化する理由に関する新たな洞察をもたらす。 これらの知見を活かして,reluネットワークのパラメータ化による特徴学習の改善を提案する。 より注意深く選択された初期化スキームとより大きな学習率でその有用性を検証する。 最適化の安定性,収束速度の高速化,一般化性能の向上について報告する。

We examine the characteristic activation values of individual ReLU units in neural networks. We refer to the corresponding set for such characteristic activation values in the input space as the characteristic activation set of a ReLU unit. We draw an explicit connection between the characteristic activation set and learned features in ReLU networks. This connection leads to new insights into why various neural network normalization techniques used in modern deep learning architectures regularize and stabilize SGD optimization. Utilizing these insights, we propose a geometric approach to parameterize ReLU networks for improved feature learning. We empirically verify its usefulness with less carefully chosen initialization schemes and larger learning rates. We report improved optimization stability, faster convergence speed, and better generalization performance.
翻訳日:2023-07-03 15:03:12 公開日:2023-06-30
# 翻訳指導による多言語ファインタニングによる大言語モデルの翻訳能力の軽減

Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions ( http://arxiv.org/abs/2305.15083v2 )

ライセンス: Link先を確認
Jiahuan Li, Hao Zhou, Shujian Huang, Shanbo Cheng, Jiajun Chen(参考訳) ChatGPTやGPT4のような大規模事前学習言語モデル(LLM)は、並列コーパスで明示的に訓練されることなく、多言語翻訳において強力な能力を示している。 LLMが様々な言語に対して翻訳命令を実行する能力を得る様子は興味深い。 本稿では,多言語事前学習型言語モデルXGLM-7Bを微調整し,与えられた指示に従って多言語翻訳を行う。 まず,多言語LLMは従来よりも翻訳能力が高いことを示す。 特定の言語の場合、パフォーマンスは英語と類似度と事前学習フェーズで使用されるデータの量に依存する。 第2に,llmsの翻訳命令実行能力は,翻訳命令の理解と異なる言語間のアライメントに依存することがわかった。 多言語ファインタニングにより、LLMは、命令チューニングフェーズ中に見つからない言語ペアであっても、翻訳タスクをうまく実行することができる。

Large-scale Pretrained Language Models (LLMs), such as ChatGPT and GPT4, have shown strong abilities in multilingual translations, without being explicitly trained on parallel corpora. It is interesting how the LLMs obtain their ability to carry out translation instructions for different languages. In this paper, we present a detailed analysis by finetuning a multilingual pretrained language model, XGLM-7B, to perform multilingual translation following given instructions. Firstly, we show that multilingual LLMs have stronger translation abilities than previously demonstrated. For a certain language, the performance depends on its similarity to English and the amount of data used in the pretraining phase. Secondly, we find that LLMs' ability to carry out translation instructions relies on the understanding of translation instructions and the alignment among different languages. With multilingual finetuning, LLMs could learn to perform the translation task well even for those language pairs unseen during the instruction tuning phase.
翻訳日:2023-07-03 15:02:59 公開日:2023-06-30
# グラフニューラルネットワークによる複雑な物理系シミュレーションに向けて

Towards Complex Dynamic Physics System Simulation with Graph Neural ODEs ( http://arxiv.org/abs/2305.12334v4 )

ライセンス: Link先を確認
Guangsi Shi, Daokun Zhang, Ming Jin, Shirui Pan and Philip S. Yu(参考訳) 深層学習モデルの優れた学習能力により,実世界の理解が容易になり,複雑な粒子系をシミュレートすることが期待できる。 しかし、物理世界の複雑な法則は、相互作用する粒子間の空間依存性の変化や、粒子の相互作用行動や物理系の進化パターンを支配する異なるタイムスタンプにおける粒子系状態間の時間依存性など、学習に基づくシミュレーションに重大な課題をもたらす。 既存の学習に基づくシミュレーション手法では、複雑度を完全に説明できないため、十分なシミュレーションが得られない。 複雑な物理法則をよりよく理解するために,一貫したエンド・ツー・エンド・フレームワークを用いて粒子系の空間的・時間的依存性を特徴付ける新しい学習ベースシミュレーションモデルGNSTODE(Spatial-Temporal Neural Ordinary Equations)を提案する。 GNSTODEは実世界の粒子-粒子相互作用観測のトレーニングを通じて、高い精度で任意の粒子系をシミュレートすることができる。 我々はGNSTODEの2つの実世界の粒子系(重力とクーロン)におけるシミュレーション性能を、空間的および時間的依存の異なるレベルで実験的に評価した。 その結果,提案したGNSTODEは最先端の学習ベースシミュレーション法よりもはるかに優れたシミュレーションが得られ,GNSTODEが実世界の粒子シミュレーションに有効であることを示す。

The great learning ability of deep learning models facilitates us to comprehend the real physical world, making learning to simulate complicated particle systems a promising endeavour. However, the complex laws of the physical world pose significant challenges to the learning based simulations, such as the varying spatial dependencies between interacting particles and varying temporal dependencies between particle system states in different time stamps, which dominate particles' interacting behaviour and the physical systems' evolution patterns. Existing learning based simulation methods fail to fully account for the complexities, making them unable to yield satisfactory simulations. To better comprehend the complex physical laws, this paper proposes a novel learning based simulation model- Graph Networks with Spatial-Temporal neural Ordinary Equations (GNSTODE)- that characterizes the varying spatial and temporal dependencies in particle systems using a united end-to-end framework. Through training with real-world particle-particle interaction observations, GNSTODE is able to simulate any possible particle systems with high precisions. We empirically evaluate GNSTODE's simulation performance on two real-world particle systems, Gravity and Coulomb, with varying levels of spatial and temporal dependencies. The results show that the proposed GNSTODE yields significantly better simulations than state-of-the-art learning based simulation methods, which proves that GNSTODE can serve as an effective solution to particle simulations in real-world application.
翻訳日:2023-07-03 15:02:42 公開日:2023-06-30
# 重み正規化によるロバスト入射規則化

Robust Implicit Regularization via Weight Normalization ( http://arxiv.org/abs/2305.05448v2 )

ライセンス: Link先を確認
Hung-Hsu Chou, Holger Rauhut, Rachel Ward(参考訳) 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。 現在確立されている研究の行は、(統計的)勾配降下が、ディープリニアネットワークのトレーニングに使用する場合、低いランクや疎解に対して暗黙のバイアスを持つ傾向があることを示しており、勾配降下によって訓練された過パラメータニューラルネットワークモデルが実際に優れた一般化性能を持つ理由をある程度説明している。 しかし、既存の四角損失目的の理論は、訓練可能な重みの非常に小さな初期化を必要とすることが多く、これはより高速な収束とより良い一般化性能のために実際に重みが初期化されるより大きなスケールと相反する。 本稿では,重みベクトルを極座標で再パラメータ化し,勾配勾配を極座標に適用する重み正規化による勾配降下を組み込んで解析することにより,このギャップを埋めることを目的とする。 勾配流の重要な不変量を分析し、lojasiewiczの定理を用いて、重み正規化は対角線型モデルにおける疎解に対する暗黙のバイアスを持つが、平易な勾配降下とは対照的に、重み正規化は実際に大規模に初期化されても持続する頑健なバイアスを可能にする。 実験により, 重み正規化を用いた過パラメータ付き対角型線形ネットワークモデルにおいて, 収束速度と暗黙バイアスのロバスト性の両方が劇的に向上することが示唆された。

Overparameterized models may have many interpolating solutions; implicit regularization refers to the hidden preference of a particular optimization method towards a certain interpolating solution among the many. A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice. However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. In this paper, we aim to close this gap by incorporating and analyzing gradient descent with weight normalization, where the weight vector is reparamterized in terms of polar coordinates, and gradient descent is applied to the polar coordinates. By analyzing key invariants of the gradient flow and using Lojasiewicz's Theorem, we show that weight normalization also has an implicit bias towards sparse solutions in the diagonal linear model, but that in contrast to plain gradient descent, weight normalization enables a robust bias that persists even if the weights are initialized at practically large scale. Experiments suggest that the gains in both convergence speed and robustness of the implicit bias are improved dramatically by using weight normalization in overparameterized diagonal linear network models.
翻訳日:2023-07-03 15:02:09 公開日:2023-06-30
# 分解密度を持つ文字列図形

String Diagrams with Factorized Densities ( http://arxiv.org/abs/2305.02506v3 )

ライセンス: Link先を確認
Eli Sennesh and Jan-Willem van de Meent(参考訳) 確率的プログラムと因果モデルに関する研究の活発化は、有向グラフィカルモデルを拡張するモデルクラスについて構成的に考える必要性を強調している。 確率的プログラムと因果モデルの両方は、ランダム変数の集合上の合同確率密度を定義し、因果関係と条件独立性を推論するために使用できるスパース構造を示す。 この研究は、確率写像のマルコフ圏に関する最近の研究に基づいて、射が各サンプル空間上で分解された結合密度と、サンプルから戻り値への決定論的写像を組み合わせた圏を定義する。 これは、確率測度に関する最近のカテゴリー論的記述と、確率計画法や因果推論によく用いられる分解密度の操作的定義とのギャップを埋めるためのステップである。

A growing body of research on probabilistic programs and causal models has highlighted the need to reason compositionally about model classes that extend directed graphical models. Both probabilistic programs and causal models define a joint probability density over a set of random variables, and exhibit sparse structure that can be used to reason about causation and conditional independence. This work builds on recent work on Markov categories of probabilistic mappings to define a category whose morphisms combine a joint density, factorized over each sample space, with a deterministic mapping from samples to return values. This is a step towards closing the gap between recent category-theoretic descriptions of probability measures, and the operational definitions of factorized densities that are commonly employed in probabilistic programming and causal inference.
翻訳日:2023-07-03 15:01:36 公開日:2023-06-30
# シミュレーションが自動運転にどのように役立つか:Sim2real, Digital Twins, Parallel Intelligenceの調査

How Simulation Helps Autonomous Driving:A Survey of Sim2real, Digital Twins, and Parallel Intelligence ( http://arxiv.org/abs/2305.01263v2 )

ライセンス: Link先を確認
Xuemin Hu, Shen Li, Tingyu Huang, Bo Tang, Rouxing Huai, Long Chen(参考訳) 安全とコストは、自動運転技術の開発において重要な2つの問題である。 学術研究から自動運転車の商用利用まで、十分なシミュレーションと実世界のテストが必要となる。 一般に,シミュレーション環境における大規模なテストを実施し,学習した運転知識を現実世界に伝達することにより,シミュレーションで学んだ運転知識を現実に適応させる方法が重要となる。 しかし, 仮想シミュレーションの世界は, 照明, テクスチャ, 車両力学, エージェントの挙動など, 現実世界とは異なっており, 仮想世界と現実世界のギャップを埋めることが困難である。 このギャップは一般に現実ギャップ(real reality gap, rg)と呼ばれる。 近年、研究者は、シミュレーションから現実への知識の伝達(sim2real)、デジタル双生児における学習(dts)、並列知能による学習(pi)の3つのカテゴリに大別できる、現実のギャップ問題に対処するための様々なアプローチを模索している。 本稿では、sim2real、DT、PI技術によるソリューションを検討し、自律運転分野における重要な応用と革新についてレビューする。 一方,アルゴリズム,モデル,シミュレータの視点から最先端技術を紹介し,sim2realからDT,PIに至るまでの開発プロセスについて詳しく述べる。 このプレゼンテーションは、自動運転におけるsim2real、DTs、PIの開発における、広範囲にわたる効果と課題についても説明している。

Safety and cost are two important concerns for the development of autonomous driving technologies. From the academic research to commercial applications of autonomous driving vehicles, sufficient simulation and real world testing are required. In general, a large scale of testing in simulation environment is conducted and then the learned driving knowledge is transferred to the real world, so how to adapt driving knowledge learned in simulation to reality becomes a critical issue. However, the virtual simulation world differs from the real world in many aspects such as lighting, textures, vehicle dynamics, and agents' behaviors, etc., which makes it difficult to bridge the gap between the virtual and real worlds. This gap is commonly referred to as the reality gap (RG). In recent years, researchers have explored various approaches to address the reality gap issue, which can be broadly classified into three categories: transferring knowledge from simulation to reality (sim2real), learning in digital twins (DTs), and learning by parallel intelligence (PI) technologies. In this paper, we consider the solutions through the sim2real, DTs, and PI technologies, and review important applications and innovations in the field of autonomous driving. Meanwhile, we show the state-of-the-arts from the views of algorithms, models, and simulators, and elaborate the development process from sim2real to DTs and PI. The presentation also illustrates the far-reaching effects and challenges in the development of sim2real, DTs, and PI in autonomous driving.
翻訳日:2023-07-03 15:01:22 公開日:2023-06-30
# 転校学習におけるモデル選択の限界

Limits of Model Selection under Transfer Learning ( http://arxiv.org/abs/2305.00152v3 )

ライセンス: Link先を確認
Steve Hanneke, Samory Kpotufe, Yasaman Mahdaviyeh(参考訳) 転送学習やドメイン適応に関する理論的研究はこれまで、既知の仮説クラスやモデルでの状況に焦点を当ててきたが、実際には、いくつかのモデル選択は、通常、ハイパーパラメータチューニング(hyperparameter-tuning)という包括的用語の下に現れる。 現在、モデル選択に関わる近似と推定誤差の通常のトレードオフに加えて、この問題は新たな複雑性項、すなわち、ソースとターゲットの分布間の移動距離が仮説クラスの選択によって異なることが知られている。 特に、分析によって注目すべき現象が明らかになる: 適応率、すなわち、分布情報を持たないもの、すなわち、距離に関する知識が与えられたとき、oracleの速度よりも任意に遅い可能性がある。

Theoretical studies on transfer learning or domain adaptation have so far focused on situations with a known hypothesis class or model; however in practice, some amount of model selection is usually involved, often appearing under the umbrella term of hyperparameter-tuning: for example, one may think of the problem of tuning for the right neural network architecture towards a target task, while leveraging data from a related source task. Now, in addition to the usual tradeoffs on approximation vs estimation errors involved in model selection, this problem brings in a new complexity term, namely, the transfer distance between source and target distributions, which is known to vary with the choice of hypothesis class. We present a first study of this problem, focusing on classification; in particular, the analysis reveals some remarkable phenomena: adaptive rates, i.e., those achievable with no distributional information, can be arbitrarily slower than oracle rates, i.e., when given knowledge on distances.
翻訳日:2023-07-03 15:00:58 公開日:2023-06-30
# MedLSAM:3D画像の局所化とセグメンテーションモデル

MedLSAM: Localize and Segment Anything Model for 3D Medical Images ( http://arxiv.org/abs/2306.14752v2 )

ライセンス: Link先を確認
Wenhui Lei, Xu Wei, Xiaofan Zhang, Kang Li, Shaoting Zhang(参考訳) Segment Anything Model (SAM)は画像セグメンテーションの分野で画期的なモデルとして最近登場した。 それでも、オリジナルのSAMとその医療適応はスライス・バイ・スライス・アノテーションを必要としており、データセットのサイズに応じてアノテーションのワークロードを直接増加させる。 この問題に対処するため,データセットのサイズに関わらず一定のアノテーション処理を確実にし,アノテーション処理を簡素化するMedLSAMを提案する。 本モデルでは,身体内の任意の解剖学的部位をローカライズ可能な,数発の局所化フレームワークを提案する。 そこで我々は, 相対距離回帰(RDR)とマルチスケール類似性(MSS)の2つの自己超越的タスクを, 14,012個のCTスキャンの包括的データセット全体にわたって利用した3次元医用画像の局所的任意のモデル(MedLAM)を開発した。 次に,MedLAMとSAMを統合することによって,正確なセグメンテーションの方法論を確立する。 テンプレートで3方向に6つの極端な点をアノテートすることで、アノテーションのためにスケジュールされた全てのデータに基づいて、ターゲットの解剖学的領域を自律的に特定できる。 これにより、画像のスライス毎に2Dバウンディングボックスを生成し、SAMによってセグメンテーションを実行することができます。 我々は,38臓器をカバーする2つの3Dデータセットを用いて実験を行い,MedLSAMがSAMとその医療適応のパフォーマンスと一致し,データセット全体の極端点アノテーションを必要としないことがわかった。 さらに、MedLAMは将来の3D SAMモデルとシームレスに統合され、性能向上への道を開く可能性がある。 コードはhttps://github.com/openmedlab/medlsam.comで公開しています。

The Segment Anything Model (SAM) has recently emerged as a groundbreaking model in the field of image segmentation. Nevertheless, both the original SAM and its medical adaptations necessitate slice-by-slice annotations, which directly increase the annotation workload with the size of the dataset. We propose MedLSAM to address this issue, ensuring a constant annotation workload irrespective of dataset size and thereby simplifying the annotation process. Our model introduces a few-shot localization framework capable of localizing any target anatomical part within the body. To achieve this, we develop a Localize Anything Model for 3D Medical Images (MedLAM), utilizing two self-supervision tasks: relative distance regression (RDR) and multi-scale similarity (MSS) across a comprehensive dataset of 14,012 CT scans. We then establish a methodology for accurate segmentation by integrating MedLAM with SAM. By annotating only six extreme points across three directions on a few templates, our model can autonomously identify the target anatomical region on all data scheduled for annotation. This allows our framework to generate a 2D bounding box for every slice of the image, which are then leveraged by SAM to carry out segmentations. We conducted experiments on two 3D datasets covering 38 organs and found that MedLSAM matches the performance of SAM and its medical adaptations while requiring only minimal extreme point annotations for the entire dataset. Furthermore, MedLAM has the potential to be seamlessly integrated with future 3D SAM models, paving the way for enhanced performance. Our code is public at https://github.com/openmedlab/MedLSAM.
翻訳日:2023-07-03 14:53:19 公開日:2023-06-30
# 紛争解決へのカテゴリー的アプローチ: 紛争解決のためのグラフモデルにカテゴリ理論を統合する

Categorical Approach to Conflict Resolution: Integrating Category Theory into the Graph Model for Conflict Resolution ( http://arxiv.org/abs/2306.13961v2 )

ライセンス: Link先を確認
Yukiko Kato(参考訳) 本稿では,カテゴリー理論を従来の競合解決グラフモデル(gmcr)に統合する新しい枠組みである,コンフリクト解決のためのカテゴリグラフモデル(c-gmcr)について述べる。 C-GMCRフレームワークは、競合解決をモデル化し分析するためのより抽象的で一般的な方法を提供する。 本稿では, C-GMCRフレームワークの基本概念, 方法, 応用を, 有名な囚人のジレンマやその他の代表例に提示する。 この結果は、カテゴリー的アプローチが安定性の概念に対する新たな視点を与え、より効果的な紛争解決戦略の開発につながる可能性を示唆している。

This paper introduces the Categorical Graph Model for Conflict Resolution (C-GMCR), a novel framework that integrates category theory into the traditional Graph Model for Conflict Resolution (GMCR). The C-GMCR framework provides a more abstract and general way to model and analyze conflict resolution, enabling researchers to uncover deeper insights and connections. We present the basic concepts, methods, and application of the C-GMCR framework to the well-known Prisoner's Dilemma and other representative cases. The findings suggest that the categorical approach offers new perspectives on stability concepts and can potentially lead to the development of more effective conflict resolution strategies.
翻訳日:2023-07-03 14:52:50 公開日:2023-06-30
# 情報損失制約に基づく大規模公共安全時空間データの効率的な分割方法

Efficient Partitioning Method of Large-Scale Public Safety Spatio-Temporal Data based on Information Loss Constraints ( http://arxiv.org/abs/2306.12857v2 )

ライセンス: Link先を確認
Jie Gao, Yawen Li, Zhe Xue, and Zeli Guan(参考訳) 大規模な時空間データの保管、管理、適用は、公共の安全を含む様々な実践シナリオに広く適用されている。 しかし,re-al-worldデータの時空間分布特性から,既存の手法では,データの時空間的近接や分散ストレージにおける負荷分散が制限されている。 本稿では,情報損失制約(IFL-LSTP)に基づく大規模公共安全時空間データの効率的な分割手法を提案する。 IFL-LSTPモデルは、時空間分割モジュール(STPM)とグラフ分割モジュール(GPM)を組み合わせた大規模時空間点da-taを特にターゲットとしている。 このアプローチは、パーティショニング効率を改善するために、モデルの精度を維持しながらデータのスケールを大幅に削減することができる。 また、データパーティショニング結果の時空間的近接を維持しながら、分散ストレージのロードバランシングを確保することもできる。 本手法は,仮設時空間データの分散ストレージのための新しいソリューションを提供する。 複数の実世界のda-tasetに対する実験結果は、IFL-LSTPの有効性と優位性を示している。

The storage, management, and application of massive spatio-temporal data are widely applied in various practical scenarios, including public safety. However, due to the unique spatio-temporal distribution characteristics of re-al-world data, most existing methods have limitations in terms of the spatio-temporal proximity of data and load balancing in distributed storage. There-fore, this paper proposes an efficient partitioning method of large-scale public safety spatio-temporal data based on information loss constraints (IFL-LSTP). The IFL-LSTP model specifically targets large-scale spatio-temporal point da-ta by combining the spatio-temporal partitioning module (STPM) with the graph partitioning module (GPM). This approach can significantly reduce the scale of data while maintaining the model's accuracy, in order to improve the partitioning efficiency. It can also ensure the load balancing of distributed storage while maintaining spatio-temporal proximity of the data partitioning results. This method provides a new solution for distributed storage of mas-sive spatio-temporal data. The experimental results on multiple real-world da-tasets demonstrate the effectiveness and superiority of IFL-LSTP.
翻訳日:2023-07-03 14:52:39 公開日:2023-06-30
# 瞬時測定は情報を分離できる

Instantaneous measurement can isolate the information ( http://arxiv.org/abs/2306.09670v2 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) 互いに絡み合っている2つのスピン1とNを考える。 有名なように、スピン n の任意の測定はスピン 1 の還元状態を変えることはない。 言い換えれば、スピン 1 はスピン n 上で測定されたことを決して認識しないが、スピン 2 から n - 1 までを含むスピン鎖によってスピン 1 と n が接続されたらどうなるか? 一般に、スピンNの測定を行う情報は、一定時間後にスピン1を達成することを期待する。 言い換えれば、スピンN上の測定によりスピン1の減少状態がしばらく経ってから変化することが期待できる。 本稿では、スピンNの測定が瞬時に行われ、スピンチェーン全体の初期状態が1からNに適切に選択された場合、スピンNの測定を行う情報はスピン1を達成できないことを示す。

Consider two spins 1 and N, which are entangled and far from each other. As it is famous, performing any measurement on spin N does not change the reduced state of spin 1. In other words, spin 1 will never realize that a measurement has been performed on spin N. But, what does happen if spins 1 and N are connected to each other by a spin chain, including spins 2 to N - 1? In general, we expect that the information of performing a measurement on spin N achieves spin 1, after a period of time. In other words, we expect that the reduced state of spin 1 is changed, due to the measurement performed on spin N, after some while. In this paper, we show that, if the measurement on spin N is performed instantaneously, and if we choose the initial state of the whole spin chain, from 1 to N, appropriately, then the information of performing the measurement on spin N never achieves spin 1.
翻訳日:2023-07-03 14:52:21 公開日:2023-06-30
# LUT-GCE: 高速低照度画像強調のためのルックアップテーブルグローバル曲線推定

LUT-GCE: Lookup Table Global Curve Estimation for Fast Low-light Image Enhancement ( http://arxiv.org/abs/2306.07083v2 )

ライセンス: Link先を確認
Changguang Wu, Jiangxin Dong, Jinhui Tang(参考訳) 本稿では,Lookup Table Global Curve Estimation (LUT-GCE) という,低照度画像強調のための効果的かつ効率的な手法を提案する。 画素単位で調整した既存の曲線法とは対照的に,画像全体の大域的な曲線を推定し,アンダー・エクスプロイアとオーバー・エクスプロイアの両方の補正を可能にする。 具体的には、光強調のための新しい立方曲線定式化を開発し、画像のレンジ調整のための画像適応および画素非依存曲線を可能にする。 次に,25.4kのパラメータしか持たない超軽量ネットワークであるグローバル曲線推定ネットワーク(gcenet)を提案する。 推論速度をさらに高速化するために、高速な検索にルックアップテーブル法を用いる。 さらに、画像のコントラストを改善し、より鮮明な詳細を回復できるゼロショット学習を可能にするために、新しいヒストグラムの滑らかさ損失を設計する。 定量的および定性的な結果は,提案手法の有効性を示す。 さらに,提案手法は,特に高精細画像(例えば,1080p,4k)において,推論速度の観点から技術状況よりも優れる。

We present an effective and efficient approach for low-light image enhancement, named Lookup Table Global Curve Estimation (LUT-GCE). In contrast to existing curve-based methods with pixel-wise adjustment, we propose to estimate a global curve for the entire image that allows corrections for both under- and over-exposure. Specifically, we develop a novel cubic curve formulation for light enhancement, which enables an image-adaptive and pixel-independent curve for the range adjustment of an image. We then propose a global curve estimation network (GCENet), a very light network with only 25.4k parameters. To further speed up the inference speed, a lookup table method is employed for fast retrieval. In addition, a novel histogram smoothness loss is designed to enable zero-shot learning, which is able to improve the contrast of the image and recover clearer details. Quantitative and qualitative results demonstrate the effectiveness of the proposed approach. Furthermore, our approach outperforms the state of the art in terms of inference speed, especially on high-definition images (e.g., 1080p and 4k).
翻訳日:2023-07-03 14:51:55 公開日:2023-06-30
# ベイズ最適化のための自己調整重み付き期待改善

Self-Adjusting Weighted Expected Improvement for Bayesian Optimization ( http://arxiv.org/abs/2306.04262v3 )

ライセンス: Link先を確認
Carolin Benjamins and Elena Raponi and Anja Jankovic and Carola Doerr and Marius Lindauer(参考訳) ベイズ最適化(英: Bayesian Optimization, BO)は、ブラックボックス問題を最小評価予算で最適化するためのサロゲートベースのサンプル効率アルゴリズムである。 BOパイプライン自体は、初期設計、サロゲートモデル、取得機能(AF)に関する多くの異なる設計選択で、高度に構成可能である。 残念ながら、問題に対する適切なコンポーネントの選択方法に関する理解は非常に限られています。 本研究は,不確実性の高い地域と,優れたソリューションを約束する地域とのトレードオフを両立させることを主目的とするAFの定義に焦点を当てる。 我々は,BOの収束基準に基づいて,データ駆動方式で探索・探索トレードオフを自己調整する自己調整重み付き改善(SAWEI)を提案する。 COCOベンチマークプラットフォームのノイズフリーなブラックボックスBBOB関数では,手作りのベースラインに比べて任意の時間性能が良好であり,どの問題構造に対しても堅牢なデフォルト選択として機能する。 提案手法の適合性もHPOBenchに伝達される。 SAWEIでは、手元にある問題に自動的にサンプリング動作を調整する、オンザフライ、データ駆動、堅牢なBO設計に一歩近づきます。

Bayesian Optimization (BO) is a class of surrogate-based, sample-efficient algorithms for optimizing black-box problems with small evaluation budgets. The BO pipeline itself is highly configurable with many different design choices regarding the initial design, surrogate model, and acquisition function (AF). Unfortunately, our understanding of how to select suitable components for a problem at hand is very limited. In this work, we focus on the definition of the AF, whose main purpose is to balance the trade-off between exploring regions with high uncertainty and those with high promise for good solutions. We propose Self-Adjusting Weighted Expected Improvement (SAWEI), where we let the exploration-exploitation trade-off self-adjust in a data-driven manner, based on a convergence criterion for BO. On the noise-free black-box BBOB functions of the COCO benchmarking platform, our method exhibits a favorable any-time performance compared to handcrafted baselines and serves as a robust default choice for any problem structure. The suitability of our method also transfers to HPOBench. With SAWEI, we are a step closer to on-the-fly, data-driven, and robust BO designs that automatically adjust their sampling behavior to the problem at hand.
翻訳日:2023-07-03 14:50:53 公開日:2023-06-30
# ランドー・ツェナー転移の連続測定による量子スペクトル解析

Quantum spectral analysis by continuous measurement of Landau-Zener transitions ( http://arxiv.org/abs/2306.01622v3 )

ライセンス: Link先を確認
Christopher C. Bounds, Josh P. Duff, Alex Tritt, Hamish Taylor, George X. Coe, Sam J. White, L. D. Turner (School of Physics and Astronomy, Monash University, Melbourne, Australia)(参考訳) 単一実験ショットにおける単一量子センサによる信号周波数と振幅の同時推定を実証する。 周波数を線形に分割すると、クビットが共鳴するときに非断熱的なランダウ・ツェナー転移が生じる。 信号周波数は遷移の時刻と振幅をその範囲で決定する。 このユニタリ進化の連続的な弱測定は、周波数と振幅を正確に測定するパラメータ推定器に知らせる。 ファラデー・スピンライト・インタフェースで読み出された電波で、20〜\text{pT}$振幅の精度と周波数のほぼ変換制限精度の磁気信号を、300〜\text{ms}$スイープで7ドルから13〜\text{kHz}$で検出する。 このプロトコルは、sweept-sine量子スペクトルアナライザを実現し、単一の量子センサーで数百から数千のチャネルを検知する可能性がある。

We demonstrate the simultaneous estimation of signal frequency and amplitude by a single quantum sensor in a single experimental shot. Sweeping the qubit splitting linearly across a span of frequencies induces a non-adiabatic Landau-Zener transition as the qubit crosses resonance. The signal frequency determines the time of the transition, and the amplitude its extent. Continuous weak measurement of this unitary evolution informs a parameter estimator retrieving precision measurements of frequency and amplitude. Implemented on radiofrequency-dressed ultracold atoms read out by a Faraday spin-light interface, we sense a magnetic signal with $20~\text{pT}$ precision in amplitude, and near-transform-limited precision in frequency, in a single $300~\text{ms}$ sweep from $7$ to $13~\text{kHz}$. The protocol realises a swept-sine quantum spectrum analyzer, potentially sensing hundreds or thousands of channels with a single quantum sensor.
翻訳日:2023-07-03 14:50:32 公開日:2023-06-30
# GNNとカーネル平均埋め込みを用いた原子シミュレーションのための伝達学習

Transfer learning for atomistic simulations using GNNs and kernel mean embeddings ( http://arxiv.org/abs/2306.01589v2 )

ライセンス: Link先を確認
John Falk, Luigi Bonati, Pietro Novelli, Michele Parinello, Massimiliano Pontil(参考訳) 機械学習を用いて学習した原子間ポテンシャルは原子論シミュレーションにうまく応用されている。 しかし、ディープラーニングパイプラインはデータ不足で悪名高い一方、参照計算の生成は計算的に要求される。 この課題を克服するために,グラフニューラルネットワーク(gnns)の化学環境記述能力とカーネル平均埋め込みを活用した転送学習アルゴリズムを提案する。 OC20データセット上で事前学習したGNNの特徴マップを抽出し,それを用いて触媒プロセスのシステム固有のデータセットからポテンシャルエネルギー面を学習する。 本手法は, 化学種情報を組み込んだフレキシブルカーネル機能によりさらに拡張され, 性能と解釈性が向上する。 我々は,GNNやリッジレグレッションのみに依存する手法,および類似の微調整手法を改良し,複雑性を増大させ,優れた一般化と転送可能性性能を示す一連の現実的なデータセットを検証した。 コードはhttps://github.com/IsakFalk/atomistic_transfer_mekrrでコミュニティに公開しています。

Interatomic potentials learned using machine learning methods have been successfully applied to atomistic simulations. However, deep learning pipelines are notoriously data-hungry, while generating reference calculations is computationally demanding. To overcome this difficulty, we propose a transfer learning algorithm that leverages the ability of graph neural networks (GNNs) in describing chemical environments, together with kernel mean embeddings. We extract a feature map from GNNs pre-trained on the OC20 dataset and use it to learn the potential energy surface from system-specific datasets of catalytic processes. Our method is further enhanced by a flexible kernel function that incorporates chemical species information, resulting in improved performance and interpretability. We test our approach on a series of realistic datasets of increasing complexity, showing excellent generalization and transferability performance, and improving on methods that rely on GNNs or ridge regression alone, as well as similar fine-tuning approaches. We make the code available to the community at https://github.com/IsakFalk/atomistic_transfer_mekrr.
翻訳日:2023-07-03 14:50:10 公開日:2023-06-30
# 社会的ネットワークにおける精神保健障害予測のためのハグ・フェイス・トランスフォーマーの力

Harnessing the Power of Hugging Face Transformers for Predicting Mental Health Disorders in Social Networks ( http://arxiv.org/abs/2306.16891v2 )

ライセンス: Link先を確認
Alireza Pourkeyvan, Ramin Safa, Ali Sorourkhah(参考訳) 精神疾患の早期診断と介入は重傷の予防と治療成績の改善を促進する。 ソーシャルメディアと事前学習言語モデルを用いて、ユーザ生成データを用いて精神疾患の症状を予測する方法について検討した。 近年の研究では,Hugging Faceの4種類のBERTモデルと,うつ病の自動診断に使用される標準的な機械学習技術を比較した。 その結果、新しいモデルは97%の精度で以前の手法より優れていることがわかった。 過去の知見を補完しながら結果を分析した結果、わずかなデータ(ユーザーの生体情報など)でも精神疾患を予測できる可能性があることがわかった。 ソーシャルメディアデータはメンタルヘルススクリーニングの優れた情報源であり、事前訓練されたモデルは、この重要なタスクを効果的に自動化することができると結論づける。

Early diagnosis of mental disorders and intervention can facilitate the prevention of severe injuries and the improvement of treatment results. Using social media and pre-trained language models, this study explores how user-generated data can be used to predict mental disorder symptoms. Our study compares four different BERT models of Hugging Face with standard machine learning techniques used in automatic depression diagnosis in recent literature. The results show that new models outperform the previous approach with an accuracy rate of up to 97%. Analyzing the results while complementing past findings, we find that even tiny amounts of data (like users' bio descriptions) have the potential to predict mental disorders. We conclude that social media data is an excellent source of mental health screening, and pre-trained models can effectively automate this critical task.
翻訳日:2023-07-03 14:43:42 公開日:2023-06-30
# 周期的および準周期的駆動型異方性ディッケモデル

Periodically and quasiperiodically driven-anisotropic Dicke model ( http://arxiv.org/abs/2306.16809v2 )

ライセンス: Link先を確認
Pragna Das, Devendra Singh Bhakuni, Lea F. Santos and Auditya Sharma(参考訳) 周期駆動の存在下で準周期駆動下での異方性ディッケモデルの解析を行う。 この実験可能なモデルにおける駆動誘起現象の研究は、本格的な多体量子系よりも単純であるが、多くの興味深い特徴を示すのに十分な富があるため重要である。 準周期的フィボナッチ(三重モーゼ)駆動下では, 加熱前の駆動周波数の指数(伸張指数)で増大する予熱プラトーが特徴的である。 対照的に、モデルが周期的に駆動されると、動力学は加熱を受けない台地に達する。 いずれの場合も、プラトー値は初期状態のエネルギーと非駆動ハミルトニアンのパラメータに依存する。 驚いたことに、この値は周期駆動の周波数が減少するにつれて、常に無限温度状態に単調に近づくとは限らない。 また、駆動が量子臨界点をどう修正するかを示し、中間周波数におけるレベル統計の分析に関連するオープンな疑問を議論する。

We analyze the anisotropic Dicke model in the presence of a periodic drive and under a quasiperiodic drive. The study of drive-induced phenomena in this experimentally accesible model is important since although it is simpler than full-fledged many-body quantum systems, it is still rich enough to exhibit many interesting features. We show that under a quasiperiodic Fibonacci (Thue-Morse) drive, the system features a prethermal plateau that increases as an exponential (stretched exponential) with the driving frequency before heating to an infinite-temperature state. In contrast, when the model is periodically driven, the dynamics reaches a plateau that is not followed by heating. In either case, the plateau value depends on the energy of the initial state and on the parameters of the undriven Hamiltonian. Surprisingly, this value does not always approach the infinite-temperature state monotonically as the frequency of the periodic drive decreases. We also show how the drive modifies the quantum critical point and discuss open questions associated with the analysis of level statistics at intermediate frequencies.
翻訳日:2023-07-03 14:43:28 公開日:2023-06-30
# 連合学習のための弾性拘束型メタリーナー

Elastically-Constrained Meta-Learner for Federated Learning ( http://arxiv.org/abs/2306.16703v2 )

ライセンス: Link先を確認
Peng Lan, Donglai Chen, Chong Xie, Keshu Chen, Jinyuan He, Juntao Zhang, Yonghong Chen and Yan Xu(参考訳) フェデレーション学習(federated learning)は、データ共有を禁止する複数のパーティに対して、機械学習モデルを協調的にトレーニングするアプローチである。 フェデレーション学習の課題のひとつは、単一のモデルがすべてのクライアントのデータ分散に適合できないため、クライアント間の非iidデータである。 Per-FedAvgのようなメタ学習は、この課題に対処するために導入された。 メタラーニングはすべてのクライアントで初期パラメータを共有することを学ぶ。 各クライアントは勾配降下を使用して、初期化をローカルデータ分布に迅速に適応させ、モデルのパーソナライズを実現する。 しかしながら、非凸損失関数とサンプリング更新のランダム性のため、メタラーニングアプローチは、同じクライアントに対して局所的適応において不安定な目標を持つ。 この適応方向の変動はメタラーニングの収束を妨げる。 この課題を克服するために、歴史的局所適応モデルを用いて内部ループの方向を制限し、弾性拘束法を提案する。 その結果、現在のラウンドインナーループは歴史的な目標を保持し、より良いソリューションに適応する。 実験により,提案手法はメタラーニングの収束を促進させ,計算やコミュニケーションを増すことなくパーソナライズを向上できることが示された。 提案手法は3つの公開データセットにおいて,すべての指標でSOTAを達成した。

Federated learning is an approach to collaboratively training machine learning models for multiple parties that prohibit data sharing. One of the challenges in federated learning is non-IID data between clients, as a single model can not fit the data distribution for all clients. Meta-learning, such as Per-FedAvg, is introduced to cope with the challenge. Meta-learning learns shared initial parameters for all clients. Each client employs gradient descent to adapt the initialization to local data distributions quickly to realize model personalization. However, due to non-convex loss function and randomness of sampling update, meta-learning approaches have unstable goals in local adaptation for the same client. This fluctuation in different adaptation directions hinders the convergence in meta-learning. To overcome this challenge, we use the historical local adapted model to restrict the direction of the inner loop and propose an elastic-constrained method. As a result, the current round inner loop keeps historical goals and adapts to better solutions. Experiments show our method boosts meta-learning convergence and improves personalization without additional calculation and communication. Our method achieved SOTA on all metrics in three public datasets.
翻訳日:2023-07-03 14:43:12 公開日:2023-06-30
# 物体杭操作のための動的解法モデル学習

Dynamic-Resolution Model Learning for Object Pile Manipulation ( http://arxiv.org/abs/2306.16700v2 )

ライセンス: Link先を確認
Yixuan Wang, Yunzhu Li, Katherine Driggs-Campbell, Li Fei-Fei, Jiajun Wu(参考訳) 視覚観察から学んだ動力学モデルは、様々なロボット操作タスクに有効であることが示されている。 このようなダイナミックスモデルを学ぶ上で重要な質問の1つは、どのシーン表現を使うべきかである。 先行作業は通常、固定次元や分解能で表現を仮定するが、これは単純なタスクでは非効率であり、より複雑なタスクでは非効率である。 本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。 具体的には,環境の動的解像度粒子表現を構築し,グラフニューラルネットワーク(gnns)を用いて,抽象レベルの連続的な選択を可能にする統一ダイナミクスモデルを学ぶ。 テスト時間の間、エージェントは各モデル予測制御(MPC)ステップにおける最適分解能を適応的に決定することができる。 我々は, 調理, 農業, 製造, 薬品への応用においてよく見られる課題である, 被写体操作の手法を評価する。 シミュレーションと実世界の両方において総合的な評価を行い,コーヒー豆,アーモンド,トウモロコシ等を用いた粒状物塊の収集,選別,再分配において,最先端の固定解像度ベースラインよりもはるかに優れた性能が得られることを示す。

Dynamics models learned from visual observations have shown to be effective in various robotic manipulation tasks. One of the key questions for learning such dynamics models is what scene representation to use. Prior works typically assume representation at a fixed dimension or resolution, which may be inefficient for simple tasks and ineffective for more complicated tasks. In this work, we investigate how to learn dynamic and adaptive representations at different levels of abstraction to achieve the optimal trade-off between efficiency and effectiveness. Specifically, we construct dynamic-resolution particle representations of the environment and learn a unified dynamics model using graph neural networks (GNNs) that allows continuous selection of the abstraction level. During test time, the agent can adaptively determine the optimal resolution at each model-predictive control (MPC) step. We evaluate our method in object pile manipulation, a task we commonly encounter in cooking, agriculture, manufacturing, and pharmaceutical applications. Through comprehensive evaluations both in the simulation and the real world, we show that our method achieves significantly better performance than state-of-the-art fixed-resolution baselines at the gathering, sorting, and redistribution of granular object piles made with various instances like coffee beans, almonds, corn, etc.
翻訳日:2023-07-03 14:42:54 公開日:2023-06-30
# DUET: 2次元構造とほぼ同変表現

DUET: 2D Structured and Approximately Equivariant Representations ( http://arxiv.org/abs/2306.16058v2 )

ライセンス: Link先を確認
Xavier Suau, Federico Danieli, T. Anderson Keller, Arno Blaas, Chen Huang, Jason Ramapuram, Dan Busbridge, Luca Zappella(参考訳) MSSL(Multiview Self-Supervised Learning)は、入力変換の集合に関する学習不変性に基づいている。 しかし、不変性は変換に関連する情報を表現から部分的にあるいは完全に取り除き、そのような情報を必要とする特定の下流タスクのパフォーマンスを損なう可能性がある。 本稿では,行列構造に整理された2次元表現である2DstrUcturedおよびEquivarianT表現(Coined DUET)を提案し,入力データに作用する変換について同変する。 DUET表現は、意味的に表現されたまま、入力変換に関する情報を保持する。 SimCLR (Chen et al., 2020) や ESSL (Dangovski et al., 2022) と比較すると、DUET 表現の構造的および同変性は、再構成エラーの少ない制御生成を可能にし、SimCLR や ESSL では制御不可能である。 DUETは複数の識別タスクに対して高い精度を実現し、転送学習を改善する。

Multiview Self-Supervised Learning (MSSL) is based on learning invariances with respect to a set of input transformations. However, invariance partially or totally removes transformation-related information from the representations, which might harm performance for specific downstream tasks that require such information. We propose 2D strUctured and EquivarianT representations (coined DUET), which are 2d representations organized in a matrix structure, and equivariant with respect to transformations acting on the input data. DUET representations maintain information about an input transformation, while remaining semantically expressive. Compared to SimCLR (Chen et al., 2020) (unstructured and invariant) and ESSL (Dangovski et al., 2022) (unstructured and equivariant), the structured and equivariant nature of DUET representations enables controlled generation with lower reconstruction error, while controllability is not possible with SimCLR or ESSL. DUET also achieves higher accuracy for several discriminative tasks, and improves transfer learning.
翻訳日:2023-07-03 14:42:33 公開日:2023-06-30
# Misogynist Incels Forumにおけるアイデンティティ構築

Identity Construction in a Misogynist Incels Forum ( http://arxiv.org/abs/2306.15745v2 )

ライセンス: Link先を確認
Michael Miller Yoder, Chloe Perry, David West Brown, Kathleen M. Carley, Meredith Pruden(参考訳) incels(online community of involuntary celibates)は、ミソグミストによるヘイトスピーチの源泉である。 本稿では,最大規模のブラックパイルインセルフォーラムである<incels.is>上で,アイデンティティグループがどのように議論されるかを検討するために,定量的テキストとネットワーク分析アプローチを用いる。 このコミュニティは幅広い新しいアイデンティティ用語を生み出しており、女性の用語が最も一般的である一方で、他のマイノリティ化されたアイデンティティの言及が増えている。 アイデンティティグループと結びついた関連性の分析は、身体的な外見と性別、人種的階層が人間の価値を決定する本質的なイデオロギーを示唆している。 本研究は, 自動失語症ヘイトスピーチ検出研究の意義について論じる。

Online communities of involuntary celibates (incels) are a prominent source of misogynist hate speech. In this paper, we use quantitative text and network analysis approaches to examine how identity groups are discussed on <incels.is>, the largest black-pilled incels forum. We find that this community produces a wide range of novel identity terms and, while terms for women are most common, mentions of other minoritized identities are increasing. An analysis of the associations made with identity groups suggests an essentialist ideology where physical appearance, as well as gender and racial hierarchies, determine human value. We discuss implications for research into automated misogynist hate speech detection.
翻訳日:2023-07-03 14:42:14 公開日:2023-06-30
# see through the fog: 医学画像における進行性咬合を伴うカリキュラム学習

See Through the Fog: Curriculum Learning with Progressive Occlusion in Medical Imaging ( http://arxiv.org/abs/2306.15574v2 )

ライセンス: Link先を確認
Pradeep Singh, Kishore Babu Nampalle, Uppala Vivek Narayan, Balasubramanian Raman(参考訳) 近年,深層学習モデルが医療画像解釈に革命をもたらし,診断精度が大幅に向上している。 しかし、これらのモデルは、重要な特徴が部分的にあるいは完全に隠蔽されている難解な画像に苦しむことが多い。 本稿では,隠蔽医療画像の処理を効果的に行うために,ディープラーニングモデルを訓練するためのカリキュラムベースの新しいアプローチを提案する。 本手法では, 明瞭で障害物のない画像から, 閉塞レベルが増大する画像へ徐々に移動し, 閉塞度を増大させる。 この順序付けられた学習プロセスは、人間学習と同様に、モデルがまず、単純で識別可能なパターンを把握し、その後、より複雑で難解なシナリオを理解するための知識を構築します。 さらに,WCL(Warsserstein Curriculum Learning),ial(Information Adaptive Learning),Geodesic Curriculum Learning(GCL)の3つの新しいオクルージョン合成手法を提案する。 各種医用画像データセットに関する広範な実験により,従来の訓練法に比べてモデル堅牢性と診断精度が大幅に向上した。

In recent years, deep learning models have revolutionized medical image interpretation, offering substantial improvements in diagnostic accuracy. However, these models often struggle with challenging images where critical features are partially or fully occluded, which is a common scenario in clinical practice. In this paper, we propose a novel curriculum learning-based approach to train deep learning models to handle occluded medical images effectively. Our method progressively introduces occlusion, starting from clear, unobstructed images and gradually moving to images with increasing occlusion levels. This ordered learning process, akin to human learning, allows the model to first grasp simple, discernable patterns and subsequently build upon this knowledge to understand more complicated, occluded scenarios. Furthermore, we present three novel occlusion synthesis methods, namely Wasserstein Curriculum Learning (WCL), Information Adaptive Learning (IAL), and Geodesic Curriculum Learning (GCL). Our extensive experiments on diverse medical image datasets demonstrate substantial improvements in model robustness and diagnostic accuracy over conventional training methodologies.
翻訳日:2023-07-03 14:42:02 公開日:2023-06-30
# 科学的インパクトの鍵となる知識の多様性--コンピュータ科学の分野における大規模分析

Diversity of Expertise is Key to Scientific Impact: a Large-Scale Analysis in the Field of Computer Science ( http://arxiv.org/abs/2306.15344v2 )

ライセンス: Link先を確認
Angelo Salatino, Simone Angioni, Francesco Osborne, Diego Reforgiato Recupero, Enrico Motta(参考訳) 研究チームの構成と研究論文の潜在的影響との関係を理解することは、研究企業を改善するための新たな科学政策の開発を主導する上で極めて重要である。 多くの研究は、研究チームの特性と多様性が、民族性、国際性、サイズなど、様々な面でパフォーマンスにどのように影響するかを評価する。 本稿では,著者の専門性の観点から多様性の影響について考察する。 この目的のために,コンピュータサイエンスの分野で114kの論文を検索し,研究チーム内の研究分野の多様性が,今後5年間の論文の引用数とどのように関係しているかを分析した。 その結果、専門知識の多様性を反映して定義した2つの異なる指標が、引用数と大きく関連していることがわかった。 これは、少なくともコンピュータ科学では、専門知識の多様性が科学的影響の鍵であることを示唆している。

Understanding the relationship between the composition of a research team and the potential impact of their research papers is crucial as it can steer the development of new science policies for improving the research enterprise. Numerous studies assess how the characteristics and diversity of research teams can influence their performance across several dimensions: ethnicity, internationality, size, and others. In this paper, we explore the impact of diversity in terms of the authors' expertise. To this purpose, we retrieved 114K papers in the field of Computer Science and analysed how the diversity of research fields within a research team relates to the number of citations their papers received in the upcoming 5 years. The results show that two different metrics we defined, reflecting the diversity of expertise, are significantly associated with the number of citations. This suggests that, at least in Computer Science, diversity of expertise is key to scientific impact.
翻訳日:2023-07-03 14:41:42 公開日:2023-06-30
# プログラミング教育のための生成AI: ChatGPT, GPT-4, Human Tutorsのベンチマーク

Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors ( http://arxiv.org/abs/2306.17156v2 )

ライセンス: Link先を確認
Tung Phung, Victor-Alexandru P\u{a}durean, Jos\'e Cambronero, Sumit Gulwani, Tobias Kohn, Rupak Majumdar, Adish Singla, Gustavo Soares(参考訳) 生成型AIと大規模言語モデルは、入門プログラミングに次世代の教育技術を活用することによって、コンピューティング教育の強化に大いに貢献する。 最近の研究は、プログラミング教育に関連する様々なシナリオについてこれらのモデルを研究しているが、それらは、既に時代遅れのモデルや特定のシナリオのみを考えるため、いくつかの理由で制限されている。 その結果、包括的なプログラミング教育シナリオのための最先端モデルをベンチマークする体系的な研究が欠如している。 本研究では,chatgpt (gpt-3.5) と gpt-4 の2つのモデルを体系的に評価し,その性能を人間の指導者と比較した。 オンラインプラットフォームから5つのPythonプログラミング問題と実世界のバグジープログラムを評価し,専門家によるアノテーションによるパフォーマンス評価を行った。 以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。 これらの結果は、GPT-4がいまだに苦戦している設定も強調し、これらのモデルの性能を改善する技術開発におけるエキサイティングな方向性を提供する。

Generative AI and large language models hold great promise in enhancing computing education by powering next-generation educational technologies for introductory programming. Recent works have studied these models for different scenarios relevant to programming education; however, these works are limited for several reasons, as they typically consider already outdated models or only specific scenario(s). Consequently, there is a lack of a systematic study that benchmarks state-of-the-art models for a comprehensive set of programming education scenarios. In our work, we systematically evaluate two models, ChatGPT (based on GPT-3.5) and GPT-4, and compare their performance with human tutors for a variety of scenarios. We evaluate using five introductory Python programming problems and real-world buggy programs from an online platform, and assess performance using expert-based annotations. Our results show that GPT-4 drastically outperforms ChatGPT (based on GPT-3.5) and comes close to human tutors' performance for several scenarios. These results also highlight settings where GPT-4 still struggles, providing exciting future directions on developing techniques to improve the performance of these models.
翻訳日:2023-07-03 14:30:40 公開日:2023-06-30
# 多波長磁気光学トラップのための最適二元格子

Optimal binary gratings for multi-wavelength magneto-optical traps ( http://arxiv.org/abs/2306.17080v2 )

ライセンス: Link先を確認
Oliver S. Burrow, Robert J. Fasano, Wesley Brand, Michael W. Wright, Wenbo Li, Andrew D. Ludlow, Erling Riis, Paul F. Griffin, and Aidan S. Arnold(参考訳) 格子磁気光学トラップは、超低温原子を持つ携帯型気象デバイスのための量子技術である。 しかし、ビーム回折効率と角度は波長に影響され、SrやYbなどの原子を光学格子やツイーザークロックにロードするのによく用いられるように、2つの異なる波長でレーザー冷却を行うための単一光学設計課題が生じる。 本稿では,様々な波長の2次格子を光学的特徴付けし,様々なデューティサイクルの次元のないエッチング深さと周期の観点から,実験格子回折効率データに簡単な経験的適合性を求める。 このモデルでは複雑な3次元光回折表面の計算は避けるが、それでも幅広いパラメータで数パーセントの精度が得られる。 2つまたはそれ以上の波長に最適化されたグレーティングは、先進的な量子技術を実現する幅広い種類の原子種に適した情報的方法で設計することができる。

Grating magneto-optical traps are an enabling quantum technology for portable metrological devices with ultracold atoms. However, beam diffraction efficiency and angle are affected by wavelength, creating a single-optic design challenge for laser cooling in two stages at two distinct wavelengths - as commonly used for loading e.g. Sr or Yb atoms into optical lattice or tweezer clocks. Here, we optically characterize a wide variety of binary gratings at different wavelengths to find a simple empirical fit to experimental grating diffraction efficiency data in terms of dimensionless etch depth and period for various duty cycles. The model avoids complex 3D light-grating surface calculations, yet still yields results accurate to a few percent across a broad range of parameters. Gratings optimized for two (or more) wavelengths can now be designed in an informed manner suitable for a wide class of atomic species enabling advanced quantum technologies.
翻訳日:2023-07-03 14:30:16 公開日:2023-06-30
# DreamDiffusion:脳波信号から高画質画像を生成する

DreamDiffusion: Generating High-Quality Images from Brain EEG Signals ( http://arxiv.org/abs/2306.16934v2 )

ライセンス: Link先を確認
Yunpeng Bai, Xintao Wang, Yan-pei Cao, Yixiao Ge, Chun Yuan, Ying Shan(参考訳) 本稿では,脳脳波(EEG)信号から直接,思考をテキストに変換することなく高品質な画像を生成する新しい手法であるDreamDiffusionを紹介する。 DreamDiffusionは、事前訓練されたテキスト・ツー・イメージモデルを活用し、時間マスキング信号モデリングを使用して、効果的で堅牢なEEG表現のためにEEGエンコーダを事前訓練する。 さらに、この方法は、CLIPイメージエンコーダを活用して、EEG、テキスト、画像埋め込みを限られたEEGイメージペアでより良く整合させることができる。 総じて,提案手法は,ノイズや情報量,個人差などの画像生成に脳波信号を使用するという課題を克服し,有望な結果を得る。 定量的および定性的な結果から,提案手法の有効性は,コンピュータビジョンや神経科学に応用可能な,ポータブルで低コストな「思考からイメージ」に向けた重要なステップであることが示された。 コードはhttps://github.com/bbaaii/dreamdiffusion}で入手できる。

This paper introduces DreamDiffusion, a novel method for generating high-quality images directly from brain electroencephalogram (EEG) signals, without the need to translate thoughts into text. DreamDiffusion leverages pre-trained text-to-image models and employs temporal masked signal modeling to pre-train the EEG encoder for effective and robust EEG representations. Additionally, the method further leverages the CLIP image encoder to provide extra supervision to better align EEG, text, and image embeddings with limited EEG-image pairs. Overall, the proposed method overcomes the challenges of using EEG signals for image generation, such as noise, limited information, and individual differences, and achieves promising results. Quantitative and qualitative results demonstrate the effectiveness of the proposed method as a significant step towards portable and low-cost ``thoughts-to-image'', with potential applications in neuroscience and computer vision. The code is available here \url{https://github.com/bbaaii/DreamDiffusion}.
翻訳日:2023-07-03 14:30:02 公開日:2023-06-30
# RdSOBA:レンダリングされたシャドウオブジェクトアソシエーションデータセット

RdSOBA: Rendered Shadow-Object Association Dataset ( http://arxiv.org/abs/2306.17358v1 )

ライセンス: Link先を確認
Xinhao Tao, Junyan Cao, Li Niu(参考訳) 画像構成は、背景画像に前景オブジェクトを挿入して合成画像を得る。 本研究では,合成画像をよりリアルにするために,挿入された前景オブジェクトに対する可塑性影の生成に焦点をあてる。 既存の小規模なデータセットDESOBAを補うため、3Dレンダリング技術を備えたRdSOBAと呼ばれる大規模データセットを作成しました。 具体的には、3Dシーンに3Dオブジェクトのグループを配置し、制御可能なレンダリング技術を用いてオブジェクトの影のない画像を得る。 Datasetはhttps://github.com/bcmi/Rendered-Shadow-Generation-Dataset-RdSOBAで入手できる。

Image composition refers to inserting a foreground object into a background image to obtain a composite image. In this work, we focus on generating plausible shadows for the inserted foreground object to make the composite image more realistic. To supplement the existing small-scale dataset DESOBA, we created a large-scale dataset called RdSOBA with 3D rendering techniques. Specifically, we place a group of 3D objects in the 3D scene, and get the images without or with object shadows using controllable rendering techniques. Dataset is available at https://github.com/bcmi/Rendered-Shadow-Generation-Dataset-RdSOBA.
翻訳日:2023-07-03 13:53:10 公開日:2023-06-30
# ベクトル値の数学的形態における不規則性を最小化しない最短順序数

Shortest Length Total Orders Do Not Minimize Irregularity in Vector-Valued Mathematical Morphology ( http://arxiv.org/abs/2306.17356v1 )

ライセンス: Link先を確認
Samuel Francisco and Marcos Eduardo Valle(参考訳) 数学的形態学は、画像処理と解析のための非線形作用素に関する理論である。 基礎となる数学的形態学の枠組みは、明確に定義されたスプレムとインフィム演算からなる半順序集合である。 ベクトルは様々な方法で順序付けできるため、色や超スペクトル画像のようなベクトル値画像の数学的形態学において適切な順序付けスキームを見つけることは大きな課題である。 この文脈では、不規則性の問題が効果的な形態素演算子を設計する上で重要な役割を果たす。 簡単に言えば、不規則性は順序スキームと値集合の計量との差から従う。 計量を用いた順序付けスキームの決定は、ベクトル値の数学的形態学への合理的なアプローチを提供する。 総順序は値空間上の経路に対応するため、形態素演算子の不規則性を減らす試みの一つは、最短長経路に基づいて総順序を定義することである。 しかし,本論文は,最短経路に付随する全順序が必ずしも不規則性を最小化しないことを示す。

Mathematical morphology is a theory concerned with non-linear operators for image processing and analysis. The underlying framework for mathematical morphology is a partially ordered set with well-defined supremum and infimum operations. Because vectors can be ordered in many ways, finding appropriate ordering schemes is a major challenge in mathematical morphology for vector-valued images, such as color and hyperspectral images. In this context, the irregularity issue plays a key role in designing effective morphological operators. Briefly, the irregularity follows from a disparity between the ordering scheme and a metric in the value set. Determining an ordering scheme using a metric provide reasonable approaches to vector-valued mathematical morphology. Because total orderings correspond to paths on the value space, one attempt to reduce the irregularity of morphological operators would be defining a total order based on the shortest length path. However, this paper shows that the total ordering associated with the shortest length path does not necessarily imply minimizing the irregularity.
翻訳日:2023-07-03 13:52:58 公開日:2023-06-30
# MEDIQA-Chat 2023におけるSummQA:医療要約のためのGPT-4を用いた文脈学習

SummQA at MEDIQA-Chat 2023:In-Context Learning with GPT-4 for Medical Summarization ( http://arxiv.org/abs/2306.17384v1 )

ライセンス: Link先を確認
Yash Mathur, Sanketh Rangreji, Raghav Kapoor, Medha Palavalli, Amanda Bertsch, Matthew R. Gormley(参考訳) 医療対話の要約は、医療会話の非構造化の性質、金の要約における医学用語の使用、複数の症状セットにまたがる重要な情報を特定する必要性などにより困難である。 MEDIQA 2023共有タスクにおけるダイアログ2ノート医療要約タスクの新しいシステムを提案する。 タスクaは、意味的に類似した対話を選択し、gpt-4の文脈内例としてtop-k類似の対話を使用する2段階のプロセスである。 全音素要約(Task B)では、k=1の同様の解を用いる。 私たちは、タスクA(全チーム2位)で3位、タスクBディビジョンで4位(全チーム2位)で4位、タスクAディビジョンで15位(全チーム9位)で15位、タスクBの全チームで8位を獲得しました。 GPT-4の性能をいくつかの微調整ベースラインと比較する。 GPT-4サマリーはより抽象的で短くなっている。 コードを公開しています。

Medical dialogue summarization is challenging due to the unstructured nature of medical conversations, the use of medical terminology in gold summaries, and the need to identify key information across multiple symptom sets. We present a novel system for the Dialogue2Note Medical Summarization tasks in the MEDIQA 2023 Shared Task. Our approach for section-wise summarization (Task A) is a two-stage process of selecting semantically similar dialogues and using the top-k similar dialogues as in-context examples for GPT-4. For full-note summarization (Task B), we use a similar solution with k=1. We achieved 3rd place in Task A (2nd among all teams), 4th place in Task B Division Wise Summarization (2nd among all teams), 15th place in Task A Section Header Classification (9th among all teams), and 8th place among all teams in Task B. Our results highlight the effectiveness of few-shot prompting for this task, though we also identify several weaknesses of prompting-based approaches. We compare GPT-4 performance with several finetuned baselines. We find that GPT-4 summaries are more abstractive and shorter. We make our code publicly available.
翻訳日:2023-07-03 13:44:56 公開日:2023-06-30
# 二変量勾配に基づくDAG学習における大域的最適性

Global Optimality in Bivariate Gradient-based DAG Learning ( http://arxiv.org/abs/2306.17378v1 )

ライセンス: Link先を確認
Chang Deng, Kevin Bello, Bryon Aragam, Pradeep Ravikumar(参考訳) 近年,データから非巡回有向グラフモデルを学習する統計問題により,非凸最適化問題の新たなクラスが注目されている。 既存の研究では、この問題を解決するために標準的な一階最適化スキームを使用しているが、そのようなアプローチのグローバルな最適性を証明することは明らかである。 難しいのは、文献の他の非凸問題とは異なり、この問題は「良性」ではなく、標準的アプローチが容易に閉じ込められるような複数の散発的な解決策を持っているという事実である。 本稿では,単純な経路追従最適化スキームが,二変量設定における人口損失のグローバル最小値に収束することを示す。

Recently, a new class of non-convex optimization problems motivated by the statistical problem of learning an acyclic directed graphical model from data has attracted significant interest. While existing work uses standard first-order optimization schemes to solve this problem, proving the global optimality of such approaches has proven elusive. The difficulty lies in the fact that unlike other non-convex problems in the literature, this problem is not "benign", and possesses multiple spurious solutions that standard approaches can easily get trapped in. In this paper, we prove that a simple path-following optimization scheme globally converges to the global minimum of the population loss in the bivariate setting.
翻訳日:2023-07-03 13:44:34 公開日:2023-06-30
# HVTSurv:全スライド画像からの患者レベル生存予測のための階層型視覚変換器

HVTSurv: Hierarchical Vision Transformer for Patient-Level Survival Prediction from Whole Slide Image ( http://arxiv.org/abs/2306.17373v1 )

ライセンス: Link先を確認
Zhuchen Shao, Yang Chen, Hao Bian, Jian Zhang, Guojun Liu, Yongbing Zhang(参考訳) 全スライド画像(WSI)に基づく生存予測は,患者レベルのマルチインスタンス学習(MIL)において難しい課題である。 患者(複数ギガピクセルのWSI)の膨大なデータと、WSIの不規則な形状の性質から、患者レベルのバッグにおける空間的、文脈的、階層的相互作用を十分に調査することは困難である。 多くの研究は、ランダムサンプリング前処理戦略とwsiレベルの集約モデルを採用しており、患者レベルのバッグにおいて必然的に重要な予後情報を失う。 本研究では,局所的な空間情報を符号化し,WSIレベルのコンテキスト認識通信を強化し,患者レベルの階層的相互作用を確立する階層型視覚変換フレームワークHVTSurvを提案する。 まず,機能再構成とランダムウィンドウマスキングを含む機能前処理戦略を設計する。 そこで,マンハッタン距離を取り入れた局所レベル相互作用層,空間シャッフルを用いたWSIレベル相互作用層,注意プールを用いた患者レベル相互作用層など,患者レベルの表現を段階的に得るための3層を考案した。 さらに、階層ネットワークの設計はモデルをより計算効率良くするのに役立つ。 The Cancer Genome Atlas (TCGA)の6種類の癌に対して3,104人の患者と3,752人のWSIを用いてHVTSurvを検証する。 平均的なC-Indexは6つのTCGAデータセットよりも2.50-11.30%高い。 アブレーション研究と注意の可視化により、提案したHVTSurvの優位性がさらに検証される。 実装は、https://github.com/szc 19990412/HVTSurv.comで公開されている。

Survival prediction based on whole slide images (WSIs) is a challenging task for patient-level multiple instance learning (MIL). Due to the vast amount of data for a patient (one or multiple gigapixels WSIs) and the irregularly shaped property of WSI, it is difficult to fully explore spatial, contextual, and hierarchical interaction in the patient-level bag. Many studies adopt random sampling pre-processing strategy and WSI-level aggregation models, which inevitably lose critical prognostic information in the patient-level bag. In this work, we propose a hierarchical vision Transformer framework named HVTSurv, which can encode the local-level relative spatial information, strengthen WSI-level context-aware communication, and establish patient-level hierarchical interaction. Firstly, we design a feature pre-processing strategy, including feature rearrangement and random window masking. Then, we devise three layers to progressively obtain patient-level representation, including a local-level interaction layer adopting Manhattan distance, a WSI-level interaction layer employing spatial shuffle, and a patient-level interaction layer using attention pooling. Moreover, the design of hierarchical network helps the model become more computationally efficient. Finally, we validate HVTSurv with 3,104 patients and 3,752 WSIs across 6 cancer types from The Cancer Genome Atlas (TCGA). The average C-Index is 2.50-11.30% higher than all the prior weakly supervised methods over 6 TCGA datasets. Ablation study and attention visualization further verify the superiority of the proposed HVTSurv. Implementation is available at: https://github.com/szc19990412/HVTSurv.
翻訳日:2023-07-03 13:44:22 公開日:2023-06-30
# リーマン部分最小二乗を用いた関数コネクティクスの捕捉

Capturing functional connectomics using Riemannian partial least squares ( http://arxiv.org/abs/2306.17371v1 )

ライセンス: Link先を確認
Matt Ryan, Gary Glonek, Jono Tuke, and Melissa Humphries(参考訳) 神経疾患や疾患では、脳の機能的および解剖学的コネクトームは、標的とした介入や治療戦略をよりよく知らせるために用いられる。 機能的磁気共鳴イメージング(fmri)は、時間とともに血流を介して時空間脳機能を捉える非侵襲的神経イメージング技術である。 FMRIは機能的接続行列を通して機能的コネクトーム、すなわちfMRI画像の関心領域からの時系列間のピアソンの相関行列を研究するために用いられる。 関数接続を解析するための1つのアプローチは、高次元予測データのために設計された多変量回帰技術である部分最小二乗法(pls)である。 しかし、plsによる機能的接続の解析は機能的接続行列の重要な性質を無視する;すなわち、これらの行列は正定値である。 これを説明するために、リーマン多様体に対して R-PLS と呼ばれる PLS の一般化を導入し、アフィン不変幾何を持つ対称正定値行列に適用する。 統合失調症患者と健常者の機能的差異を調査するCOBRE,自閉症スペクトラム障害とニューロタイプコントロールを比較検討するABIDEの2つの機能的画像データセットにR-PLSを適用した。 r-plsの結果に基づく投影統計における可変重要度を用いて,文献によく表される各データセットにおける重要な機能的接続を同定する。 R-PLSの一般性を考えると、この手法は構造的および機能的コネクトロミクスをリンクする多モデル画像解析のための新しい道を開く可能性がある。

For neurological disorders and diseases, functional and anatomical connectomes of the human brain can be used to better inform targeted interventions and treatment strategies. Functional magnetic resonance imaging (fMRI) is a non-invasive neuroimaging technique that captures spatio-temporal brain function through blood flow over time. FMRI can be used to study the functional connectome through the functional connectivity matrix; that is, Pearson's correlation matrix between time series from the regions of interest of an fMRI image. One approach to analysing functional connectivity is using partial least squares (PLS), a multivariate regression technique designed for high-dimensional predictor data. However, analysing functional connectivity with PLS ignores a key property of the functional connectivity matrix; namely, these matrices are positive definite. To account for this, we introduce a generalisation of PLS to Riemannian manifolds, called R-PLS, and apply it to symmetric positive definite matrices with the affine invariant geometry. We apply R-PLS to two functional imaging datasets: COBRE, which investigates functional differences between schizophrenic patients and healthy controls, and; ABIDE, which compares people with autism spectrum disorder and neurotypical controls. Using the variable importance in the projection statistic on the results of R-PLS, we identify key functional connections in each dataset that are well represented in the literature. Given the generality of R-PLS, this method has potential to open up new avenues for multi-model imaging analysis linking structural and functional connectomics.
翻訳日:2023-07-03 13:43:55 公開日:2023-06-30
# ディファレンシャルプライバシは、プライバシ保存以外のswarmインテリジェンスアルゴリズムに潜在的な最適化効果をもたらす可能性がある

Differential Privacy May Have a Potential Optimization Effect on Some Swarm Intelligence Algorithms besides Privacy-preserving ( http://arxiv.org/abs/2306.17370v1 )

ライセンス: Link先を確認
Zhiqiang Zhang, Hong Zhu, Meiyi Xie(参考訳) ディファレンシャルプライバシ(dp)は、将来性のあるプライバシ保護モデルとして、近年研究者から大きな関心を集めている。 現在,機械学習とDPの組み合わせに関する研究は活発である。 対照的に、他の広く使われている人工知能技術であるSwarm Intelligence (SI)アルゴリズムは、プライバシー上の懸念も引き起こすが、DPの文脈ではほとんど注目を集めていない。 そこで本研究では,DPとSIを初めて組み合わせ,一般の個人用Swarm Intelligence Algorithm framework(DPSIAF)を提案する。 この指数的なメカニズムに基づいて、このフレームワークは既存のSIアルゴリズムをプライベートバージョンに容易に開発することができる。 例として,提案したDPSIAFを4つの一般的なSIアルゴリズムに適用し,その有効性を示す。 さらに興味深いことに、実験結果によると、私たちのプライベートアルゴリズムでは、そのパフォーマンスはプライバシ予算に厳密に影響されず、プライベートアルゴリズムの1つが、プライベートでないバージョンよりも優れたパフォーマンスを持っている場合もあります。 これらの所見は従来の認知と異なり, DPによるSIの特異性を示す。 本研究は,dpに対する新たな視点を提供し,メタヒューリスティック最適化コミュニティとプライバシコンピューティングコミュニティの相乗効果を促進する。

Differential privacy (DP), as a promising privacy-preserving model, has attracted great interest from researchers in recent years. Currently, the study on combination of machine learning and DP is vibrant. In contrast, another widely used artificial intelligence technique, the swarm intelligence (SI) algorithm, has received little attention in the context of DP even though it also triggers privacy concerns. For this reason, this paper attempts to combine DP and SI for the first time, and proposes a general differentially private swarm intelligence algorithm framework (DPSIAF). Based on the exponential mechanism, this framework can easily develop existing SI algorithms into the private versions. As examples, we apply the proposed DPSIAF to four popular SI algorithms, and corresponding analyses demonstrate its effectiveness. More interestingly, the experimental results show that, for our private algorithms, their performance is not strictly affected by the privacy budget, and one of the private algorithms even owns better performance than its non-private version in some cases. These findings are different from the conventional cognition, which indicates the uniqueness of SI with DP. Our study may provide a new perspective on DP, and promote the synergy between metaheuristic optimization community and privacy computing community.
翻訳日:2023-07-03 13:43:28 公開日:2023-06-30
# 多重化による空間変動露光:最適性と普遍性

Spatially Varying Exposure with 2-by-2 Multiplexing: Optimality and Universality ( http://arxiv.org/abs/2306.17367v1 )

ライセンス: Link先を確認
Xiangyu Qu, Yiheng Chi, Stanley H. Chan(参考訳) 新しいデジタルイメージセンサの進歩により、単一のイメージキャプチャが複数の露光と変換をインターレース形式で得ることができる露出多重化スキームの設計が可能となった。 本稿では,シーンに応じて多重化方式を更新可能な適応型高ダイナミックレンジ(HDR)画像に対して,このような多重化方式を設計する方法を問う。 我々は2つの新しい発見を示す。 (i)設計の最適性の問題に対処します。 本研究では,各画素の入力/出力-参照信号-雑音比(SNR)に基づく従来の最適条件である多重パターンが,飽和画素の位置をカプセル化できないという欠点を生じさせることを示す。 本研究では,空間的に変化する露光リスク (SVE-Risk) と呼ばれる新たな概念を提案することでこの問題を克服する。 最適な多重化パターンを選択するための効率的な列挙アルゴリズムを提案する。 (ii)画像再構成アルゴリズムから多重化パターンの設計を分離できるという設計普遍性観察を報告する。 これは、多重化パターンを再構成アルゴリズムと共同で最適化すべきという最近の文献から大きく逸脱している。 以上より,露出多重化の文脈では,エンドツーエンドのトレーニングは不要である可能性が示唆された。

The advancement of new digital image sensors has enabled the design of exposure multiplexing schemes where a single image capture can have multiple exposures and conversion gains in an interlaced format, similar to that of a Bayer color filter array. In this paper, we ask the question of how to design such multiplexing schemes for adaptive high-dynamic range (HDR) imaging where the multiplexing scheme can be updated according to the scenes. We present two new findings. (i) We address the problem of design optimality. We show that given a multiplex pattern, the conventional optimality criteria based on the input/output-referred signal-to-noise ratio (SNR) of the independently measured pixels can lead to flawed decisions because it cannot encapsulate the location of the saturated pixels. We overcome the issue by proposing a new concept known as the spatially varying exposure risk (SVE-Risk) which is a pseudo-idealistic quantification of the amount of recoverable pixels. We present an efficient enumeration algorithm to select the optimal multiplex patterns. (ii) We report a design universality observation that the design of the multiplex pattern can be decoupled from the image reconstruction algorithm. This is a significant departure from the recent literature that the multiplex pattern should be jointly optimized with the reconstruction algorithm. Our finding suggests that in the context of exposure multiplexing, an end-to-end training may not be necessary.
翻訳日:2023-07-03 13:43:07 公開日:2023-06-30
# $\lambda$-AC: 連続状態空間における強化学習のための潜在的意思決定モデル学習

$\lambda$-AC: Learning latent decision-aware models for reinforcement learning in continuous state-spaces ( http://arxiv.org/abs/2306.17366v1 )

ライセンス: Link先を確認
Claas A Voelcker, Arash Ahmadian, Romina Abachi, Igor Gilitschenski, Amir-massoud Farahmand(参考訳) 意思決定に重要な場所ではモデルが正確であるべきだという意思決定モデル学習の考え方は、モデルベースの強化学習において注目を集めている。 有望な理論的結果が確立されている一方で、特に連続制御問題において、決定認識損失を利用したアルゴリズムの実証的性能が欠如している。 本稿では,意思決定対応強化学習モデルに必要な要素について検討し,優れたアルゴリズムを実現する設計選択について述べる。 この目的のために、この分野における顕著なアルゴリズム的アイデアの理論的および実証的研究を行う。 我々は,MuZeroシリーズで確立された経験的設計決定が,関連するアルゴリズムの性能向上に不可欠であることを強調し,確率的環境における値認識アルゴリズムの異なるインスタンス化の挙動の違いを示す。 これらの知見を用いて,連続状態空間における意思決定モデルに基づく強化学習のための潜在モデルに基づく決定アウェアアクタ-クリティックフレームワーク(\lambda$-ac)を提案し,異なる環境における重要な設計選択を強調する。

The idea of decision-aware model learning, that models should be accurate where it matters for decision-making, has gained prominence in model-based reinforcement learning. While promising theoretical results have been established, the empirical performance of algorithms leveraging a decision-aware loss has been lacking, especially in continuous control problems. In this paper, we present a study on the necessary components for decision-aware reinforcement learning models and we showcase design choices that enable well-performing algorithms. To this end, we provide a theoretical and empirical investigation into prominent algorithmic ideas in the field. We highlight that empirical design decisions established in the MuZero line of works are vital to achieving good performance for related algorithms, and we showcase differences in behavior between different instantiations of value-aware algorithms in stochastic environments. Using these insights, we propose the Latent Model-Based Decision-Aware Actor-Critic framework ($\lambda$-AC) for decision-aware model-based reinforcement learning in continuous state-spaces and highlight important design choices in different environments.
翻訳日:2023-07-03 13:42:43 公開日:2023-06-30
# 多段階量子計算に基づく量子最適化アルゴリズム

Quantum optimization algorithm based on multistep quantum computation ( http://arxiv.org/abs/2306.17363v1 )

ライセンス: Link先を確認
Hefeng Wang, Hua Xiang(参考訳) 本稿では,マルチステップ量子計算に基づく関数の最小値を求める量子アルゴリズムを提案し,問題の変数を離散化して問題の状態空間を形成する連続変数の最適化問題に適用する。 通常、問題解決のコストは問題の大きさとともに劇的に増加する。 このアルゴリズムでは、問題の探索空間の次元は段階的に指数関数的に減少することができる。 我々は、ハミルトニアンの探索空間が前のハミルトニアンの探索空間にネストされるような一連のハミルトニアンを構成する。 多段階の量子計算プロセスを適用することにより、最適ベクトルは最終的に小さな状態空間に配置され、効率的に決定できる。 最適化における最も難しい問題の1つは、試行ベクトルが大域的最小値が欠落している間に深い局所的最小値に閉じ込められ、この問題はアルゴリズムで緩和され、一定の条件が満たされた場合、ランタイムはアルゴリズムのステップ数に比例する。 連続的なテスト関数のアルゴリズムを検証した。

We present a quantum algorithm for finding the minimum of a function based on multistep quantum computation and apply it for optimization problems with continuous variables, in which the variables of the problem are discretized to form the state space of the problem. Usually the cost for solving the problem increases dramatically with the size of the problem. In this algorithm, the dimension of the search space of the problem can be reduced exponentially step by step. We construct a sequence of Hamiltonians such that the search space of a Hamiltonian is nested in that of the previous one. By applying a multistep quantum computation process, the optimal vector is finally located in a small state space and can be determined efficiently. One of the most difficult problems in optimization is that a trial vector is trapped in a deep local minimum while the global minimum is missed, this problem can be alleviated in our algorithm and the runtime is proportional to the number of the steps of the algorithm, provided certain conditions are satisfied. We have tested the algorithm for some continuous test functions.
翻訳日:2023-07-03 13:42:25 公開日:2023-06-30
# ディープ展開ネットワークによるフェデレーションアグリゲーションの改善

Improving Federated Aggregation with Deep Unfolding Networks ( http://arxiv.org/abs/2306.17362v1 )

ライセンス: Link先を確認
Shanika I Nanayakkara, Shiva Raj Pokhrel, Gang Li(参考訳) フェデレーション学習(fl)の性能は,デバイス差や参加者間の統計的特性に負の影響を受けている。 この問題に対処するために,不均一性の悪影響を無バイアスに改善する適応重みを学習する,dun(deep unfolding network)ベースの手法を提案する。 提案手法は印象的な精度と品質把握アグリゲーションを示す。 さらに,アグリゲーション法における計算能力の低下を定義するため,最強正規化手法の評価を行った。 本研究における数値実験は,本手法の有効性を実証し,学習した未偏重の解釈可能性に関する知見を提供する。 モデルに偏りのない重みを組み込むことにより、提案手法は、参加するクライアントとFL環境の不均一性の下で品質を考慮したアグリゲーションを効果的に解決する。 コードと詳細は \href{https://github.com/shanikairoshi/Improved_DUN_basedFL_Aggregation}{here} である。

The performance of Federated learning (FL) is negatively affected by device differences and statistical characteristics between participating clients. To address this issue, we introduce a deep unfolding network (DUN)-based technique that learns adaptive weights that unbiasedly ameliorate the adverse impacts of heterogeneity. The proposed method demonstrates impressive accuracy and quality-aware aggregation. Furthermore, it evaluated the best-weighted normalization approach to define less computational power on the aggregation method. The numerical experiments in this study demonstrate the effectiveness of this approach and provide insights into the interpretability of the unbiased weights learned. By incorporating unbiased weights into the model, the proposed approach effectively addresses quality-aware aggregation under the heterogeneity of the participating clients and the FL environment. Codes and details are \href{https://github.com/shanikairoshi/Improved_DUN_basedFL_Aggregation}{here}.
翻訳日:2023-07-03 13:42:07 公開日:2023-06-30
# iSCAN:非線形付加雑音モデルにおける因果メカニズムのシフト

iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive Noise Models ( http://arxiv.org/abs/2306.17361v1 )

ライセンス: Link先を確認
Tianyu Chen, Kevin Bello, Bryon Aragam, Pradeep Ravikumar(参考訳) 構造因果モデル(scms)は複雑なシステムにおける変数間の因果関係を表現するために様々な分野において広く使われている。 残念ながら、真の基礎となる有向非循環グラフ(dag)構造はしばしば不明であり、観測データや介入データからそれを決定することは難しい課題である。 しかし、多くの状況において、最終目標は、基礎となるDAG構造全体を回復するのではなく、関連するSCM間の因果メカニズムの変化(シフト)を特定することである。 例えば、健康な個体とがんの個体間の遺伝子制御ネットワーク構造の変化の分析や、異なる細胞環境下での生物学的経路の理解のバリエーションなどである。 本稿では,同一変数の集合上での2つ以上の関連SCMの機構シフトを$\textit{functional}$で同定することに焦点を当てる。 この設定の下での先行研究は、ガウスノイズを持つ線形モデルを仮定し、代わりに、この研究では、各scmはより一般的な非線形付加ノイズモデル (anms) に属すると仮定する。 この研究の重要な貢献は、$\textit{mixture distribution}$に対するスコア関数のヤコビアンが、一般的な非パラメトリック関数機構におけるシフトの同定を可能にすることを示すことである。 シフト変数が特定されると、シフト変数の構造的差異を見積もるために、最近の研究を活用しています。 このアプローチの適用性を示すために,合成データと実世界のデータの実験を行った。

Structural causal models (SCMs) are widely used in various disciplines to represent causal relationships among variables in complex systems. Unfortunately, the true underlying directed acyclic graph (DAG) structure is often unknown, and determining it from observational or interventional data remains a challenging task. However, in many situations, the end goal is to identify changes (shifts) in causal mechanisms between related SCMs rather than recovering the entire underlying DAG structure. Examples include analyzing gene regulatory network structure changes between healthy and cancerous individuals or understanding variations in biological pathways under different cellular contexts. This paper focuses on identifying $\textit{functional}$ mechanism shifts in two or more related SCMs over the same set of variables -- $\textit{without estimating the entire DAG structure of each SCM}$. Prior work under this setting assumed linear models with Gaussian noises; instead, in this work we assume that each SCM belongs to the more general class of nonlinear additive noise models (ANMs). A key contribution of this work is to show that the Jacobian of the score function for the $\textit{mixture distribution}$ allows for identification of shifts in general non-parametric functional mechanisms. Once the shifted variables are identified, we leverage recent work to estimate the structural differences, if any, for the shifted variables. Experiments on synthetic and real-world data are provided to showcase the applicability of this approach.
翻訳日:2023-07-03 13:41:53 公開日:2023-06-30
# reluニューラルネットワーク、多面体分解、永続ホモログ

ReLU Neural Networks, Polyhedral Decompositions, and Persistent Homolog ( http://arxiv.org/abs/2306.17418v1 )

ライセンス: Link先を確認
Yajing Liu, Christina M Cole, Chris Peterson, Michael Kirby(参考訳) reluニューラルネットワークは、入力空間の有限多面体分解と対応する有限双対グラフをもたらす。 この双対グラフは入力空間の粗量子化であるが、持続ホモロジーと組み合わせて、サンプルから入力空間内の多様体のホモロジー信号を検出することは十分に堅牢であることを示す。 この性質は、このトポロジ的応用とは無関係に、幅広い目的のために訓練された様々なネットワークに当てはまる。 この機能には驚きと興味があり、役に立つことを願っています。

A ReLU neural network leads to a finite polyhedral decomposition of input space and a corresponding finite dual graph. We show that while this dual graph is a coarse quantization of input space, it is sufficiently robust that it can be combined with persistent homology to detect homological signals of manifolds in the input space from samples. This property holds for a variety of networks trained for a wide range of purposes that have nothing to do with this topological application. We found this feature to be surprising and interesting; we hope it will also be useful.
翻訳日:2023-07-03 13:33:43 公開日:2023-06-30
# 複合ロボットシステムのための分散モータスキル学習

Decentralized Motor Skill Learning for Complex Robotic Systems ( http://arxiv.org/abs/2306.17411v1 )

ライセンス: Link先を確認
Yanjiang Guo, Zheyuan Jiang, Yen-Jen Wang, Jingyue Gao, Jianyu Chen(参考訳) 強化学習(RL)は複雑なロボットシステム(例えば四足歩行)において顕著な成功を収めた。 以前の研究では、rlベースのコントローラは通常、連続した観測入力を持つ単一のニューラルネットワークとして実装されていた。 しかし、対応する学習方針はタスク固有のものである。 すべてのモーターは集中的に制御されるため、アウトオブディストリビューションの局所観測は単一の結合ニューラルネットワークポリシを通じてグローバルモーターに影響を与える可能性がある。 対照的に、動物と人間は別々に手足を制御することができる。 この生物学的現象にインスパイアされたDEMOS学習アルゴリズムは,本質的な接続を保ちながら相互に疎結合可能なモータ群を自動的に検出し,分散モータ制御ポリシーを学習する。 本手法は性能を犠牲にすることなくポリシーの堅牢性と一般化を改善する。 四足歩行ロボットとヒューマノイドロボットの実験は、学習方針が局所的な運動障害に対して堅牢であり、新しいタスクに移行できることを示した。

Reinforcement learning (RL) has achieved remarkable success in complex robotic systems (eg. quadruped locomotion). In previous works, the RL-based controller was typically implemented as a single neural network with concatenated observation input. However, the corresponding learned policy is highly task-specific. Since all motors are controlled in a centralized way, out-of-distribution local observations can impact global motors through the single coupled neural network policy. In contrast, animals and humans can control their limbs separately. Inspired by this biological phenomenon, we propose a Decentralized motor skill (DEMOS) learning algorithm to automatically discover motor groups that can be decoupled from each other while preserving essential connections and then learn a decentralized motor control policy. Our method improves the robustness and generalization of the policy without sacrificing performance. Experiments on quadruped and humanoid robots demonstrate that the learned policy is robust against local motor malfunctions and can be transferred to new tasks.
翻訳日:2023-07-03 13:33:34 公開日:2023-06-30
# LMBot: Twitterボット検出におけるグラフレスデプロイメントのための言語モデルへのグラフ知識の注入

LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection ( http://arxiv.org/abs/2306.17408v1 )

ライセンス: Link先を確認
Zijian Cai, Zhaoxuan Tan, Zhenyu Lei, Hongrui Wang, Zifeng Zhu, Qinghua Zheng, Minnan Luo(参考訳) 悪役が悪質な情報を拡散し、世論を操作するためにますます進歩し、広く普及しているボットを雇う中、twitterボットの検出は重要な課題となっている。 グラフベースのtwitterボット検出手法は最先端のパフォーマンスを実現していますが、その推論はターゲットから複数ホップ離れた近隣のユーザに依存しており、隣人のフェッチには時間がかかり、バイアスが生じる可能性があります。 同時に、twitterボット検出を微調整した後、事前トレーニングされた言語モデルが競合性能を達成し、デプロイ時にグラフ構造を必要としないことも分かりました。 この発見に触発されて,グラフニューラルネットワーク(gnns)の知識を言語モデル(lms)に抽出し,twitterボット検出にグラフレスデプロイすることにより,データ依存の課題に対処した,新たなボット検出フレームワークlmbotを提案する。 さらに、LMBotはグラフベースおよびグラフレスデータセットと互換性がある。 具体的には、まず各ユーザをテキストシーケンスとして表現し、それらをLMに入力してドメイン適応する。 グラフベースのデータセットでは、LMの出力はGNNの入力機能を提供し、ボットの検出と知識の抽出を反復的かつ相互に強化するプロセスでLMに戻すことができる。 LMと組み合わされたグラフレス推論は、グラフデータの依存性を解消し、バイアス問題をサンプリングする。 グラフ構造を持たないデータセットの場合、GNNをMPPで置き換えるだけで、性能も高い。 実験の結果,LMBotは4つのTwitterボット検出ベンチマークで最先端のパフォーマンスを達成した。 大規模な研究により、LMBotはグラフベースのTwitterボット検出方法よりも堅牢で、汎用的で、効率的であることが示されている。

As malicious actors employ increasingly advanced and widespread bots to disseminate misinformation and manipulate public opinion, the detection of Twitter bots has become a crucial task. Though graph-based Twitter bot detection methods achieve state-of-the-art performance, we find that their inference depends on the neighbor users multi-hop away from the targets, and fetching neighbors is time-consuming and may introduce bias. At the same time, we find that after finetuning on Twitter bot detection, pretrained language models achieve competitive performance and do not require a graph structure during deployment. Inspired by this finding, we propose a novel bot detection framework LMBot that distills the knowledge of graph neural networks (GNNs) into language models (LMs) for graph-less deployment in Twitter bot detection to combat the challenge of data dependency. Moreover, LMBot is compatible with graph-based and graph-less datasets. Specifically, we first represent each user as a textual sequence and feed them into the LM for domain adaptation. For graph-based datasets, the output of LMs provides input features for the GNN, enabling it to optimize for bot detection and distill knowledge back to the LM in an iterative, mutually enhancing process. Armed with the LM, we can perform graph-less inference, which resolves the graph data dependency and sampling bias issues. For datasets without graph structure, we simply replace the GNN with an MLP, which has also shown strong performance. Our experiments demonstrate that LMBot achieves state-of-the-art performance on four Twitter bot detection benchmarks. Extensive studies also show that LMBot is more robust, versatile, and efficient compared to graph-based Twitter bot detection methods.
翻訳日:2023-07-03 13:33:20 公開日:2023-06-30
# QuAVF:私に挑戦するEgo4Dのための高品質なオーディオ・ビジュアル・フュージョン

QuAVF: Quality-aware Audio-Visual Fusion for Ego4D Talking to Me Challenge ( http://arxiv.org/abs/2306.17404v1 )

ライセンス: Link先を確認
Hsi-Che Lin, Chien-Yi Wang, Min-Hung Chen, Szu-Wei Fu, Yu-Chiang Frank Wang(参考訳) この技術レポートでは、Ego4D Talking to Me (TTM) Challenge 2023へのQuAVF@NTU-NVIDIAの提出について述べています。 TTMタスクと提供されるデータセットからの観測に基づいて、入力ビデオとオーディオを処理するために2つの別々のモデルを提案する。 これにより、バウンドボックスラベルを使わずに、ラベル付きトレーニングデータをすべて利用できる。 さらに、顔ランドマーク予測モデルからの顔品質スコアを活用し、ノイズの多い顔入力データをフィルタリングする。 顔の質スコアは,2つの枝から得られる結果を統合するために提案した品質認識融合にも用いられる。 単純なアーキテクチャ設計により、テストセット上で67.4%の平均精度(map)を達成し、リードボードで最初にランク付けし、ベースラインメソッドを大きなマージンで上回った。 コードは以下の通り。 https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23

This technical report describes our QuAVF@NTU-NVIDIA submission to the Ego4D Talking to Me (TTM) Challenge 2023. Based on the observation from the TTM task and the provided dataset, we propose to use two separate models to process the input videos and audio. By doing so, we can utilize all the labeled training data, including those without bounding box labels. Furthermore, we leverage the face quality score from a facial landmark prediction model for filtering noisy face input data. The face quality score is also employed in our proposed quality-aware fusion for integrating the results from two branches. With the simple architecture design, our model achieves 67.4% mean average precision (mAP) on the test set, which ranks first on the leaderboard and outperforms the baseline method by a large margin. Code is available at: https://github.com/hsi-che-lin/Ego4D-QuAVF-TTM-CVPR23
翻訳日:2023-07-03 13:32:51 公開日:2023-06-30
# 量子センサネットワークにおける検出器センサの初期状態の最適化

Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v1 )

ライセンス: Link先を確認
Caitao Zhan, Himanshu Gupta, Mark Hillery(参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。 検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。 このような検出器のネットワークは、イベントに最も近いものと思われる発射センサを決定するプロトコルを使用して、イベントのローカライズに使用することができる。 点火センサの判定は、初期状態および使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。 本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。 この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。 この結果から, 初期状態に対する推定最適解を導出し, 予想を証明する経路を提供し, ほぼ最適であると思われる複数の探索ヒューリスティックを用いて, 予測を実証的に検証する。

In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally.
翻訳日:2023-07-03 13:32:35 公開日:2023-06-30
# 生体イメージングにおけるゼロショットセグメンテーションのためのトポロジカルデータ解析ガイド付きセグメントモデルプロンプト最適化

Topological Data Analysis Guided Segment Anything Model Prompt Optimization for Zero-Shot Segmentation in Biological Imaging ( http://arxiv.org/abs/2306.17400v1 )

ライセンス: Link先を確認
Ruben Glatt and Shusen Liu(参考訳) 機械学習における新たな基盤モデルは、新しいタスクにうまく一般化することが示されている膨大なデータに基づいてトレーニングされたモデルである。 これらのモデルは、画像上の自然言語記述から点雲まで、多モード入力でトリガーされることが多い。 本稿では,Segment Anything Model (SAM) のプロンプト最適化を目的としたトポロジカルデータ解析(TDA)を提案し,生物画像セグメンテーション領域における予備的な結果を示す。 提案手法は,従来の実装で使用されている標準グリッド探索手法を代替し,そのトポロジ的意義に基づいて点位置を求める。 以上の結果から,TDA最適化ポイントクラウドは,多くのセグメンテーションを必要とするシナリオの余分なステップにもかかわらず,小さなオブジェクトを見つけるのに非常に適しており,計算の複雑さを大幅に削減できることがわかった。

Emerging foundation models in machine learning are models trained on vast amounts of data that have been shown to generalize well to new tasks. Often these models can be prompted with multi-modal inputs that range from natural language descriptions over images to point clouds. In this paper, we propose topological data analysis (TDA) guided prompt optimization for the Segment Anything Model (SAM) and show preliminary results in the biological image segmentation domain. Our approach replaces the standard grid search approach that is used in the original implementation and finds point locations based on their topological significance. Our results show that the TDA optimized point cloud is much better suited for finding small objects and massively reduces computational complexity despite the extra step in scenarios which require many segmentations.
翻訳日:2023-07-03 13:32:15 公開日:2023-06-30
# 非ネイティブ読者のための日本語語彙複雑性:新しいデータセット

Japanese Lexical Complexity for Non-Native Readers: A New Dataset ( http://arxiv.org/abs/2306.17399v1 )

ライセンス: Link先を確認
Yusuke Ide, Masato Mita, Adam Nohejl, Hiroki Ouchi, Taro Watanabe(参考訳) 語彙複雑性予測(Lexical complexity prediction、LCP)は、テキスト中の単語の複雑さを連続的に予測するタスクである。 複雑な単語の単純化や注釈付けにおいて、読者を支援する重要な役割を担っている。 日本語の語彙複雑性を研究するために,最初の日本語lcpデータセットを構築した。 我々のデータセットは、中国語/韓国語アノテーションなど、読者のL1固有のニーズに対応するために、別の複雑性スコアを提供する。 本実験では,日本語LCPのためのBERTベースのシステムの有効性を実証する。

Lexical complexity prediction (LCP) is the task of predicting the complexity of words in a text on a continuous scale. It plays a vital role in simplifying or annotating complex words to assist readers. To study lexical complexity in Japanese, we construct the first Japanese LCP dataset. Our dataset provides separate complexity scores for Chinese/Korean annotators and others to address the readers' L1-specific needs. In the baseline experiment, we demonstrate the effectiveness of a BERT-based system for Japanese LCP.
翻訳日:2023-07-03 13:31:57 公開日:2023-06-30
# クープマン作用素学習のための物理インフォームドインバータブルニューラルネットワーク

Physics-informed invertible neural network for the Koopman operator learning ( http://arxiv.org/abs/2306.17396v1 )

ライセンス: Link先を確認
Yuhuang Meng, Jianguo Huang, Yue Qiu(参考訳) クープマン作用素論において、有限次元非線形系は可観測関数の集合を用いて無限だが線型系に変換される。 しかし、事前知識に基づいてkoopman演算子の不変部分空間にまたがる可観測関数を手動で選択することは非効率的かつ困難である。 さらに、現在の方法論は可観測関数の可逆性の重要性を無視し、不正確な結果をもたらす傾向にある。 これらの課題に対処するために、結合フロー可逆ニューラルネットワーク(CF-INN)フレームワークを利用したフローベースの動的モード分解であるFlowDMDを提案する。 FlowDMDはCF-INNの内在的可逆特性を利用して、クープマン作用素の不変部分空間を学び、状態変数を正確に再構成する。 数値実験により,最先端手法と比較して,アルゴリズムの優れた性能を示す。

In Koopman operator theory, a finite-dimensional nonlinear system is transformed into an infinite but linear system using a set of observable functions. However, manually selecting observable functions that span the invariant subspace of the Koopman operator based on prior knowledge is inefficient and challenging, particularly when little or no information is available about the underlying systems. Furthermore, current methodologies tend to disregard the importance of the invertibility of observable functions, which leads to inaccurate results. To address these challenges, we propose the so-called FlowDMD, a Flow-based Dynamic Mode Decomposition that utilizes the Coupling Flow Invertible Neural Network (CF-INN) framework. FlowDMD leverages the intrinsically invertible characteristics of the CF-INN to learn the invariant subspaces of the Koopman operator and accurately reconstruct state variables. Numerical experiments demonstrate the superior performance of our algorithm compared to state-of-the-art methodologies.
翻訳日:2023-07-03 13:31:50 公開日:2023-06-30
# eyebag:スタイル混合を利用したデータ拡張に基づく眼点滅と視線の正確な制御

EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data Augmentation Leveraging Style Mixing ( http://arxiv.org/abs/2306.17391v1 )

ライセンス: Link先を確認
Bryan S. Kim, Jeong Young Jeong, Wonjong Ryu(参考訳) 近年, 画像生成モデルの開発により, 人間の顔画像生成が可能となり, 顔生成技術を利用した下流タスクも進歩している。 しかし、ダウンストリームタスクのモデルは、アイコントロール(アイブリンク、視線リダイレクトなど)ではいまだに標準以下である。 このような視線制御問題を克服するために,blinkコントロールモジュールとeyes redirectionモジュールという2つのモジュールからなる新しいフレームワークを導入する。 また,各モジュールを学習するための新たなデータ拡張手法を提案する。 当社のフレームワークが高画質のアイコントロール画像を生成することを示し,ダウンストリームタスクのパフォーマンス向上にどのように役立つかを示す。

Recent developments in generative models have enabled the generation of photo-realistic human face images, and downstream tasks utilizing face generation technology have advanced accordingly. However, models for downstream tasks are yet substandard at eye control (e.g. eye blink, gaze redirection). To overcome such eye control problems, we introduce a novel framework consisting of two distinct modules: a blink control module and a gaze redirection module. We also propose a novel data augmentation method to train each module, leveraging style mixing to obtain images with desired features. We show that our framework produces eye-controlled images of high quality, and demonstrate how it can be used to improve the performance of downstream tasks.
翻訳日:2023-07-03 13:31:33 公開日:2023-06-30
# 動的変調による音響系の過渡論理演算

Transient logic operations in acoustics through dynamic modulation ( http://arxiv.org/abs/2306.17387v1 )

ライセンス: Link先を確認
Zhao-xian Chen, Ling-ling Ma, Shi-jun Ge, Ze-Guo Chen and Yan-qing Lu(参考訳) 量子論理演算では、情報はエネルギー分布ではなく波動関数によって運ばれる。 したがって、相対位相は必須である。 アベリア位相と非アベリア位相は、幾何変調による受動結合導波路を用いて古典波でエミュレートすることができる。 しかし, 導波路構造変化による動的位相干渉は避けられないため, ホッピングの動的変調による位相分布の精密制御を可能にする電気音響結合システムを導入する。 このような効果的なホッピングは電子的に制御され、パラメータ空間の様々な経路を構築するために利用される。 これらの経路は、論理演算に対応する行列値幾何位相を持つ状態進化に繋がる。 我々は、y$ gate, $z$ gate, hadamard gate, non-abelian braidingを含むいくつかの論理演算の実験的な実現を報告した。 本研究は,コンパクトな構造で過渡モードを操作するための時間的プロセスを導入し,他の論理ゲートやエキゾチックな位相現象を探索するための汎用的な実験ベッドを提供する。

In quantum logic operations, information is carried by the wavefunction rather than the energy distribution. Therefore, the relative phase is essential. Abelian and non-Abelian phases can be emulated in classical waves using passive coupled waveguides with geometric modulation. However, the dynamic phases interference induced by waveguide structure variation is inevitable.To overcome the challenges, we introduce an electroacoustic coupled system that enables the precise control of phase distribution through dynamic modulation of hopping. Such effective hopping is electronically controlled and is utilized to construct various paths in parameter space. These paths lead to state evolution with matrix-valued geometric phases, which correspond to logic operations. We report experimental realizations of several logic operations, including $Y$ gate, $Z$ gate, Hadamard gate and non-Abelian braiding. Our work introduces a temporal process to manipulate transient modes in a compact structure, providing a versatile experimental testbed for exploring other logic gates and exotic topological phenomena.
翻訳日:2023-07-03 13:31:21 公開日:2023-06-30
# GMM:モノクロ3次元検出のためのグラディエント・アウェアとモデル知覚深度マイニング

GMM: Delving into Gradient Aware and Model Perceive Depth Mining for Monocular 3D Detection ( http://arxiv.org/abs/2306.17450v1 )

ライセンス: Link先を確認
Weixin Mao, Jinrong Yang, Zheng Ge, Lin Song, Hongyu Zhou, Tiezheng Mao, Zeming Li, Osamu Yoshie(参考訳) 深度知覚は、通常不適切な問題を伴う単眼の3d検出タスクの重要な要素である。 2次元物体検出におけるサンプルマイニング手法の成功を踏まえ,3次元物体検出における奥行き知覚を改善するための簡易かつ効果的なマイニング戦略を提案する。 具体的には,モデルから抽出したサンプルを選択する深さ予測の質を評価するための平易な指標を提案する。 さらに,深層学習のための勾配認識型モデル知覚型マイニング戦略 (gmm) を提案する。 GMMは、最先端のモノクル3D検出器に容易に適用可能な一般的な戦略であり、深度予測の精度を向上させる。 nuscenesデータセットに関する広範囲な実験により、提案手法は3dオブジェクト検出の性能を大幅に向上させ、他の最先端サンプルマイニング技術を大きく上回ることを示した。 nuScenesベンチマークでは、GMMはモノクロ物体の検出において最先端(42.1% mAPと47.3% NDS)の性能を達成した。

Depth perception is a crucial component of monoc-ular 3D detection tasks that typically involve ill-posed problems. In light of the success of sample mining techniques in 2D object detection, we propose a simple yet effective mining strategy for improving depth perception in 3D object detection. Concretely, we introduce a plain metric to evaluate the quality of depth predictions, which chooses the mined sample for the model. Moreover, we propose a Gradient-aware and Model-perceive Mining strategy (GMM) for depth learning, which exploits the predicted depth quality for better depth learning through easy mining. GMM is a general strategy that can be readily applied to several state-of-the-art monocular 3D detectors, improving the accuracy of depth prediction. Extensive experiments on the nuScenes dataset demonstrate that the proposed methods significantly improve the performance of 3D object detection while outperforming other state-of-the-art sample mining techniques by a considerable margin. On the nuScenes benchmark, GMM achieved the state-of-the-art (42.1% mAP and 47.3% NDS) performance in monocular object detection.
翻訳日:2023-07-03 13:25:33 公開日:2023-06-30
# 中国語テキスト誤り訂正のためのプログレッシブマルチタスク学習フレームワーク

Progressive Multi-task Learning Framework for Chinese Text Error Correction ( http://arxiv.org/abs/2306.17447v1 )

ライセンス: Link先を確認
Shirong Ma, Yinghui Li, Haojing Huang, Shulin Huang, Yangning Li, Hai-Tao Zheng, and Ying Shen(参考訳) 中国語テキスト誤り訂正(ctec)は、人間の日常生活や下流の様々なタスクに役立つ入力テキストの誤りを検出し、訂正することを目的としている。 近年,CTECの課題を解決し,大きな成功を収めるために,プレトレーニング言語モデル(PLM)を主に採用している。 しかし, 従来のアプローチでは過補正と過補正の問題があり, 前者は特に高精度CTECタスクにおいて顕著である。 オーバーコレクションの問題を緩和するために,CTECのモデルに依存しないプログレッシブマルチタスク学習フレームワークProTECを提案する。 我々はCTECタスクを,誤り検出,誤り型同定,補正結果生成という3つのサブタスクに分割する。 トレーニングプロセス中、ProTECは、これらのサブタスクをマルチタスクトレーニング目標に組み込むことで、テキストエラー訂正を段階的に学習するモデルをガイドする。 推論プロセスの間、モデルはこれらのサブタスクを完了し、修正結果を生成する。 大規模な実験と詳細な分析により,提案フレームワークの有効性と有効性を実証した。

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human's daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC task and achieve tremendous success. However, previous approaches suffer from issues of over-correction and under-correction, and the former is especially conspicuous in the precision-critical CTEC task. To mitigate the issue of overcorrection, we propose a novel model-agnostic progressive multitask learning framework for CTEC, named ProTEC, which guides a CTEC model to learn the task from easy to difficult. We divide CTEC task into three sub-tasks from easy to difficult: Error Detection, Error Type Identification, and Correction Result Generation. During the training process, ProTEC guides the model to learn text error correction progressively by incorporating these sub-tasks into a multi-task training objective. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses fully demonstrate the effectiveness and efficiency of our proposed framework.
翻訳日:2023-07-03 13:25:13 公開日:2023-06-30
# 導波路qedにおける巨大原子によるフォノンによる光子制御

Controlling photons by phonons via giant atom in a waveguide QED setup ( http://arxiv.org/abs/2306.17444v1 )

ライセンス: Link先を確認
Xinyu Li, Wei Zhao, and Zhihai Wang(参考訳) 導波路QED方式におけるフォノン-フォトンハイブリッド系の単一光子散乱について検討する。 本検討では、表面音響波共振器内のフォノンにより構成された人工巨大原子が、結合共振器導波路(crw)と2つの接続部位を介して非局所的に相互作用する。 非局所結合による干渉効果とともに、フォノンは導波路内の光子の輸送の制御器として機能する。 一方、巨大原子と表面波共振器との結合強度は、近共振状態における伝送谷または窓の幅を変調する。 一方、ラビ分裂によって引き起こされる2つの反射ピークは、表面音響共振器から巨大原子が脱離する場合に1つのピークに分解され、これは効果的な分散結合を意味する。 我々の研究は、ハイブリッドシステムにおける巨大原子の潜在的な応用の道を開いた。

We investigate the single photon scattering in a phonon-photon hybrid system in the waveguide QED scheme. In our consideration, an artificial giant atom, which is dressed by the phonons in a surface acoustic wave resonator, interacts with a coupled resonator waveguide (CRW) nonlocally via two connecting sites. Together with the interference effect by the nonlocal coupling, the phonon serves as a controller to the transport of the photon in the waveguide. On the one hand, the coupling strength between the giant atom and the surface acoustic wave resonator modulates the width of the transmission valley or window in the near resonant regime. On the other hand, the two reflective peaks induced by the Rabi splitting degrade into a single one when the giant atom is large detuned from the surface acoustic resonator, which implies an effective dispersive coupling. Our study paves the way for the potential application of giant atoms in the hybrid system.
翻訳日:2023-07-03 13:24:53 公開日:2023-06-30
# 支持と質量等化による三元ニューラルネットワーク量子化のための強いベースラインの設計

Designing strong baselines for ternary neural network quantization through support and mass equalization ( http://arxiv.org/abs/2306.17442v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Kevin Bailly(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。 これらの結果は、実行にコストがかかるオーバーパラメータのバックボーンに依存している。 この計算負担は、(データフリー(DFQ)、後トレーニング(PTQ)、または量子化対応トレーニング(QAT)シナリオにおいて)浮動小数点値を3つの値({-1,0,1}の各重みが2ビット)に量子化することで劇的に低減することができる。 この文脈では、最寄りの丸みは、一様分布が与えられた期待誤差を最小にするため、重み分布の歪みやクルトシスを考慮せず、三元量子化性能に強く影響を及ぼす。 これは次の疑問を提起する: 最も高いか平均的な量子化誤差を最小化するか? これに対応するために、各最小化タスクに対応するTQuantとMQuantの2つの演算子を設計する。 本手法は,dfq,ptq,qatの様々なシナリオを通じて,三元量子化の性能を著しく向上させ,深層ニューラルネットワーク量子化における今後の研究への道を開くための強い洞察を与える。

Deep neural networks (DNNs) offer the highest performance in a wide range of applications in computer vision. These results rely on over-parameterized backbones, which are expensive to run. This computational burden can be dramatically reduced by quantizing (in either data-free (DFQ), post-training (PTQ) or quantization-aware training (QAT) scenarios) floating point values to ternary values (2 bits, with each weight taking value in {-1,0,1}). In this context, we observe that rounding to nearest minimizes the expected error given a uniform distribution and thus does not account for the skewness and kurtosis of the weight distribution, which strongly affects ternary quantization performance. This raises the following question: shall one minimize the highest or average quantization error? To answer this, we design two operators: TQuant and MQuant that correspond to these respective minimization tasks. We show experimentally that our approach allows to significantly improve the performance of ternary quantization through a variety of scenarios in DFQ, PTQ and QAT and give strong insights to pave the way for future research in deep neural network quantization.
翻訳日:2023-07-03 13:24:39 公開日:2023-06-30
# 自然グラディエントファインチューニングによる効率的なバックドア除去

Efficient Backdoor Removal Through Natural Gradient Fine-tuning ( http://arxiv.org/abs/2306.17441v1 )

ライセンス: Link先を確認
Nazmul Karim, Abdullah Al Arafat, Umar Khalid, Zhishan Guo and Naznin Rahnavard(参考訳) ディープニューラルネットワーク(DNN)の成功は、トレーニングスキームの詳細(例えば、トレーニングデータ、アーキテクチャ、ハイパーパラメータなど)に大きく依存している。 最近のバックドア攻撃は、敵がそのような訓練の詳細を活用でき、DNNの完全性を損なう可能性があることを示唆している。 我々の研究では、バックドアモデルは通常、悪い局所的なミニマ、すなわち良性モデルと比較してよりシャープなミニマに最適化されている。 直感的には、いくつかのクリーンなバリデーションデータによる微調整により、モデルをよりスムーズなミニマに再最適化することで、バックドアモデルを浄化することができる。 しかし、すべてのDNNパラメータを微調整するには、計算コストが大きすぎることが多く、その結果、サブパークなテスト性能が得られる。 そこで本研究では,1層のみの微調整によるバックドアの除去に着目した新しいバックドア浄化手法である自然勾配微調整(ngf)を提案する。 具体的には、NGFは損失曲面幾何対応最適化器を用いて、1層最適化シナリオで滑らかなミニマに到達するという課題を克服する。 提案手法の汎用性を高めるために, 損失面曲率行列, すなわちフィッシャー情報行列の知識に基づいて, クリーンなデータ分布認識正規化器を提案する。 広範な実験により、提案手法は、cifar10、gtsrb、tiny-imagenet、imagenetの4つの異なるデータセット、最近の13のバックドア攻撃、例えばblend、dynamic、wanet、isbaなど、幅広いバックドア防御ベンチマークで最先端のパフォーマンスを達成している。

The success of a deep neural network (DNN) heavily relies on the details of the training scheme; e.g., training data, architectures, hyper-parameters, etc. Recent backdoor attacks suggest that an adversary can take advantage of such training details and compromise the integrity of a DNN. Our studies show that a backdoor model is usually optimized to a bad local minima, i.e. sharper minima as compared to a benign model. Intuitively, a backdoor model can be purified by reoptimizing the model to a smoother minima through fine-tuning with a few clean validation data. However, fine-tuning all DNN parameters often requires huge computational costs and often results in sub-par clean test performance. To address this concern, we propose a novel backdoor purification technique, Natural Gradient Fine-tuning (NGF), which focuses on removing the backdoor by fine-tuning only one layer. Specifically, NGF utilizes a loss surface geometry-aware optimizer that can successfully overcome the challenge of reaching a smooth minima under a one-layer optimization scenario. To enhance the generalization performance of our proposed method, we introduce a clean data distribution-aware regularizer based on the knowledge of loss surface curvature matrix, i.e., Fisher Information Matrix. Extensive experiments show that the proposed method achieves state-of-the-art performance on a wide range of backdoor defense benchmarks: four different datasets- CIFAR10, GTSRB, Tiny-ImageNet, and ImageNet; 13 recent backdoor attacks, e.g. Blend, Dynamic, WaNet, ISSBA, etc.
翻訳日:2023-07-03 13:24:15 公開日:2023-06-30
# STTracker:3次元物体追跡のための時空間トラッカー

STTracker: Spatio-Temporal Tracker for 3D Single Object Tracking ( http://arxiv.org/abs/2306.17440v1 )

ライセンス: Link先を確認
Yubo Cui, Zhiheng Li, Zheng Fang(参考訳) ポイントクラウドによる3Dオブジェクトのトラッキングは、3Dコンピュータビジョンにおいて重要なタスクである。 従来の方法は、通常、最後の2つのフレームを入力し、予測されたボックスを使用して、前のフレームのテンプレートポイントクラウドと、現在のフレームの検索エリアポイントクラウドを取得する。 これらの手法は良好な追跡性能を達成したが、追跡に重要なターゲットの履歴情報を無視している。 本稿では,2フレームの点雲を入力した場合と比較して,複数フレームの点雲を入力して対象の時空間情報を符号化し,対象の運動情報を暗黙的に学習する。 一方、フィーチャーフュージョンでポイント機能を直接使用するのではなく、最初にポイントクラウド機能を多くのパッチに分割し、スパースアテンション機構を使用してパッチレベルの類似性をエンコードし、最終的にマルチフレーム機能を融合します。 大規模なベンチマーク(KITTIが62.6%、NuScenesが49.66%)に対して,本手法が競合する結果が得られることを示した。

3D single object tracking with point clouds is a critical task in 3D computer vision. Previous methods usually input the last two frames and use the predicted box to get the template point cloud in previous frame and the search area point cloud in the current frame respectively, then use similarity-based or motion-based methods to predict the current box. Although these methods achieved good tracking performance, they ignore the historical information of the target, which is important for tracking. In this paper, compared to inputting two frames of point clouds, we input multi-frame of point clouds to encode the spatio-temporal information of the target and learn the motion information of the target implicitly, which could build the correlations among different frames to track the target in the current frame efficiently. Meanwhile, rather than directly using the point feature for feature fusion, we first crop the point cloud features into many patches and then use sparse attention mechanism to encode the patch-level similarity and finally fuse the multi-frame features. Extensive experiments show that our method achieves competitive results on challenging large-scale benchmarks (62.6% in KITTI and 49.66% in NuScenes).
翻訳日:2023-07-03 13:23:44 公開日:2023-06-30
# AI生成テキストのロバストな透かし

Provable Robust Watermarking for AI-Generated Text ( http://arxiv.org/abs/2306.17439v1 )

ライセンス: Link先を確認
Xuandong Zhao, Prabhanjan Ananth, Lei Li, Yu-Xiang Wang(参考訳) AIが生成するテキストは、人書きのコンテンツに近づきつつあるので、機械が生成するテキストを検出する能力は重要になる。 この課題に対処するために、あるテキストが特定のモデルに由来するかどうかを確認するために設計された、堅牢で高品質なソリューションであるGPTWatermarkを提案する。 提案手法は既存の透かし戦略を拡張し,編集やパラフレーズ攻撃に対する堅牢性を高めるために固定グループ設計を採用する。 我々の透かし付き言語モデルは, 生成品質, 検出精度, 回避攻撃に対するセキュリティを確実に保証していることを示す。 様々な大規模言語モデル(LLM)と多種多様なデータセットの実験結果から,本手法はパープレキシティにおいて優れた検出精度と同等な生成品質を達成し,LCMの責任を負う使用を促進することが示されている。

As AI-generated text increasingly resembles human-written content, the ability to detect machine-generated text becomes crucial. To address this challenge, we present GPTWatermark, a robust and high-quality solution designed to ascertain whether a piece of text originates from a specific model. Our approach extends existing watermarking strategies and employs a fixed group design to enhance robustness against editing and paraphrasing attacks. We show that our watermarked language model enjoys strong provable guarantees on generation quality, correctness in detection, and security against evasion attacks. Experimental results on various large language models (LLMs) and diverse datasets demonstrate that our method achieves superior detection accuracy and comparable generation quality in perplexity, thus promoting the responsible use of LLMs.
翻訳日:2023-07-03 13:23:24 公開日:2023-06-30
# リモートセンシングサルエント物体検出における逆雲攻撃に対する防御

Defense against Adversarial Cloud Attack on Remote Sensing Salient Object Detection ( http://arxiv.org/abs/2306.17431v1 )

ライセンス: Link先を確認
Huiming Sun, Lan Fu, Jinlong Li, Qing Guo, Zibo Meng, Tianyun Zhang, Yuewei Lin, Hongkai Yu(参考訳) リモートセンシング画像における有能な物体の探索は、学際的な研究に広く応用されている。 リモートセンシング画像におけるSOD(Salient Object Detection)には,多くの既存のディープラーニング手法が提案されている。 しかし,従来のリモートセンシング画像上で数ピクセルの値を変更することで発生する最近の敵攻撃例は,よく訓練された深層学習に基づくSODモデルの崩壊をもたらす可能性がある。 既存の画像に摂動を付加する手法と異なり,逆雲として曇り画像に近いイメージを拘束するために,逆雲露光と付加摂動を共同で調整することを提案する。 クラウドは自然であり、リモートセンシング画像では一般的であるが、クラウドベースの逆境攻撃やリモートセンシング画像の防御については、これまでよく研究されていなかった。 さらに,DefenseNetは,すでにデプロイされている深部SODモデルを調整することなく,深部学習に基づくリモートセンシングSODモデルの性能を維持するために,逆向きのクラウド画像に対する学習可能な事前処理として設計する。 通常の敵の例と一般化された例の両方を考慮することで、提案したAdversarial Cloudをホワイトボックス設定で防御し、その他の攻撃方法をブラックボックス設定で防御することができる。 public remote sensing sod dataset (eorssd) の合成ベンチマークによる実験結果は、敵のクラウド攻撃に対する有望な防御を示している。

etecting the salient objects in a remote sensing image has wide applications for the interdisciplinary research. Many existing deep learning methods have been proposed for Salient Object Detection (SOD) in remote sensing images and get remarkable results. However, the recent adversarial attack examples, generated by changing a few pixel values on the original remote sensing image, could result in a collapse for the well-trained deep learning based SOD model. Different with existing methods adding perturbation to original images, we propose to jointly tune adversarial exposure and additive perturbation for attack and constrain image close to cloudy image as Adversarial Cloud. Cloud is natural and common in remote sensing images, however, camouflaging cloud based adversarial attack and defense for remote sensing images are not well studied before. Furthermore, we design DefenseNet as a learn-able pre-processing to the adversarial cloudy images so as to preserve the performance of the deep learning based remote sensing SOD model, without tuning the already deployed deep SOD model. By considering both regular and generalized adversarial examples, the proposed DefenseNet can defend the proposed Adversarial Cloud in white-box setting and other attack methods in black-box setting. Experimental results on a synthesized benchmark from the public remote sensing SOD dataset (EORSSD) show the promising defense against adversarial cloud attacks.
翻訳日:2023-07-03 13:23:08 公開日:2023-06-30
# 大規模量子情報処理のためのコヒーレンス時間の長い純状態フォトンペア源

Pure-state photon-pair source with a long coherence time for large-scale quantum information processing ( http://arxiv.org/abs/2306.17428v1 )

ライセンス: Link先を確認
Bo Li, Yu-Huai Li, Yuan Cao, Juan Yin and Cheng-Zhi Peng(参考訳) 独立光子間のホン・ウー・マンデル干渉は、遠方のノードを含む大規模量子ネットワークにおいて重要な役割を果たす。 光子は、ハイクオリティな干渉に到達できないため、純粋な状態で動作する必要がある。 また、実用アプリケーションにおける時間同期要求を減らすには、十分に長いコヒーレンス時間が必要である。 本稿では, 周期的極性チタンリン酸カリウム(PPKTP)結晶において, 長時間のコヒーレンス時間を有する純状態光子対生成法について論じる。 適切なポンプレーザとフィルタを選択することで、長いコヒーレンス時間を確保しながらパラメトリック光子の周波数相関を同時に除去できる。 390nmパルスレーザーで励起したPPKTP結晶上に780nmの純状態光子対源を実験的に開発した。 この源は数万ピコ秒のコヒーレンス時間を提供し、長距離量子干渉に応用できる可能性が示された。 さらに,古典限界を超える可視性を持つ2つの光子源間のHong-Ou-Mandel(HOM)干渉を実験的に実証した。

The Hong-Ou-Mandel interference between independent photons plays a pivotal role in the large-scale quantum networks involving distant nodes. Photons need to work in a pure state for indistinguishability to reach high-quality interference. Also, they need to have a sufficiently long coherence time to reduce the time synchronization requirements in practical application. In this paper, we discuss a scheme for generating a pure-state photon-pair source with a long coherence time in periodically poled potassium titanyl phosphate (PPKTP) crystals. By selecting the appropriate pump laser and filter, we could simultaneously eliminate the frequency correlation of the parametric photons while achieving a long coherence time. We experimentally developed this pure-state photon-pair source of 780 nm on PPKTP crystals pumped by a 390 nm pulsed laser. The source provided a coherence time of tens of picoseconds, and it showed to have the potential to be applied in long-distance quantum interference. Furthermore, we experimentally demonstrated the Hong-Ou-Mandel (HOM) interference between two photon sources with visibility exceeding the classical limit.
翻訳日:2023-07-03 13:22:43 公開日:2023-06-30
# 量子コンピュータにおける絡み合った状態の変分準備

Variational preparation of entangled states on quantum computers ( http://arxiv.org/abs/2306.17422v1 )

ライセンス: Link先を確認
Vu Tuan Hai and Nguyen Tan Viet and Le Bin Ho(参考訳) 量子コンピュータ上で絡み合った量子状態を生成するための変分的手法を提案する。 この手法は、Fubini-Study 距離をコスト関数として利用して、目標ユニタリと整合するユニタリ演算を訓練することを含む。 我々はadamやquantum natural gradientなど,様々な勾配に基づく最適化手法を用いて性能を向上させる。 本研究は,GHZ,W,および絶対最大絡み合い状態などの多彩な絡み合い状態の調製を可能にするため,ハイパーグラフ構造を特徴とする異なるアンサーゼの汎用性を示す。 興味深いことに、回路深度は層数とともに効率的にスケールし、キュービット数に依存しない。 さらに,提案手法における不毛高原,読み出し雑音,誤差緩和手法の影響について検討する。 本分析により,低深度量子回路を用いた量子状態生成の効率を最大化するための変分アルゴリズムの有効性を示す。

We propose a variational approach for preparing entangled quantum states on quantum computers. The methodology involves training a unitary operation to match with a target unitary using the Fubini-Study distance as a cost function. We employ various gradient-based optimization techniques to enhance performance, including Adam and quantum natural gradient. Our investigation showcases the versatility of different ansatzes featuring a hypergraph structure, enabling the preparation of diverse entanglement target states such as GHZ, W, and absolutely maximally entangled states. Remarkably, the circuit depth scales efficiently with the number of layers and does not depend on the number of qubits. Moreover, we explore the impacts of barren plateaus, readout noise, and error mitigation techniques on the proposed approach. Through our analysis, we demonstrate the effectiveness of the variational algorithm in maximizing the efficiency of quantum state preparation, leveraging low-depth quantum circuits.
翻訳日:2023-07-03 13:22:29 公開日:2023-06-30
# WASP-12b用ExoTICを用いた24光曲線と更新エフェメシス

24 New Light Curves and Updated Ephemeris using EXOTIC for WASP-12b ( http://arxiv.org/abs/2306.17473v1 )

ライセンス: Link先を確認
Avinash S. Nediyedath, Martin J. Fowler, K. Davis, P. Das, D. Lalla, Bryan E. Martin, S. Dixon, P. Lewin, Andre O. Kovacs, A. Odasso, M. Primm, A. Norris(参考訳) 世界中のNASA市民科学者はExOplanet Transit Interpretation Code(EXOTIC)を使用して、天体物理学センターが運営する6インチ望遠鏡によって撮影されたWASP-12の71セットの時系列画像を削減した。 これらのセットのうち24は、NASA Exoplanet WatchのウェブサイトにアップロードされたWASP-12bのクリーントランジット光曲線である。 我々は、NASAのExoplanet Archiveの先行データを用いて、惑星の固有点を計算し、ETD(Exoplanet Transit Database)とExoClockの観測と組み合わせた。 太陽系外惑星ウォッチ、etd、外時計データセットを組み合わせることで、wasp-12bの2454508.97872 +/- 0.00003と1.0914196 +/- 1.7325322e-08の軌道周期が更新され、将来の宇宙望遠鏡観測に利用できる。

NASA citizen scientists from all over the world have used EXOplanet Transit Interpretation Code (EXOTIC) to reduce 71 sets of time-series images of WASP-12 taken by the 6-inch telescope operated by the Centre of Astrophysics | Harvard & Smithsonian MicroObservatory. Of these sets, 24 result in clean Transit light curves of the WASP-12b which are uploaded to the NASA Exoplanet Watch website. We use priors from the NASA Exoplanet Archive to calculate the ephemeris of the planet and combine it with ETD (Exoplanet Transit Database) and ExoClock observations. Combining the Exoplanet Watch, ETD, and Exoclock datasets gives an updated ephemeris for the WASP-12b system of 2454508.97872 +/- 0.00003 with an orbital period of 1.0914196 +/- 1.7325322e-08 days which can be used to inform future space telescope observations.
翻訳日:2023-07-03 13:15:31 公開日:2023-06-30
# ロングテールエンティティの知識ベース補完

Knowledge Base Completion for Long-Tail Entities ( http://arxiv.org/abs/2306.17472v1 )

ライセンス: Link先を確認
Lihu Chen, Simon Razniewski, Gerhard Weikum(参考訳) その印象的な規模にもかかわらず、Wikidataのような知識ベース(KB)には大きなギャップがある。 これらのギャップを埋めるための情報源として言語モデル(LM)が提案されている。 しかし、先行研究は、長尾エンティティの重要なケースを無視して、LMによる豊富なカバレッジを持つ顕著なエンティティに焦点を当ててきた。 本稿では,長大なエンティティに関する事実を具体化したLMベースのKB補完手法を提案する。 この方法は2つの段階において2つの異なるlmsを活用する: 候補検索と候補検証と曖昧さ解消である。 本手法と各種ベースラインを評価するため,WikidataをルーツとしたMALTと呼ばれる新しいデータセットを提案する。 提案手法はF1における全てのベースラインを上回り,特にリコールにおいて大きな利得を得た。

Despite their impressive scale, knowledge bases (KBs), such as Wikidata, still contain significant gaps. Language models (LMs) have been proposed as a source for filling these gaps. However, prior works have focused on prominent entities with rich coverage by LMs, neglecting the crucial case of long-tail entities. In this paper, we present a novel method for LM-based-KB completion that is specifically geared for facts about long-tail entities. The method leverages two different LMs in two stages: for candidate retrieval and for candidate verification and disambiguation. To evaluate our method and various baselines, we introduce a novel dataset, called MALT, rooted in Wikidata. Our method outperforms all baselines in F1, with major gains especially in recall.
翻訳日:2023-07-03 13:15:12 公開日:2023-06-30
# 固有値最適化問題に対する確率的合成最適化アルゴリズム

An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue Optimization Problems ( http://arxiv.org/abs/2306.17470v1 )

ライセンス: Link先を確認
Cl\'ement Lezane, Crist\'obal Guzm\'an, Alexandre d'Aspremont(参考訳) 本稿では,ランダム化一階法と確率的平滑化を用いた大規模半定値プログラムの解法について再検討する。 相補的な合成条件に基づく2つの難解な確率的ミラー降下アルゴリズムを導入する。 1つのアルゴリズムは非滑らかな目的のために設計され、加速されたバージョンは滑らかな目的のために調整されている。 注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。 $\mathcal{M}-$bounded oracles を持つ非滑らかなケースに対しては、$ O( {\mathcal{M}}/{\sqrt{T}} ) $ の収束率を証明する。 D$で有界な集合を持つ$L$-smoothの場合、$O( {L^2 D^2}/{(T^{2}\sqrt{T})} + {(D_0^2+\sigma^2)}/{\sqrt{T}} )$の収束率を導出する。 これらの速度は、リプシッツ定数の事前知識を仮定するか、最適解への出発距離を仮定して得られるだけである。 さらに、我々のフレームワークを相対的な規模に拡張する方法を示し、大規模半確定プログラム上での手法の効率性と堅牢性を示す。

In this work, we revisit the problem of solving large-scale semidefinite programs using randomized first-order methods and stochastic smoothing. We introduce two oblivious stochastic mirror descent algorithms based on a complementary composite setting. One algorithm is designed for non-smooth objectives, while an accelerated version is tailored for smooth objectives. Remarkably, both algorithms work without prior knowledge of the Lipschitz constant or smoothness of the objective function. For the non-smooth case with $\mathcal{M}-$bounded oracles, we prove a convergence rate of $ O( {\mathcal{M}}/{\sqrt{T}} ) $. For the $L$-smooth case with a feasible set bounded by $D$, we derive a convergence rate of $ O( {L^2 D^2}/{(T^{2}\sqrt{T})} + {(D_0^2+\sigma^2)}/{\sqrt{T}} )$, where $D_0$ is the starting distance to an optimal solution, and $ \sigma^2$ is the stochastic oracle variance. These rates had only been obtained so far by either assuming prior knowledge of the Lipschitz constant or the starting distance to an optimal solution. We further show how to extend our framework to relative scale and demonstrate the efficiency and robustness of our methods on large scale semidefinite programs.
翻訳日:2023-07-03 13:15:01 公開日:2023-06-30
# Manga109Dialog コミック話者検出のための大規模対話データセット

Manga109Dialog A Large-scale Dialogue Dataset for Comics Speaker Detection ( http://arxiv.org/abs/2306.17469v1 )

ライセンス: Link先を確認
Yingxuan Li, Kiyoharu Aizawa, Yusuke Matsui(参考訳) 拡大するe-comicsの市場は、コミックを分析する自動化手法の開発に関心を惹きつけている。 漫画の理解を深めるためには、漫画中のテキストを単語を話す文字にリンクするための自動アプローチが必要である。 コミックス話者検出研究は、オーディオブックの自動キャラクタ割り当て、キャラクタの個性に応じた自動翻訳、キャラクタ関係とストーリーの推論などの実用的な応用がある。 話者間アノテーションが不十分な問題に対処するために,manga109に基づく新しいアノテーションデータセットmanga109dialogを作成した。 Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。 さらに,話者検出手法をより適切に評価するために,予測困難によりデータセットを異なるレベルに分割した。 距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。 コミックのユニークな特徴から,フレーム読み順を考慮し,提案モデルの性能を向上させる。 Manga109Dialogや他のデータセットを用いて実験を行った。 実験の結果,提案手法は従来の手法を上回っており,予測精度は75%以上であることがわかった。

The expanding market for e-comics has spurred interest in the development of automated methods to analyze comics. For further understanding of comics, an automated approach is needed to link text in comics to characters speaking the words. Comics speaker detection research has practical applications, such as automatic character assignment for audiobooks, automatic translation according to characters' personalities, and inference of character relationships and stories. To deal with the problem of insufficient speaker-to-text annotations, we created a new annotation dataset Manga109Dialog based on Manga109. Manga109Dialog is the world's largest comics speaker annotation dataset, containing 132,692 speaker-to-text pairs. We further divided our dataset into different levels by prediction difficulties to evaluate speaker detection methods more appropriately. Unlike existing methods mainly based on distances, we propose a deep learning-based method using scene graph generation models. Due to the unique features of comics, we enhance the performance of our proposed model by considering the frame reading order. We conducted experiments using Manga109Dialog and other datasets. Experimental results demonstrate that our scene-graph-based approach outperforms existing methods, achieving a prediction accuracy of over 75%.
翻訳日:2023-07-03 13:14:34 公開日:2023-06-30
# MedAugment: 医用画像解析のためのユニバーサル自動データ拡張プラグイン

MedAugment: Universal Automatic Data Augmentation Plug-in for Medical Image Analysis ( http://arxiv.org/abs/2306.17466v1 )

ライセンス: Link先を確認
Zhaoshan Liu and Qiujie Lv and Yifan Li and Ziduo Yang and Lei Shen(参考訳) データ拡張(DA)技術はコンピュータビジョン分野においてデータ不足を軽減するために広く実装されているが、医療画像分析(MIA)のDAはいまだに経験駆動である。 そこで我々は,MedAugment というプラグアンドユースDA手法を開発し,MIA フィールドに自動DA引数を導入する。 自然画像と医用画像の差を解消するために,拡張空間をピクセル増倍空間と空間増倍空間に分割する。 空間からDA操作をサンプリングする際にも,新しい動作サンプリング戦略が提案されている。 メダグメントの性能と普遍性を示すために,4つの分類データセットと3つのセグメンテーションデータセットについて広範な実験を行った。 その結果,我々のMedAugmentは最先端のDA手法よりも優れていた。 この研究は、プラグアンドユースMedAugmentがMIAコミュニティに利益をもたらすことを示している。 コードはhttps://github.com/NUS-Tim/MedAugment_Pytorchで入手できる。

Data Augmentation (DA) technique has been widely implemented in the computer vision field to relieve the data shortage, while the DA in Medical Image Analysis (MIA) is still mostly experience-driven. Here, we develop a plug-and-use DA method, named MedAugment, to introduce the automatic DA argumentation to the MIA field. To settle the difference between natural images and medical images, we divide the augmentation space into pixel augmentation space and spatial augmentation space. A novel operation sampling strategy is also proposed when sampling DA operations from the spaces. To demonstrate the performance and universality of MedAugment, we implement extensive experiments on four classification datasets and three segmentation datasets. The results show that our MedAugment outperforms most state-of-the-art DA methods. This work shows that the plug-and-use MedAugment may benefit the MIA community. Code is available at https://github.com/NUS-Tim/MedAugment_Pytorch.
翻訳日:2023-07-03 13:14:17 公開日:2023-06-30
# FedBone: 大規模フェデレーションマルチタスク学習を目指して

FedBone: Towards Large-Scale Federated Multi-Task Learning ( http://arxiv.org/abs/2306.17465v1 )

ライセンス: Link先を確認
Yiqiang Chen, Teng Zhang, Xinlong Jiang, Qian Chen, Chenlong Gao and Wuliang Huang(参考訳) Heterogeneous Federated Multi-task Learning (HFMTL)は、異なるクライアントの不均一なタスクを組み合わせてより正確で包括的な予測を行うフェデレーション学習技術である。 現実世界のアプリケーションでは、視覚と自然言語のタスクは高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。 しかし,既存のマルチタスク学習手法では,大規模モデルは直接適用できない。 既存のHFML手法は、連邦集約プロセス中のマルチタスク最適化における勾配競合の影響を無視する。 本研究では,サーバクライアント分割学習と勾配投影の観点から,より一般化した大規模モデルの構築を可能にするfeedboneという革新的なフレームワークを提案する。 クラウドサーバの大規模汎用モデル(一般モデルとして参照)とエッジクライアントの複数のタスク固有モデル(クライアントモデルとして参照)の2つのコンポーネントにモデル全体を分割し、エッジクライアントのコンピューティングパワー不足の問題を解決しました。 矛盾する勾配投影法は、異なるタスク間の大規模一般モデルの一般化を促進するために用いられる。 提案フレームワークは2つのベンチマークデータセットと実際の眼科データセットで評価される。 総合的な結果から、FedBoneはクライアント側の異種ローカルタスクに効率よく適応し、既存のフェデレーション学習アルゴリズムよりも、クライアント側の既成計算資源を用いて、最も密集した予測および分類タスクにおいて優れることを示した。

Heterogeneous federated multi-task learning (HFMTL) is a federated learning technique that combines heterogeneous tasks of different clients to achieve more accurate, comprehensive predictions. In real-world applications, visual and natural language tasks typically require large-scale models to extract high-level abstract features. However, large-scale models cannot be directly applied to existing federated multi-task learning methods. Existing HFML methods also disregard the impact of gradient conflicts on multi-task optimization during the federated aggregation process. In this work, we propose an innovative framework called FedBone, which enables the construction of large-scale models with better generalization from the perspective of server-client split learning and gradient projection. We split the entire model into two components: a large-scale general model (referred to as the general model) on the cloud server and multiple task-specific models (referred to as the client model) on edge clients, solving the problem of insufficient computing power on edge clients. The conflicting gradient projection technique is used to enhance the generalization of the large-scale general model between different tasks. The proposed framework is evaluated on two benchmark datasets and a real ophthalmic dataset. Comprehensive results demonstrate that FedBone efficiently adapts to heterogeneous local tasks of each client and outperforms existing federated learning algorithms in most dense prediction and classification tasks with off-the-shelf computational resources on the client side.
翻訳日:2023-07-03 13:14:01 公開日:2023-06-30
# causalvlr:ビジュアル言語因果推論のためのツールボックスとベンチマーク

CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning ( http://arxiv.org/abs/2306.17462v1 )

ライセンス: Link先を確認
Yang Liu, Weixing Chen, Guanbin Li, Liang Lin(参考訳) 本稿では,VQA,画像/画像キャプション,医療報告生成,モデル一般化,ロバストネスなど,さまざまな視覚言語推論タスクに対する,最先端の因果関係発見と因果推論手法の豊富なオープンソースツールボックスであるCausalVLRについて述べる。 これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。 トレーニングや推論コードを含むだけでなく、モデルの重み付けも提供する。 このツールボックスは、最も完全なビジュアル言語因果推論ツールボックスであると考えています。 ツールボックスとベンチマークは、既存のメソッドを再実装し、独自の因果推論方法を開発する柔軟なツールキットを提供することで、成長する研究コミュニティに役立てることを望む。 コードとモデルはhttps://github.com/hcplab-sysu/causal-vlreasoningで入手できる。 このプロジェクトは現在,hcp-labのコントリビュータによって活発に開発されています。

We present CausalVLR (Causal Visual-Linguistic Reasoning), an open-source toolbox containing a rich set of state-of-the-art causal relation discovery and causal inference methods for various visual-linguistic reasoning tasks, such as VQA, image/video captioning, medical report generation, model generalization and robustness, etc. These methods have been included in the toolbox with PyTorch implementations under NVIDIA computing system. It not only includes training and inference codes, but also provides model weights. We believe this toolbox is by far the most complete visual-linguitic causal reasoning toolbox. We wish that the toolbox and benchmark could serve the growing research community by providing a flexible toolkit to re-implement existing methods and develop their own new causal reasoning methods. Code and models are available at https://github.com/HCPLab-SYSU/Causal-VLReasoning. The project is under active development by HCP-Lab's contributors and we will keep this document updated.
翻訳日:2023-07-03 13:13:36 公開日:2023-06-30
# 画像圧縮のためのカラー学習

Color Learning for Image Compression ( http://arxiv.org/abs/2306.17460v1 )

ライセンス: Link先を確認
Srivatsa Prativadibhayankaram, Thomas Richter, Heiko Sparenberg, Siegfried F\"o{\ss}el(参考訳) ディープラーニングベースの画像圧縮は、近年多くの勢いを増している。 そこで本稿では,画像圧縮の課題を2つのサブタスクに分割し,輝度チャネルから構造情報を学習し,カラーチャネルから色を学習する,新しいディープラーニングモデルアーキテクチャを提案する。 モデルは2つの別々の分岐を持ち、輝度と彩色成分を処理する。 色差距離CIEDE2000は、色忠実度モデル最適化のために損失関数に使用される。 このアプローチの利点を示し、パフォーマンスを他のコーデックと比較します。 また、潜在チャネルインパルス応答の可視化および解析を行う。

Deep learning based image compression has gained a lot of momentum in recent times. To enable a method that is suitable for image compression and subsequently extended to video compression, we propose a novel deep learning model architecture, where the task of image compression is divided into two sub-tasks, learning structural information from luminance channel and color from chrominance channels. The model has two separate branches to process the luminance and chrominance components. The color difference metric CIEDE2000 is employed in the loss function to optimize the model for color fidelity. We demonstrate the benefits of our approach and compare the performance to other codecs. Additionally, the visualization and analysis of latent channel impulse response is performed.
翻訳日:2023-07-03 13:13:18 公開日:2023-06-30
# カリキュラム設計におけるLLMのハーネス化:GPT-4を用いた学習目的のオーサリング支援

Harnessing LLMs in Curricular Design: Using GPT-4 to Support Authoring of Learning Objectives ( http://arxiv.org/abs/2306.17459v1 )

ライセンス: Link先を確認
Pragnya Sridhar and Aidan Doyle and Arav Agarwal and Christopher Bogart and Jaromir Savelka and Majd Sakr(参考訳) 我々は,人工知能の実践的志向の大学コースにおいて,高品質な学習目標(LO)を自動生成する生成事前学習トランスフォーマー(GPT-4)の能力を評価した。 教育におけるこの新興技術の機会(コンテンツ生成、説明など)とリスク(不正行為など)に関する議論が激化しているが、今のところ、LOのコース設計とオーサリングを支援するモデルの能力についての研究は行われていない。 LOは、知識とスキルを学習者がコースに参加することによって獲得することを意図している。 効果的にするためには、LOは学生が達成しようとすることに集中し、特定の認知プロセスに集中し、測定しなければなりません。 したがって、高品質なLOの執筆は困難で時間を要する(すなわち高価な)作業である。 我々は、AIPractitionerコースの概念的モジュールとプロジェクトのために、GPT-4に提出された注意深いプロンプト(高品質なLOのオーサリングに関する詳細なガイドライン)に基づいて、自動生成される127個のLOを評価した。 我々は,Bloomの分類学の行動動詞から始まるような,特定のベストプラクティスに従って生成されたLOを,高度化のレベルに関して分析した。 分析の結果,生成したLOは適切で適切に表現され(例えば行動動詞から始まる),ブルームの分類の適切なレベルにおいて,概念的モジュール(下位レベル)とプロジェクト(上位レベル)の異なる性質を尊重して運用されていることがわかった。 本研究の結果をインストラクターやカーリカルデザイナーが活用し,最新の生成モデルを活用してカーリカルデザインやコースデザインを支援する。

We evaluated the capability of a generative pre-trained transformer (GPT-4) to automatically generate high-quality learning objectives (LOs) in the context of a practically oriented university course on Artificial Intelligence. Discussions of opportunities (e.g., content generation, explanation) and risks (e.g., cheating) of this emerging technology in education have intensified, but to date there has not been a study of the models' capabilities in supporting the course design and authoring of LOs. LOs articulate the knowledge and skills learners are intended to acquire by engaging with a course. To be effective, LOs must focus on what students are intended to achieve, focus on specific cognitive processes, and be measurable. Thus, authoring high-quality LOs is a challenging and time consuming (i.e., expensive) effort. We evaluated 127 LOs that were automatically generated based on a carefully crafted prompt (detailed guidelines on high-quality LOs authoring) submitted to GPT-4 for conceptual modules and projects of an AI Practitioner course. We analyzed the generated LOs if they follow certain best practices such as beginning with action verbs from Bloom's taxonomy in regards to the level of sophistication intended. Our analysis showed that the generated LOs are sensible, properly expressed (e.g., starting with an action verb), and that they largely operate at the appropriate level of Bloom's taxonomy, respecting the different nature of the conceptual modules (lower levels) and projects (higher levels). Our results can be leveraged by instructors and curricular designers wishing to take advantage of the state-of-the-art generative models to support their curricular and course design efforts.
翻訳日:2023-07-03 13:13:08 公開日:2023-06-30
# ロジウムフォメートパドルホイール複合体の^<103}$rhnmr分光法と緩和度測定

The $^{103}$Rh NMR Spectroscopy and Relaxometry of the Rhodium Formate Paddlewheel Complex ( http://arxiv.org/abs/2306.17457v1 )

ライセンス: Link先を確認
Harry Harbor Collins, Mohamed Sabba, Gamal Moustafa, Bonifac Legrady, Murari Soundararajan, Markus Leutzsch, Malcolm H. Levitt(参考訳) 強磁性比の低いスピン-1/2核のNMR分光は、NMR信号強度の低いため困難である。 ロージウムフォーメイト ``paddlewheel" 錯体 $\mathrm{Rh_2(HCO_2)_4}$ の場合、$^{103}$Rh NMRパラメータの迅速取得の手法が示されている。 この手法は、$^{1}$h核からの偏光移動によって$^{103}$rh信号強度を増大させ、また、低い$\gamma$原子核を直接観測するための共通のハードルであるリングアーティファクトからの干渉を大幅に低減させる。 $^{103}$rh緩和時間定数$t_1$と$t_2$は、$^{1}$h検出実験により迅速に測定される。 そして、$^{103}$Rh$T_1$のフィールド及び温度依存性を測定する。 高磁場緩和は化学シフト異方性(CSA)機構によって支配される。 この$^{103}$rhシールド異方性は非常に大きい: $|\delta\sigma|=11660\pm540\mathrm{\,ppm}$。 この推定は非相対論的および相対論的計算化学計算と比較される。

The NMR spectroscopy of spin-1/2 nuclei with low gyromagnetic ratio is challenging, due to the low NMR signal strength. Methodology for the rapid acquisition of $^{103}$Rh NMR parameters is demonstrated for the case of the rhodium formate ``paddlewheel" complex $\mathrm{Rh_2(HCO_2)_4}$. A scheme is described for enhancing the $^{103}$Rh signal strength by polarization transfer from $^{1}$H nuclei and which also greatly reduces the interference from ringing artifacts, a common hurdle for the direct observation of low-$\gamma$ nuclei. The $^{103}$Rh relaxation time constants $T_1$ and $T_2$ are rapidly measured using $^{1}$H-detected experiments. The field and temperature-dependence of the $^{103}$Rh $T_1$ is measured. The high-field relaxation is dominated by the chemical shift anisotropy (CSA) mechanism. The $^{103}$Rh shielding anisotropy is found to be very large: $|\Delta\sigma|=11660\pm540\mathrm{\,ppm}$. This estimate is compared with non-relativistic and relativistic computational chemistry calculations.
翻訳日:2023-07-03 13:11:59 公開日:2023-06-30
# 音声の音響的文脈と感情認識の関係に関する経験的解釈

Empirical Interpretation of the Relationship Between Speech Acoustic Context and Emotion Recognition ( http://arxiv.org/abs/2306.17500v1 )

ライセンス: Link先を確認
Anna Ollerenshaw, Md Asif Jalal, Rosanna Milner, Thomas Hain(参考訳) 音声感情認識(SER)は、感情的な知性を得、発話の文脈的意味を理解するために不可欠である。 consonant-vowel(cv)の音韻境界の変化は、言語的手がかりによって音響的文脈を豊かにする。 実際には、音声感情は与えられた時間の間、音響セグメント上の単一のラベルとして扱われる。 しかし、音声中の電話の境界は離散的なイベントではないため、知覚された感情状態は潜在的に連続的なタイムウィンドウ上にも分散されるべきである。 本研究は,SERにおける音声コンテキストと音声境界が局所的マーカーに与える影響を注意に基づくアプローチを用いて検討する。 音声感情理解に分散アプローチを用いることの利点は、クロスコーパス分析実験の結果によって支持される。 電話と単語が注意ベクトルにマッピングされる実験は、重なり合う分布を観察するための基本周波数とともに、音響的文脈と感情の関係を示す。 本研究の目的は、SERの計算モデルによる心理言語学研究を橋渡しすることである。

Speech emotion recognition (SER) is vital for obtaining emotional intelligence and understanding the contextual meaning of speech. Variations of consonant-vowel (CV) phonemic boundaries can enrich acoustic context with linguistic cues, which impacts SER. In practice, speech emotions are treated as single labels over an acoustic segment for a given time duration. However, phone boundaries within speech are not discrete events, therefore the perceived emotion state should also be distributed over potentially continuous time-windows. This research explores the implication of acoustic context and phone boundaries on local markers for SER using an attention-based approach. The benefits of using a distributed approach to speech emotion understanding are supported by the results of cross-corpora analysis experiments. Experiments where phones and words are mapped to the attention vectors along with the fundamental frequency to observe the overlapping distributions and thereby the relationship between acoustic context and emotion. This work aims to bridge psycholinguistic theory research with computational modelling for SER.
翻訳日:2023-07-03 13:06:01 公開日:2023-06-30
# 多変量浅部ReLUネットワークにおけるミニマ安定性の欠如

The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks ( http://arxiv.org/abs/2306.17499v1 )

ライセンス: Link先を確認
Mor Shpigel Nacson, Rotem Mulayoff, Greg Ongie, Tomer Michaeli, Daniel Soudry(参考訳) 本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,確率勾配勾配が収束する解の種類について検討する。 この結果は動的安定性解析に基づいている。 単変数の場合、線形安定ミニマはネットワーク関数(予測子)に対応し、第二微分は有界重み付き$L^1$ノルムを持つことを示した。 特に、ステップサイズが大きくなるにつれてバウンダリが小さくなり、大きなステップサイズでのトレーニングが‘smoother’予測子につながることが示唆される。 ここで、この結果を多変量の場合に一般化し、同様の結果が予測子のラプラシアンに適用されることを示す。 我々は,MNISTデータセットの厳密さを実証し,ステップサイズの関数として解の挙動を正確に捉えていることを示す。 さらに,損失の安定な最小値に対応するreluネットワークの近似パワー上での深さ分離結果を示す。 具体的には、浅いReLUネットワークは普遍近似器であるが、安定な浅いネットワークはそうではないことを示す。 すなわち、安定な単一隠蔽層ReLUネットワークでは、不要なステップサイズで訓練できない関数が存在する。 これは、安定な2層ReLUネットワークとして、同じ機能を実現できる。 最後に、関数が十分に滑らか(ソボレフ意味で)であれば、勾配降下の安定解に対応する浅いreluネットワークを用いて任意に近似することができることを証明する。

We study the type of solutions to which stochastic gradient descent converges when used to train a single hidden-layer multivariate ReLU network with the quadratic loss. Our results are based on a dynamical stability analysis. In the univariate case, it was shown that linearly stable minima correspond to network functions (predictors), whose second derivative has a bounded weighted $L^1$ norm. Notably, the bound gets smaller as the step size increases, implying that training with a large step size leads to `smoother' predictors. Here we generalize this result to the multivariate case, showing that a similar result applies to the Laplacian of the predictor. We demonstrate the tightness of our bound on the MNIST dataset, and show that it accurately captures the behavior of the solutions as a function of the step size. Additionally, we prove a depth separation result on the approximation power of ReLU networks corresponding to stable minima of the loss. Specifically, although shallow ReLU networks are universal approximators, we prove that stable shallow networks are not. Namely, there is a function that cannot be well-approximated by stable single hidden-layer ReLU networks trained with a non-vanishing step size. This is while the same function can be realized as a stable two hidden-layer ReLU network. Finally, we prove that if a function is sufficiently smooth (in a Sobolev sense) then it can be approximated arbitrarily well using shallow ReLU networks that correspond to stable solutions of gradient descent.
翻訳日:2023-07-03 13:05:44 公開日:2023-06-30
# 人間アライメントのための選好ランキング最適化

Preference Ranking Optimization for Human Alignment ( http://arxiv.org/abs/2306.17492v1 )

ライセンス: Link先を確認
Feifan Song, Bowen Yu, Minghao Li, Haiyang Yu, Fei Huang, Yongbin Li and Houfeng Wang(参考訳) 大規模言語モデル(llm)には誤解を招く内容がしばしば含まれており、aiシステムを分離するためにそれらを人間の価値観に合わせる必要性を強調している。 人間のフィードバックからの強化学習(RLHF)は、一般的にBradley-Terryペア比較に基づく報酬モデルと、LLM応答を最適化するPPO(Proximal Policy Optimization)のようなRLアルゴリズムを組み合わせることで、このアライメントを実現するために採用されている。 しかし、RLHFは高パラメータに対する複雑さ、不安定性、感受性を示す。 本稿では,PPOとBradley-Terry比較を直接整合する手法として,PRO(Preference Ranking Optimization)を提案する。 PROは、任意の長さの選好ランクに対応するために、ペアワイズBradley-Terry比較を拡張する。 反復的にレスポンス生成の可能性を対比することにより、proはllmにベストレスポンスを優先し、残りのレスポンスを段階的にランク付けするように指示する。 このように、Pro は人間のアライメントを LLM が生成した $n$ 応答の確率ランクと、これらの応答に対する人間の選好ランクとに効果的に変換する。 PROは既存のアライメントアルゴリズムよりも優れており、自動ベース、報酬ベース、GPT-4、および人間の評価によって、ChatGPTと人間の反応に匹敵する結果が得られる。 さらに、より長く、より多様で、より高品質な選好ランキングシーケンスは、一貫して人間のアライメントのパフォーマンスを向上させることができることを実証する。

Large language models (LLMs) often contain misleading content, emphasizing the need to align them with human values to ensure secur AI systems. Reinforcement learning from human feedback (RLHF) has been employed to achieve this alignment by combining a reward model, typically based on Bradley-Terry paired comparison, with an RL algorithm such as Proximal Policy Optimization (PPO) to optimize LLM responses. However, RLHF exhibits complexity, instability, and sensitivity to hyperparameters. In this paper, we propose Preference Ranking Optimization (PRO) as an alternative to PPO for directly aligning LLMs with the Bradley-Terry comparison. PRO extends the pairwise Bradley-Terry comparison to accommodate preference rankings of any length. By iteratively contrasting the likelihood of generating responses, PRO instructs the LLM to prioritize the best response while progressively ranking the remaining responses. In this manner, PRO effectively transforms human alignment into aligning the probability ranking of $n$ responses generated by LLM with the preference ranking of humans towards these responses. Experiments have shown that PRO outperforms existing alignment algorithms, achieving comparable results to ChatGPT and human responses through automatic-based, reward-based, GPT-4, and human evaluations. Furthermore, we demonstrate that longer, more diverse, and higher-quality preference ranking sequences can consistently enhance the performance of human alignment.
翻訳日:2023-07-03 13:05:22 公開日:2023-06-30
# 非慣性フレームにおける反射エントロピーとマルコフギャップ

Reflected entropy and Markov gap in non-inertial frames ( http://arxiv.org/abs/2306.17490v1 )

ライセンス: Link先を確認
Jaydeep Kumar Basak, Dimitrios Giataganas, Sayid Mondal, Wen-Yu Wen(参考訳) 自由フェルミオン場の2つのモードの間の反射エントロピーとマルコフギャップを加速観測者によって観測した。 これはベル状態によって記述される二成分系とヴェルナー状態およびグリーンバーガー・ホーン・サイーリンガー状態によって表される三成分系の両方に対して行われる。 反射エントロピーはunruh効果の結果として単調に分解され、最終的には無限加速の限界においてゼロでない最小値に達する。 さらに,マルコフギャップは3例すべてにおいて加速度に対する単調な挙動を示すことを示す。 さらに,全ての状態に対するウンルー温度の低下とともに単調に減少する反射エントロピー関数を提案する。 最後に、我々のシステムの反射エントロピーは、我々の状態の自由度の部分的追跡の下で減少することを確認した。

We explore the reflected entropy and the Markov gap between two modes of a free fermionic field as observed by accelerating observers. This is done for both bipartite system which is described by Bell state and tripartite systems which are represented by Werner and Greenberger-Horne-Zeilinger states. The reflected entropy degrades monotonically as a result of the Unruh effect, eventually reaching a non-zero minimum value in the limit of infinite acceleration. Furthermore, we show that the Markov gap exhibits monotonic behavior with regard to acceleration in all three cases. In addition, we suggest a function for reflected entropy which decreases monotonically with decreasing Unruh temperature for all states. Finally, we confirm that the reflected entropy for our system does reduce under the partial tracing of the degrees of freedom for our states.
翻訳日:2023-07-03 13:04:58 公開日:2023-06-30
# ヘルムホルツ方程式に対するマルチグリッド強化深層学習:コンパクト・インシシット・レイヤによるスケーラビリティの向上

Multigrid-Augmented Deep Learning for the Helmholtz Equation: Better Scalability with Compact Implicit Layers ( http://arxiv.org/abs/2306.17486v1 )

ライセンス: Link先を確認
Bar Lerer, Ido Ben-Yair and Eran Treister(参考訳) 高波数に対する離散異種ヘルムホルツ方程式を解くためのディープラーニングに基づく反復的手法を提案する。 従来の反復型マルチグリッドソルバと畳み込みニューラルネットワーク(cnns)をプリコンディショニングによって組み合わせることで,従来のマルチグリッドソルバよりも高速かつスケール性が向上した学習ニューラルネットワークソルバを得る。 我々のアプローチは、この種の従来の神経学的手法に対する3つの主要な貢献を提供する。 まず、畳み込みカーネルが反転するU-Netの粗い格子上に暗黙の層を持つマルチレベルU-NetライクなエンコーダCNNを構築する。 これにより、CNNの視野の問題が軽減され、スケーラビリティが向上する。 第2に,パラメータ数,計算時間,収束率の観点から,従来のcnnプリコンディショナーを改善した。 第3に,ネットワークを合理的なトレーニング手順を維持しつつ,これまで見つからなかった次元の問題にスケール可能なマルチスケールトレーニング手法を提案する。 エンコーダ・ソルバアーキテクチャは,様々な難易度モデルに対する一般化に利用することができ,低速度モデルに対する多くの右辺の解法に有効である。 高波数における不均一な2次元問題に対する数値実験により,新しいアーキテクチャの利点を実証する。

We present a deep learning-based iterative approach to solve the discrete heterogeneous Helmholtz equation for high wavenumbers. Combining classical iterative multigrid solvers and convolutional neural networks (CNNs) via preconditioning, we obtain a learned neural solver that is faster and scales better than a standard multigrid solver. Our approach offers three main contributions over previous neural methods of this kind. First, we construct a multilevel U-Net-like encoder-solver CNN with an implicit layer on the coarsest grid of the U-Net, where convolution kernels are inverted. This alleviates the field of view problem in CNNs and allows better scalability. Second, we improve upon the previous CNN preconditioner in terms of the number of parameters, computation time, and convergence rates. Third, we propose a multiscale training approach that enables the network to scale to problems of previously unseen dimensions while still maintaining a reasonable training procedure. Our encoder-solver architecture can be used to generalize over different slowness models of various difficulties and is efficient at solving for many right-hand sides per slowness model. We demonstrate the benefits of our novel architecture with numerical experiments on a variety of heterogeneous two-dimensional problems at high wavenumbers.
翻訳日:2023-07-03 13:04:46 公開日:2023-06-30
# 自律車両知覚のための検出・セグメンテーション畳み込みニューラルネットワーク

Detection-segmentation convolutional neural network for autonomous vehicle perception ( http://arxiv.org/abs/2306.17485v1 )

ライセンス: Link先を確認
Maciej Baczmanski, Robert Synoczek, Mateusz Wasala, Tomasz Kryjak(参考訳) オブジェクト検出とセグメンテーションは、自律車両知覚システムの2つのコアモジュールである。 計算複雑性を低減しつつ、高い効率性と低レイテンシを持つ必要がある。 現在最もよく使われているアルゴリズムはディープニューラルネットワークに基づいており、高い効率性を保証するが、高性能なコンピューティングプラットフォームを必要とする。 自動運転車、すなわち自動車やドローンの場合、計算能力に制限のある組込みプラットフォームを使用する必要があるため、上述の要件を満たすことが困難になる。 ネットワークの複雑さの削減は、適切なアーキテクチャ、表現(最小化された数値精度、量子化、プルーニング)、コンピューティングプラットフォームを使用することによって達成できる。 本稿では,認識システムのコンポーネントとして,いわゆる検出セグメンテーションネットワークの利用という,第1の要素に焦点をあてる。 そこで我々は,乾燥した地域と道路標識を,選択した物体(歩行者,信号機,障害物)の検出と組み合わせて分割する作業を検討した。 論文では、MultiTask V3、HybridNets、YOLOPの3つの異なるアーキテクチャのパフォーマンスを比較した。 本研究では,約500の画像と車線マーキング,および検出対象の250画像からなるカスタムデータセットを用いて実験を行った。 分析された3つの方法のうち、マルチタスクv3が最も良く、検出に99%のmap_50、乾燥可能なエリアセグメンテーションに97%のmiou、レーンセグメンテーションに91%のmiou、rtx 3060グラフィックカードに124fpsを達成した。 このアーキテクチャは、自動運転車の組み込み認識システムにとって良いソリューションである。 コードはhttps://github.com/vision-agh/mmar_2023。

Object detection and segmentation are two core modules of an autonomous vehicle perception system. They should have high efficiency and low latency while reducing computational complexity. Currently, the most commonly used algorithms are based on deep neural networks, which guarantee high efficiency but require high-performance computing platforms. In the case of autonomous vehicles, i.e. cars, but also drones, it is necessary to use embedded platforms with limited computing power, which makes it difficult to meet the requirements described above. A reduction in the complexity of the network can be achieved by using an appropriate: architecture, representation (reduced numerical precision, quantisation, pruning), and computing platform. In this paper, we focus on the first factor - the use of so-called detection-segmentation networks as a component of a perception system. We considered the task of segmenting the drivable area and road markings in combination with the detection of selected objects (pedestrians, traffic lights, and obstacles). We compared the performance of three different architectures described in the literature: MultiTask V3, HybridNets, and YOLOP. We conducted the experiments on a custom dataset consisting of approximately 500 images of the drivable area and lane markings, and 250 images of detected objects. Of the three methods analysed, MultiTask V3 proved to be the best, achieving 99% mAP_50 for detection, 97% MIoU for drivable area segmentation, and 91% MIoU for lane segmentation, as well as 124 fps on the RTX 3060 graphics card. This architecture is a good solution for embedded perception systems for autonomous vehicles. The code is available at: https://github.com/vision-agh/MMAR_2023.
翻訳日:2023-07-03 13:04:23 公開日:2023-06-30
# 安定的低レベル政策学習を用いたランドマークのアクティブ探索

Landmark Guided Active Exploration with Stable Low-level Policy Learning ( http://arxiv.org/abs/2306.17484v1 )

ライセンス: Link先を確認
Fei Cui, Jiaojiao Fang, Mengke Yang, Guizhong Liu(参考訳) ゴール条件付き階層強化学習(GCHRL)は,階層的な枠組みを通じて長期タスクをサブタスクに分解し,様々な領域で有望な結果を示した。 しかし、高水準政策の行動空間は、しばしば過度に大きくなり、効果的な探索に重大な挑戦をし、潜在的に非効率な訓練をもたらす。 さらに、低レベルポリシーの動的変動性は、高レベル状態遷移関数に非定常性をもたらし、高レベルポリシーの学習を著しく妨げている。 本稿では,ゴール条件付き値関数に基づく目標空間の計画によるサブゴールの予測尺度を設計する。 そこで本研究では, エージェントが効率的に探索し, サンプル効率を向上させるように指導することを目的とした, 予測と新しさの尺度を統合し, ランドマークガイドによる探索戦略を提案する。 低レベルポリシーの動的変化から生じる非定常性に対処するために、低レベルポリシーの学習に州固有の規則化を適用することにより、階層的ポリシーの安定した学習が容易になる。 実験の結果,提案手法は複数のタスクにまたがるベースラインメソッドを大きく上回ることがわかった。

Goal-conditioned hierarchical reinforcement learning (GCHRL) decomposes long-horizon tasks into sub-tasks through a hierarchical framework and it has demonstrated promising results across a variety of domains. However, the high-level policy's action space is often excessively large, presenting a significant challenge to effective exploration and resulting in potentially inefficient training. Moreover, the dynamic variability of the low-level policy introduces non-stationarity to the high-level state transition function, significantly impeding the learning of the high-level policy. In this paper, we design a measure of prospect for subgoals by planning in the goal space based on the goal-conditioned value function. Building upon the measure of prospect, we propose a landmark-guided exploration strategy by integrating the measures of prospect and novelty which aims to guide the agent to explore efficiently and improve sample efficiency. To address the non-stationarity arising from the dynamic changes of the low-level policy, we apply a state-specific regularization to the learning of low-level policy, which facilitates stable learning of the hierarchical policy. The experimental results demonstrate that our proposed exploration strategy significantly outperforms the baseline methods across multiple tasks.
翻訳日:2023-07-03 13:03:57 公開日:2023-06-30
# 古典的および量子力学による原子表面散乱の物理過程の比較

Comparison of physical processes of atom-surface scattering computed by classical and quantum dynamics ( http://arxiv.org/abs/2306.17483v1 )

ライセンス: Link先を確認
Tapas Sahoo and Eli Pollak(参考訳) 我々は,原子表面散乱の物理過程,例えばトラップ確率と平均エネルギー損失,腐食した熱表面から散乱した粒子の最終的な角分布の動的量を計算するために,古典的および量子力学シミュレーションを行った。 ここでは、垂直距離 z と水平座標 x の2つの自由度しか考慮しなくてよいように、平面内散乱に自分自身を制限した。 さらに, 表面の熱フォノン浴との相互作用により垂直座標のみが変動することが仮定された。 初期位相 - 量子力学の初期波動関数から導かれたウィグナー分布関数に従って, 系の空間変数と古典的シミュレーションのための浴が生成される。 非常に低い入射エネルギーでは、脱着した粒子と熱表面の量子力学的平均エネルギー損失は、特定の表面温度において古典的な粒子よりも小さいことが判明した。 古典シミュレーションにより得られた散乱粒子の脱出確率は表面温度の増加とともに増加することに留意する必要がある。 一方、量子速度は粒子の入射エネルギー2 meVでほぼ温度に依存し、古典的な結果と5 meVで同じ傾向を示し、量子速度は古典的な速度よりも低い。 また、古典的だけでなく量子力学においても散乱粒子の最終的な角分布が定性的に異なるが、その量は多かれ少なかれ温度に依存しない。

We have performed classical and quantum dynamical simulations to calculate dynamical quantities for physical processes of atom - surface scattering, e.g., trapping probability and average energy loss, final angular distribution of a particle scattered from a corrugated thermal surface. Here we have restricted ourselves to in-plane scattering so that only two degrees of freedom of the particle have to be considered - the vertical distance z and the horizontal coordinate x. Moreover, we assumed further that only the vertical coordinate fluctuates due to interaction with thermal phonon bath of the surface. Initial phase - space variables of the system and the bath for our classical simulations were generated according to Wigner distribution functions which were derived from initial wavefunctions of our quantum dynamics. At very low incident energy, we have found that the quantum mechanical average energy loss of the escaped particle from the corrugated as well as thermal surface are smaller than the classical ones at a particular surface temperature. It is important to note that the rate of escaping probability of the scattered particle obtained by classical simulation increases with increasing surface temperature. On the other hand, quantum rate is almost temperature independent at 2 meV incident energy of the particle, whereas it shows same trend with the classical results at 5 meV and the quantum rate is lower than the classical rate. We have also noticed that the final angular distributions of the scattered particle both for classical as well as quantum dynamics are qualitatively different but the quantities are more or less temperature independent.
翻訳日:2023-07-03 13:03:36 公開日:2023-06-30
# Graphtester: グラフデータセット上のGNNの理論境界を探る

Graphtester: Exploring Theoretical Boundaries of GNNs on Graph Datasets ( http://arxiv.org/abs/2306.17482v1 )

ライセンス: Link先を確認
Eren Akbiyik, Florian Gr\"otschla, Beni Egressy, Roger Wattenhofer(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場した。 しかし、最先端アーキテクチャでさえ、区別できる構造に制限があり、異なるデータセットでネットワークが達成できるものに理論的制限を与える。 本稿では,GNNの様々なデータセット,タスク,スコアに関する理論的能力を総合的に分析するためのGraphtesterというツールを提案する。 我々はGraphtesterを使用して40以上のグラフデータセットを分析し、レイヤ数に基づいて様々なGNNのパフォーマンスの上限を決定する。 さらに,このツールは位置ノードエンコーディングを用いてグラフトランスにも使用可能であり,その範囲を拡大できることを示す。 最後に,graphtesterが生成する機能をグラフトランスフォーマタなどの実用的なアプリケーションに適用し,ノードやエッジ機能をベンチマークするための合成データセット,例えば位置エンコーディングなどを提供することを実証する。 パッケージは以下のurlで無料で利用できる。

Graph Neural Networks (GNNs) have emerged as a powerful tool for learning from graph-structured data. However, even state-of-the-art architectures have limitations on what structures they can distinguish, imposing theoretical limits on what the networks can achieve on different datasets. In this paper, we provide a new tool called Graphtester for a comprehensive analysis of the theoretical capabilities of GNNs for various datasets, tasks, and scores. We use Graphtester to analyze over 40 different graph datasets, determining upper bounds on the performance of various GNNs based on the number of layers. Further, we show that the tool can also be used for Graph Transformers using positional node encodings, thereby expanding its scope. Finally, we demonstrate that features generated by Graphtester can be used for practical applications such as Graph Transformers, and provide a synthetic dataset to benchmark node and edge features, such as positional encodings. The package is freely available at the following URL: https://github.com/meakbiyik/graphtester.
翻訳日:2023-07-03 13:03:12 公開日:2023-06-30
# 正のP表現に基づく粒子・場の量子確率軌道

Quantum stochastic trajectories for particles and fields based on positive P-representation ( http://arxiv.org/abs/2306.17474v1 )

ライセンス: Link先を確認
Stasis Chuchurka, Andrei Benediktovitch and Nina Rohringer(参考訳) 本研究では,量子エミッタの系と相互作用するボソニック場に対する正のp表現に基づく位相空間記述を提案する。 この形式は集合的な光-物質相互作用やデコヒーレンスを持つ開量子系に適用できる。 粒子数の保存が考慮され、ジョルダン・シュウィンガー変換は多レベル量子エミッタの表現を可能にする。 エミッターと場の結合系の位相空間記述の進化は、確率的軌跡の観点から定式化され、従来の量子力学からこの確率的形式論への写像規則を導出する。 結果として生じる運動方程式は、決定論的、古典的な進化を確率的ノイズ項に組み込んだ量子効果でエンコードする。 フレームワークの方程式と性質はハミルトニアンを指定せずに提供され、様々な研究領域で幅広い適用性を目指している。 潜在的な応用は、不整合に励起された原子の集合的自発的放出の量子力学的記述である。

In this work we introduce a phase-space description based on the positive P representation for bosonic fields interacting with a system of quantum emitters. The formalism is applicable to collective light-matter interactions and open quantum systems with decoherence. Conservation of particle numbers is considered, and a Jordan-Schwinger transformation enables the representation of multi-level quantum emitters. The evolution of the phase-space description of the combined system of emitters and field is formulated in terms of stochastic trajectories and we derive the rules of mapping from traditional quantum mechanics to this stochastic formalism. The resulting equations of motion encode deterministic, classical evolution with quantum effects incorporated by stochastic noise terms. The framework's equations and properties are provided without specifying the Hamiltonian, aiming for broad applicability in diverse research domains. A potential future application is the quantum mechanical description of collective spontaneous emission of an incoherently pumped ensemble of atoms.
翻訳日:2023-07-03 13:02:57 公開日:2023-06-30
# 3次元物体検出アルゴリズムの高速プロトタイピングにおけるサブセット選択法の比較検討

Comparative study of subset selection methods for rapid prototyping of 3D object detection algorithms ( http://arxiv.org/abs/2306.17551v1 )

ライセンス: Link先を確認
Konrad Lis, Tomasz Kryjak(参考訳) 3Dの物体検出は、自動運転車やドローンの文脈において重要な側面である。 しかし、プロトタイピング検出アルゴリズムは、エネルギーと環境への影響の観点から、時間と費用がかかる。 これらの課題に対処するために、元のトレーニングセットのサブセットでトレーニングすることで、異なるモデルの有効性を確認することができる。 本稿では,クラスごとのランダムサンプリング,クラス毎のランダムサンプリング,および提案するMONSPeC (Maximum Object Number Sampling per Class) の3つのアルゴリズムの比較を行った。 本研究は,基本的ランダムサンプリングよりも,クラスごとのランダムサンプリングとMONSPeCが優れていることを示す実証的証拠を提供する。 ランダムサンプリングをより効率的なアルゴリズムの1つに置き換えることで、サブセットで得られる結果がデータセット全体の結果に転送される可能性が高くなる。 コードはhttps://github.com/vision-agh/monspec.com/で入手できる。

Object detection in 3D is a crucial aspect in the context of autonomous vehicles and drones. However, prototyping detection algorithms is time-consuming and costly in terms of energy and environmental impact. To address these challenges, one can check the effectiveness of different models by training on a subset of the original training set. In this paper, we present a comparison of three algorithms for selecting such a subset - random sampling, random per class sampling, and our proposed MONSPeC (Maximum Object Number Sampling per Class). We provide empirical evidence for the superior effectiveness of random per class sampling and MONSPeC over basic random sampling. By replacing random sampling with one of the more efficient algorithms, the results obtained on the subset are more likely to transfer to the results on the entire dataset. The code is available at: https://github.com/vision-agh/monspec.
翻訳日:2023-07-03 12:55:18 公開日:2023-06-30
# TTSWing:テーブルテニススウィング分析のためのデータセット

TTSWING: a Dataset for Table Tennis Swing Analysis ( http://arxiv.org/abs/2306.17550v1 )

ライセンス: Link先を確認
Che-Yu Chou, Zheng-Hao Chen, Yung-Hoh Sheu, Hung-Hsuan Chen, Sheng K. Wu(参考訳) 本稿では,卓球スイング解析のための新しいデータセットTTSWingを紹介する。 このデータセットは、カスタムメイドラケットグリップに統合された9軸センサーを介して得られる包括的なスイング情報と、プレイヤーの匿名化された人口統計データとを含む。 データ収集とアノテーション手順について詳述する。 さらに,swing解析に多様な機械学習モデルを用いたパイロット研究を行う。 TTSWingは卓球解析における革新的な研究を促進する大きな可能性を秘めており、科学界にとって貴重な資源である。 私たちはデータセットと実験コードをhttps://github.com/dephantom/ttswingでリリースします。

We introduce TTSWING, a novel dataset designed for table tennis swing analysis. This dataset comprises comprehensive swing information obtained through 9-axis sensors integrated into custom-made racket grips, accompanied by anonymized demographic data of the players. We detail the data collection and annotation procedures. Furthermore, we conduct pilot studies utilizing diverse machine learning models for swing analysis. TTSWING holds tremendous potential to facilitate innovative research in table tennis analysis and is a valuable resource for the scientific community. We release the dataset and experimental codes at https://github.com/DEPhantom/TTSWING.
翻訳日:2023-07-03 12:55:03 公開日:2023-06-30
# マルチパス広視野位相像装置

Multipass wide-field phase imager ( http://arxiv.org/abs/2306.17542v1 )

ライセンス: Link先を確認
\'Alvaro Cuevas, Daniel Tiemann, Robin Camphausen, Iris Cusini, Antonio Panzani, Rajdeep Mukherjee, Federica Villa and Valerio Pruneri(参考訳) 光学イメージングの進歩は、他の実用性面において感度と解像度の向上を常に探っている。 同じ範囲内で、本研究では、サブnmのサンプル厚さ分解能を持つ多彩な干渉コントラストイメージング技術について報告する。 感度は自己撮像型非共鳴キャビティを使用することで高められ、光子は検出される前に複数のラウンドでサンプルをプローブし、その配置は透過的あるいは反射的になる。 位相プロファイルは、飛行時間と真のピクセルオフゲーティングを備えた特別な設計のシングルフォトカメラのおかげで、各ラウンドごとに個別に解決できる。 得られたサンプルプロファイルを複数ラウンドから組み合わせた新しいデータ処理により、測定ノイズを低減する。 本プロトコルは,生物や感光性試料が要求する極めて低い光条件下では特に有用である。 その結果, 全光子をnラウンドまで維持する最良キャビティ配置の場合, 単ラウンド撮像に比べて位相測定ノイズの4倍の低減効果が示され, 感度の密接な評価が得られた。 また、実験的な欠陥が軽微な役割を果たすような、低数のラウンドの理論的予測ともよく一致している。 レーザーやキャビティロックイン機構がないため、この技術は簡単に使える検査ツールとなる。

Advances in optical imaging always look for an increase in sensitivity and resolution among other practicability aspects. Within the same scope, in this work we report a versatile interference contrast imaging technique, capable of sub-nm sample-thickness resolution, with a large field-ofview of several mm2. Sensitivity is increased through the use of a self-imaging non-resonant cavity, which causes photons to probe the sample in multiple rounds before being detected, where the configuration can be transmissive or reflective. Phase profiles can be resolved individually for each round thanks to a specially designed single-photon camera with time-of-flight capabilities and true pixels-off gating. Measurement noise is reduced by novel data processing combining the retrieved sample profiles from multiple rounds. Our protocol is specially useful under extremely low light conditions as require by biological or photo-sensitive samples. Results demonstrate more than a four-fold reduction in phase measurement noise, compared to single round imaging, and close valuesto the predicted sensitivity in case of the best possible cavity configuration, where all photons are maintained until n rounds. We also find a good agreement with the theoretical predictions for low number of rounds, where experimental imperfections would place a minor role. The absence of a laser or cavity lock-in mechanism makes the technique an easy to use inspection tool.
翻訳日:2023-07-03 12:54:54 公開日:2023-06-30
# displacing objects: 視覚位置認識による動的車両検出の悪条件下での改善

DisPlacing Objects: Improving Dynamic Vehicle Detection via Visual Place Recognition under Adverse Conditions ( http://arxiv.org/abs/2306.17536v1 )

ライセンス: Link先を確認
Stephen Hausler, Sourav Garg, Punarjay Chakravarty, Shubham Shrivastava, Ankit Vora, Michael Milford(参考訳) 周囲の物体、特に悪天候や照明条件下での認識を、どこで助けているのかわかるだろうか? 本研究では,3次元マップや画素レベルのマップクエリ対応を必要とせずに,シーン内の動的オブジェクトの検出を支援するために,先行マップを活用できるかどうかを検討する。 提案手法は,対象物検出の初期セットを洗練し,事前マップを用いて高精度な検出のサブセットを生成するアルゴリズムである。 まず,視覚位置認識(vpr)を用いて与えられた問合せ画像の参照地図画像を検索し,その問合せを比較し,問合せ検出を行う画像領域をマッピングするバイナリ分類ニューラルネットワークを使用する。 分類ネットワークをトレーニングすると、約1000のクエリマップイメージペアで、既存のオフザシェルフ車両検出器と組み合わせることで、車両検出の性能を向上させることができる。 マップクエリトラバースペアの列車テスト分離の異なる設定下で,2つの都市(オックスフォード市とチューリッヒ市)にまたがる標準データセットを用いたアプローチを実証した。 代替設計選択に対する我々のアプローチのパフォーマンス向上をさらに強調し、vprがタスクに十分であることを示し、正確な基底的真理の定式化の必要性をなくす。

Can knowing where you are assist in perceiving objects in your surroundings, especially under adverse weather and lighting conditions? In this work we investigate whether a prior map can be leveraged to aid in the detection of dynamic objects in a scene without the need for a 3D map or pixel-level map-query correspondences. We contribute an algorithm which refines an initial set of candidate object detections and produces a refined subset of highly accurate detections using a prior map. We begin by using visual place recognition (VPR) to retrieve a reference map image for a given query image, then use a binary classification neural network that compares the query and mapping image regions to validate the query detection. Once our classification network is trained, on approximately 1000 query-map image pairs, it is able to improve the performance of vehicle detection when combined with an existing off-the-shelf vehicle detector. We demonstrate our approach using standard datasets across two cities (Oxford and Zurich) under different settings of train-test separation of map-query traverse pairs. We further emphasize the performance gains of our approach against alternative design choices and show that VPR suffices for the task, eliminating the need for precise ground truth localization.
翻訳日:2023-07-03 12:54:32 公開日:2023-06-30
# 光励起下でのスピン混合状態における単一および二重量子遷移

Single and double quantum transitions in spin-mixed states under photo-excitation ( http://arxiv.org/abs/2306.17531v1 )

ライセンス: Link先を確認
Anand Patel (1 and 2), Zainab Chowdhry (1 and 3), Anil Prabhakar (2), A. Rathi (1 and 3) and V.P. Bhallamudi (1, 2 and 3) ((1) Quantum Center of Excellence in Diamond and Emergent Materials, Indian Institute of Technology Madras, Chennai 600036, India, (2) Department of Electrical Engineering, Indian Institute of Technology Madras, Chennai 600036, India, (3) Department of Physics, Indian Institute of Technology Madras, Chennai 600036, India)(参考訳) ダイヤモンドの窒素空隙(nv)中心に関連する電子スピンは、高い光偏光度のため、非常に高い感度でスピン関連現象を研究する機会を提供する。 本研究では,nv軸に非直交する磁場から生じるスピン混合状態間のnv中心における1量子および2量子遷移(sqtとdqt)の研究を行った。 レーザー照射下での2種類の遷移からESR信号の増幅を実証する。 超微細分解xバンドesr信号を励起レーザーパワーと静磁場のnv軸への不一致の両方の関数として得る。 これは、熱分極と二重量子緩和を組み込んだ7レベルモデルによる分析と組み合わせることで、オフ軸場下でのNVスピンの分極を包括的に解析することができる。 このような光励起下でのNV中心におけるスピン混合状態の詳細な理解は、マッシングや核過分極といった他の新興応用と同様に、相関磁石や生体試料を感知するNVダイアモンドプラットフォームの可能性の実現に大きく貢献する。

Electronic spins associated with the Nitrogen-Vacancy (NV) center in diamond offer an opportunity to study spin-related phenomena with extremely high sensitivity owing to their high degree of optical polarization. Here, we study both single- and double-quantum transitions (SQT and DQT) in NV centers between spin-mixed states, which arise from magnetic fields that are non-collinear to the NV axis. We demonstrate the amplification of the ESR signal from both these types of transition under laser illumination. We obtain hyperfine-resolved X-band ESR signal as a function of both excitation laser power and misalignment of static magnetic field with the NV axis. This combined with our analysis using a seven-level model that incorporates thermal polarization and double quantum relaxation allows us to comprehensively analyze the polarization of NV spins under off-axis fields. Such detailed understanding of spin-mixed states in NV centers under photo-excitation can help greatly in realizing NV-diamond platform's potential in sensing correlated magnets and biological samples, as well as other emerging applications, such as masing and nuclear hyperpolarization.
翻訳日:2023-07-03 12:54:12 公開日:2023-06-30
# locking on: 動的車両入力動作制約を活用した視覚定位の改善

Locking On: Leveraging Dynamic Vehicle-Imposed Motion Constraints to Improve Visual Localization ( http://arxiv.org/abs/2306.17529v1 )

ライセンス: Link先を確認
Stephen Hausler, Sourav Garg, Punarjay Chakravarty, Shubham Shrivastava, Ankit Vora, Michael Milford(参考訳) ほとんどの6-DoFローカライゼーションとSLAMシステムは静的ランドマークを使用するが、典型的なパイプラインに組み込むことができないため、動的オブジェクトを無視する。 動的オブジェクトが組み込まれている場合、典型的なアプローチは、それらのオブジェクトの比較的洗練された識別とローカライズを試みた。 本研究では,6フレーム・バイ・フレームのPnP-RANSACローカライゼーションパイプラインにおいて,動的車両を用いて限定的なポーズ制約情報を提供する中盤を提案する。 動きモデルを用いて初期ポーズ推定を洗練し,環境中の動的車両の相対的フレーム間位置によって自律走行車両の動作が制約されるか否かに基づいて,将来のポーズ推定の予測品質を算出する手法を提案する。 提案手法は,ポーズフィルタを修正するためのポーズ制約を定義するのに適した動的車両を検出し,その結果,最先端のベースライン画像PnP法とバニラポーズフィルタと比較して,ローカライズ耐性を0.25m$から5m$に改善した。 当社の制約検出システムはFord AVデータセット上で約35 %の時間でアクティブであり、制約検出がアクティブである場合には特にローカライゼーションが向上する。

Most 6-DoF localization and SLAM systems use static landmarks but ignore dynamic objects because they cannot be usefully incorporated into a typical pipeline. Where dynamic objects have been incorporated, typical approaches have attempted relatively sophisticated identification and localization of these objects, limiting their robustness or general utility. In this research, we propose a middle ground, demonstrated in the context of autonomous vehicles, using dynamic vehicles to provide limited pose constraint information in a 6-DoF frame-by-frame PnP-RANSAC localization pipeline. We refine initial pose estimates with a motion model and propose a method for calculating the predicted quality of future pose estimates, triggered based on whether or not the autonomous vehicle's motion is constrained by the relative frame-to-frame location of dynamic vehicles in the environment. Our approach detects and identifies suitable dynamic vehicles to define these pose constraints to modify a pose filter, resulting in improved recall across a range of localization tolerances from $0.25m$ to $5m$, compared to a state-of-the-art baseline single image PnP method and its vanilla pose filtering. Our constraint detection system is active for approximately $35\%$ of the time on the Ford AV dataset and localization is particularly improved when the constraint detection is active.
翻訳日:2023-07-03 12:53:51 公開日:2023-06-30
# gpt-finre: 大言語モデルを用いた金融関係抽出のためのインコンテキスト学習

GPT-FinRE: In-context Learning for Financial Relation Extraction using Large Language Models ( http://arxiv.org/abs/2306.17519v1 )

ライセンス: Link先を確認
Pawan Kumar Rajpoot, Ankur Parikh(参考訳) 関係抽出(re)は自然言語処理(nlp)において重要なタスクであり、テキストで言及されるエンティティ間の関係を識別し分類することを目的としている。 金融分野では、ニュース記事や決算報告、会社書類などの財務資料から貴重な情報を抽出する上で、関係抽出が重要な役割を担っている。 本稿では,そのようなデータセットREFinDにおける関係抽出のソリューションについて述べる。 データセットは、SIGIR 2023と共同で、金融サービスにおける非構造化データからの知識発見に関する第4回ワークショップの一部として、共有タスクとともにリリースされた。 本稿では,文脈内学習(ICL)の枠組みのもと,OpenAIモデルを用いた。 2つの検索戦略を用いて、あるテスト例のトレーニングデータから、関連するトップkのインコンテキスト学習デモ/サンプルを見つける。 最初に採用した検索機構は,学習フリーの密集型検索システムであり,他システムは学習ベースの検索システムである。 私たちはリーダーボードで4位になった。 最高のF1スコアは0.718です。

Relation extraction (RE) is a crucial task in natural language processing (NLP) that aims to identify and classify relationships between entities mentioned in text. In the financial domain, relation extraction plays a vital role in extracting valuable information from financial documents, such as news articles, earnings reports, and company filings. This paper describes our solution to relation extraction on one such dataset REFinD. The dataset was released along with shared task as a part of the Fourth Workshop on Knowledge Discovery from Unstructured Data in Financial Services, co-located with SIGIR 2023. In this paper, we employed OpenAI models under the framework of in-context learning (ICL). We utilized two retrieval strategies to find top K relevant in-context learning demonstrations / examples from training data for a given test example. The first retrieval mechanism, we employed, is a learning-free dense retriever and the other system is a learning-based retriever. We were able to achieve 4th rank on the leaderboard. Our best F1-score is 0.718.
翻訳日:2023-07-03 12:53:25 公開日:2023-06-30
# OASIS 2オントロジーにおけるプロセスと手順を表現する行動論的アプローチ

A behaviouristic approach to representing processes and procedures in the OASIS 2 ontology ( http://arxiv.org/abs/2306.17514v1 )

ライセンス: Link先を確認
Giampaolo Bella and Gianpietro Castiglione and Daniele Francesco Santamaria(参考訳) プロセスや手順の効果的な表現に関する基礎的なオントロジーは、現在広く研究されておらず、従うべき正確な指示を考慮すべき実際のシナリオにおける意味論的アプローチの実践的採用を制限している。 また、この表現には、エージェントがプロセスに関連するアクションを実行する方法、エージェントがそれらのアクションを実行できるかどうか、可能な役割と関連するイベントを含めるべきである。 OASISオントロジーはエージェントとその相互作用をキャプチャする確立したモデルを提供するが、エージェントによって実行されるプロセスや手順を表現する手段がない。 このことは、OASIS 2オントロジーを拡張し、エージェントとその振る舞いを表現できる能力とプロセスとプロシージャの完全な概念化を組み合わせた研究のモチベーションとなる。 包括的な目標は、エージェント計画を扱う基本的なOWLオントロジーを提供することであり、汎用性と適用性のバランスに達することである。

Foundational ontologies devoted to the effective representation of processes and procedures are not widely investigated at present, thereby limiting the practical adoption of semantic approaches in real scenarios where the precise instructions to follow must be considered. Also, the representation ought to include how agents should carry out the actions associated with the process, whether or not agents are able to perform those actions, the possible roles played as well as the related events. The OASIS ontology provides an established model to capture agents and their interactions but lacks means for representing processes and procedures carried out by agents. This motivates the research presented in this article, which delivers an extension of the OASIS 2 ontology to combine the capabilities for representing agents and their behaviours with the full conceptualization of processes and procedures. The overarching goal is to deliver a foundational OWL ontology that deals with agent planning, reaching a balance between generality and applicability, which is known to be an open challenge.
翻訳日:2023-07-03 12:53:09 公開日:2023-06-30
# スパースパーター付きシャープネス・アウェア・ミニミゼーション・オプティマイザの系統的検討

Systematic Investigation of Sparse Perturbed Sharpness-Aware Minimization Optimizer ( http://arxiv.org/abs/2306.17504v1 )

ライセンス: Link先を確認
Peng Mi, Li Shen, Tianhe Ren, Yiyi Zhou, Tianshuo Xu, Xiaoshuai Sun, Tongliang Liu, Rongrong Ji, Dacheng Tao(参考訳) 深層ニューラルネットワークは、複雑で非凸損失の風景のため、しばしば一般化が貧弱である。 SAM(Sharpness-Aware Minimization)は、重量に摂動を加える際のトレーニング損失の最大化を最小化することにより、損失景観を円滑にする一般的なソリューションである。 しかし、SAMの全てのパラメータに対する無差別摂動は最適以下であり、過剰な計算の結果、SGD(Stochastic Gradient Descent)のような一般的な最適化器のオーバーヘッドが2倍になる。 本稿では,バイナリマスクによるスパース摂動を実現する効率的かつ効果的なトレーニングスキームであるスパースサム(ssam)を提案する。 スパースマスクを得るためには,フィッシャー情報と動的スパーストレーニングに基づく2つのソリューションを提供する。 非構造化、構造化、および$n$:$m$構造化パターンを含むさまざまなマスクの影響や、スパース摂動を実装する明示的および暗黙的な形式を調査した。 SSAM が SAM と同じ速度で収束できること、すなわち$O(\log T/\sqrt{T})$ を理論的に証明する。 スパースSAMは、トレーニングを加速し、損失景観を効果的に滑らかにする可能性がある。 CIFAR と ImageNet-1K の大規模な実験結果から,本手法は SAM よりも効率が良く,50 % の摂動で性能が維持または改善されていることが確認された。 コードはhttps://github.com/Mi-Peng/Systematic-Investigation-of-Sparse-Perturbed-Sharpness-Aware-Minimization -Optimizerで公開されている。

Deep neural networks often suffer from poor generalization due to complex and non-convex loss landscapes. Sharpness-Aware Minimization (SAM) is a popular solution that smooths the loss landscape by minimizing the maximized change of training loss when adding a perturbation to the weight. However, indiscriminate perturbation of SAM on all parameters is suboptimal and results in excessive computation, double the overhead of common optimizers like Stochastic Gradient Descent (SGD). In this paper, we propose Sparse SAM (SSAM), an efficient and effective training scheme that achieves sparse perturbation by a binary mask. To obtain the sparse mask, we provide two solutions based on Fisher information and dynamic sparse training, respectively. We investigate the impact of different masks, including unstructured, structured, and $N$:$M$ structured patterns, as well as explicit and implicit forms of implementing sparse perturbation. We theoretically prove that SSAM can converge at the same rate as SAM, i.e., $O(\log T/\sqrt{T})$. Sparse SAM has the potential to accelerate training and smooth the loss landscape effectively. Extensive experimental results on CIFAR and ImageNet-1K confirm that our method is superior to SAM in terms of efficiency, and the performance is preserved or even improved with a perturbation of merely 50\% sparsity. Code is available at https://github.com/Mi-Peng/Systematic-Investigation-of-Sparse-Perturbed-Sharpness-Aware-Minimization -Optimizer.
翻訳日:2023-07-03 12:52:51 公開日:2023-06-30
# ランダムベクトル関数型リンクネットワークを用いた効率的一様近似

Efficient uniform approximation using Random Vector Functional Link networks ( http://arxiv.org/abs/2306.17501v1 )

ライセンス: Link先を確認
Palina Salanevich and Olov Schavemaker(参考訳) ランダムベクトル汎関数リンク(rvfl)ネットワークは、ランダムな内部重みとバイアスを持つ深さ2ニューラルネットワークである。 このようなアーキテクチャの外部重みのみを学習する必要があるため、学習プロセスは線形最適化タスクに集約され、非凸最適化問題の落とし穴を回避できる。 本稿では,reluアクティベーション関数を持つrvflが入力次元において隠れた層が指数関数的に広い場合,リプシッツ連続関数を近似できることを示す。 このような近似は l_2$ sense で達成される前に確立されているが、l_\infty$ 近似誤差とガウス内重みについて証明する。 私たちの知る限りでは、私たちの結果はこの種の最初のものです。 我々は,対象関数のリプシッツ定数,所望の精度,入力次元などに依存する隠蔽層ノード数に対する漸近的下界を与える。 我々の証明法は確率論と調和解析に根ざしている。

A Random Vector Functional Link (RVFL) network is a depth-2 neural network with random inner weights and biases. As only the outer weights of such architectures need to be learned, the learning process boils down to a linear optimization task, allowing one to sidestep the pitfalls of nonconvex optimization problems. In this paper, we prove that an RVFL with ReLU activation functions can approximate Lipschitz continuous functions provided its hidden layer is exponentially wide in the input dimension. Although it has been established before that such approximation can be achieved in $L_2$ sense, we prove it for $L_\infty$ approximation error and Gaussian inner weights. To the best of our knowledge, our result is the first of this kind. We give a nonasymptotic lower bound for the number of hidden layer nodes, depending on, among other things, the Lipschitz constant of the target function, the desired accuracy, and the input dimension. Our method of proof is rooted in probability theory and harmonic analysis.
翻訳日:2023-07-03 12:52:21 公開日:2023-06-30
# SpATr: スパイラルオートエンコーダとトランスフォーマーネットワークに基づくMoCap 3Dヒューマンアクション認識

SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network ( http://arxiv.org/abs/2306.17574v1 )

ライセンス: Link先を確認
Hamza Bouzid and Lahoucine Ballihi(参考訳) 近年の技術の進歩は、深度情報を含めることでよりリッチなアクション表現を提供する3Dデータを活用することで、人間の行動認識の可能性を広げ、空間的および時間的特性をより正確に分析することを可能にする。 しかし,3次元行動認識は,行動系列におけるデータ点の不規則性や乱れのため,困難な課題である。 本稿では,Spiral Auto-Encoder と Transformer Network,すなわち SpATr をベースとした,固定トポロジメッシュ列からの人間の行動認識モデルを提案する。 提案手法はまず,メッシュ列内の空間と時間をアンタングルする。 次に、オートエンコーダを用いて空間幾何学的特徴を抽出し、小さなトランスフォーマーを用いてシーケンスの時間的進化をキャプチャする。 従来の手法では、2d深度のイメージやサンプルのスケルトンポイントを使うか、あるいは大量のメモリを必要とするため、短いシーケンスのみを処理できる。 本研究では,メッシュデータに直接固定トポロジを適用した軽量畳み込みであるスパイラル畳み込みに基づく自動エンコーダの構築と,大きなシーケンスを処理可能な注意を用いた時間的進化のモデル化により,競合認識率と高いメモリ効率を示す。 提案手法は,moviとbmlrubの2つの3次元ヒューマンアクションデータセット上で,表面形状 (amass) として運動キャプチャーアーカイブを用いて評価した。 その結果,記憶効率を維持しつつ3次元行動認識における提案手法の有効性が示された。 コードは間もなく公開される予定だ。

Recent advancements in technology have expanded the possibilities of human action recognition by leveraging 3D data, which offers a richer representation of actions through the inclusion of depth information, enabling more accurate analysis of spatial and temporal characteristics. However, 3D human action recognition is a challenging task due to the irregularity and Disarrangement of the data points in action sequences. In this context, we present our novel model for human action recognition from fixed topology mesh sequences based on Spiral Auto-encoder and Transformer Network, namely SpATr. The proposed method first disentangles space and time in the mesh sequences. Then, an auto-encoder is utilized to extract spatial geometrical features, and tiny transformer is used to capture the temporal evolution of the sequence. Previous methods either use 2D depth images, sample skeletons points or they require a huge amount of memory leading to the ability to process short sequences only. In this work, we show competitive recognition rate and high memory efficiency by building our auto-encoder based on spiral convolutions, which are light weight convolution directly applied to mesh data with fixed topologies, and by modeling temporal evolution using a attention, that can handle large sequences. The proposed method is evaluated on on two 3D human action datasets: MoVi and BMLrub from the Archive of Motion Capture As Surface Shapes (AMASS). The results analysis shows the effectiveness of our method in 3D human action recognition while maintaining high memory efficiency. The code will soon be made publicly available.
翻訳日:2023-07-03 12:47:40 公開日:2023-06-30
# 空間構造ベクトル光場におけるトラップ原子

Trapped atoms in spatially-structured vector light fields ( http://arxiv.org/abs/2306.17571v1 )

ライセンス: Link先を確認
Maurizio Verde, Christian T. Schmiegelow, Ulrich Poschinger and Ferdinand Schmidt-Kaler(参考訳) 最終的に軌道角運動量を持つ空間構造レーザービームは、複雑な方法で原子とその運動状態の電子遷移に影響を与える。 本稿では,任意の空間モードと偏光構造の光場に対する原子遷移行列要素を計算するために,相互作用ハミルトニアンの球面テンソル分解に基づく一般的な枠組みを提案する。 本研究では, 原子中心運動に結合しない遷移に対応する素電子行列要素と, 分解した側バンド状態における量子化原子運動との結合を記述する行列要素について検討した。 強集束Hermite-Gaussian,Laguerre-Gaussianおよび放射・方位偏光ビームに対する電子および運動行列要素の空間依存性を計算した。 回折限界付近では、これらのビームは長手方向の磁場と磁場勾配を示し、選択規則に強く影響を与え、光間相互作用を調整できることを示した。 このフレームワークは、空間構造を持つ光場における閉じ込められた原子やイオンを記述するのに有用であり、量子光学、-センシング、-情報処理における新しいプロトコルや設定を設計するのに有用である。

Spatially-structured laser beams, eventually carrying orbital angular momentum, affect electronic transitions of atoms and their motional states in a complex way. We present a general framework, based on the spherical tensor decomposition of the interaction Hamiltonian, for computing atomic transition matrix elements for light fields of arbitrary spatial mode and polarization structures. We study both the bare electronic matrix elements, corresponding to transitions with no coupling to the atomic center-of-mass motion, as well as the matrix elements describing the coupling to the quantized atomic motion in the resolved side-band regime. We calculate the spatial dependence of electronic and motional matrix elements for tightly focused Hermite-Gaussian, Laguerre-Gaussian and for radially and azimuthally polarized beams. We show that near the diffraction limit, all these beams exhibit longitudinal fields and field gradients, which strongly affect the selection rules and could be used to tailor the light-matter interaction. The presented framework is useful for describing trapped atoms or ions in spatially-structured light fields and therefore for designing new protocols and setups in quantum optics, -sensing and -information processing.
翻訳日:2023-07-03 12:46:58 公開日:2023-06-30
# 高忠実テキスト・画像合成のためのカウントガイダンス

Counting Guidance for High Fidelity Text-to-Image Synthesis ( http://arxiv.org/abs/2306.17567v1 )

ライセンス: Link先を確認
Wonjun Kang, Kevin Galim, Hyung Il Koo(参考訳) 近年,拡散モデルの顕著な結果により,テキスト・画像生成の品質と性能が著しく向上した。 しかし,テキスト・画像拡散モデルでは入力プロンプトに対して高い忠実度を生成できない。 テキストから拡散モデルが苦労する問題のひとつは、テキストプロンプトで指定されたオブジェクトの正確な数を生成することだ。 例えば、「テーブルの上の5つのリンゴと10個のレモン」というプロンプトが与えられたとき、拡散生成画像は通常間違った数のオブジェクトを含む。 本稿では,入力プロンプトから正しい対象数を生成することに焦点を当て,拡散モデルを改善する手法を提案する。 任意の画像に対して参照なしクラス非依存のカウントを行うカウントネットワークを採用する。 計数ネットワークの勾配を計算し,各ステップの予測ノイズを洗練する。 複数種類のオブジェクトをプロンプトで処理するために,新しいアテンションマップガイダンスを用いて各オブジェクトに対して高忠実度マスクを求める。 最後に,各対象に対する計算された勾配によって,分別過程を導出する。 広範な実験と評価を通じて,提案手法が拡散モデルのオブジェクト数への忠実性を大幅に改善することを示す。

Recently, the quality and performance of text-to-image generation significantly advanced due to the impressive results of diffusion models. However, text-to-image diffusion models still fail to generate high fidelity content with respect to the input prompt. One problem where text-to-diffusion models struggle is generating the exact number of objects specified in the text prompt. E.g. given a prompt "five apples and ten lemons on a table", diffusion-generated images usually contain the wrong number of objects. In this paper, we propose a method to improve diffusion models to focus on producing the correct object count given the input prompt. We adopt a counting network that performs reference-less class-agnostic counting for any given image. We calculate the gradients of the counting network and refine the predicted noise for each step. To handle multiple types of objects in the prompt, we use novel attention map guidance to obtain high-fidelity masks for each object. Finally, we guide the denoising process by the calculated gradients for each object. Through extensive experiments and evaluation, we demonstrate that our proposed guidance method greatly improves the fidelity of diffusion models to object count.
翻訳日:2023-07-03 12:46:11 公開日:2023-06-30
# トピックと文脈化によるソーシャルメディアの抑うつ言語に対する費用対効果の検討

A Cost-aware Study of Depression Language on Social Media using Topic and Affect Contextualization ( http://arxiv.org/abs/2306.17564v1 )

ライセンス: Link先を確認
Andrea Laguna, Oscar Araque(参考訳) うつ病は、社会のメンタルヘルスにおいて、あらゆる人生に影響を与え、自殺につながる可能性がある問題である。 幸いなことに、予防プログラムはその治療に有効である。 本研究では,機械学習と自然言語処理に基づくソーシャルメディアの抑うつを自動的に検出するシステムを提案する。 本稿では,以下の貢献を述べる。 一 抑うつ検出のための複数の種類のテキスト表現を組み合わせたアンサンブル学習システムであって、その分野の最近の進歩を含むもの (二 話題及び情緒情報による文脈化図式 (iii)モデルのエネルギー消費量の分析、分類性能と計算コストのトレードオフの確立。 提案したモデルの有効性を評価するため、抑うつテキストをモデル化した2つのデータセットで徹底的な評価を行う。 実験の結果,提案手法は分類を改良し,トランスフォーマーを用いた手法は全体のf-scoreを2%向上させるが,エネルギーコストを100倍に増やすことができた。 最後に、この研究は、性能分類とエネルギー消費の両方を考慮し、将来のエネルギーシステムへの道を開く。

Depression is a growing issue in society's mental health that affects all areas of life and can even lead to suicide. Fortunately, prevention programs can be effective in its treatment. In this context, this work proposes an automatic system for detecting depression on social media based on machine learning and natural language processing methods. This paper presents the following contributions: (i) an ensemble learning system that combines several types of text representations for depression detection, including recent advances in the field; (ii) a contextualization schema through topic and affective information; (iii) an analysis of models' energy consumption, establishing a trade-off between classification performance and overall computational costs. To assess the proposed models' effectiveness, a thorough evaluation is performed in two datasets that model depressive text. Experiments indicate that the proposed contextualization strategies can improve the classification and that approaches that use Transformers can improve the overall F-score by 2% while augmenting the energy cost a hundred times. Finally, this work paves the way for future energy-wise systems by considering both the performance classification and the energy consumption.
翻訳日:2023-07-03 12:45:39 公開日:2023-06-30
# 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け

Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting ( http://arxiv.org/abs/2306.17563v1 )

ライセンス: Link先を確認
Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky(参考訳) クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。 しかし、これまでのところ成功は限られており、研究者はベンチマークデータセットで微調整されたベースラインランクを上回ることは難しいと結論付けている。 既存の手法で用いられる点数的・リスト的なランキングのプロンプトを分析し,LLMがこれらのランキングの定式化を十分に理解していないことを論じる。 本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。 本研究は,中規模オープンソースllmを用いて,標準ベンチマークで最先端のランキング性能を達成した最初の文献である。 TREC-DL2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、NDCG@1において、50倍(推定)のモデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストなアプローチよりも優れていた。 TREC-DL2019では、PRPは NDCG@5 と NDCG@10 の GPT-4 ソリューションにしか劣らないが、他の既存のソリューション、例えば175B のパラメータを持つ InstructGPT を10%以上上回っている。 さらに,効率を向上させるために,いくつかのprp変種を提案し,線形複雑度でも競争結果が得られることを示す。 また、LPM APIの生成とスコアリングの両方をサポートし、入力順序付けに敏感であるなど、PRPの他の利点についても論じる。

Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, there has been limited success so far, as researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these ranking formulations, possibly due to the nature of how LLMs are trained. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based on the Flan-UL2 model with 20B parameters outperforms the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is only inferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, while outperforming other existing solutions, such as InstructGPT which has 175B parameters, by over 10% for nearly all ranking metrics. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity. We also discuss other benefits of PRP, such as supporting both generation and scoring LLM APIs, as well as being insensitive to input ordering.
翻訳日:2023-07-03 12:45:21 公開日:2023-06-30
# 拡散モデルを用いた授業増分学習による蒸留・再生

Class-Incremental Learning using Diffusion Model for Distillation and Replay ( http://arxiv.org/abs/2306.17560v1 )

ライセンス: Link先を確認
Quentin Jodelet, Xin Liu, Yin Jun Phua, Tsuyoshi Murata(参考訳) クラスインクリメンタル学習は、新しいクラスをインクリメンタルに学習することを目的としている。 いくつかの研究は、破滅的な忘れを和らげるために、インクリメンタルモデルによって追加のデータを使用する方法を示している。 本研究では,テキストから画像への生成モデルとその広範な分布の最近の進展に続き,事前訓練された安定拡散モデルをクラス増分学習のための追加データ源として利用することを提案する。 実画像の外部的、しばしばラベルなしのデータセットに依存する競合手法と比較して、このアプローチは、以前遭遇した画像と同じクラスに属する合成サンプルを生成することができる。 これにより、これらの追加データサンプルを蒸留損失だけでなく、分類損失の再生にも利用できる。 競合ベンチマークであるcifar100、imagenet-subset、imagenetの実験では、この新たなアプローチが、大規模データセットでのクラスインクリメンタル学習における最先端メソッドのパフォーマンス向上にどのように役立つかが示されている。

Class-incremental learning aims to learn new classes in an incremental fashion without forgetting the previously learned ones. Several research works have shown how additional data can be used by incremental models to help mitigate catastrophic forgetting. In this work, following the recent breakthrough in text-to-image generative models and their wide distribution, we propose the use of a pretrained Stable Diffusion model as a source of additional data for class-incremental learning. Compared to competitive methods that rely on external, often unlabeled, datasets of real images, our approach can generate synthetic samples belonging to the same classes as the previously encountered images. This allows us to use those additional data samples not only in the distillation loss but also for replay in the classification loss. Experiments on the competitive benchmarks CIFAR100, ImageNet-Subset, and ImageNet demonstrate how this new approach can be used to further improve the performance of state-of-the-art methods for class-incremental learning on large scale datasets.
翻訳日:2023-07-03 12:44:46 公開日:2023-06-30
# クリフォード群と対称性の下でのユニタリデザイン

Clifford Group and Unitary Designs under Symmetry ( http://arxiv.org/abs/2306.17559v1 )

ライセンス: Link先を確認
Yosuke Mitsuhashi and Nobuyuki Yoshioka(参考訳) 我々は、クリフォード群がユニタリデザインの概念を拡張することによって対称ケースにユニタリ3デザインであるとの有名な主張を一般化した。 具体的には、対称クリフォード群が対称ユニタリ 3 設計であることと、その対称性の制約がポーリ部分群によって記述されていることは同値である。 また、ポーリ対称性に対する単純な量子ゲートを持つ対称クリフォード群の完全かつ一意な構成法も見いだした。 全体的な理解のために、パウリ部分群で説明できない物理的に関係のある U(1) と SU(2) 対称性の制約も検討し、対称クリフォード群が対称ユニタリ 1-設計であるがそれらの対称性の下では2-設計ではないことを証明した。 本研究は, 対象の対称群上の一様アンサンブルと対称ユニタリ群とのランダム性の差を測定するフレームポテンシャルの計算により, 数値的に検証した。 この研究は、ランダム化ベンチマークのような量子情報処理への新たな視点を開き、監視されたランダム回路のような多体システムへの深い理解を提供する。

We have generalized the well-known statement that the Clifford group is a unitary 3-design into symmetric cases by extending the notion of unitary design. Concretely, we have proven that a symmetric Clifford group is a symmetric unitary 3-design if and only if the symmetry constraint is described by some Pauli subgroup. We have also found a complete and unique construction method of symmetric Clifford groups with simple quantum gates for Pauli symmetries. For the overall understanding, we have also considered physically relevant U(1) and SU(2) symmetry constraints, which cannot be described by a Pauli subgroup, and have proven that the symmetric Clifford group is a symmetric unitary 1-design but not a 2-design under those symmetries. Our findings are numerically verified by computing the frame potentials, which measure the difference in randomness between the uniform ensemble on the symmetric group of interest and the symmetric unitary group. This work will open a new perspective into quantum information processing such as randomized benchmarking, and give a deep understanding to many-body systems such as monitored random circuits.
翻訳日:2023-07-03 12:44:25 公開日:2023-06-30
# 低リソース手話認識のためのロバストな手話埋め込みの抽出に向けて

Towards the extraction of robust sign embeddings for low resource sign language recognition ( http://arxiv.org/abs/2306.17558v1 )

ライセンス: Link先を確認
Mathieu De Coster, Ellen Rushe, Ruth Holmes, Anthony Ventresque, Joni Dambre(参考訳) 孤立手話認識(SLR)は比較的大規模なデータセットに適用され、署名者の限られたグループによってゆっくりと明確に実行される。 しかし、現実のシナリオでは、難しい視覚条件、粗い署名、小さなデータセット、署名者独立モデルの必要性に満足しています。 この難題に対処するためには,手話ビデオの処理に頑健な特徴抽出器が必要である。 人間のポーズ推定が理想的候補になることを期待できる。 しかし、トレーニングセットとのドメインミスマッチや手話での難解なポーズのため、手話データやイメージベースモデルには堅牢性が欠如しており、キーポイントベースのモデルよりも優れています。 さらに、画像ベースモデルによる転写学習の一般的な実践は、さらに精度が高いが、キーポイントベースモデルは、通常、すべてのSLRデータセットでスクラッチからトレーニングされる。 これらの因子はSLRの有用性を制限する。 既存の文献から、仮にポーズ推定器がSLRに最適であるかどうかも明らかでない。 我々は、SLRの最も人気のある3つのポーズ推定ツール、OpenPose、MMPose、MediaPipeを比較した。 キーポイント正規化,キーポイントインプテーションの欠如,ポーズ埋め込みの学習により,より優れた結果を得ることができ,転校学習が可能となる。 対象手話言語上のslrモデルの分類層のみを微調整した場合でも、手話言語間を移動でき、競合性能を得ることができる。 さらに,ターゲットの手話でのみトレーニングされたモデルよりも,微調整された組込みによるパフォーマンス向上が期待できる。 これらの埋め込みの応用は、将来低リソース手話言語に特に役立つ可能性がある。

Isolated Sign Language Recognition (SLR) has mostly been applied on relatively large datasets containing signs executed slowly and clearly by a limited group of signers. In real-world scenarios, however, we are met with challenging visual conditions, coarticulated signing, small datasets, and the need for signer independent models. To tackle this difficult problem, we require a robust feature extractor to process the sign language videos. One could expect human pose estimators to be ideal candidates. However, due to a domain mismatch with their training sets and challenging poses in sign language, they lack robustness on sign language data and image based models often still outperform keypoint based models. Furthermore, whereas the common practice of transfer learning with image based models yields even higher accuracy, keypoint based models are typically trained from scratch on every SLR dataset. These factors limit their usefulness for SLR. From the existing literature, it is also not clear which, if any, pose estimator performs best for SLR. We compare the three most popular pose estimators for SLR: OpenPose, MMPose and MediaPipe. We show that through keypoint normalization, missing keypoint imputation, and learning a pose embedding, we can obtain significantly better results and enable transfer learning. We show that keypoint-based embeddings contain cross-lingual features: they can transfer between sign languages and achieve competitive performance even when fine-tuning only the classifier layer of an SLR model on a target sign language. We furthermore achieve better performance using fine-tuned transferred embeddings than models trained only on the target sign language. The application of these embeddings could prove particularly useful for low resource sign languages in the future.
翻訳日:2023-07-03 12:44:07 公開日:2023-06-30
# 最も一般的な原因は

The most likely common cause ( http://arxiv.org/abs/2306.17557v1 )

ライセンス: Link先を確認
A. Hovhannisyan and A. E. Allahverdyan(参考訳) 2つの確率変数の共通原因原理である$A$と$B$は、それらの共通原因である$C$が存在することが分かっている場合に因果不備の場合に検討されるが、共同確率は$A$と$B$のみである。 その結果、$c$ は一意に識別できない(潜在的な共同ファウンダーの問題)。 この状況に対して一般化された最大極大法が適用可能であることを示し、共通原因原理と整合した$C$の同定を可能にする。 これは最大エントロピー原理と密接に関連している。 2つの二項対称変数の研究は、2階相転移を連想させる条件付き確率の非解析的挙動を明らかにする。 これは観測された確率分布の相関から反相関への遷移の間に起こる。 一般化された可能性アプローチと予測可能性や最小共通原因エントロピーといった代替手法との関係を論じる。 3つの観測変数(および1つの隠れた原因)に対する共通原因の考察は、マルコフ条件付き有向非巡回グラフを通して表現を否定する因果構造を明らかにする。

The common cause principle for two random variables $A$ and $B$ is examined in the case of causal insufficiency, when their common cause $C$ is known to exist, but only the joint probability of $A$ and $B$ is observed. As a result, $C$ cannot be uniquely identified (the latent confounder problem). We show that the generalized maximum likelihood method can be applied to this situation and allows identification of $C$ that is consistent with the common cause principle. It closely relates to the maximum entropy principle. Investigation of the two binary symmetric variables reveals a non-analytic behavior of conditional probabilities reminiscent of a second-order phase transition. This occurs during the transition from correlation to anti-correlation in the observed probability distribution. The relation between the generalized likelihood approach and alternative methods, such as predictive likelihood and the minimum common cause entropy, is discussed. The consideration of the common cause for three observed variables (and one hidden cause) uncovers causal structures that defy representation through directed acyclic graphs with the Markov condition.
翻訳日:2023-07-03 12:43:42 公開日:2023-06-30
# なぜ私の医療用AIは鳥の写真を見るのか? 領域境界を越えた伝達学習の有効性の探索

Why does my medical AI look at pictures of birds? Exploring the efficacy of transfer learning across domain boundaries ( http://arxiv.org/abs/2306.17555v1 )

ライセンス: Link先を確認
Frederic Jonske, Moon Kim, Enrico Nasca, Janis Evers, Johannes Haubold, Ren\'e Hosch, Felix Nensa, Michael Kamp, Constantin Seibold, Jan Egger, Jens Kleesiek(参考訳) imagenetが事前トレーニングのpanaceaとして扱われていることは、公然の秘密である。 特に医療機械学習では、スクラッチからトレーニングされていないモデルは、ImageNetで事前訓練されたモデルに基づいて微調整されることが多い。 ダウンストリームタスクのドメインからのデータに対する事前トレーニングは、ほぼ常に好まれるべきであると仮定する。 我々は,1200万以上のCT画像スライスを含むRadNet-12Mを用いて,医用および自然画像に対する自己教師付き事前トレーニングの有効性を検討する。 実験は、ドメイン内およびドメイン間転送シナリオ、データスケールの変動、微調整と線形評価、特徴空間分析を対象とする。 ドメイン内転送はドメイン間転送に好適に比較し,RadNetプリトレーニングによる性能向上(0.44%~2.07%)を実現し,ドメイン境界関連一般化ギャップとドメイン固有の学習機能の存在を実証する。

It is an open secret that ImageNet is treated as the panacea of pretraining. Particularly in medical machine learning, models not trained from scratch are often finetuned based on ImageNet-pretrained models. We posit that pretraining on data from the domain of the downstream task should almost always be preferred instead. We leverage RadNet-12M, a dataset containing more than 12 million computed tomography (CT) image slices, to explore the efficacy of self-supervised pretraining on medical and natural images. Our experiments cover intra- and cross-domain transfer scenarios, varying data scales, finetuning vs. linear evaluation, and feature space analysis. We observe that intra-domain transfer compares favorably to cross-domain transfer, achieving comparable or improved performance (0.44% - 2.07% performance increase using RadNet pretraining, depending on the experiment) and demonstrate the existence of a domain boundary-related generalization gap and domain-specific learned features.
翻訳日:2023-07-03 12:43:25 公開日:2023-06-30
# 光古典通信路を用いた量子通信の同期化

Synchronization of quantum communication over an optical classical communication channel ( http://arxiv.org/abs/2306.17603v1 )

ライセンス: Link先を確認
Federico Berra, Costantino Agnesi, Andrea Stanco, Marco Avesani, Michal Kuklewski, Daniel Matter, Paolo Villoresi, Giuseppe Vallone(参考訳) 送信機と受信機間の正確な同期は量子鍵分布(QKD)のような量子通信プロトコルにおいて重要であり、送信された信号と受信した信号を効率的に相関させ、信号と雑音の比を増大させる。 本研究では,古典的光通信リンクを利用した同期手法を導入し,その性能を自由空間QKDシステムで検証する。 これまでは、既存の技術では追加のレーザービームが必要だったり、量子信号自体から同期を取り出す能力に依存していたが、高チャネル損失のシナリオでは適用できない。 それとは対照的に,本手法では,同じマスタクロックにロックされた古典的および量子的信号を利用することで,受信側が古典的および量子的通信リンクを同期させ,古典的信号に対してクロックデータ復元ルーチンを実行する。 このように、後処理やキー生成にすでに必要とされていた古典的な通信を活用することで、追加のハードウェアは不要となり、高出力信号から同期を再構築することができる。 このアプローチは、衛星とファイバーのインフラの両方に適しており、古典的チャネルと量子チャネルは同じリンクを介して送信できる。

Precise synchronization between transmitter and receiver is crucial for quantum communication protocols, such as Quantum Key Distribution (QKD), to efficiently correlate the transmitted and received signals and increase the signal-to-noise ratio. In this work, we introduce a synchronization technique that exploits a co-propagating classical optical communication link and test its performance in a free-space QKD system. Previously, existing techniques required additional laser beams or relied on the capability of retrieving the synchronization from the quantum signal itself, though this is not applicable in high channel loss scenarios. On the contrary, our method exploits classical and quantum signals locked to the same master clock, allowing the receiver to synchronize both the classical and quantum communication links by performing a clock-data-recovery routine on the classical signal. In this way, by exploiting the same classical communication already required for post-processing and key generation, no additional hardware is required, and the synchronization can be reconstructed from a high-power signal. Our approach is suitable for both satellite and fiber infrastructures, where a classical and quantum channel can be transmitted through the same link.
翻訳日:2023-07-03 12:36:02 公開日:2023-06-30
# S.T.A.R.トラック:適応時空間表現を用いたエンドツーエンド3次元物体追跡のための潜在運動モデル

S.T.A.R.-Track: Latent Motion Models for End-to-End 3D Object Tracking with Adaptive Spatio-Temporal Appearance Representations ( http://arxiv.org/abs/2306.17602v1 )

ライセンス: Link先を確認
Simon Doll, Niklas Hanselmann, Lukas Schneider, Richard Schulz, Markus Enzweiler, Hendrik P.A. Lensch(参考訳) 本稿では,トラッキング・バイ・アテンションのパラダイムに従って,オブジェクト中心のトランスフォーマーベースの3d追跡フレームワークを提案する。 従来のモデルに基づく追跡手法は、幾何運動モデルを用いたフレーム間のオブジェクトとエゴの動きの幾何学的効果を取り入れている。 そこで,我々はs.t.a.r.-trackを提案する。s.t.a.r.-trackは,新しい潜在運動モデル (lmm) を用いて,潜在空間における視方向や照明条件の変化を考慮したオブジェクトクエリの調整を行う。 トラックの存在確率をモデル化する新しい学習可能なトラック埋め込みと組み合わせることで、任意のクエリベースの検出器と統合可能な汎用的なトラッキングフレームワークが実現される。 nuScenesベンチマークの大規模な実験により,DTR3Dトラッカーの最先端性能を示すとともに,トラックのアイデンティティスイッチ数を劇的に削減した。

Following the tracking-by-attention paradigm, this paper introduces an object-centric, transformer-based framework for tracking in 3D. Traditional model-based tracking approaches incorporate the geometric effect of object- and ego motion between frames with a geometric motion model. Inspired by this, we propose S.T.A.R.-Track, which uses a novel latent motion model (LMM) to additionally adjust object queries to account for changes in viewing direction and lighting conditions directly in the latent space, while still modeling the geometric motion explicitly. Combined with a novel learnable track embedding that aids in modeling the existence probability of tracks, this results in a generic tracking framework that can be integrated with any query-based detector. Extensive experiments on the nuScenes benchmark demonstrate the benefits of our approach, showing state-of-the-art performance for DETR3D-based trackers while drastically reducing the number of identity switches of tracks at the same time.
翻訳日:2023-07-03 12:35:41 公開日:2023-06-30
# 強化学習による目標配送のためのマイクロロボット群ナビゲーション

Navigation of micro-robot swarms for targeted delivery using reinforcement learning ( http://arxiv.org/abs/2306.17598v1 )

ライセンス: Link先を確認
Akshatha Jagadish, Manoj Varma(参考訳) マイクロロボティクスは、多くの医療分野における有望な技術ソリューションとして急速に発展しつつある。 マイクロサイズのため、個々のコントロールがほぼ不可能なスワムで作業する場合に有効である。 したがって、複数のロボットを単一のコントローラーで制御することは重要であり、人工知能はこのタスクを成功させるのに役立ちます。 本研究では,強化学習(rl)アルゴリズム(ppo)とロバスト・ポリシー最適化(rpo)を用いて,4,9,16マイクロスウィマーの群れを流体力学的効果下に移動させ,その方向制御を行い,円形吸収ターゲットに向かって移動させる。 PPOとRPOの両方のパフォーマンスを、限られた状態情報シナリオで調べ、ランダムな目標位置とサイズに対するロバスト性をテストする。 私たちはカリキュラム学習を使ってパフォーマンスを改善し、25人のスイマーの群れをナビゲートし、群れを操り、rlモデルの操作能力を例示するために、学習でも同じことを示しています。

Micro robotics is quickly emerging to be a promising technological solution to many medical treatments with focus on targeted drug delivery. They are effective when working in swarms whose individual control is mostly infeasible owing to their minute size. Controlling a number of robots with a single controller is thus important and artificial intelligence can help us perform this task successfully. In this work, we use the Reinforcement Learning (RL) algorithms Proximal Policy Optimization (PPO) and Robust Policy Optimization (RPO) to navigate a swarm of 4, 9 and 16 microswimmers under hydrodynamic effects, controlled by their orientation, towards a circular absorbing target. We look at both PPO and RPO performances with limited state information scenarios and also test their robustness for random target location and size. We use curriculum learning to improve upon the performance and demonstrate the same in learning to navigate a swarm of 25 swimmers and steering the swarm to exemplify the manoeuvring capabilities of the RL model.
翻訳日:2023-07-03 12:35:22 公開日:2023-06-30
# Razor SNN: テンポラル埋め込みを用いたスパイキングニューラルネットワーク

Razor SNN: Efficient Spiking Neural Network with Temporal Embeddings ( http://arxiv.org/abs/2306.17597v1 )

ライセンス: Link先を確認
Yuan Zhang, Jian Cao, Ling Zhang, Jue Chen, Wenyu Sun, Yuan Wang(参考訳) dynamic vision sensor (dvs) によって生成されるイベントストリームは、空間領域では疎く、非一様であるが、時間領域では密度が高く冗長である。 事象駆動型ニューロモルフィックモデルであるスパイクニューラルネットワーク(SNN)は、イベントストリームから時空間的特徴を抽出する可能性があるが、効率的で効率的なものではない。 以上のことから,razor snn と呼ばれるイベントスパースフィケーション・スパイキング・フレームワークを提案し,ポイントレス・イベントフレームを段階的にプルーニングする。 具体的には、グローバルな時間的埋め込みに基づいて動的メカニズムを拡張し、特徴を再構築し、トレーニング段階でイベント効果を適応的に強調する。 推論段階では、トレーニングされた時間埋め込みによって生成された2値マスクに従って、無実フレームを階層的に除去する。 総合的な実験により、我々のRazor SNNは、DVS 128 Gesture、N-Caltech 101、CIFAR10-DVS、SHDの4つのイベントベースのベンチマークで一貫して競争性能を達成している。

The event streams generated by dynamic vision sensors (DVS) are sparse and non-uniform in the spatial domain, while still dense and redundant in the temporal domain. Although spiking neural network (SNN), the event-driven neuromorphic model, has the potential to extract spatio-temporal features from the event streams, it is not effective and efficient. Based on the above, we propose an events sparsification spiking framework dubbed as Razor SNN, pruning pointless event frames progressively. Concretely, we extend the dynamic mechanism based on the global temporal embeddings, reconstruct the features, and emphasize the events effect adaptively at the training stage. During the inference stage, eliminate fruitless frames hierarchically according to a binary mask generated by the trained temporal embeddings. Comprehensive experiments demonstrate that our Razor SNN achieves competitive performance consistently on four events-based benchmarks: DVS 128 Gesture, N-Caltech 101, CIFAR10-DVS and SHD.
翻訳日:2023-07-03 12:35:02 公開日:2023-06-30
# RBSR:Burst Super-Resolutionのための効率よくフレキシブルなリカレントネットワーク

RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution ( http://arxiv.org/abs/2306.17595v1 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Shuohao Zhang, Hongzhi Zhang and Wangmeng Zuo(参考訳) バースト超解像(BurstSR)は、低解像度(LR)とノイズ画像の連続から高解像度(HR)画像を再構成することを目的としている。 BurstSRの主な課題は、入力フレームからの補完情報を効果的に組み合わせることである。 本稿では,効率良くフレキシブルなリカレントネットワークを用いたフレームバイフレーム方式を提案する。 特に,ベースフレームの役割を強調し,再帰するたびに他のフレームからの知識獲得を誘導するキープロンプトとして活用する。 さらに,可変数の入力フレームに対してモデルの柔軟性を向上させるために,暗黙の重み付け損失を導入する。 合成データと実世界のデータセットの両方に関する広範な実験により,本手法は最先端データよりも優れた結果が得られることが示された。 コードと事前学習されたモデルはhttps://github.com/zcsrenlongz/rbsrで入手できる。

Burst super-resolution (BurstSR) aims at reconstructing a high-resolution (HR) image from a sequence of low-resolution (LR) and noisy images, which is conducive to enhancing the imaging effects of smartphones with limited sensors. The main challenge of BurstSR is to effectively combine the complementary information from input frames, while existing methods still struggle with it. In this paper, we suggest fusing cues frame-by-frame with an efficient and flexible recurrent network. In particular, we emphasize the role of the base-frame and utilize it as a key prompt to guide the knowledge acquisition from other frames in every recurrence. Moreover, we introduce an implicit weighting loss to improve the model's flexibility in facing input frames with variable numbers. Extensive experiments on both synthetic and real-world datasets demonstrate that our method achieves better results than state-of-the-art ones. Codes and pre-trained models are available at https://github.com/ZcsrenlongZ/RBSR.
翻訳日:2023-07-03 12:34:42 公開日:2023-06-30
# トポロジ的に整合性を有するグラフ畳み込みネットワーク

Miniaturized Graph Convolutional Networks with Topologically Consistent Pruning ( http://arxiv.org/abs/2306.17590v1 )

ライセンス: Link先を確認
Hichem Sahbi(参考訳) マグニチュードプルーニングは軽量アーキテクチャ設計における主流の手法の1つであり、最大の重み付け接続を持つサブネットワークを抽出することを目的としている。 この方法が成功したことは知られているが、非常に高い刈り取り体制下では、抽出されたサブネットワークを切断するトポロジカルな不整合に苦しめられ、その一般化能力を妨げる。 本稿では,そのトポロジ的一貫性を保ちながらサブネットを抽出できる新しい等級プルーニング法を提案する。 後者は、アクセス可能で共アクセス可能な -- 影響のある - コネクションのみが、結果の軽量ネットワークに保持されることを保証する。 提案手法は,新たな再パラメータ化と,アクセシビリティ/コアクセス性を実装し,接続されたサブネットワークのみをトレーニング中に選択することを保証する2つの双方向ネットワークに基づく。 このソリューションは、グラフ畳み込みネットワークを含む広範な実験を通じて、スケルトンベースのアクション認識の難しいタスクで裏付けられるように、非常に高いプルーニングレジーム下での一般化を著しく促進することができる。

Magnitude pruning is one of the mainstream methods in lightweight architecture design whose goal is to extract subnetworks with the largest weight connections. This method is known to be successful, but under very high pruning regimes, it suffers from topological inconsistency which renders the extracted subnetworks disconnected, and this hinders their generalization ability. In this paper, we devise a novel magnitude pruning method that allows extracting subnetworks while guarantying their topological consistency. The latter ensures that only accessible and co-accessible -- impactful -- connections are kept in the resulting lightweight networks. Our solution is based on a novel reparametrization and two supervisory bi-directional networks which implement accessibility/co-accessibility and guarantee that only connected subnetworks will be selected during training. This solution allows enhancing generalization significantly, under very high pruning regimes, as corroborated through extensive experiments, involving graph convolutional networks, on the challenging task of skeleton-based action recognition.
翻訳日:2023-07-03 12:34:22 公開日:2023-06-30
# 機械駆動密度汎関数を正則化する変分原理:非相互作用運動エネルギー汎関数

Variational principle to regularize machine-learned density functionals: the non-interacting kinetic-energy functional ( http://arxiv.org/abs/2306.17587v1 )

ライセンス: Link先を確認
P. del Mazo-Sevillano and J. Hermann(参考訳) 実用密度汎関数理論(DFT)の成功は、補助平均場系を用いて電子の非相互作用運動エネルギーの正確な計算を導入したコーンとシャムの画期的な業績に起因している。 しかし、電子密度と非相互作用運動エネルギーの正確な関係が見つかるまで、DFTのフルパワーは解けない。 この関数を、交換相関関数と同様に近似する様々な試みがなされたが、運動エネルギーのより大きな寄与とより非局所的な性質のために、成功ははるかに少ない。 本研究では、ディープニューラルネットワークに基づく密度汎関数のトレーニングを、特に運動エネルギー汎関数に着目し、より効率的に行うための新しい正規化手法を提案する。 この方法は、水素鎖、非相互作用電子、および最初の2周期の原子を含む(効果的に)1次元のシステムで試験され、優れた結果が得られる。 原子系では、正則化法の一般化性は交換相関関数の訓練によって実証され、2つの関数の対照的な性質は機械学習の観点から論じられる。

Practical density functional theory (DFT) owes its success to the groundbreaking work of Kohn and Sham that introduced the exact calculation of the non-interacting kinetic energy of the electrons using an auxiliary mean-field system. However, the full power of DFT will not be unleashed until the exact relationship between the electron density and the non-interacting kinetic energy is found. Various attempts have been made to approximate this functional, similar to the exchange--correlation functional, with much less success due to the larger contribution of kinetic energy and its more non-local nature. In this work we propose a new and efficient regularization method to train density functionals based on deep neural networks, with particular interest in the kinetic-energy functional. The method is tested on (effectively) one-dimensional systems, including the hydrogen chain, non-interacting electrons, and atoms of the first two periods, with excellent results. For the atomic systems, the generalizability of the regularization method is demonstrated by training also an exchange--correlation functional, and the contrasting nature of the two functionals is discussed from a machine-learning perspective.
翻訳日:2023-07-03 12:34:02 公開日:2023-06-30
# ブラックボックス最適化問題に対するアルゴリズム選択手法の比較

Comparing Algorithm Selection Approaches on Black-Box Optimization Problems ( http://arxiv.org/abs/2306.17585v1 )

ライセンス: Link先を確認
Ana Kostovska, Anja Jankovic, Diederick Vermetten, Sa\v{s}o D\v{z}eroski, Tome Eftimov, Carola Doerr(参考訳) ブラックボックス最適化問題に対処するために利用可能な解法の性能相補性は、アルゴリズム選択(AS)の重要なタスクを引き起こす。 自動化asアプローチは、退屈で労働集約的な手動選択を置き換えるのに役立ち、さまざまな最適化領域ですでに有望なパフォーマンスを示している。 自動ASは、問題インスタンスに関する情報から最高のアルゴリズムを推奨するために機械学習(ML)技術に依存している。 残念ながら、さまざまなMLテクニックから最も適切なものを選択するための明確なガイドラインはありません。 Random Forest や XGBoost のような木ベースのモデルは、自動ASの性能を一貫して証明している。 トランスフォーマーや他の表型ディープラーニングモデルもこの文脈でますます適用されてきている。 本稿では,ML手法の選択がAS性能に与える影響について検討する。 2次元の異なる7つのランタイム予算に対するBBOB問題の最適解法を予測するタスクにおいて、MLモデルを4つ比較する。 結果から,各インスタンスごとのASが極めて有意な可能性を確認できたが,ML手法の特定の選択が極めて重要であることも示唆された。

Performance complementarity of solvers available to tackle black-box optimization problems gives rise to the important task of algorithm selection (AS). Automated AS approaches can help replace tedious and labor-intensive manual selection, and have already shown promising performance in various optimization domains. Automated AS relies on machine learning (ML) techniques to recommend the best algorithm given the information about the problem instance. Unfortunately, there are no clear guidelines for choosing the most appropriate one from a variety of ML techniques. Tree-based models such as Random Forest or XGBoost have consistently demonstrated outstanding performance for automated AS. Transformers and other tabular deep learning models have also been increasingly applied in this context. We investigate in this work the impact of the choice of the ML technique on AS performance. We compare four ML models on the task of predicting the best solver for the BBOB problems for 7 different runtime budgets in 2 dimensions. While our results confirm that a per-instance AS has indeed impressive potential, we also show that the particular choice of the ML technique is of much minor importance.
翻訳日:2023-07-03 12:33:44 公開日:2023-06-30
# 単一光子放出子の共鳴蛍光分光法によるフォノン数統計の読み方

How to read out the phonon number statistics via resonance fluorescence spectroscopy of a single-photon emitter ( http://arxiv.org/abs/2306.17576v1 )

ライセンス: Link先を確認
Daniel Groll, Fabian Paschen, Pawe{\l} Machnikowski, Ortwin Hess, Daniel Wigger, Tilmann Kuhn(参考訳) 今日の量子技術の発展で、フォノン励起のハイブリッド統合はますます魅力的になる。 固体系の自然準粒子励起として、フォノンは他のどの励起とも結合し、したがってハイブリッド量子系における異なる構造ブロック間の有用な相互作用チャネルを構成する。 本研究では、単一光子エミッタの効率的な光散乱特性と共鳴蛍光スペクトルにおける特性側バンドの出現が、任意のフォノン量子状態と相互作用する場合、音響光学変換にどのように利用できるかを考察する。 妥当な近似の中では、所定のスペクトルから初期フォノン状態の数統計を読み取るのに使用できる低励起限界における光学スペクトルの分析的記述が開発されている。 フランク・コンドン因子の消失により関連する共振遷移が禁止されている状況、特に雑音の多い背景のスペクトルを考慮すれば、読み出しに誤りがあることが示されている。 この問題に対する2つの解決策が提示される: (A) 関連する共鳴遷移を変化させる単一光子エミッタに対するレーザの変形を変化させる、または (B) 外部共鳴遷移を促進するために単光子エミッタの消散を増大させる。

In today's development of quantum technologies a hybrid integration of phononic excitations becomes increasingly attractive. As natural quasi-particle excitations in solid state systems, phonons couple to virtually any other excitation and therefore constitute a useful interaction channel between different building blocks in hybrid quantum systems. This work explores how the efficient light-scattering properties of a single-photon emitter and the appearance of characteristic sidebands in resonance fluorescence spectra, when interfaced with an arbitrary phonon quantum state, can be utilized for acousto-optical transduction. Within reasonable approximations, an analytical description for the optical spectra in the low excitation limit is developed which can be used to read the number statistics of the initial phonon state from a given spectrum. It is shown that the readout is faulty in situations where relevant resonant transitions are forbidden due to vanishing Franck-Condon factors, especially when considering spectra with a noisy background. Two possible solutions to this problem are presented: (A) changing the detuning of the laser relative to the single-photon emitter which modifies the relevant resonant transitions, or (B) increasing dissipation of the single-photon emitter to promote off-resonant transitions.
翻訳日:2023-07-03 12:33:30 公開日:2023-06-30
# 自然言語処理による大学入試における総括的レビューの強化

Augmenting Holistic Review in University Admission using Natural Language Processing for Essays and Recommendation Letters ( http://arxiv.org/abs/2306.17575v1 )

ライセンス: Link先を確認
Jinsook Lee, Bradon Thymes, Joyce Zhou, Thorsten Joachims, Rene F. Kizilcec(参考訳) 高度に選択された多くの機関における大学入学は、保護された属性(人種、性別など)、成績、エッセイ、レコメンデーションレターを含む出願のすべての側面が、優秀で多様なクラスを構成するために、総合的な審査プロセスを用いる。 本研究では,機械学習(ml)モデルを用いた入場決定における保護属性の影響を実証的に評価し,保護属性の喪失に対するテキスト情報(個人的エッセイ,教師の推薦など)の代替方法について検討した。 2022-2023サイクルの米国選択機関の受験生14,915人のデータを用いて,MLモデルから保護属性を除外することで,受験成績が大幅に低下することが判明した。 TF-IDF表現と遅延ディリクレアロケーション(LDA)モデルによるテキスト情報の導入は、部分的にモデル性能を回復させるが、同様の多様なクラスを認めるための完全な代替手段を提供するものではない。 特に、テキストは性別の多様性に寄与するが、URM申請者の比率は保護属性の除外によって著しく影響を受けており、テキスト情報から生成された新しい属性の含めは、このパフォーマンス損失を回復しない。

University admission at many highly selective institutions uses a holistic review process, where all aspects of the application, including protected attributes (e.g., race, gender), grades, essays, and recommendation letters are considered, to compose an excellent and diverse class. In this study, we empirically evaluate how influential protected attributes are for predicting admission decisions using a machine learning (ML) model, and in how far textual information (e.g., personal essay, teacher recommendation) may substitute for the loss of protected attributes in the model. Using data from 14,915 applicants to an undergraduate admission office at a selective U.S. institution in the 2022-2023 cycle, we find that the exclusion of protected attributes from the ML model leads to substantially reduced admission-prediction performance. The inclusion of textual information via both a TF-IDF representation and a Latent Dirichlet allocation (LDA) model partially restores model performance, but does not appear to provide a full substitute for admitting a similarly diverse class. In particular, while the text helps with gender diversity, the proportion of URM applicants is severely impacted by the exclusion of protected attributes, and the inclusion of new attributes generated from the textual information does not recover this performance loss.
翻訳日:2023-07-03 12:33:08 公開日:2023-06-30
# 幾何学的オートエンコーダ - あなたが見る、デコードするもの

Geometric Autoencoders -- What You See is What You Decode ( http://arxiv.org/abs/2306.17638v1 )

ライセンス: Link先を確認
Philipp Nazari, Sebastian Damrich, Fred A. Hamprecht(参考訳) 可視化は探索データ分析における重要なステップである。 考えられる1つのアプローチは、低次元の潜在空間でオートエンコーダを訓練することである。 ネットワークの深さと幅は、データの展開に役立つ。 しかし、そのような表現ネットワークは、潜在表現が歪んだ場合でも、低い再構成誤差を達成できる。 このような誤解を招く可視化を避けるために,まずデコーダ上の微分幾何的視点を提案し,埋め込みの歪みに対する洞察的な診断と,その歪みを緩和する新しい正則化器を提案する。 我々の ‘Geometric Autoencoder'' は埋め込みを飛躍的に拡張することを避け、視覚化がデータ構造をより忠実にキャプチャする。 また、歪みの少ない領域にフラグを付け、誤解釈を防げるようにした。

Visualization is a crucial step in exploratory data analysis. One possible approach is to train an autoencoder with low-dimensional latent space. Large network depth and width can help unfolding the data. However, such expressive networks can achieve low reconstruction error even when the latent representation is distorted. To avoid such misleading visualizations, we propose first a differential geometric perspective on the decoder, leading to insightful diagnostics for an embedding's distortion, and second a new regularizer mitigating such distortion. Our ``Geometric Autoencoder'' avoids stretching the embedding spuriously, so that the visualization captures the data structure more faithfully. It also flags areas where little distortion could not be achieved, thus guarding against misinterpretation.
翻訳日:2023-07-03 12:27:22 公開日:2023-06-30
# 単一ToFカメラによるRGB-Dレベルセグメンテーション性能の達成

Achieving RGB-D level Segmentation Performance from a Single ToF Camera ( http://arxiv.org/abs/2306.17636v1 )

ライセンス: Link先を確認
Pranav Sharma, Jigyasa Singh Katrolia, Jason Rambach, Bruno Mirbach, Didier Stricker, Juergen Seiler(参考訳) 奥行きはコンピュータビジョンにおいて非常に重要なモダリティであり、通常、RGB-Dカメラによって提供されるRGBの補完情報として使用される。 本研究では,赤外線(IR)と1台のTime-of-Flight(ToF)カメラの深度画像を用いて,RGB-Dカメラと同レベルの精度が得られることを示す。 ToFカメラの赤外線と深度変調を融合させるために,マルチタスク学習フレームワークにおける深度特異的畳み込みを利用した手法を提案する。 車両内セグメンテーションデータセットの評価において,よりコストのかかるRGB-Dアプローチに対する手法の競争性を実証した。

Depth is a very important modality in computer vision, typically used as complementary information to RGB, provided by RGB-D cameras. In this work, we show that it is possible to obtain the same level of accuracy as RGB-D cameras on a semantic segmentation task using infrared (IR) and depth images from a single Time-of-Flight (ToF) camera. In order to fuse the IR and depth modalities of the ToF camera, we introduce a method utilizing depth-specific convolutions in a multi-task learning framework. In our evaluation on an in-car segmentation dataset, we demonstrate the competitiveness of our method against the more costly RGB-D approaches.
翻訳日:2023-07-03 12:27:10 公開日:2023-06-30
# ニューラルネットワークの校正と一般化に及ぼす騒音の影響

Impact of Noise on Calibration and Generalisation of Neural Networks ( http://arxiv.org/abs/2306.17630v1 )

ライセンス: Link先を確認
Martin Ferianc, Ondrej Bohdal, Timothy Hospedales, Miguel Rodrigues(参考訳) ノイズ注入とデータ拡張戦略は,ニューラルネットワーク(NN)の一般化と堅牢性の向上に有効である。 ラベルの平滑化やMixUpのようなある種のノイズもキャリブレーションを改善することが示されている。 NNのトレーニングの様々な段階でノイズを追加することができるため、いつ、どこでノイズが最も効果的かという疑問を動機付けている。 キャリブレーションと一般化をどの程度改善したか、どの条件下でどのように改善したかを決定するため、様々なノイズタイプについて検討する。 より具体的には、分布内(ID)と分布外(OOD)の両方のシナリオにおいて、様々なノイズ注入戦略を評価する。 その結果, アクティベーションノイズが最も伝達性が高く, 一般化に有効であったのに対し, 入力増強ノイズはOODの校正を改善する上で顕著であったが, 必ずしもIDデータにはならないことがわかった。

Noise injection and data augmentation strategies have been effective for enhancing the generalisation and robustness of neural networks (NNs). Certain types of noise such as label smoothing and MixUp have also been shown to improve calibration. Since noise can be added in various stages of the NN's training, it motivates the question of when and where the noise is the most effective. We study a variety of noise types to determine how much they improve calibration and generalisation, and under what conditions. More specifically we evaluate various noise-injection strategies in both in-distribution (ID) and out-of-distribution (OOD) scenarios. The findings highlight that activation noise was the most transferable and effective in improving generalisation, while input augmentation noise was prominent in improving calibration on OOD but not necessarily ID data.
翻訳日:2023-07-03 12:27:01 公開日:2023-06-30
# 強化学習を用いた誘導機械の設計

Design of Induction Machines using Reinforcement Learning ( http://arxiv.org/abs/2306.17626v1 )

ライセンス: Link先を確認
Yasmin SarcheshmehPour, Tommi Ryyppo, Victor Mukherjee, and Alex Jung(参考訳) 誘導機の設計は、電磁的および熱的制約が異なるため、難しい課題である。 機械寸法の迅速な推定は、特定の要求に基づいて顧客への迅速な引用を提供する販売ツールにおいて重要である。 このプロセスの重要な部分は、長さ、直径、歯先の高さ、回転といった異なる設計パラメータを選択し、機械のトルク、電流、温度を達成することである。 電気機械設計者は、顧客固有の運用要件を達成するために、異なるマシン設計パラメータを変更する方法を経験している。 カスタマイズ誘導電動機の設計のための強化学習アルゴリズムを提案する。 ニューラルネットワークモデルは、良いまたは悪い設計が選択されたときに、電気機械デザインゲームの異なるインスタンスと報酬またはペナルティ関数をシミュレートして、オフラインで訓練される。 提案手法は,人間の工学的知識を使わずに電気機械設計を自動化する。

The design of induction machine is a challenging task due to different electromagnetic and thermal constraints. Quick estimation of machine's dimensions is important in the sales tool to provide quick quotations to customers based on specific requirements. The key part of this process is to select different design parameters like length, diameter, tooth tip height and winding turns to achieve certain torque, current and temperature of the machine. Electrical machine designers, with their experience know how to alter different machine design parameters to achieve a customer specific operation requirements. We propose a reinforcement learning algorithm to design a customised induction motor. The neural network model is trained off-line by simulating different instances of of electrical machine design game with a reward or penalty function when a good or bad design choice is made. The results demonstrate that the suggested method automates electrical machine design without applying any human engineering knowledge.
翻訳日:2023-07-03 12:26:45 公開日:2023-06-30
# Sphere2Vec:大規模地理空間予測のための球面上の汎用位置表現学習

Sphere2Vec: A General-Purpose Location Representation Learning over a Spherical Surface for Large-Scale Geospatial Predictions ( http://arxiv.org/abs/2306.17624v1 )

ライセンス: Link先を確認
Gengchen Mai, Yao Xuan, Wenyun Zuo, Yutong He, Jiaming Song, Stefano Ermon, Krzysztof Janowicz, and Ni Lao(参考訳) 空間上の点に対する学習に親しみやすい表現を生成することは、MLの基本的かつ長年にわたる問題である。 最近では、2D/3Dユークリッド空間の任意の点を直接高次元ベクトルとして符号化するマルチスケール符号化スキーム(Space2VecやNeRFなど)が提案されている。 しかしながら、現在の2Dおよび3D位置エンコーダはすべてユークリッド空間内の点距離をモデル化するように設計されている。 したがって、球面上の距離メートル法学習を必要とする大規模な実世界のGPS座標データセットに適用した場合、どちらのモデルも地図投影歪み問題(2D)と球面からユークリッド距離近似誤差(3D)により失敗する可能性がある。 そこで本稿では,球面上の点座標を符号化する際に球面距離を保存できるマルチスケール位置エンコーダsphere2vecを提案する。 DFSに基づく球面上の距離保存符号化の統一ビューを開発した。 また、Sphere2Vecは任意の2点間の球面距離を保持するが、既存の符号化スキームは保存しないという理論的証明を与える。 20の合成データセットの実験により、Sphere2Vecは、これらのデータセットのベースラインモデルを最大30.8%のエラー率で上回ることができることが示された。 次にsphere2vecを3つのジオウェア画像分類タスク(細粒度種認識、flickr画像認識、リモートセンシング画像分類)に適用した。 7つの実世界のデータセットの結果、3つのタスクすべてにおいて、複数の位置エンコーダに対するsphere2vecの優位性が示されている。 さらなる解析により、球面距離保存の性質から、球面2vecは他の位置エンコーダモデル、特に極域やデータスパース領域よりも優れていることが判明した。 コードとデータはhttps://gengchenmai.github.io/sphere2vec-website/で入手できる。

Generating learning-friendly representations for points in space is a fundamental and long-standing problem in ML. Recently, multi-scale encoding schemes (such as Space2Vec and NeRF) were proposed to directly encode any point in 2D/3D Euclidean space as a high-dimensional vector, and has been successfully applied to various geospatial prediction and generative tasks. However, all current 2D and 3D location encoders are designed to model point distances in Euclidean space. So when applied to large-scale real-world GPS coordinate datasets, which require distance metric learning on the spherical surface, both types of models can fail due to the map projection distortion problem (2D) and the spherical-to-Euclidean distance approximation error (3D). To solve these problems, we propose a multi-scale location encoder called Sphere2Vec which can preserve spherical distances when encoding point coordinates on a spherical surface. We developed a unified view of distance-reserving encoding on spheres based on the DFS. We also provide theoretical proof that the Sphere2Vec preserves the spherical surface distance between any two points, while existing encoding schemes do not. Experiments on 20 synthetic datasets show that Sphere2Vec can outperform all baseline models on all these datasets with up to 30.8% error rate reduction. We then apply Sphere2Vec to three geo-aware image classification tasks - fine-grained species recognition, Flickr image recognition, and remote sensing image classification. Results on 7 real-world datasets show the superiority of Sphere2Vec over multiple location encoders on all three tasks. Further analysis shows that Sphere2Vec outperforms other location encoder models, especially in the polar regions and data-sparse areas because of its nature for spherical surface distance preservation. Code and data are available at https://gengchenmai.github.io/sphere2vec-website/.
翻訳日:2023-07-03 12:26:32 公開日:2023-06-30
# ツイスト光場誘起光遷移によるロバスト量子センサ

Robust quantum sensors with twisted-light fields induced optical transitions ( http://arxiv.org/abs/2306.17620v1 )

ライセンス: Link先を確認
T. Zanon-Willette, F. Impens, E. Arimondo, D. Wilkowski, A.V. Taichenachev and V.I. Yudin(参考訳) 新しい量子工学的ロバストセンサーのクラスは、中性Ca, Mg, Yb, Sr, Hg, Cdボソニック同位体中の超狭い原子遷移を駆動するために、光渦ビームとして知られるツイスト光を適用して提案されている。 この革新的な全光学分光手法は、空間的に調整された電場と磁場を導入し、プローブ誘起周波数シフトと外部交流および直流磁界歪みの付加作用を同時に低減する原子選択規則を完全に書き換える。 ツイスト光集光プローブビームは、高E1M12光子励起速度で1S0-3P0の2倍のクロック遷移を開放するレーザ伝播軸に沿って強い縦方向の電場及び磁場を生成する。 この長寿命の時計転移は非スカラー電磁摂動に免疫を持つ。 量子計算とシミュレーションのために考慮されたm2磁気四極子1s0-3p2遷移のゼーマン成分は、電界が消滅した横または縦の磁場勾配によって選択的に駆動される。 これらの場勾配は光ビームの軌道角運動量とスピン角運動量の相互作用によって操作され、可変ベクトルとテンソル偏光率の存在下で用いられる。 これら2つの異なるねじれ光誘起クロック遷移の組み合わせは、同じ魔法の波長で、共通の熱環境が存在する場合、不確実性を著しく減少させる。 さらに、ブラックボディの放射シフトとその室温での変動を効率的に制限する光学合成周波数を生成する。 光渦と複合パルスとの工学的光・物質相互作用は、量子状態の最適コヒーレント制御、相対量子シミュレーション、物理学の基本理論の精密試験、高精度光計測をターゲットとした原子および分子実験プラットフォームに恩恵をもたらす。

A new class of quantum engineered robust sensors is proposed by applying twisted-light also known as optical vortex beams to drive ultra-narrow atomic transitions in neutral Ca, Mg, Yb, Sr, Hg and Cd bosonic isotopes. This innovative all-optical spectroscopic method introduces spatially tailored electric and magnetic fields to fully rewrite atomic selection rules reducing simultaneously probe-induced frequency-shifts and additional action of external ac and dc field distortions. A twisted-light focused probe beam produces strong longitudinal electric and magnetic fields along the laser propagation axis which opens the 1S0-3P0 doubly forbidden clock transition with a high E1M1 two-photon excitation rate. This long-lived clock transition is thus immune to nonscalar electromagnetic perturbations. Zeeman components of the M2 magnetic quadrupole 1S0-3P2 transition considered for quantum computation and simulation are now selectively driven by transverse or longitudinal field gradients with vanishing electric fields. These field gradients are manipulated by the mutual action of orbital and spin angular momentum of the light beam and are used in presence of tunable vector and tensor polarizabilities. A combination of these two different twisted-light induced clock transitions within a single quantum system, at the same magic wavelength and in presence of a common thermal environment significantly reduces systematic uncertainties. Furthermore, it generates an optical synthetic frequency which efficiently limits the blackbody radiation shift and its variations at room temperature. Engineering light-matter interaction with optical vortices and composite pulses will benefit to atomic and molecular experimental platforms targeting an optimal coherent control of quantum states, reliant quantum simulation, precision tests of fundamental theories in physics and high-accuracy optical metrology.
翻訳日:2023-07-03 12:25:58 公開日:2023-06-30
# ポラリメトリックiToF:散乱媒体による高忠実度深さ測定

Polarimetric iToF: Measuring High-Fidelity Depth through Scattering Media ( http://arxiv.org/abs/2306.17618v1 )

ライセンス: Link先を確認
Daniel S. Jeon, Andreas Meuleman, Seung-Hwan Baek, Min H. Kim(参考訳) 間接飛行時間(iToF)イメージングにより,高密度深度情報を低コストで取得できる。 しかし、itofイメージングはしばしば散乱媒体の存在下でマルチパス干渉(mpi)アーティファクトに苦しめられ、深刻な深さ精度低下を引き起こす。 例えば、itofカメラは、より遠くのターゲット表面に到達する前に、tofアクティブ照明がセンサーに散乱するため、霧を通して正確な深さを測定することができない。 本研究では,散乱媒質を経由する深さ情報をロバストにとらえるポラリメトリックitofイメージング手法を提案する。 光の間接ToFイメージングと偏光の原理に関する観測により、散乱型偏光位相測定の新しい計算モデルが定式化され、MPI誤差の補正が可能となった。 まず,非偏光後方散乱光の位相を推定できる散乱対応偏光iToFモデルを考案する。 次に、位相と振幅の散乱解析により偏光の光学フィルタと非偏光後方散乱光の計算モデルを組み合わせる。 これにより,MPI問題に対処するために,参加媒体を通して散乱エネルギーを推定する。 市販のiToFカメラを用いて,本手法の有効性を検証した。 本手法は, 散乱モデルとポラリメトリック位相測定により, ベースライン法を有意なマージンで上回っている。

Indirect time-of-flight (iToF) imaging allows us to capture dense depth information at a low cost. However, iToF imaging often suffers from multipath interference (MPI) artifacts in the presence of scattering media, resulting in severe depth-accuracy degradation. For instance, iToF cameras cannot measure depth accurately through fog because ToF active illumination scatters back to the sensor before reaching the farther target surface. In this work, we propose a polarimetric iToF imaging method that can capture depth information robustly through scattering media. Our observations on the principle of indirect ToF imaging and polarization of light allow us to formulate a novel computational model of scattering-aware polarimetric phase measurements that enables us to correct MPI errors. We first devise a scattering-aware polarimetric iToF model that can estimate the phase of unpolarized backscattered light. We then combine the optical filtering of polarization and our computational modeling of unpolarized backscattered light via scattering analysis of phase and amplitude. This allows us to tackle the MPI problem by estimating the scattering energy through the participating media. We validate our method on an experimental setup using a customized off-the-shelf iToF camera. Our method outperforms baseline methods by a significant margin by means of our scattering model and polarimetric phase measurements.
翻訳日:2023-07-03 12:25:25 公開日:2023-06-30
# 後方分布を積分しないベイズ実験設計のためのスケーラブルな方法

Scalable method for Bayesian experimental design without integrating over posterior distribution ( http://arxiv.org/abs/2306.17615v1 )

ライセンス: Link先を確認
Vinh Hoang, Luis Espath, Sebastian Krumscheid, Ra\'ul Tempone(参考訳) 本稿では,観測モデルが偏微分方程式に基づく実験問題のa-最適ベイズ設計の解法における計算効率について論じる。 A-最適性(A-optimality)は、ベイズ設計の実験において広く用いられ、解釈し易い基準である。 この基準は、期待条件分散(期待後方分散)を最小化することで最適な実験設計を求めるものである。 本研究は,ベイズ後方分布のサンプリングや統合を伴わずに実験のa最適設計を求める新しい可能性のない手法を提案する。 提案手法では, 条件付き期待値の分散を全分散の法則を用いて行い, 条件付き期待値の近似のために直交射影特性を活用し, 条件付き期待値の分散を求める。 漸近的誤差推定により,後肢の難治性は我々のアプローチの性能に影響を与えないことを示した。 提案手法の実装には,ニューラルネットワーク(ANN)を用いて非線形条件予測を近似する。 連続的な実験的な設計パラメータを扱うために、ANNのトレーニングプロセスを統合し、期待される条件分散を最小化する。 具体的には,条件付き期待値の非局所近似を提案し,観察モデルの評価回数を減らすために転送学習を適用する。 数値実験により,本手法は一般的なサンプリング手法と比較して観測モデルの評価回数を大幅に削減することを示した。 この削減は、これらのモデルの計算に費用がかかる性質を考えると極めて重要である。

We address the computational efficiency in solving the A-optimal Bayesian design of experiments problems for which the observational model is based on partial differential equations and, consequently, is computationally expensive to evaluate. A-optimality is a widely used and easy-to-interpret criterion for the Bayesian design of experiments. The criterion seeks the optimal experiment design by minimizing the expected conditional variance, also known as the expected posterior variance. This work presents a novel likelihood-free method for seeking the A-optimal design of experiments without sampling or integrating the Bayesian posterior distribution. In our approach, the expected conditional variance is obtained via the variance of the conditional expectation using the law of total variance, while we take advantage of the orthogonal projection property to approximate the conditional expectation. Through an asymptotic error estimation, we show that the intractability of the posterior does not affect the performance of our approach. We use an artificial neural network (ANN) to approximate the nonlinear conditional expectation to implement our method. For dealing with continuous experimental design parameters, we integrate the training process of the ANN into minimizing the expected conditional variance. Specifically, we propose a non-local approximation of the conditional expectation and apply transfer learning to reduce the number of evaluations of the observation model. Through numerical experiments, we demonstrate that our method significantly reduces the number of observational model evaluations compared with common importance sampling-based approaches. This reduction is crucial, considering the computationally expensive nature of these models.
翻訳日:2023-07-03 12:25:07 公開日:2023-06-30
# 効率的なヒューリスティックスを用いた時間最適マルチロボットカバレッジパス計画のための混合整数計画法

Mixed Integer Programming for Time-Optimal Multi-Robot Coverage Path Planning with Efficient Heuristics ( http://arxiv.org/abs/2306.17609v1 )

ライセンス: Link先を確認
Jingtao Tang and Hang Ma(参考訳) 本研究は,全ロボットの最大走行時間として定義される被加重地と加重地の両方について,時間最適化型マルチロボットカバーパス計画(mcpp)について検討する。 具体的には,MCPP から Rooted Min-Max Tree Cover (RMMTC) への削減に焦点を当てる。 RMMTCを最適に解くためのMixed Integer Programming (MIP)モデルを提案する。 さらに, MIPモデルの変数数を削減し, 大規模MCPPインスタンスの効率を向上する2つの準最適有効ヒューリスティックを提案する。 両ヒューリスティックスは、すべての RMMTC インスタンスに対して、完全である(すなわち、存在すれば解を見つけることを保証する)大きさの MIP モデルをもたらすことを示す。 さらに,従来のMIPモデルと小型MIPモデルの両方の効率を改善するために,モデル最適化ウォームスタートの利用について検討する。 MIPをベースとしたMCPPプランナの有効性を,2つの最先端MCPPプランナと比較し,それぞれ平均42.42%,39.16%のカバレッジ時間を短縮した実験により検証した。

We investigate time-optimal Multi-Robot Coverage Path Planning (MCPP) for both unweighted and weighted terrains, which aims to minimize the coverage time, defined as the maximum travel time of all robots. Specifically, we focus on a reduction from MCPP to Rooted Min-Max Tree Cover (RMMTC). For the first time, we propose a Mixed Integer Programming (MIP) model to optimally solve RMMTC, resulting in an MCPP solution with a coverage time that is provably at most four times the optimal. Moreover, we propose two suboptimal yet effective heuristics that reduce the number of variables in the MIP model, thus improving its efficiency for large-scale MCPP instances. We show that both heuristics result in reduced-size MIP models that remain complete (i.e., guarantee to find a solution if one exists) for all RMMTC instances. Additionally, we explore the use of model optimization warm-startup to further improve the efficiency of both the original MIP model and the reduced-size MIP models. We validate the effectiveness of our MIP-based MCPP planner through experiments that compare it with two state-of-the-art MCPP planners on various instances, demonstrating a reduction in the coverage time by an average of 42.42% and 39.16% over them, respectively.
翻訳日:2023-07-03 12:24:44 公開日:2023-06-30
# 変分ガウス近似のための高次幾何積分器

High-order geometric integrators for the variational Gaussian approximation ( http://arxiv.org/abs/2306.17608v1 )

ライセンス: Link先を確認
Roya Moghaddasi Fereidani and Ji\v{r}\'i Van\'i\v{c}ek(参考訳) 時間依存型シュル「o」ディンガー方程式を解くための単軌道ガウス法のうち、変分ガウス近似が最も正確である。 ヘラーの元々の解き放たれたガウス近似とは対照的に、シンプレクティックであり、エネルギーを正確に保存し、部分的にトンネルを考慮に入れる。 しかし、変分法もはるかに高価である。 効率を向上させるため,faou と lubich の2次シンプレクティック積分器を対称に合成し,任意の収束次数を時間ステップで達成できる幾何学的積分器を得る。 本研究では,高次積分器が2次アルゴリズムに比べて収束を劇的に高速化できることを示すとともに,一般の4次ルンゲ・クッタ法とは対照的に,標準とシンプレクティック構造を正確に保存できることを示す。 本手法は低次元系に限定されないことを示すため, 結合モーゼ発振器の非分離性20次元モデル上で解析を行う。 また, 変分法ではトンネル化が可能であり, 一般に, 非変分解ガウス近似よりも精度が向上することを示した。

Among the single-trajectory Gaussian-based methods for solving the time-dependent Schr\"{o}dinger equation, the variational Gaussian approximation is the most accurate one. In contrast to Heller's original thawed Gaussian approximation, it is symplectic, conserves energy exactly, and partially takes into account tunneling. However, the variational method is also much more expensive. To improve its efficiency, we symmetrically compose the second-order symplectic integrator of Faou and Lubich and obtain geometric integrators that can achieve an arbitrary even order of convergence in the time step. We demonstrate that the high-order integrators can speed up convergence drastically compared to the second-order algorithm and, in contrast to the popular fourth-order Runge-Kutta method, are time-reversible and conserve the norm and the symplectic structure exactly, regardless of the time step. To show that the method is not restricted to low-dimensional systems, we perform most of the analysis on a non-separable twenty-dimensional model of coupled Morse oscillators. We also show that the variational method can include tunneling and, in general, improves accuracy over the non-variational thawed Gaussian approximation.
翻訳日:2023-07-03 12:24:22 公開日:2023-06-30
# 学習可能な空間を持つ拡張畳み込みを用いたスパイクニューラルネットワークの学習遅延

Learning Delays in Spiking Neural Networks using Dilated Convolutions with Learnable Spacings ( http://arxiv.org/abs/2306.17670v1 )

ライセンス: Link先を確認
Ilyass Hammouamri, Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier(参考訳) スパイキングニューラルネットワーク(SNN)は、特に音声認識などの時間的タスクにおいて、電力効率の高い情報処理システムを構築するための有望な研究方向である。 SNNでは、1つのスパイクが1つのニューロンから別のニューロンに移動するのに必要な時間を指す。 これらの遅延はスパイク到着時間に影響を与えるため重要であり、スパイクニューロンが一致した入力スパイクに強く反応することが知られている。 より正式には、プラスチックの遅延がSNNの表現性を大幅に増大させることが理論的に示されている。 しかし、これらの遅延を学習する効率的なアルゴリズムは不足している。 本稿では,バックプロパゲーションを用いたディープフィードフォワードsnsでこの問題をオフラインで解決する,新しい離散時間アルゴリズムを提案する。 連続する層間の遅延をシミュレートするために、1次元の畳み込みを用いる。 カーネルは数個の非ゼロ重み(シナプスあたり1つ)しか含んでおらず、その位置は遅延に対応する。 これらの位置は、最近提案されたDilated Convolution with Learnable Spacings (DCLS)を使って重みとともに学習される。 我々は、時相パターンを検出する必要があるスパイキングハイデルバーグデータセット(SHD)とスパイキング音声コマンド(SSC)ベンチマークについて評価を行った。 完全連結層を2層に隠したフィードフォワードSNNを用いた。 固定されたランダム遅延が役に立ち、それらを学ぶことがさらに役立ちます。 さらに,SHDおよびSSCでは,繰り返し接続を用いることなく,パラメータが少なく,最先端の手法よりも優れていた。 本研究では,時間的データ処理の正確かつ正確なモデル開発における遅延学習の可能性を示す。 私たちのコードはPyTorch / SpikingJellyをベースにしており、https://github.com/Thvnvtos/SNN-delaysで利用可能です。

Spiking Neural Networks (SNNs) are a promising research direction for building power-efficient information processing systems, especially for temporal tasks such as speech recognition. In SNNs, delays refer to the time needed for one spike to travel from one neuron to another. These delays matter because they influence the spike arrival times, and it is well-known that spiking neurons respond more strongly to coincident input spikes. More formally, it has been shown theoretically that plastic delays greatly increase the expressivity in SNNs. Yet, efficient algorithms to learn these delays have been lacking. Here, we propose a new discrete-time algorithm that addresses this issue in deep feedforward SNNs using backpropagation, in an offline manner. To simulate delays between consecutive layers, we use 1D convolutions across time. The kernels contain only a few non-zero weights - one per synapse - whose positions correspond to the delays. These positions are learned together with the weights using the recently proposed Dilated Convolution with Learnable Spacings (DCLS). We evaluated our method on the Spiking Heidelberg Dataset (SHD) and the Spiking Speech Commands (SSC) benchmarks, which require detecting temporal patterns. We used feedforward SNNs with two hidden fully connected layers. We showed that fixed random delays help, and that learning them helps even more. Furthermore, our method outperformed the state-of-the-art in both SHD and SSC without using recurrent connections and with substantially fewer parameters. Our work demonstrates the potential of delay learning in developing accurate and precise models for temporal data processing. Our code is based on PyTorch / SpikingJelly and available at: https://github.com/Thvnvtos/SNN-delays
翻訳日:2023-07-03 12:16:45 公開日:2023-06-30
# 視覚言語事前学習モデルによるゼロショット核検出

Zero-shot Nuclei Detection via Visual-Language Pre-trained Models ( http://arxiv.org/abs/2306.17659v1 )

ライセンス: Link先を確認
Yongjian Wu, Yang Zhou, Jiya Saiyin, Bingzheng Wei, Maode Lai, Jianzhong Shou, Yubo Fan, Yan Xu(参考訳) 大規模視覚言語事前訓練モデル(VLPM)は、自然シーンの下流オブジェクト検出において優れた性能を示した。 しかし、VLPMsによるH\&E画像のゼロショット核検出は未発見のままである。 医用画像とWebで編集されたテキストイメージのペアの間には、事前学習のための大きなギャップがある。 本稿では,ゼロショット核検出のためのglip(grounded language-image pre-training)モデルであるオブジェクトレベルvlpmの可能性について検討する。 具体的には、VLPMと画像間VLPMBLIPの結合特性に基づいて自動プロンプト設計パイプラインを考案し、経験的手動プロンプトエンジニアリングを避ける。 さらに,自動設計プロンプトを用いた自己学習フレームワークを構築し,glipから擬似ラベルとして予備結果を生成し,予測ボックスを反復的に洗練する。 本手法はラベルフリー核検出において,他の比較法よりも優れた性能を発揮する。 我々の研究は、自然画像とテキストのペアで事前訓練されたVLPMが、医療分野の下流タスクにも驚くべき可能性を示すことを示した。 コードはhttps://github.com/wuyongjianCODE/VLPMNuDでリリースされる。

Large-scale visual-language pre-trained models (VLPM) have proven their excellent performance in downstream object detection for natural scenes. However, zero-shot nuclei detection on H\&E images via VLPMs remains underexplored. The large gap between medical images and the web-originated text-image pairs used for pre-training makes it a challenging task. In this paper, we attempt to explore the potential of the object-level VLPM, Grounded Language-Image Pre-training (GLIP) model, for zero-shot nuclei detection. Concretely, an automatic prompts design pipeline is devised based on the association binding trait of VLPM and the image-to-text VLPM BLIP, avoiding empirical manual prompts engineering. We further establish a self-training framework, using the automatically designed prompts to generate the preliminary results as pseudo labels from GLIP and refine the predicted boxes in an iterative manner. Our method achieves a remarkable performance for label-free nuclei detection, surpassing other comparison methods. Foremost, our work demonstrates that the VLPM pre-trained on natural image-text pairs exhibits astonishing potential for downstream tasks in the medical field as well. Code will be released at https://github.com/wuyongjianCODE/VLPMNuD.
翻訳日:2023-07-03 12:16:17 公開日:2023-06-30
# ポーズと形状の一貫性を考慮した暗黙の3次元メッシュ復元

Implicit 3D Human Mesh Recovery using Consistency with Pose and Shape from Unseen-view ( http://arxiv.org/abs/2306.17651v1 )

ライセンス: Link先を確認
Hanbyel Cho, Yooshin Cho, Jaesung Ahn, Junmo Kim(参考訳) 人物像から、曖昧性が存在する場合でも、自然の3dポーズや形状を容易に推測することができる。 これは、ある画像と異なる視線方向の人物の出現を想像し、それら間の一貫性を推論に活用できる精神モデルがあるためである。 しかしながら、既存のヒューマンメッシュリカバリ手法は、その構造的制限のために画像が撮影された方向のみを考慮する。 そこで本研究では,3次元空間にいる人物を神経的特徴領域を介して特徴量レベルで暗黙的に想像できる"implicit 3d human mesh recovery (imphmr)"を提案する。 ImpHMRでは、特定の画像に対してCNNベースの画像エンコーダによって特徴フィールドが生成される。 そして、所定の視聴方向のために特徴フィールドから2D特徴マップをボリュームレンダリングし、その特徴からポーズと形状パラメータを後退させる。 3次元ラベルが存在する場合、任意の方向からシルエットを含む結果を予測し、回転した接地トラスと等しくする。 2次元ラベルのみの場合、異なる方向から推定されるポーズパラメータと形状パラメータが同じであるべきという制約を通じて自己教師付き学習を行う。 大規模評価は,提案手法の有効性を示す。

From an image of a person, we can easily infer the natural 3D pose and shape of the person even if ambiguity exists. This is because we have a mental model that allows us to imagine a person's appearance at different viewing directions from a given image and utilize the consistency between them for inference. However, existing human mesh recovery methods only consider the direction in which the image was taken due to their structural limitations. Hence, we propose "Implicit 3D Human Mesh Recovery (ImpHMR)" that can implicitly imagine a person in 3D space at the feature-level via Neural Feature Fields. In ImpHMR, feature fields are generated by CNN-based image encoder for a given image. Then, the 2D feature map is volume-rendered from the feature field for a given viewing direction, and the pose and shape parameters are regressed from the feature. To utilize consistency with pose and shape from unseen-view, if there are 3D labels, the model predicts results including the silhouette from an arbitrary direction and makes it equal to the rotated ground-truth. In the case of only 2D labels, we perform self-supervised learning through the constraint that the pose and shape parameters inferred from different directions should be the same. Extensive evaluations show the efficacy of the proposed method.
翻訳日:2023-07-03 12:16:00 公開日:2023-06-30
# バイオメディカル言語モデルは準最適トークン化にロバストである

Biomedical Language Models are Robust to Sub-optimal Tokenization ( http://arxiv.org/abs/2306.17649v1 )

ライセンス: Link先を確認
Bernal Jim\'enez Guti\'errez, Huan Sun, Yu Su(参考訳) 一般英語とは対照的に、バイオメディカル用語学の多くの概念は、正確で簡潔なことを目標として、近年のバイオメディカル専門家によって設計された。 これはしばしば、意味のある生体形態を結合して新しい意味単位を作成することで達成される。 しかしながら、現代のほとんどのバイオメディカル言語モデル(LM)は、バイオメディカル言語の凝集特性を明示的に活用することなく、大規模バイオメディカルコーパス統計から派生した標準ドメイン固有のトークン化剤を用いて事前訓練されている。 本研究では,バイオメディカルな用語を意味のある構成要素に分割できない標準オープンドメインとバイオメディカルなトークン化剤について述べる。 そこで, バイオメディカル用語をより正確に区分するトークン化装置を用いることで, 下流のバイオメディカルNLPタスク, 特に名前付きエンティティ認識(NER)やエンティティリンクなどのバイオメディカル用語を直接含むタスクにおいて, バイオメディカルLMの性能を向上させることができると仮定した。 驚くべきことに、より正確なバイオメディカルトークンを使用して生体医学的lmを事前トレーニングすることは、マスク言語モデリング予測(mlm)の精度やnerおよびエンティティリンクのパフォーマンスといったいくつかの本質的および極端的な尺度で測定されるように、言語モデルのエンティティ表現品質を改善するものではない。 これらの定量的研究は、実体表現の質をより直接的に探求するケーススタディとともに、生物医学的な事前学習プロセスが準最適トークン化の事例に対して非常に堅牢であることを示している。

As opposed to general English, many concepts in biomedical terminology have been designed in recent history by biomedical professionals with the goal of being precise and concise. This is often achieved by concatenating meaningful biomedical morphemes to create new semantic units. Nevertheless, most modern biomedical language models (LMs) are pre-trained using standard domain-specific tokenizers derived from large scale biomedical corpus statistics without explicitly leveraging the agglutinating nature of biomedical language. In this work, we first find that standard open-domain and biomedical tokenizers are largely unable to segment biomedical terms into meaningful components. Therefore, we hypothesize that using a tokenizer which segments biomedical terminology more accurately would enable biomedical LMs to improve their performance on downstream biomedical NLP tasks, especially ones which involve biomedical terms directly such as named entity recognition (NER) and entity linking. Surprisingly, we find that pre-training a biomedical LM using a more accurate biomedical tokenizer does not improve the entity representation quality of a language model as measured by several intrinsic and extrinsic measures such as masked language modeling prediction (MLM) accuracy as well as NER and entity linking performance. These quantitative findings, along with a case study which explores entity representation quality more directly, suggest that the biomedical pre-training process is quite robust to instances of sub-optimal tokenization.
翻訳日:2023-07-03 12:15:41 公開日:2023-06-30
# 領域分割に基づくプレコンディショニング戦略を用いた物理情報ニューラルネットワークのトレーニング強化

Enhancing training of physics-informed neural networks using domain-decomposition based preconditioning strategies ( http://arxiv.org/abs/2306.17648v1 )

ライセンス: Link先を確認
Alena Kopani\v{c}\'akov\'a and Hardik Kothari and George Em Karniadakis and Rolf Krause(参考訳) 本稿では,物理インフォームドニューラルネットワーク(PINN)のトレーニングを強化することを提案する。 そこで本研究では,L-BFGSオプティマイザの非線形加法および乗算プリコンディショニング手法を提案する。 非線形プレコンディショナーは、ネットワークのパラメータを階層的に分解するSchwarzドメイン分解フレームワークを利用して構成される。 一連の数値実験により、加法と乗法の両方のプリコンディショナーが標準のl-bfgsオプティマイザの収束を大幅に改善し、基礎となる偏微分方程式のより正確な解を提供することを示した。 さらに、加法プレコンディショナーは本質的に並列であるため、モデル並列化に対する新しいアプローチがもたらされる。

We propose to enhance the training of physics-informed neural networks (PINNs). To this aim, we introduce nonlinear additive and multiplicative preconditioning strategies for the widely used L-BFGS optimizer. The nonlinear preconditioners are constructed by utilizing the Schwarz domain-decomposition framework, where the parameters of the network are decomposed in a layer-wise manner. Through a series of numerical experiments, we demonstrate that both, additive and multiplicative preconditioners significantly improve the convergence of the standard L-BFGS optimizer, while providing more accurate solutions of the underlying partial differential equations. Moreover, the additive preconditioner is inherently parallel, thus giving rise to a novel approach to model parallelism.
翻訳日:2023-07-03 12:15:11 公開日:2023-06-30
# カップリングとデカップリングに基づくNL2SQL生成のための特徴表現学習

Feature Representation Learning for NL2SQL Generation Based on Coupling and Decoupling ( http://arxiv.org/abs/2306.17646v1 )

ライセンス: Link先を確認
Chenduo Hao, Xu Zhang, Chuanbao Gao, Deyu Zhou(参考訳) nl2sqlタスクは自然言語ステートメントをsqlクエリに解析する。 多くの最先端の手法は、NL2SQLをスロットフルタスクとして扱い、特徴表現学習技術を使用するが、SELECTとWHERE節と1つの節内のサブタスク間の暗黙的な相関特徴を見落としている。 本稿では,特徴表現デカップリング手法を用いてパラメータレベルでのSELECTとWHEREの節を分離するClauuse Feature correlation Decoupling and Coupling(CFCDC)モデルを提案する。 次に、異なるSQLタスク間の暗黙的相関特徴表現を特定の節で分離するマルチタスク学習アーキテクチャを提案する。 さらに,select文とwhere節の切り離されたタスクを統合し,最終的なsqlクエリを予測するための改良された機能表現結合モジュールを提案する。 提案するcfcdcモデルはwikisqlデータセット上で優れた性能を示し,論理精度と実行精度を大幅に改善した。 モデルのソースコードはGitHubで公開されている。

The NL2SQL task involves parsing natural language statements into SQL queries. While most state-of-the-art methods treat NL2SQL as a slot-filling task and use feature representation learning techniques, they overlook explicit correlation features between the SELECT and WHERE clauses and implicit correlation features between sub-tasks within a single clause. To address this issue, we propose the Clause Feature Correlation Decoupling and Coupling (CFCDC) model, which uses a feature representation decoupling method to separate the SELECT and WHERE clauses at the parameter level. Next, we introduce a multi-task learning architecture to decouple implicit correlation feature representation between different SQL tasks in a specific clause. Moreover, we present an improved feature representation coupling module to integrate the decoupled tasks in the SELECT and WHERE clauses and predict the final SQL query. Our proposed CFCDC model demonstrates excellent performance on the WikiSQL dataset, with significant improvements in logic precision and execution accuracy. The source code for the model will be publicly available on GitHub
翻訳日:2023-07-03 12:14:58 公開日:2023-06-30
# 共有生産における品質検査のためのフェデレーション物体検出

Federated Object Detection for Quality Inspection in Shared Production ( http://arxiv.org/abs/2306.17645v1 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler and Martin Ruskowski(参考訳) フェデレートラーニング(FL)は、データプライバシを損なうことなく、分散データ上で機械学習モデルをトレーニングするための有望なアプローチとして登場した。 本稿では,オブジェクト検出アルゴリズムとしてYOLOv5,FLアルゴリズムとしてFederated Averaging(FedAvg)を用いた品質検査タスクにおけるオブジェクト検出のためのFLアルゴリズムを提案する。 非IIDデータセット上でデータのプライバシを保持しつつ,グローバルなオブジェクト検出モデルのトレーニングに複数のファクトリ/クライアントが貢献する,製造ユースケースに適用する。 我々のFL手法は、局所クライアントのデータセットを用いて訓練されたモデルと比較して、クライアントのテストデータセット全体の一般化性能を向上し、オブジェクトのまわりのバウンディングボックスを改善することを実証した。 本研究は, 製造業界における品質検査業務におけるFLの可能性を示し, 連合オブジェクト検出におけるYOLOv5とFedAvgの利用性能と実現可能性に関する貴重な知見を提供する。

Federated learning (FL) has emerged as a promising approach for training machine learning models on decentralized data without compromising data privacy. In this paper, we propose a FL algorithm for object detection in quality inspection tasks using YOLOv5 as the object detection algorithm and Federated Averaging (FedAvg) as the FL algorithm. We apply this approach to a manufacturing use-case where multiple factories/clients contribute data for training a global object detection model while preserving data privacy on a non-IID dataset. Our experiments demonstrate that our FL approach achieves better generalization performance on the overall clients' test dataset and generates improved bounding boxes around the objects compared to models trained using local clients' datasets. This work showcases the potential of FL for quality inspection tasks in the manufacturing industry and provides valuable insights into the performance and feasibility of utilizing YOLOv5 and FedAvg for federated object detection.
翻訳日:2023-07-03 12:14:39 公開日:2023-06-30
# 3次元監視を伴わない多視点画像からのニューラル3次元シーン再構成

Neural 3D Scene Reconstruction from Multi-view Images without 3D Supervision ( http://arxiv.org/abs/2306.17643v1 )

ライセンス: Link先を確認
Yi Guo, Che Sun, Yunde Jia, and Yuwei Wu(参考訳) ニューラルシーン再構成法は,大規模シーンにおける複雑な形状と低テクスチャ領域の再構成において,優れた性能を達成している。 しかし,これらの手法は実世界での入手に要するコストと時間を要する3次元教師付き情報に大きく依存している。 本稿では,3次元の監督なしにシーンを再構築するニューラル再構成手法を提案する。 本研究では,2次元画像へのアクセスを監督として,シーン復元のための微分可能なボリュームレンダリングを行う。 我々は,シーン内の複雑な幾何学領域の再構成品質を向上させるために幾何学を課し,シーンの低テクスチャ領域の復元品質を改善するために平面制約を課す。 具体的には、シーンを表す符号付き距離関数(sdf)フィールド、色フィールド、確率フィールドを導入し、微分可能なレイマーチングの下でフィールドを最適化してシーンを再構築する。 さらに、異なる視点で類似した特徴を持つ類似した領域に対して、表面上の3Dポイントを投影する幾何学的制約を課す。 また、大きな平面を壁や床に平行または垂直に保つために、平面制約を課します。 これら2つの制約は、シーンの正確で滑らかな幾何学構造を再構築するのに役立ちます。 ScanNetデータセットの監視として3D情報を利用する既存手法と比較して,3Dの監視情報がなければ競争力のある再構築を実現する。

Neural scene reconstruction methods have achieved impressive performance in reconstructing complex geometry and low-textured regions in large scenes. However, these methods heavily rely on 3D supervised information which is costly and time-consuming to obtain in the real world. In this paper, we propose a novel neural reconstruction method that reconstructs scenes without 3D supervision. We perform differentiable volume rendering for scene reconstruction by using accessible 2D images as supervision. We impose geometry to improve the reconstruction quality of complex geometry regions in the scenes, and impose plane constraints to improve the reconstruction quality of low-textured regions in the scenes. Specifically, we introduce a signed distance function (SDF) field, a color field, and a probability field to represent the scene, and optimize the fields under the differentiable ray marching to reconstruct the scene. Besides, we impose geometric constraints that project 3D points on the surface to similar-looking regions with similar features in different views. We also impose plane constraints to make large planes keep parallel or vertical to the wall or floor. These two constraints help to reconstruct accurate and smooth geometry structures of the scene. Without 3D supervision information, our method achieves competitive reconstruction compared with some existing methods that use 3D information as supervision on the ScanNet dataset.
翻訳日:2023-07-03 12:14:22 公開日:2023-06-30
# グラフェン格子間のカシミール・リフシッツ力の波長可変非加法

Tunable Non-Additivity in Casimir-Lifshitz Force Between Graphene Gratings ( http://arxiv.org/abs/2306.17640v1 )

ライセンス: Link先を確認
Youssef Jeyar, Minggang Luo, Kevin Austry, Brahim Guizal, Yi Zheng, H. B. Chan, Mauro Antezza(参考訳) 有限誘電体基板上に配置した2つの同一のグラフェンストリップグレーティング間のカシミール・リフシッツ力(clf)について検討した。 局所基底関数を持つフーリエモード法(FMM-LBF)から導出される散乱行列(S-行列)アプローチを用いて,グラフェンストリップの高次電磁回折,多重散乱,正確な2次元特徴を十分に考慮する。 グラフェンの化学ポテンシャルを変化させることで,clfの最も興味深い特徴の1つである非加法性が著しく高く,実際の物質幾何の変化を伴わずにその場で調節できることを示した。 本研究は,マイクロまたはナノエレクトロメカニカルグラフェン系を用いたCLFの非添加特性のより深い実験的探索を行うことができる。

We investigate the Casimir-Lifshitz force (CLF) between two identical graphene strip gratings, laid on finite dielectric substrate. By using the scattering matrix (S-matrix) approach derived from the Fourier Modal Method with local basis functions (FMM-LBF), we fully take into account the high-order electromagnetic diffractions, the multiple scattering and the exact 2D feature of the graphene strips. We show that the non-additivity, which is one of the most interesting features of the CLF in general, is significantly high and can be modulated in situ without any change in the actual material geometry, by varying the graphene chemical potential. This study can open the deeper experimental exploration of the non-additive features of CLF with micro- or nano-electromechanical graphene-based systems.
翻訳日:2023-07-03 12:14:01 公開日:2023-06-30
# ニューロシンボリックPOMDPのポイントベース値反復

Point-based Value Iteration for Neuro-Symbolic POMDPs ( http://arxiv.org/abs/2306.17639v1 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska(参考訳) ニューロシンボリック人工知能は、伝統的なシンボル技術とニューラルネットワークを組み合わせた新興分野である。 本稿では,不確実性を考慮した逐次意思決定への応用について考察する。 本稿では,神経シンボリック部分可観測マルコフ決定過程(ns-pomdps)を紹介し,ニューラルネットワークを用いて連続状態環境を知覚し,シンボル的に決定を行うエージェントをモデル化し,ディスカウント累積報酬を最適化する問題について検討する。 このためには、連続状態空間と値ベクトルをカバーするポリヘドラという観点で、一意に線形かつ凸表現(P-PWLC)を提案し、ベルマンのバックアップをこの表現に拡張する必要がある。 我々は,値関数の凸性と連続性を証明し,連続状態モデルと神経知覚機構の基盤構造を利用して,有限表現性を保証する2つの値反復アルゴリズムを提案する。 1つは古典的(実際に)値反復アルゴリズムで、Porta et al (2006) の$\alpha$-functions を連続状態空間の P-PWLC 表現に拡張する。 2つ目はNS-HSVIと呼ばれる点ベース(近似)法であり、P-PWLC表現と信念値誘導関数を用いて、粒子ベースと領域ベースという2種類の信念に対して下から上の値関数を近似する。 プロトタイプ実装を用いて,ReLUニューラルネットワークを認識機能,動的駐車場,航空機衝突回避システムとして活用する2つのケーススタディに対して,(ほぼ)最適戦略を合成し,本手法の有効性を実証した。 有限状態POMDPソルバSARSOPとの比較実験により、NS-HSVIは粒子の乱れに対してより堅牢であることが示された。

Neuro-symbolic artificial intelligence is an emerging area that combines traditional symbolic techniques with neural networks. In this paper, we consider its application to sequential decision making under uncertainty. We introduce neuro-symbolic partially observable Markov decision processes (NS-POMDPs), which model an agent that perceives a continuous-state environment using a neural network and makes decisions symbolically, and study the problem of optimising discounted cumulative rewards. This requires functions over continuous-state beliefs, for which we propose a novel piecewise linear and convex representation (P-PWLC) in terms of polyhedra covering the continuous-state space and value vectors, and extend Bellman backups to this representation. We prove the convexity and continuity of value functions and present two value iteration algorithms that ensure finite representability by exploiting the underlying structure of the continuous-state model and the neural perception mechanism. The first is a classical (exact) value iteration algorithm extending $\alpha$-functions of Porta et al (2006) to the P-PWLC representation for continuous-state spaces. The second is a point-based (approximate) method called NS-HSVI, which uses the P-PWLC representation and belief-value induced functions to approximate value functions from below and above for two types of beliefs, particle-based and region-based. Using a prototype implementation, we show the practical applicability of our approach on two case studies that employ (trained) ReLU neural networks as perception functions, dynamic car parking and an aircraft collision avoidance system, by synthesising (approximately) optimal strategies. An experimental comparison with the finite-state POMDP solver SARSOP demonstrates that NS-HSVI is more robust to particle disturbances.
翻訳日:2023-07-03 12:13:45 公開日:2023-06-30
# なぜ深層モデルが分子特性予測の非深層モデルに勝てないのか?

Why Deep Models Often cannot Beat Non-deep Counterparts on Molecular Property Prediction? ( http://arxiv.org/abs/2306.17702v1 )

ライセンス: Link先を確認
Jun Xia, Lecheng Zhang, Xiao Zhu, Stan Z.Li(参考訳) 分子特性予測(mpp)は薬物発見パイプラインにおいて重要なタスクであり、深層ニューラルネットワークの進歩により最近かなりの注目を集めている。 しかし最近の研究では、ディープモデルが従来の非ディープモデルにMPPで打ち勝つのに苦労していることが明らかになっている。 本研究では14分子データセット上で12種類の代表モデル(非ディープモデル3とディープモデル9)をベンチマークした。 これまでの最も包括的な研究を通じて、以下の重要な観察を行う: \textbf{(\romannumeral 1)} 深層モデルは一般に非深層モデルよりも優れていない; \textbf{(\romannumeral 2)} mppにおける深層モデルの失敗は、分子データセットの小さなサイズだけでは説明できない。 特に\textbf{(\romannumeral 3)} では、入力として分子指紋を使用するツリーモデルが、他の競合製品よりも優れたパフォーマンスを示す傾向がある。 さらに,これらの現象の根底にある分子データの特異なパターンと様々なモデルの帰納的バイアスについて,広範な経験的考察を行う。

Molecular property prediction (MPP) is a crucial task in the drug discovery pipeline, which has recently gained considerable attention thanks to advances in deep neural networks. However, recent research has revealed that deep models struggle to beat traditional non-deep ones on MPP. In this study, we benchmark 12 representative models (3 non-deep models and 9 deep models) on 14 molecule datasets. Through the most comprehensive study to date, we make the following key observations: \textbf{(\romannumeral 1)} Deep models are generally unable to outperform non-deep ones; \textbf{(\romannumeral 2)} The failure of deep models on MPP cannot be solely attributed to the small size of molecular datasets. What matters is the irregular molecule data pattern; \textbf{(\romannumeral 3)} In particular, tree models using molecular fingerprints as inputs tend to perform better than other competitors. Furthermore, we conduct extensive empirical investigations into the unique patterns of molecule data and inductive biases of various models underlying these phenomena.
翻訳日:2023-07-03 12:07:55 公開日:2023-06-30
# ニューラル・オン・ニューラルなジェンダー保護へのアプローチ

Beyond Neural-on-Neural Approaches to Speaker Gender Protection ( http://arxiv.org/abs/2306.17700v1 )

ライセンス: Link先を確認
Loes van Bemmel, Zhuoran Liu, Nik Vaessen, Martha Larson(参考訳) 最近の研究では、性推論攻撃から守るために音声を修飾する手法が提案されている。 これらの保護アルゴリズムの目標は、プライバシーに敏感な属性である話者の性別に関する情報の可用性を制御することである。 現在、ジェンダー保護アルゴリズムの開発とテストの一般的な実践は「ニューラル・オン・ニューラル(neural-on-neural)」である。 本稿では、ジェンダー保護の研究を強化するために、この実践を超越することを提案する。 まず,従来のニューラル分類器と並行して,言語科学者が歴史的に開発した音声特徴に基づく性推論攻撃をテストすることの重要性を実証する。 次に、研究者は音声の特徴を利用して、保護的な修正が音声信号をどのように変化させるかを理解するべきであると論じる。 最後に,性別保護アルゴリズムは,解釈性の向上と事前保護の実現のために,新たな「声の敵」である人間による音声適応と比較されるべきである,と指摘する。

Recent research has proposed approaches that modify speech to defend against gender inference attacks. The goal of these protection algorithms is to control the availability of information about a speaker's gender, a privacy-sensitive attribute. Currently, the common practice for developing and testing gender protection algorithms is "neural-on-neural", i.e., perturbations are generated and tested with a neural network. In this paper, we propose to go beyond this practice to strengthen the study of gender protection. First, we demonstrate the importance of testing gender inference attacks that are based on speech features historically developed by speech scientists, alongside the conventionally used neural classifiers. Next, we argue that researchers should use speech features to gain insight into how protective modifications change the speech signal. Finally, we point out that gender-protection algorithms should be compared with novel "vocal adversaries", human-executed voice adaptations, in order to improve interpretability and enable before-the-mic protection.
翻訳日:2023-07-03 12:07:39 公開日:2023-06-30
# オープンセット半教師付き学習のためのラベルなしデータの探索と公開

Exploration and Exploitation of Unlabeled Data for Open-Set Semi-Supervised Learning ( http://arxiv.org/abs/2306.17699v1 )

ライセンス: Link先を確認
Ganlong Zhao, Guanbin Li, Yipeng Qin, Jinjin Zhang, Zhenhua Chai, Xiaolin Wei, Liang Lin, Yizhou Yu(参考訳) 本稿では,Open-set SSLと呼ばれる半教師付き学習(SSL)において,非ラベル付きデータには,非配布(ID)とアウト・オブ・ディストリビューション(OOD)の両方が含まれている,複雑なシナリオに対処する。 IDサンプルのみを有用とみなし、トレーニング中にOODサンプルを完全にフィルタリングすることを目的とした従来の方法とは異なり、IDサンプルとOODサンプルの探索と利用はSSLにとって有益である。 我々の主張を支持するために 一 特徴レベルにおけるサンプル間の類似点と相違点を探索し、それらをいくつかの事前定義されたIDおよびOODプロトタイプを中心に効果的にクラスタリングし、特徴学習とID/OOD識別の促進を図る。 二 重要度に基づくサンプリング手法を提案し、各IDとOODサンプルのSSLに対する重要性の差を利用してサンプリングバイアスを低減し、トレーニングを改善する。 提案手法は, 未ラベルデータにIDサンプルが完全に欠落している場合でも, 既存のSSL方式を改善する。

In this paper, we address a complex but practical scenario in semi-supervised learning (SSL) named open-set SSL, where unlabeled data contain both in-distribution (ID) and out-of-distribution (OOD) samples. Unlike previous methods that only consider ID samples to be useful and aim to filter out OOD ones completely during training, we argue that the exploration and exploitation of both ID and OOD samples can benefit SSL. To support our claim, i) we propose a prototype-based clustering and identification algorithm that explores the inherent similarity and difference among samples at feature level and effectively cluster them around several predefined ID and OOD prototypes, thereby enhancing feature learning and facilitating ID/OOD identification; ii) we propose an importance-based sampling method that exploits the difference in importance of each ID and OOD sample to SSL, thereby reducing the sampling bias and improving the training. Our proposed method achieves state-of-the-art in several challenging benchmarks, and improves upon existing SSL methods even when ID samples are totally absent in unlabeled data.
翻訳日:2023-07-03 12:07:20 公開日:2023-06-30
# 人権擁護者への攻撃検知に関する新しい課題とデータセット

A New Task and Dataset on Detecting Attacks on Human Rights Defenders ( http://arxiv.org/abs/2306.17695v1 )

ライセンス: Link先を確認
Shihao Ran, Di Lu, Joel Tetreault, Aoife Cahill, Alejandro Jaimes(参考訳) 人権擁護者に対する攻撃を時間と場所によって振り返り分析する能力は、人道団体にとって歴史的または進行中の人権侵害をよりよく理解し、そのような出来事のグローバルな影響を管理することが重要である。 我々は,NLPがニュース記事の大量収集を迅速に処理し,人権擁護者に対する攻撃の特徴を検出し,要約することで,そのような取り組みを支援することができると仮定する。 そこで我々は,500のオンラインニュース記事にクラウドソーシングされたアノテーションからなるHRDsAttack(Actions on Human Rights Defenders)を検出する新しいデータセットを提案する。 アノテーションには、攻撃のタイプと場所、および被害者に関する情報に関する詳細な情報が含まれている。 いくつかのサブタスク上でベースラインモデルをトレーニングし,評価し,注釈付き特性を予測することで,データセットの有用性を示す。

The ability to conduct retrospective analyses of attacks on human rights defenders over time and by location is important for humanitarian organizations to better understand historical or ongoing human rights violations and thus better manage the global impact of such events. We hypothesize that NLP can support such efforts by quickly processing large collections of news articles to detect and summarize the characteristics of attacks on human rights defenders. To that end, we propose a new dataset for detecting Attacks on Human Rights Defenders (HRDsAttack) consisting of crowdsourced annotations on 500 online news articles. The annotations include fine-grained information about the type and location of the attacks, as well as information about the victim(s). We demonstrate the usefulness of the dataset by using it to train and evaluate baseline models on several sub-tasks to predict the annotated characteristics.
翻訳日:2023-07-03 12:06:59 公開日:2023-06-30
# GFlowNetsにおける探索改善のためのトンプソンサンプリング

Thompson sampling for improved exploration in GFlowNets ( http://arxiv.org/abs/2306.17693v1 )

ライセンス: Link先を確認
Jarrid Rector-Brooks, Kanika Madan, Moksh Jain, Maksym Korablyov, Cheng-Hao Liu, Sarath Chandar, Nikolay Malkin, Yoshua Bengio(参考訳) 生成フローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の分布からのサンプリングを、学習可能なアクションポリシーを用いたシーケンシャルな意思決定問題として扱うアモータイズされた変分推論アルゴリズムである。 変動境界を最適化する他の階層的サンプリングアルゴリズムとは異なり、GFlowNetアルゴリズムは安定してオフポリシーを走らせることができ、ターゲット分布のモードを発見するのに有利である。 このような行動方針の選択の柔軟性にもかかわらず、訓練のための軌道を効率的に選択する方法はまだ体系的に検討されていない。 本稿では,訓練用軌跡の選択を積極的学習問題として捉え,マルチアームバンディットの手法に着想を得たベイズ的手法を用いてアプローチする。 提案したアルゴリズムであるThompson sample GFlowNets (TS-GFN) は、この後部からのポリシーとサンプル軌跡に近似した後部分布をトレーニングのために維持する。 2つの領域において,ts-gfnにより探索が改善され,目的分布への収束が従来よりも早くなることを示した。

Generative flow networks (GFlowNets) are amortized variational inference algorithms that treat sampling from a distribution over compositional objects as a sequential decision-making problem with a learnable action policy. Unlike other algorithms for hierarchical sampling that optimize a variational bound, GFlowNet algorithms can stably run off-policy, which can be advantageous for discovering modes of the target distribution. Despite this flexibility in the choice of behaviour policy, the optimal way of efficiently selecting trajectories for training has not yet been systematically explored. In this paper, we view the choice of trajectories for training as an active learning problem and approach it using Bayesian techniques inspired by methods for multi-armed bandits. The proposed algorithm, Thompson sampling GFlowNets (TS-GFN), maintains an approximate posterior distribution over policies and samples trajectories from this posterior for training. We show in two domains that TS-GFN yields improved exploration and thus faster convergence to the target distribution than the off-policy exploration strategies used in past work.
翻訳日:2023-07-03 12:06:44 公開日:2023-06-30
# 時系列分類とクラスタリングのための一般時間ワーピング不変辞書学習

Generalized Time Warping Invariant Dictionary Learning for Time Series Classification and Clustering ( http://arxiv.org/abs/2306.17690v1 )

ライセンス: Link先を確認
Ruiyu Xu, Chao Wang, Yongxiang Li, Jianguo Wu(参考訳) 辞書学習は時系列データのパターン認識と分類に有効なツールである。 様々な辞書学習技法の中で、動的時間ワープ(DTW)は時間的遅延、スケーリング、変換、その他多くの時間的ミスアライメント問題を扱うために一般的に使われている。 しかし、DTWは時系列データの整列において、その離散性によって過度な適合や情報損失に悩まされる。 この問題に対処するため,本論文では,一般時間ゆがみ型辞書学習アルゴリズムを提案する。 提案手法は,連続時間ワープを容易にするための連続基底関数の線形結合からなる一般化時間ワープ演算子を特徴とする。 提案した演算子と辞書学習の統合は最適化問題として定式化され,ブロック座標降下法を用いてワープパス,辞書,スパースネス係数を共同最適化する。 最適化された結果は、分類とクラスタリングアルゴリズムを供給するための超空間距離測定として使用される。 辞書学習,分類,クラスタリングにおける提案手法の優位性は,各種ベンチマーク手法との比較において,10組の公開データセットを通じて検証される。

Dictionary learning is an effective tool for pattern recognition and classification of time series data. Among various dictionary learning techniques, the dynamic time warping (DTW) is commonly used for dealing with temporal delays, scaling, transformation, and many other kinds of temporal misalignments issues. However, the DTW suffers overfitting or information loss due to its discrete nature in aligning time series data. To address this issue, we propose a generalized time warping invariant dictionary learning algorithm in this paper. Our approach features a generalized time warping operator, which consists of linear combinations of continuous basis functions for facilitating continuous temporal warping. The integration of the proposed operator and the dictionary learning is formulated as an optimization problem, where the block coordinate descent method is employed to jointly optimize warping paths, dictionaries, and sparseness coefficients. The optimized results are then used as hyperspace distance measures to feed classification and clustering algorithms. The superiority of the proposed method in terms of dictionary learning, classification, and clustering is validated through ten sets of public datasets in comparing with various benchmark methods.
翻訳日:2023-07-03 12:06:26 公開日:2023-06-30
# 短期量子プロセッサにおけるフォールトトレラントコードスイッチングプロトコル

Fault-Tolerant Code Switching Protocols for Near-Term Quantum Processors ( http://arxiv.org/abs/2306.17686v1 )

ライセンス: Link先を確認
Friederike Butt, Sascha Heu{\ss}en, Manuel Rispler, Markus M\"uller(参考訳) トポロジカルカラーコードは、フォールトトレラント量子コンピューティングの有望な候補として広く認められている。 しかし、2次元の位相も3次元の位相も、T-ゲートが2次元のときとH-ゲートが欠落しているような普遍ゲート集合$$$$$$H, T, CNOT$\}$は提供できない。 これらの分離トポロジの相補的な欠点は、論理状態を維持しながら2次元と3次元のコードを切り替えることで、組み合わせたアプローチで克服することができる。 本研究では,フラグ量子ビットに基づくフォールトトレラント量子回路を用いた2次元および3次元距離3色コードのための,資源最適化決定性および非決定性コードスイッチングプロトコルを構築する。 決定論的プロトコルは、エンコードされた量子状態上の論理ゲートのフォールトトレラントな実装を可能にするが、非決定性プロトコルは、マジック状態のフォールトトレラントな構成に使用できる。 最先端のトラップイオン量子プロセッサの誤差率を基準として、決定論的論理ゲートに対して論理障害確率が3$%$であることを見出した。 マジック状態準備プロトコルにおける3次元距離3色符号を[1]で導入したモルヒド符号に置き換えることにより、論理的故障率を2桁に減らし、短期量子プロセッサ上でのマジック状態作成の実行可能な方法となる。 その結果、コードスイッチングにより、実環境下でのユニバーサルゲートセットのフォールトトレラントかつ決定論的実装が可能となり、これにより、ユビキタスでフォールトトレラントな量子コンピューティングを前進させ、最初に誤り訂正された論理量子ビット上で量子アルゴリズムを有効にすることができる。

Topological color codes are widely acknowledged as promising candidates for fault-tolerant quantum computing. Neither a two-dimensional nor a three-dimensional topology, however, can provide a universal gate set $\{$H, T, CNOT$\}$, with the T-gate missing in the two-dimensional and the H-gate in the three-dimensional case. These complementary shortcomings of the isolated topologies may be overcome in a combined approach, by switching between a two- and a three-dimensional code while maintaining the logical state. In this work, we construct resource-optimized deterministic and non-deterministic code switching protocols for two- and three-dimensional distance-three color codes using fault-tolerant quantum circuits based on flag-qubits. Deterministic protocols allow for the fault-tolerant implementation of logical gates on an encoded quantum state, while non-deterministic protocols may be used for the fault-tolerant preparation of magic states. Taking the error rates of state-of-the-art trapped-ion quantum processors as a reference, we find a logical failure probability of $3\%$ for deterministic logical gates, which cannot be realized transversally in the respective code. By replacing the three-dimensional distance-three color code in the protocol for magic state preparation with the morphed code introduced in [1], we reduce the logical failure rates by two orders of magnitude, thus rendering it a viable method for magic state preparation on near-term quantum processors. Our results demonstrate that code switching enables the fault-tolerant and deterministic implementation of a universal gate set under realistic conditions, and thereby provide a practical avenue to advance universal, fault-tolerant quantum computing and enable quantum algorithms on first, error-corrected logical qubits.
翻訳日:2023-07-03 12:06:08 公開日:2023-06-30
# ads標準化の展望:その現状と関連する研究課題を理解する

ADS Standardization Landscape: Making Sense of its Status and of the Associated Research Questions ( http://arxiv.org/abs/2306.17682v1 )

ライセンス: Link先を確認
Scott Schnelle and Francesca M. Favaro(参考訳) ADS(Automated Driving Systems)は、安全性、モビリティ、エクイティを高める大きな可能性を秘めている。 しかし、公的な承認なしには、これらの約束は達成できない。 公的な信頼を得るために、ADSコミュニティの多くの団体が、協力的アプローチを通じて業界全体の安全を高めることを目的として、標準開発組織(SDO)に参加している。 ADSの安全標準化の展望の幅と深さは、急速に進化する新しい技術と同様に、大きく、常に変化している。 ADS産業の発展のペースは、各標準で触れられたトピックや各トピックに対処する委員会など、公益と利害関係者が現在進行中のSDO活動の追跡を困難にし、また、作成されるドキュメントの豊富さを理解している。 そこで著者らは, ADS の安全基準を高水準の長期的テーマに抽象化し, 整理するための簡易な枠組みを提示する。 この枠組みは、まだ広く採用されている産業のポジションに達していない関連研究質問の開発と組織化と、さらなる研究と標準化が必要な潜在的なギャップの特定に利用される。

Automated Driving Systems (ADS) hold great potential to increase safety, mobility, and equity. However, without public acceptance, none of these promises can be fulfilled. To engender public trust, many entities in the ADS community participate in standards development organizations (SDOs) with the goal of enhancing safety for the entire industry through a collaborative approach. The breadth and depth of the ADS safety standardization landscape is vast and constantly changing, as often is the case for novel technologies in rapid evolution. The pace of development of the ADS industry makes it hard for the public and interested parties to keep track of ongoing SDO efforts, including the topics touched by each standard and the committees addressing each topic, as well as make sense of the wealth of documentation produced. Therefore, the authors present here a simplified framework for abstracting and organizing the current landscape of ADS safety standards into high-level, long term themes. This framework is then utilized to develop and organize associated research questions that have not yet reached widely adopted industry positions, along with identifying potential gaps where further research and standardization is needed.
翻訳日:2023-07-03 12:05:36 公開日:2023-06-30
# 生成的視覚質問応答のためのマルチモーダルプロンプト検索

Multimodal Prompt Retrieval for Generative Visual Question Answering ( http://arxiv.org/abs/2306.17675v1 )

ライセンス: Link先を確認
Timothy Ossowski, Junjie Hu(参考訳) 近年,vqa (visual question answering) などの知識集約タスクにおいて,事前学習された視覚言語モデルの印象的な結果が報告されている。 vqaの最近の進歩にもかかわらず、既存の手法では、事前に定義されたラベルセット内の回答を予測する識別的定式化を主に採用しており、制限されたラベル付きデータ(医学など)による低リソースドメインのオーバーフィットや、ドメインシフトによる非一般化が容易になっている。 そこで本研究では,mpr (multimodal prompt retrieval) を用いて,検索されたプロンプトとマルチモーダル機能を統合し,自由テキストで回答を生成する新しい生成モデルを提案する。 当社の生成モデルは,データセットをまたいだ非知覚データ分布とオープンセットの回答ラベルに対して,迅速なゼロショットデータセット適応を可能にする。 医療用VQAタスクの実験では、MPRはドメイン適応の設定において、最大30%の精度で検索不能なタスクを上回ります。

Recent years have witnessed impressive results of pre-trained vision-language models on knowledge-intensive tasks such as visual question answering (VQA). Despite the recent advances in VQA, existing methods mainly adopt a discriminative formulation that predicts answers within a pre-defined label set, leading to easy overfitting on low-resource domains with limited labeled data (e.g., medicine) and poor generalization under domain shift to another dataset. To tackle this limitation, we propose a novel generative model enhanced by multimodal prompt retrieval (MPR) that integrates retrieved prompts and multimodal features to generate answers in free text. Our generative model enables rapid zero-shot dataset adaptation to unseen data distributions and open-set answer labels across datasets. Our experiments on medical VQA tasks show that MPR outperforms its non-retrieval counterpart by up to 30% accuracy points in a few-shot domain adaptation setting.
翻訳日:2023-07-03 12:05:15 公開日:2023-06-30
# X-RiSAWOZ:多言語対話データセットとFew-shot Agent

X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents ( http://arxiv.org/abs/2306.17674v1 )

ライセンス: Link先を確認
Mehrad Moradshahi, Tianhao Shen, Kalika Bali, Monojit Choudhury, Ga\"el de Chalendar, Anmol Goel, Sungkyun Kim, Prashant Kodali, Ponnurangam Kumaraguru, Nasredine Semmar, Sina J. Semnani, Jiwon Seo, Vivek Seshadri, Manish Shrivastava, Michael Sun, Aditya Yadavalli, Chaobin You, Deyi Xiong and Monica S. Lam(参考訳) タスク指向の対話研究は主に、新しい言語のためのデータセット作成コストが高いため、英語や中国語のようないくつかのポピュラーな言語に焦点を当てている。 コストを削減するため、手動編集を自動翻訳データに適用する。 我々は、中国語のRiSAWOZを4つの言語(英語、フランス語、ヒンディー語、韓国語)に翻訳し、X-RiSAWOZという新しい多言語ベンチマークを作成する。 X-RiSAWOZは、言語毎に18,000以上の人間認証された対話発話を持ち、多くの多言語以前の作業とは異なり、完全に機能するエージェントを構築するためのエンドツーエンドデータセットである。 X-RiSAWOZの作成に遭遇した多くの困難が、翻訳後の新しい言語データセットの編集を高速化するツールセットの開発に繋がった。 このツールセットは、ニューラルネットワークと辞書ベースのメソッドを組み合わせたハイブリッドエンティティアライメント技術と、多数の自動および半自動バリデーションチェックによって、機械翻訳を改善する。 X-RiSAWOZでは,ターゲット言語で限られた金のデータが利用できるゼロ・数ショット設定で対話エージェントを訓練することで,強力なベースラインを確立する。 この結果から,我々の翻訳・後編集手法やツールセットを用いて,高品質な多言語対話エージェントを低コストで作成できることが示唆された。 私たちのデータセット、コード、ツールキットはオープンソースでリリースされています。

Task-oriented dialogue research has mainly focused on a few popular languages like English and Chinese, due to the high dataset creation cost for a new language. To reduce the cost, we apply manual editing to automatically translated data. We create a new multilingual benchmark, X-RiSAWOZ, by translating the Chinese RiSAWOZ to 4 languages: English, French, Hindi, Korean; and a code-mixed English-Hindi language. X-RiSAWOZ has more than 18,000 human-verified dialogue utterances for each language, and unlike most multilingual prior work, is an end-to-end dataset for building fully-functioning agents. The many difficulties we encountered in creating X-RiSAWOZ led us to develop a toolset to accelerate the post-editing of a new language dataset after translation. This toolset improves machine translation with a hybrid entity alignment technique that combines neural with dictionary-based methods, along with many automated and semi-automated validation checks. We establish strong baselines for X-RiSAWOZ by training dialogue agents in the zero- and few-shot settings where limited gold data is available in the target language. Our results suggest that our translation and post-editing methodology and toolset can be used to create new high-quality multilingual dialogue agents cost-effectively. Our dataset, code, and toolkit are released open-source.
翻訳日:2023-07-03 12:04:56 公開日:2023-06-30
# トークン化の可能性に限界を設けるべきか?

Should you marginalize over possible tokenizations? ( http://arxiv.org/abs/2306.17757v1 )

ライセンス: Link先を確認
Nadezhda Chirkova, Germ\'an Kruszewski, Jos Rozen, Marc Dymetman(参考訳) 自己回帰言語モデル(LM)はトークンシーケンスを確率にマッピングする。 任意の文字列(例えば英語の文)の確率を計算する通常の方法は、まずそれをモデルによって得点されるトークン列に変換することである。 しかし、任意の文字列を表すトークン列は指数関数的に多数存在する。 弦の確率を真に計算するためには、典型的には難解な全てのトークン化を極小化すべきである。 ここでは,限界化を無視する慣行が正当化されるか否かを分析する。 この目的のために、我々は限界確率の推定値を計算し、最先端のモデルとデータセットの範囲でデフォルトの手順と比較できる重要サンプリングベースのアルゴリズムを考案した。 以上の結果から,ログ類似度が0.5%以下である場合が多いが,長い複雑な単語を持つデータではより顕著になる。

Autoregressive language models (LMs) map token sequences to probabilities. The usual practice for computing the probability of any character string (e.g. English sentences) is to first transform it into a sequence of tokens that is scored by the model. However, there are exponentially many token sequences that represent any given string. To truly compute the probability of a string one should marginalize over all tokenizations, which is typically intractable. Here, we analyze whether the practice of ignoring the marginalization is justified. To this end, we devise an importance-sampling-based algorithm that allows us to compute estimates of the marginal probabilities and compare them to the default procedure in a range of state-of-the-art models and datasets. Our results show that the gap in log-likelihood is no larger than 0.5% in most cases, but that it becomes more pronounced for data with long complex words.
翻訳日:2023-07-03 11:57:20 公開日:2023-06-30
# TD Convergence: 最適化の観点から

TD Convergence: An Optimization Perspective ( http://arxiv.org/abs/2306.17750v1 )

ライセンス: Link先を確認
Kavosh Asadi, Shoham Sabach, Yao Liu, Omer Gottesman, Rasool Fakoor(参考訳) 本稿では,TD学習アルゴリズムの収束挙動について検討する。 最適化のレンズを通してアルゴリズムを見ることにより、まず、tdは、最小化された関数が反復毎に変化する反復最適化アルゴリズムと見なすことができる。 古典的反例でtdが示す発散を慎重に調べることにより、アルゴリズムの収束性または発散性を決定する2つの力を特定する。 次に2次損失を伴う線形TD設定での発見を定式化し、TDヒンジの収束がこれら2つの力の間の相互作用に依存することを示す。 この最適化の観点を拡張して、線形近似や二乗損失よりもはるかに広い条件でTDの収束を証明する。 本結果は,強化学習におけるTDの有効利用に関する理論的説明を提供する。

We study the convergence behavior of the celebrated temporal-difference (TD) learning algorithm. By looking at the algorithm through the lens of optimization, we first argue that TD can be viewed as an iterative optimization algorithm where the function to be minimized changes per iteration. By carefully investigating the divergence displayed by TD on a classical counter example, we identify two forces that determine the convergent or divergent behavior of the algorithm. We next formalize our discovery in the linear TD setting with quadratic loss and prove that convergence of TD hinges on the interplay between these two forces. We extend this optimization perspective to prove convergence of TD in a much broader setting than just linear approximation and squared loss. Our results provide a theoretical explanation for the successful application of TD in reinforcement learning.
翻訳日:2023-07-03 11:56:56 公開日:2023-06-30
# 差別かサマリア人 -- 人類に必要なAIはどれか? ハイブリッド型AI人口の進化ゲーム理論解析

Discriminatory or Samaritan -- which AI is needed for humanity? An Evolutionary Game Theory Analysis of Hybrid Human-AI populations ( http://arxiv.org/abs/2306.17747v1 )

ライセンス: Link先を確認
Tim Booker, Manuel Miranda, Jes\'us A. Moreno L\'opez, Jos\'e Mar\'ia Ramos Fern\'andez, Max Reddel, Valeria Widler, Filippo Zimmaro, Alberto Antonioni, The Anh Han(参考訳) 人工知能(AI)システムが私たちの生活にますます埋め込まれていくにつれて、その存在は私たちの行動、意思決定、社会的相互作用を形成する相互作用につながります。 既存の理論的研究は主に人間と人間の相互作用に焦点を当てており、AIの存在によって引き起こされるユニークなダイナミクスを見下ろしている。 本稿では,進化ゲーム理論の手法を用いて,aiの異なる形態が人間集団における協調の進化にどのように影響するかを考察する。 その結果,不在者を含む全員を無条件で支援するサマリア人のAIエージェントは,特に変化を注意や抵抗(選択の強度が小さい)で見なすスロームーブメント社会において,価値/協力性にのみ寄与する識別的AIよりも高いレベルの協力を促進することができることがわかった。 直感的には、素早く動く社会(選択の強度が高い)では、差別的AIはサマリア人のAIよりも高いレベルの協力を促進する。

As artificial intelligence (AI) systems are increasingly embedded in our lives, their presence leads to interactions that shape our behaviour, decision-making, and social interactions. Existing theoretical research has primarily focused on human-to-human interactions, overlooking the unique dynamics triggered by the presence of AI. In this paper, resorting to methods from evolutionary game theory, we study how different forms of AI influence the evolution of cooperation in a human population playing the one-shot Prisoner's Dilemma game in both well-mixed and structured populations. We found that Samaritan AI agents that help everyone unconditionally, including defectors, can promote higher levels of cooperation in humans than Discriminatory AI that only help those considered worthy/cooperative, especially in slow-moving societies where change is viewed with caution or resistance (small intensities of selection). Intuitively, in fast-moving societies (high intensities of selection), Discriminatory AIs promote higher levels of cooperation than Samaritan AIs.
翻訳日:2023-07-03 11:56:28 公開日:2023-06-30
# 量子パラドックス的知識

Quantum paradoxical knowledge ( http://arxiv.org/abs/2306.17743v1 )

ライセンス: Link先を確認
Benjamin Schumacher and Michael D. Westmoreland(参考訳) 量子「ピジョンホールパラドックス」を、順序、関数、グラフを含む任意の種類の粒子関係を含む量子パラドックスに一般化する。

We generalize the quantum "pigeonhole paradox" to quantum paradoxes involving arbitrary types of particle relations, including orderings, functions and graphs.
翻訳日:2023-07-03 11:56:02 公開日:2023-06-30
# トークンイベント・ロール構造に基づくマルチチャネル文書・レベルイベント抽出

Token-Event-Role Structure-based Multi-Channel Document-Level Event Extraction ( http://arxiv.org/abs/2306.17733v1 )

ライセンス: Link先を確認
Qizhi Wan, Changxuan Wan, Keli Xiao, Hui Xiong, Dexi Liu, Xiping Liu(参考訳) 文書レベルのイベント抽出は、エンティティ抽出、イベントタイプ判定、イベントタイプ固有のマルチイベント抽出といったサブタスクのシーケンスを含む、長年にわたって困難な情報検索問題である。 しかし、問題を複数の学習タスクとして扱うと、モデルの複雑さが増す。 また、既存手法では、異なるイベントを横断するエンティティの相関が不十分であり、イベント抽出性能が制限される。 本稿では,token-event-roleと呼ばれる新しいデータ構造とマルチチャネル引数ロール予測モジュールを組み込んだ,ドキュメントレベルのイベント抽出のための新しいフレームワークを提案する。 提案したデータ構造により,複数のイベントにおけるトークンの主要な役割を明らかにすることが可能になる。 マルチチャネル予測モジュールを利用することで、エンティティとマルチイベント抽出をトークンとイベントのペアを予測する単一のタスクに変換し、パラメータ全体のサイズを削減し、モデルの効率を向上させる。 その結果,本手法はF1スコアにおいて9.5ポイント向上し,イベント抽出における優れた性能を示した。 さらに,提案するデータ構造がイベント抽出タスクを改善する上で有意な価値があることを確認し,フレームワーク全体の性能向上におけるその重要性を検証した。

Document-level event extraction is a long-standing challenging information retrieval problem involving a sequence of sub-tasks: entity extraction, event type judgment, and event type-specific multi-event extraction. However, addressing the problem as multiple learning tasks leads to increased model complexity. Also, existing methods insufficiently utilize the correlation of entities crossing different events, resulting in limited event extraction performance. This paper introduces a novel framework for document-level event extraction, incorporating a new data structure called token-event-role and a multi-channel argument role prediction module. The proposed data structure enables our model to uncover the primary role of tokens in multiple events, facilitating a more comprehensive understanding of event relationships. By leveraging the multi-channel prediction module, we transform entity and multi-event extraction into a single task of predicting token-event pairs, thereby reducing the overall parameter size and enhancing model efficiency. The results demonstrate that our approach outperforms the state-of-the-art method by 9.5 percentage points in terms of the F1 score, highlighting its superior performance in event extraction. Furthermore, an ablation study confirms the significant value of the proposed data structure in improving event extraction tasks, further validating its importance in enhancing the overall performance of the framework.
翻訳日:2023-07-03 11:55:57 公開日:2023-06-30
# 多層エキスパートネットワークに基づくNL2SQLの改良

Improved NL2SQL based on Multi-layer Expert Network ( http://arxiv.org/abs/2306.17727v1 )

ライセンス: Link先を確認
Chenduo Hao, Xu Zhang(参考訳) natural language to sql (nl2sql)テクニックは、自然言語クエリを実行可能なsqlステートメントに変換するために使用される。 通常、スロット充填はこの目的を達成するためにマルチタスクケースの分類方法として使用される。 しかし、スロットフィリングは、異なる分類タスクから生じる負のマイグレーション問題により、不正確なSQLステートメントを生成する可能性がある。 この制限を克服するために,本研究では,専用マルチタスク階層ネットワークを利用したMulti-Layer Expert Generate SQL(MLEG-SQL)という新しいアプローチを導入する。 ネットワークの下層は自然言語文の意味的特徴を抽出し、上層は特定の分類タスクを扱う専門的なエキスパートシステムを構築している。 この階層的アプローチは、異なるタスク競合によるパフォーマンス低下を軽減する。 提案手法はwiksqlデータセット上で評価され,正確なsql文の生成に有効であることがわかった。

The Natural Language to SQL (NL2SQL) technique is used to convert natural language queries into executable SQL statements. Typically, slot-filling is employed as a classification method for multi-task cases to achieve this goal. However, slot-filling can result in inaccurate SQL statement generation due to negative migration issues arising from different classification tasks. To overcome this limitation, this study introduces a new approach called Multi-Layer Expert Generate SQL (MLEG-SQL), which utilizes a dedicated multi-task hierarchical network. The lower layer of the network extracts semantic features of natural language statements, while the upper layer builds a specialized expert system for handling specific classification tasks. This hierarchical approach mitigates performance degradation resulting from different task conflicts. The proposed method was evaluated on the WiKSQL dataset and was found to be effective in generating accurate SQL statements.
翻訳日:2023-07-03 11:55:35 公開日:2023-06-30
# flipnerf: 反射光線を反射して、ノベル・ビュー・シンセサイザーを作る

FlipNeRF: Flipped Reflection Rays for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2306.17723v1 )

ライセンス: Link先を確認
Seunghyeon Seo, Yeonjin Chang, Nojun Kwak(参考訳) ニューラル・ラミアンス・フィールド(nerf)は、レンダリングされた画像と単純なアーキテクチャの素晴らしい品質を持つ、新しいビュー合成の主流である。 NeRFは, 連続的な性能向上のために様々な方向に開発されてきたが, 多視点画像の高密度化の必要性は, 実用化に向けての停滞ブロックとして残っている。 そこで本研究では,フリップ反射光を利用した数ショットの新規ビュー合成のための新しい正規化手法であるFlipNeRFを提案する。 反射光は入力線方向と推定される正規ベクトルから明示的に導出され、より正確な表面の正常を推定し、3D幾何学を効果的に学習しながら効果的な追加の訓練線の役割を担っている。 表面の正規度とシーンの深さはどちらも光線に沿った推定密度から導出されるため、正確な表面の正規度はより正確な深さ推定をもたらす。 さらに,FlipNeRFは,不確実性を考慮した不確実性損失とボトルネック特徴整合性損失を推定することにより,複数のシーン構造にまたがって浮動小数点を効果的に低減し,新たな特徴抽出装置を使わずに,フォトコンシステント画素に投射される2つの画素間の特徴レベルの整合性を向上させることができる。 我々のFlipNeRFは、すべてのシナリオにわたる複数のベンチマークでSOTAのパフォーマンスを達成する。

Neural Radiance Field (NeRF) has been a mainstream in novel view synthesis with its remarkable quality of rendered images and simple architecture. Although NeRF has been developed in various directions improving continuously its performance, the necessity of a dense set of multi-view images still exists as a stumbling block to progress for practical application. In this work, we propose FlipNeRF, a novel regularization method for few-shot novel view synthesis by utilizing our proposed flipped reflection rays. The flipped reflection rays are explicitly derived from the input ray directions and estimated normal vectors, and play a role of effective additional training rays while enabling to estimate more accurate surface normals and learn the 3D geometry effectively. Since the surface normal and the scene depth are both derived from the estimated densities along a ray, the accurate surface normal leads to more exact depth estimation, which is a key factor for few-shot novel view synthesis. Furthermore, with our proposed Uncertainty-aware Emptiness Loss and Bottleneck Feature Consistency Loss, FlipNeRF is able to estimate more reliable outputs with reducing floating artifacts effectively across the different scene structures, and enhance the feature-level consistency between the pair of the rays cast toward the photo-consistent pixels without any additional feature extractor, respectively. Our FlipNeRF achieves the SOTA performance on the multiple benchmarks across all the scenarios.
翻訳日:2023-07-03 11:55:22 公開日:2023-06-30
# 非線形量子ドットキャビティqedにおけるフォノン環境の影響 i.経路統合アプローチ

Impact of the phonon environment on the nonlinear quantum-dot-cavity QED. I. Path-integral approach ( http://arxiv.org/abs/2306.17722v1 )

ライセンス: Link先を確認
L.S. Sirkina and E.A. Muljarov(参考訳) 量子強結合系における量子ドット(QD)キャビティ系のコヒーレントダイナミクスに対するフォノン環境の影響を強く示す。 この構造は非線形QDキャビティQEDで実装され、ヘテロダインスペクトル干渉計で確実に測定できる。 本稿では,この系の非線形光学応答に対する半解析的漸近的経路積分に基づくアプローチを提案する。 4波混合光偏光に適用すると、このアプローチは異なる励起と測定チャネル、さらに高次光学非線形性や量子コリケータへのアクセスを提供する。 さらに,非調和型jaynes-cummings(jc)ラダーのフォノンドレッシング状態間の量子遷移の観点から,有用な解析近似を抽出し,非線形光学応答を解析できる。 これらの低温での近似と小さなエクシトン-キャビティカップリングによってよく説明され、正確な解はより強いカップリングとより高い温度のためにそれらから逸脱し、顕著な非マルコフ効果、スペクトル非対称性、JCはしごの強いフォノン再正規化を示す。

We demonstrate a strong influence of the phonon environment on the coherent dynamics of the quantum dot (QD)-cavity system in the quantum strong coupling regime. This regime is implemented in the nonlinear QD-cavity QED and can be reliably measured by heterodyne spectral interferometry. We present a semi-analytic asymptotically exact path integral-based approach to the nonlinear optical response of this system, which includes two key ingredients: Trotter's decomposition and linked-cluster expansion. Applied to the four-wave-mixing optical polarization, this approach provides access to different excitation and measurement channels, as well as to higher-order optical nonlinearities and quantum correlators. Furthermore, it allows us to extract useful analytic approximations and analyze the nonlinear optical response in terms of quantum transitions between phonon-dressed states of the anharmonic Jaynes-Cummings (JC) ladder. Being well described by these approximations at low temperatures and small exciton-cavity coupling, the exact solution deviates from them for stronger couplings and higher temperatures, demonstrating remarkable non-Markovian effects, spectral asymmetry, and strong phonon renormalization of the JC ladder.
翻訳日:2023-07-03 11:54:55 公開日:2023-06-30
# 非線形schr\"odinger方程式の統一理論

Unified theory of the nonlinear Schr\"odinger equation ( http://arxiv.org/abs/2306.17720v1 )

ライセンス: Link先を確認
David Reinhardt, Dean Lee, Wolfgang P. Schleich and Matthias Meister(参考訳) 非線形 schr\"odinger 方程式(英語版)(nlse)はリッチで多用途なモデルであり、1つの空間次元において線型 schr\"odinger 方程式のような定常解と孤立波や量子滴のようなよりエキゾチックな解を持つ。 我々は NLSE の統一理論を示し、立方晶 NLSE の定常解はすべて、クロス比と呼ばれる単数で分類できることを示した。 同じクロス比を持つ任意の2つの解は共形変換を用いて互いに変換することができる。 また、立方晶NLSEと低次NLSEの解の共形双対性を示す。 同じ解析は、多項式ポテンシャルを持つ古典粒子のニュートン力学にも応用できる。 我々のフレームワークは、NLSEの物理学と代数曲線と共形対称性の数学との間の関係をより深く理解する。

The nonlinear Schr\"odinger equation (NLSE) is a rich and versatile model, which in one spatial dimension has stationary solutions similar to those of the linear Schr\"odinger equation as well as more exotic solutions such as solitary waves and quantum droplets. We present a unified theory of the NLSE, showing that all stationary solutions of the cubic-quintic NLSE can be classified according to a single number called the cross-ratio. Any two solutions with the same cross-ratio can be converted into one another using a conformal transformation. We also demonstrate a conformal duality between solutions of cubic-quintic NLSEs and lower-order NLSEs. The same analysis can be applied to the Newtonian dynamics of classical particles with polynomial potentials. Our framework provides a deeper understanding of the connections between the physics of the NLSE and the mathematics of algebraic curves and conformal symmetry.
翻訳日:2023-07-03 11:54:36 公開日:2023-06-30
# 時空変動の電磁信号の抽出

Extracting electromagnetic signatures of spacetime fluctuations ( http://arxiv.org/abs/2306.17706v1 )

ライセンス: Link先を確認
B. Sharmila, Sander M. Vermeulen, and Animesh Datta(参考訳) 我々は、時空距離のゆらぎが電磁放射に与える影響を明らかにするフォーマリズムを示す。 フォーマリズムは電磁場相関の測定を通じて機能し、関連する仮定の明確な評価を可能にする。 形式論の応用として、真空の屈折率のランダムな揺らぎとして現れる時空揺らぎのモデルと、同一位置のミシェルソン干渉計の2つのモデルを提案する。 このモデルを用いて予測した干渉信号とホロメーターとアリゴの実験データを比較した。 干渉計が感度の高い周波数で信号が現れると、可能な時空変動の強さとスケールが制限される。 このフォーマリズムにより、量子時空変動を制約するQUESTのような提案された実験を評価でき、さらに新たな実験を定式化することができる。

We present a formalism to discern the effects of fluctuations of the spacetime metric on electromagnetic radiation. The formalism works via the measurement of electromagnetic field correlations, while allowing a clear assessment of the assumptions involved. As an application of the formalism, we present a model of spacetime fluctuations that appear as random fluctuations of the refractive index of the vacuum in single, and two co-located Michelson interferometers. We compare an interferometric signal predicted using this model to experimental data from the Holometer and aLIGO. We show that if the signal manifests at a frequency at which the interferometers are sensitive, the strength and scale of possible spacetime fluctuations can be constrained. The formalism enables us to evaluate proposed experiments such as QUEST for constraining quantum spacetime fluctuations and to even potentially formulate new experiments.
翻訳日:2023-07-03 11:54:22 公開日:2023-06-30
# 多地点販売取引予測のための階層ベイズ回帰

Hierarchical Bayesian Regression for Multi-Location Sales Transaction Forecasting ( http://arxiv.org/abs/2306.17795v1 )

ライセンス: Link先を確認
John Mark Agosta and Mario Inchiosa(参考訳) 多くの予測モデルの特徴は、自然に階層の形式を取る。 下位レベルは個人またはイベントを表す。 これらの単位は自然に位置や間隔にグループ化され、しばしば複数のレベルで集約される。 関係データベーステーブルのように、グループ化のレベルが交差して結合することもある。 データの構造を表現することに加えて、階層モデルの予測的特徴を適切なレベルに割り当てることができる。 このようなモデルは、すべてのグループを1つに集約する1つのモデルに対して、各グループの個別モデルの場合を一般化することで、グループ間の推論の結果を ``share''' する階層的ベイズ解法に役立ちます。 本稿では,階層型ベイズモデルを用いて店舗フランチャイズにおける1日1日あたりの購買予測を行い,その場所や日数についてグループ分けを行った。 一年間に収集した個々の販売取引データに対して, textsf{stan}パッケージを用いて実演する。 この手法は,データに制限があるというジレンマを解消し,その結果,日や場所の精度が低くなるとともに,精度を向上して多数の場所に拡張可能であることを示す。

The features in many prediction models naturally take the form of a hierarchy. The lower levels represent individuals or events. These units group naturally into locations and intervals or other aggregates, often at multiple levels. Levels of groupings may intersect and join, much as relational database tables do. Besides representing the structure of the data, predictive features in hierarchical models can be assigned to their proper levels. Such models lend themselves to hierarchical Bayes solution methods that ``share'' results of inference between groups by generalizing over the case of individual models for each group versus one model that aggregates all groups into one. In this paper we show our work-in-progress applying a hierarchical Bayesian model to forecast purchases throughout the day at store franchises, with groupings over locations and days of the week. We demonstrate using the \textsf{stan} package on individual sales transaction data collected over the course of a year. We show how this solves the dilemma of having limited data and hence modest accuracy for each day and location, while being able to scale to a large number of locations with improved accuracy.
翻訳日:2023-07-03 11:48:35 公開日:2023-06-30
# 医用画像分類のためのフェデレーション学習における視覚的プライバシー

Vision Through the Veil: Differential Privacy in Federated Learning for Medical Image Classification ( http://arxiv.org/abs/2306.17794v1 )

ライセンス: Link先を確認
Kishore Babu Nampalle, Pradeep Singh, Uppala Vivek Narayan, Balasubramanian Raman(参考訳) 医療におけるディープラーニングアプリケーションの増加は、さまざまな機関にまたがってデータ集約を要求している。 この懸念は、データが自然に敏感であるためにプライバシ保護機構が最優先される医療画像解析において強まる。 直接データ交換なしで協調的なモデルトレーニングを可能にするフェデレーション学習は、有望なソリューションを提供する。 それでも、連合学習の固有の脆弱性は、さらなるプライバシー保護を必要とする。 本研究は,プライバシ保護技術である差分プライバシーを,医用画像分類のための統合学習フレームワークに統合することで,このニーズに対処する。 本稿では,差分プライベートなフェデレーション学習モデルを導入し,プライバシ保護とモデル性能に与える影響を慎重に検討する。 本研究は,モデル精度とプライバシー設定のトレードオフの存在を確認した。 しかし、差分プライバシーにおけるプライバシー予算の戦略的校正は、実質的なプライバシー保護を提供しながら、堅牢な画像分類性能を維持できることを示す。

The proliferation of deep learning applications in healthcare calls for data aggregation across various institutions, a practice often associated with significant privacy concerns. This concern intensifies in medical image analysis, where privacy-preserving mechanisms are paramount due to the data being sensitive in nature. Federated learning, which enables cooperative model training without direct data exchange, presents a promising solution. Nevertheless, the inherent vulnerabilities of federated learning necessitate further privacy safeguards. This study addresses this need by integrating differential privacy, a leading privacy-preserving technique, into a federated learning framework for medical image classification. We introduce a novel differentially private federated learning model and meticulously examine its impacts on privacy preservation and model performance. Our research confirms the existence of a trade-off between model accuracy and privacy settings. However, we demonstrate that strategic calibration of the privacy budget in differential privacy can uphold robust image classification performance while providing substantial privacy protection.
翻訳日:2023-07-03 11:48:15 公開日:2023-06-30
# 低リソース言語用事前学習音声モデルの側方抑制による性能向上に向けて

Towards Improving the Performance of Pre-Trained Speech Models for Low-Resource Languages Through Lateral Inhibition ( http://arxiv.org/abs/2306.17792v1 )

ライセンス: Link先を確認
Andrei-Marius Avram, R\u{a}zvan-Alexandru Sm\u{a}du, Vasile P\u{a}i\c{s}, Dumitru-Clementin Cercel, Radu Ion, and Dan Tufi\c{s}(参考訳) 自然言語処理におけるトランスフォーマモデルからの双方向エンコーダ表現の台頭に伴い、音声コミュニティはそれらの開発手法のいくつかを採用した。 そのため、Wav2Vecモデルは最先端の結果を得るために必要となるデータを減らすために導入された。 この研究は、この知識を生かして、生物過程に触発された、微調整された密集層を側面抑制層に置き換えることで、事前学習された音声モデルの性能を向上させる。 低リソース言語であるルーマニアにおける実験では、側方抑制層を用いて平均12.5%の単語誤り率(wer)が向上した。 さらに,ルーマニア語音声コーパスとロビン技術買収コーパスでそれぞれ1.78%のWERと29.64%のWERが得られた。

With the rise of bidirectional encoder representations from Transformer models in natural language processing, the speech community has adopted some of their development methodologies. Therefore, the Wav2Vec models were introduced to reduce the data required to obtain state-of-the-art results. This work leverages this knowledge and improves the performance of the pre-trained speech models by simply replacing the fine-tuning dense layer with a lateral inhibition layer inspired by the biological process. Our experiments on Romanian, a low-resource language, show an average improvement of 12.5% word error rate (WER) using the lateral inhibition layer. In addition, we obtain state-of-the-art results on both the Romanian Speech Corpus and the Robin Technical Acquisition Corpus with 1.78% WER and 29.64% WER, respectively.
翻訳日:2023-07-03 11:47:59 公開日:2023-06-30
# スピン量子ビットへの量子誤り補正

Tailoring quantum error correction to spin qubits ( http://arxiv.org/abs/2306.17786v1 )

ライセンス: Link先を確認
Bence Het\'enyi and James R. Wootton(参考訳) 半導体構造におけるスピン量子ビットは、制御エレクトロニクスを同じチップに組み込む可能性があり、大規模な2D統合を実現する。 このプラットフォーム上で誤り訂正を行うには、スピン量子ビットの特徴的特徴を考慮する必要がある。 例えば、qubitreadoutは、qubitレイアウトの慎重に再検討を必要とする追加のqubitを含む。 スピン量子ビットに影響を及ぼすノイズは、デファスメントに対する強いバイアスのようなさらなる特異性を持っている。 本研究では,最寄りの接続しか必要とせず,最小限の完全マッチングによる高速復号化が可能な最先端の誤り訂正符号について検討する。 表面コード、xzzxコード、低結合性表面コード、xyz$^2$マッチングコード、およびフロッケ符号と比較すると、エラーしきい値、接続性、論理キュービット符号化の点でそれぞれ異なる利点がある。 これらの誤り訂正符号のそれぞれに必要となるスピンキュービットレイアウトを示し、スピン読み出しに必要な参照キュービットを考慮に入れた。 これらの符号の性能は、ゲートの異なる誤り率、読み出し、量子ビットのデコヒーレンスに対する回路レベルのノイズ計算に基づいて研究されている。

Spin qubits in semiconductor structures bring the promise of large-scale 2D integration, with the possibility to incorporate the control electronics on the same chip. In order to perform error correction on this platform, the characteristic features of spin qubits need to be accounted for. E.g., qubit readout involves an additional qubit which necessitates careful reconsideration of the qubit layout. The noise affecting spin qubits has further peculiarities such as the strong bias towards dephasing. In this work we consider state-of-the-art error correction codes that require only nearest-neighbour connectivity and are amenable to fast decoding via minimum-weight perfect matching. Compared to the surface code, the XZZX code, the reduced-connectivity surface code, the XYZ$^2$ matching code, and the Floquet code all bring different advantages in terms of error threshold, connectivity, or logical qubit encoding. We present the spin-qubit layout required for each of these error correction codes, accounting for reference qubits required for spin readout. The performance of these codes are studied under circuit-level noise accounting for distinct error rates for gates, readout and qubit decoherence during idling stages.
翻訳日:2023-07-03 11:47:44 公開日:2023-06-30
# Look, remember and Reason: 根拠付き合理化による視覚的推論

Look, Remember and Reason: Visual Reasoning with Grounded Rationales ( http://arxiv.org/abs/2306.17778v1 )

ライセンス: Link先を確認
Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit Madan, Roland Memisevic(参考訳) 大規模言語モデルは最近、さまざまな推論タスクで人間レベルのパフォーマンスを示している。 しかし、これらのモデルが複雑な視覚的推論を行う能力はまだ詳しく研究されていない。 多くの視覚的推論タスクにおいて重要な課題は、視覚情報を推論プロセスに密に統合する必要があることである。 我々は,様々な低レベルの視覚能力に依存する人間の視覚問題解決からインスピレーションを得て,この課題に取り組むことを提案する。 視覚情報は、最終回答に達するまでステップバイステップで、低レベルのビジュアルルーチンを使用して段階的に抽出されます。 私たちは同じパラダイムに従い、アーキテクチャの変更を最小限にして既存の大規模言語モデルを有効にし、視覚的な推論問題を解決します。 この目的のために,オブジェクト認識やトラッキングといった低レベルの視覚機能をサブゲートタスクとして統合可能な,視覚入力の合理性を導入する。 CLEVR、CATER、ACREのさまざまな視覚的推論タスクにおいて、これらのタスクに特化して設計された最先端モデルの競合性能を示す。

Large language models have recently shown human level performance on a variety of reasoning tasks. However, the ability of these models to perform complex visual reasoning has not been studied in detail yet. A key challenge in many visual reasoning tasks is that the visual information needs to be tightly integrated in the reasoning process. We propose to address this challenge by drawing inspiration from human visual problem solving which depends on a variety of low-level visual capabilities. It can often be cast as the three step-process of ``Look, Remember, Reason'': visual information is incrementally extracted using low-level visual routines in a step-by-step fashion until a final answer is reached. We follow the same paradigm to enable existing large language models, with minimal changes to the architecture, to solve visual reasoning problems. To this end, we introduce rationales over the visual input that allow us to integrate low-level visual capabilities, such as object recognition and tracking, as surrogate tasks. We show competitive performance on diverse visual reasoning tasks from the CLEVR, CATER, and ACRE datasets over state-of-the-art models designed specifically for these tasks.
翻訳日:2023-07-03 11:47:24 公開日:2023-06-30
# 拡散モデルにおける実測的・漸近的条件サンプリング

Practical and Asymptotically Exact Conditional Sampling in Diffusion Models ( http://arxiv.org/abs/2306.17775v1 )

ライセンス: Link先を確認
Luhuan Wu, Brian L. Trippe, Christian A. Naesseth, David M. Blei, John P. Cunningham(参考訳) 拡散モデルは、分子設計やテキスト・ツー・イメージ生成を含む条件付きタスクで成功している。 しかし、これらの成果は主にタスク固有の条件付きトレーニングやエラーやすいヒューリスティック近似に依存している。 理想的には、条件生成法はタスク固有の訓練を必要とせず、幅広い条件分布に対して正確なサンプルを提供するべきである。 この目的のために、Twisted Diffusion Sampler(TDS)を紹介する。 TDSは、拡散モデルの条件分布をターゲットとしたシーケンシャルモンテカルロ(SMC)アルゴリズムである。 主なアイデアは、計算効率が良いSMC技法であるツイストを用いて、漸近的正確性を損なうことなくヒューリスティック近似を組み込むことである。 シミュレーションおよびMNIST画像の塗装およびクラス条件生成タスクにおいて、TDSが計算統計トレードオフを提供し、多くの粒子でより正確な近似を与えるが、2つの粒子でヒューリスティックスよりも経験的改善を与える。 次に,タンパク質設計のコアタスクであるモチーフスカフォールディングを,リーマン拡散モデルへのtds拡張を用いて行う。 ベンチマークテストケースでは、tdsは柔軟なコンディショニング基準を許容し、しばしばアートの状態を上回っている。

Diffusion models have been successful on a range of conditional generation tasks including molecular design and text-to-image generation. However, these achievements have primarily depended on task-specific conditional training or error-prone heuristic approximations. Ideally, a conditional generation method should provide exact samples for a broad range of conditional distributions without requiring task-specific training. To this end, we introduce the Twisted Diffusion Sampler, or TDS. TDS is a sequential Monte Carlo (SMC) algorithm that targets the conditional distributions of diffusion models. The main idea is to use twisting, an SMC technique that enjoys good computational efficiency, to incorporate heuristic approximations without compromising asymptotic exactness. We first find in simulation and on MNIST image inpainting and class-conditional generation tasks that TDS provides a computational statistical trade-off, yielding more accurate approximations with many particles but with empirical improvements over heuristics with as few as two particles. We then turn to motif-scaffolding, a core task in protein design, using a TDS extension to Riemannian diffusion models. On benchmark test cases, TDS allows flexible conditioning criteria and often outperforms the state of the art.
翻訳日:2023-07-03 11:47:08 公開日:2023-06-30
# ニューラルランキングによる高精度抗がん剤選択

Precision Anti-Cancer Drug Selection via Neural Ranking ( http://arxiv.org/abs/2306.17771v1 )

ライセンス: Link先を確認
Vishal Dey and Xia Ning(参考訳) パーソナライズド癌治療は、様々な遺伝学的および分子的文脈において、薬物とがん細胞株の間の複雑な相互作用を徹底的に理解する必要がある。 これを解決するために、大規模薬物応答データを生成するために高スループットスクリーニングが使われ、データ駆動型計算モデルを容易にしている。 このようなモデルは、複雑な薬物-細胞間の相互作用を完全にデータ駆動の方法で捉えることができる。 しかし、各細胞株に最も敏感な薬物を正確に優先することは、依然として重要な課題である。 そこで我々は,様々な種類の癌細胞から複数の細胞株にまたがる大規模薬物応答データを活用するニューラルランキング手法を開発した。 薬物応答予測に主に回帰的および分類手法を用いる既存のアプローチとは異なり,薬物の選択と優先順位付けの目的を薬物ランキング問題として定式化した。 本研究では,薬物および細胞株の潜伏表現を学習する2つのニューラルリストワイドランキング法を提案し,その表現を用いて,学習可能なスコアリング機能を用いて各細胞株の薬物をスコアリングする。 具体的には,既存のListNetに基づいて,ニューラルネットワークによるリストワイドランキング手法であるList-Oneを開発した。 さらに,list-oneとは異なり,すべての感受性薬に注目する新しいリストワイズランキング手法であるlist-allを提案した。 以上の結果から,List-Allはテストセルの50%に対して, hit@20で最大8.6%の大幅な改善を達成して,最高のベースラインを達成できた。 さらに,本手法から学習した潜伏空間は,情報的クラスタリング構造を示し,その基盤となる生物学的特徴を捉えることが示唆された。 さらに,包括的実証評価により,異なる手法(提案手法を含む)の性能を包括的かつ客観的に比較した。

Personalized cancer treatment requires a thorough understanding of complex interactions between drugs and cancer cell lines in varying genetic and molecular contexts. To address this, high-throughput screening has been used to generate large-scale drug response data, facilitating data-driven computational models. Such models can capture complex drug-cell line interactions across various contexts in a fully data-driven manner. However, accurately prioritizing the most sensitive drugs for each cell line still remains a significant challenge. To address this, we developed neural ranking approaches that leverage large-scale drug response data across multiple cell lines from diverse cancer types. Unlike existing approaches that primarily utilize regression and classification techniques for drug response prediction, we formulated the objective of drug selection and prioritization as a drug ranking problem. In this work, we proposed two neural listwise ranking methods that learn latent representations of drugs and cell lines, and then use those representations to score drugs in each cell line via a learnable scoring function. Specifically, we developed a neural listwise ranking method, List-One, on top of the existing method ListNet. Additionally, we proposed a novel listwise ranking method, List-All, that focuses on all the sensitive drugs instead of the top sensitive drug, unlike List-One. Our results demonstrate that List-All outperforms the best baseline with significant improvements of as much as 8.6% in hit@20 across 50% test cell lines. Furthermore, our analyses suggest that the learned latent spaces from our proposed methods demonstrate informative clustering structures and capture relevant underlying biological features. Moreover, our comprehensive empirical evaluation provides a thorough and objective comparison of the performance of different methods (including our proposed ones).
翻訳日:2023-07-03 11:46:49 公開日:2023-06-30
# MTR++:対称シーンモデリングとガイド付きインテンションクエリによるマルチエージェント動作予測

MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and Guided Intention Querying ( http://arxiv.org/abs/2306.17770v1 )

ライセンス: Link先を確認
Shaoshuai Shi, Li Jiang, Dengxin Dai, Bernt Schiele(参考訳) 自律運転システムにとって、複雑な運転シナリオを理解し、情報的決定を行うためには、動作予測が不可欠である。 しかし,交通参加者の多様な行動と複雑な環境条件により,この課題は困難である。 本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。 最初のMTRフレームワークは、変換器エンコーダ・デコーダ構造と学習可能な意図クエリを利用して、将来の軌道の効率的かつ正確な予測を可能にする。 異なる動きのモダリティに対する意図的なクエリをカスタマイズすることにより、MTRは高密度な目標候補への依存を低減しつつ、マルチモーダルな動き予測を改善する。 このフレームワークは、グローバルな意図のローカライゼーション、全体の効率を高めるためのエージェントの意図の同定、および予測された軌道を適応的に精製して精度を向上させる局所的な運動改善の2つの重要なプロセスから構成される。 さらに,複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークも導入した。 MTR++は対称なコンテキストモデリングと相互に誘導された意図的クエリモジュールを導入し、複数のエージェント間の将来の振る舞いの相互作用を促進する。 大規模な実験結果から,MTR++フレームワークは高い競争力を持つ動作予測ベンチマークにおいて最先端の性能を達成し,MTR++フレームワークは前駆体を超越し,複数のエージェントに対する正確なマルチモーダルな将来の軌道予測における性能と効率の向上を示した。

Motion prediction is crucial for autonomous driving systems to understand complex driving scenarios and make informed decisions. However, this task is challenging due to the diverse behaviors of traffic participants and complex environmental contexts. In this paper, we propose Motion TRansformer (MTR) frameworks to address these challenges. The initial MTR framework utilizes a transformer encoder-decoder structure with learnable intention queries, enabling efficient and accurate prediction of future trajectories. By customizing intention queries for distinct motion modalities, MTR improves multimodal motion prediction while reducing reliance on dense goal candidates. The framework comprises two essential processes: global intention localization, identifying the agent's intent to enhance overall efficiency, and local movement refinement, adaptively refining predicted trajectories for improved accuracy. Moreover, we introduce an advanced MTR++ framework, extending the capability of MTR to simultaneously predict multimodal motion for multiple agents. MTR++ incorporates symmetric context modeling and mutually-guided intention querying modules to facilitate future behavior interaction among multiple agents, resulting in scene-compliant future trajectories. Extensive experimental results demonstrate that the MTR framework achieves state-of-the-art performance on the highly-competitive motion prediction benchmarks, while the MTR++ framework surpasses its precursor, exhibiting enhanced performance and efficiency in predicting accurate multimodal future trajectories for multiple agents.
翻訳日:2023-07-03 11:46:21 公開日:2023-06-30
# 隠れルールゲームを用いた強化学習と人間学習の比較

Comparing Reinforcement Learning and Human Learning using the Game of Hidden Rules ( http://arxiv.org/abs/2306.17766v1 )

ライセンス: Link先を確認
Eric Pulick, Vladimir Menkov, Yonatan Mintz, Paul Kantor, Vicki Bier(参考訳) 強化学習(rl)メソッドの信頼性の高い現実世界での展開には、その強みと弱みと、それらが人間のものとどのように異なるかを理解する必要がある。 ヒューマンマシンシステムはより普及し、これらのシステムの設計はヒューマンラーニング(hl)とrlの両方のタスク指向の理解に依存している。 このようにして、学習タスクの構造が学習性能に与える影響を特徴付ける研究が重要となる。 ますます複雑なベンチマーク環境がRL機能の改善につながったが、タスク構造の研究にそのような環境を使うのは難しい。 この課題に対処するために,HLとRLに対するタスク構造の影響の厳密な研究を支援する学習環境を提案する。 本研究では,人間とrlアルゴリズムの性能差を示すタスク構造実験を例示して,環境の有用性を実証する。

Reliable real-world deployment of reinforcement learning (RL) methods requires a nuanced understanding of their strengths and weaknesses and how they compare to those of humans. Human-machine systems are becoming more prevalent and the design of these systems relies on a task-oriented understanding of both human learning (HL) and RL. Thus, an important line of research is characterizing how the structure of a learning task affects learning performance. While increasingly complex benchmark environments have led to improved RL capabilities, such environments are difficult to use for the dedicated study of task structure. To address this challenge we present a learning environment built to support rigorous study of the impact of task structure on HL and RL. We demonstrate the environment's utility for such study through example experiments in task structure that show performance differences between humans and RL algorithms.
翻訳日:2023-07-03 11:45:56 公開日:2023-06-30
# 形状変換器:無限深さおよび幅限界における注意モデル

The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit ( http://arxiv.org/abs/2306.17759v1 )

ライセンス: Link先を確認
Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy(参考訳) 深層学習理論において、表現の共分散行列は、ネットワークのトレーニング可能性を調べるためのプロキシとして機能する。 変圧器の成功に動機づけられ,無限奥行きと幅の比例限界におけるスキップ接続を持つソフトマックス型注意モデルの共分散行列について検討した。 初期化の際には, 確率微分方程式 (SDE) を用いて, 深さ-幅比で表すことができることを示す。 厳密な確率的限界を達成するために、Transformerの注意機構は、Softmax出力をアイデンティティに集中させ、Softmaxロジットを幅依存温度パラメータでスケーリングすることで変更される。 本研究では,SDEによるネットワークの安定性を検証し,残留接続の助けを借りてドリフトと拡散のスケールをエレガントに制御できることを示す。 安定なsdeの存在は、非常に大きな深さと幅であっても共分散構造が十分に機能していることを示し、深層注意モデルにおける階数縮退の悪名高い問題を防ぐ。 最後に、シミュレーションを通して、SDEが対応する有限サイズモデルの驚くほど良い記述を提供することを示す。 我々は、これらのアーキテクチャ変更のために、名前の字形トランスフォーマーを造る。

In deep learning theory, the covariance matrix of the representations serves as a proxy to examine the network's trainability. Motivated by the success of Transformers, we study the covariance matrix of a modified Softmax-based attention model with skip connections in the proportional limit of infinite-depth-and-width. We show that at initialization the limiting distribution can be described by a stochastic differential equation (SDE) indexed by the depth-to-width ratio. To achieve a well-defined stochastic limit, the Transformer's attention mechanism is modified by centering the Softmax output at identity, and scaling the Softmax logits by a width-dependent temperature parameter. We examine the stability of the network through the corresponding SDE, showing how the scale of both the drift and diffusion can be elegantly controlled with the aid of residual connections. The existence of a stable SDE implies that the covariance structure is well-behaved, even for very large depth and width, thus preventing the notorious issues of rank degeneracy in deep attention models. Finally, we show, through simulations, that the SDE provides a surprisingly good description of the corresponding finite-size model. We coin the name shaped Transformer for these architectural modifications.
翻訳日:2023-07-03 11:45:40 公開日:2023-06-30
# トレーニング概念の影響による不公平さの理解

Understanding Unfairness via Training Concept Influence ( http://arxiv.org/abs/2306.17828v1 )

ライセンス: Link先を確認
Yuanshun Yao, Yang Liu(参考訳) モデルの不公平さの原因を知ることは、実践者がデータやアルゴリズムを理解するのに役立つ。 これは重要かつ比較的未調査の作業である。 私たちは、トレーニングデータのレンズを通してこの問題を調査します。 トレーニングデータでは、(1)異なるグループ(例えば、人口統計)からいくつかのサンプルを収集し、(2)異なるラベルを付けた場合、(3)いくつかの特徴が変更された場合、モデルの公平性のパフォーマンスはどのように変化するのだろうか? 言い換えれば、事前定義された概念、すなわち特徴(X)、ラベル(Y)、機密属性(A)といったデータ属性に基づいて、サンプルを反実的に介入・変更することで、トレーニングサンプルの公平性の影響を定量化する。 モデルの不公平性に対するトレーニングサンプルの影響を計算するために、まず、概念が変更された場合のサンプルの反事実バージョンという概念に基づいて、反事実サンプルを生成する。 そして, 実例を訓練に用いた場合, 影響関数による不公平性への影響を算出した。 我々のフレームワークは、観察された不公平さを理解し、トレーニングデータを修復するのに役立つだけでなく、誤ラベルの検出、不均衡表現の修正、公正な標的となる中毒攻撃の検出など、他の多くの応用にも繋がる。

Knowing the causes of a model's unfairness helps practitioners better understand their data and algorithms. This is an important yet relatively unexplored task. We look into this problem through the lens of the training data - one of the major sources of unfairness. We ask the following questions: how would a model's fairness performance change if, in its training data, some samples (1) were collected from a different (e.g. demographic) group, (2) were labeled differently, or (3) some features were changed? In other words, we quantify the fairness influence of training samples by counterfactually intervening and changing samples based on predefined concepts, i.e. data attributes such as features (X), labels (Y), or sensitive attributes (A). To calculate a training sample's influence on the model's unfairness w.r.t a concept, we first generate counterfactual samples based on the concept, i.e. the counterfactual versions of the sample if the concept were changed. We then calculate the resulting impact on the unfairness, via influence function, if the counterfactual samples were used in training. Our framework not only helps practitioners understand the observed unfairness and repair their training data, but also leads to many other applications, e.g. detecting mislabeling, fixing imbalanced representations, and detecting fairness-targeted poisoning attacks.
翻訳日:2023-07-03 11:38:03 公開日:2023-06-30
# 非一様ハイパーグラフに対するスケーラブルテンソル法

Scalable tensor methods for nonuniform hypergraphs ( http://arxiv.org/abs/2306.17825v1 )

ライセンス: Link先を確認
Sinan G. Aksoy, Ilya Amburg, Stephen J. Young(参考訳) 多重線型代数は、ハイパーグラフによってモデル化されたマルチウェイ相互作用を研究するのに自然に現れるが、一般的なハイパーグラフのテンソル法は理論的および実践的な障壁によって妨げられている。 最近提案された隣接テンソルは、非一様ハイパーグラフに適用できるが、実際には形式や解析にコストがかかる。 我々は、このテンソルに対してテンソル時間同ベクトル(ttsv)アルゴリズムを開発し、複雑性を$o(n^r)$から$r$の低次多項式まで改善し、ここで$n$は頂点数、$r$は最大ハイパーエッジサイズである。 我々のアルゴリズムは暗黙的であり、$r$隣接テンソルの形成を避ける。 テンソルベースハイパーグラフ集中度とクラスタリングアルゴリズムを開発することにより,我々のアプローチの柔軟性と実用性を実証する。 また、これらのテンソル測度は、データ上の類似グラフ推論手法と相補的な情報を提供し、既存の行列ベースのアプローチで証明不可能な高次構造を検出できることを示す。

While multilinear algebra appears natural for studying the multiway interactions modeled by hypergraphs, tensor methods for general hypergraphs have been stymied by theoretical and practical barriers. A recently proposed adjacency tensor is applicable to nonuniform hypergraphs, but is prohibitively costly to form and analyze in practice. We develop tensor times same vector (TTSV) algorithms for this tensor which improve complexity from $O(n^r)$ to a low-degree polynomial in $r$, where $n$ is the number of vertices and $r$ is the maximum hyperedge size. Our algorithms are implicit, avoiding formation of the order $r$ adjacency tensor. We demonstrate the flexibility and utility of our approach in practice by developing tensor-based hypergraph centrality and clustering algorithms. We also show these tensor measures offer complementary information to analogous graph-reduction approaches on data, and are also able to detect higher-order structure that many existing matrix-based approaches provably cannot.
翻訳日:2023-07-03 11:37:42 公開日:2023-06-30
# メタ推論:大規模言語モデルのための意味論的シンボリックデコンストラクション

Meta-Reasoning: Semantics-Symbol Deconstruction For Large Language Models ( http://arxiv.org/abs/2306.17820v1 )

ライセンス: Link先を確認
Yiming Wang, Zhuosheng Zhang, Rui Wang(参考訳) 大規模言語モデル(LLM)における記号化手法は,LLMの推論能力の向上に有効であることが示されている。 しかし、これらのアプローチのほとんどは、構文的に完全であいまいさのない形式言語(python、sqlなど)への自然言語マッピングにかかっている。 効果的ではあるが、それらは自然言語そのものから離れ、人間の思考の習慣から逸脱し、コンピュータの実行マインドセットにより多くの力を注ぐ。 対照的に、言語学における記号の概念から始めることで自然言語を単純化し、LLMが様々な自然意味論でラップされた推論問題の共通の定式化と一般的な解を学べるようにしたい。 そこで本研究では,LLMが意味記号のデコンストラクション,すなわち意味分解を自動で達成し,特定の推論タスクの異なる質問を類似した自然言語表現に最大に還元し,類似によって学習し,データ効率のよいインコンストラクション学習を円滑に行えるようにすることを提案する。 実験の結果,メタ推論パラダイムはLLMの推論性能を著しく向上し,実演数が少なくなった。 彼らは推論連鎖だけでなく、ある種のタスクに対する一般的な解も学べる。 特に 7-step Tracking Shuffled Objects のようなシンボリック推論タスクでは、GPT-3 (text-davinci-002) は1つのMeta-Reasoning デモで 99% 以上の精度を達成し、すべての現在の LLM を標準チェーンのプロンプトで上回っている。

Symbolization methods in large language models (LLMs) have been shown effective to improve LLMs' reasoning ability. However, most of these approaches hinge on mapping natural languages to formal languages (e.g., Python, SQL) that are more syntactically complete and free of ambiguity. Although effective, they depart from the natural language itself and deviate from the habits of human thinking, and instead cater more to the execution mindset of computers. In contrast, we hope to simplify natural language by starting from the concept of symbols in linguistics itself, so that LLMs can learn the common formulation and general solution of reasoning problems wrapped in different natural semantics. From this consideration, we propose \textbf{Meta-Reasoning}, which allows LLMs to automatically accomplish semantic-symbol deconstruction, i.e., semantic resolution, to maximally reduce different questions of certain reasoning tasks to similar natural language representation, thus gaining the ability to learn by analogy and facilitating data-efficient in-context learning. Our experiments show that the Meta-Reasoning paradigm saliently enhances LLMs' reasoning performance with fewer demonstrations. They can learn not only reasoning chains but also general solutions to certain types of tasks. In particular, for symbolic reasoning tasks, such as 7-step Tracking Shuffled Objects, GPT-3 (text-davinci-002) achieves over 99% accuracy with only one Meta-Reasoning demonstration, outperforming all current LLMs with the standard chain-of-thought prompting.
翻訳日:2023-07-03 11:37:23 公開日:2023-06-30
# act3d: ロボット操作のための無限分解能動作検出トランスフォーマー

Act3D: Infinite Resolution Action Detection Transformer for Robotic Manipulation ( http://arxiv.org/abs/2306.17817v1 )

ライセンス: Link先を確認
Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki(参考訳) 3d知覚表現は、オクルージョンをエンコードし、空間的推論を簡単にするため、ロボット操作に適している。 多くの操作タスクでは、エンドエフェクタポーズ予測において高い空間精度が必要であり、通常は計算コストが高い高分解能の3d知覚グリッドを必要とする。 その結果、ほとんどの操作ポリシーは2Dで直接動作し、3D誘導バイアスを先導する。 本稿では,6自由度キーポス予測を適応的空間計算による3次元検出としてキャッシングする操作ポリシトランス act3d を提案する。 1つ以上のカメラビューからプロジェクションされていない入力3d機能クラウドとして、自由空間内の3dポイントグリッドを粗密な方法で反復的にサンプリングし、物理的特徴クラウドに対する相対的な空間的注意を使ってそれらを実現し、エンドエフェクタポーズ予測のための最適な特徴点を選択する。 Act3Dは、確立された操作ベンチマークであるRLbenchに、新しい最先端技術を設定する。 本モデルは,74 rlbenchタスクのsoma 2dマルチビューポリシに対して10%の絶対改善を達成し,22%の絶対改善と3倍の計算効率を実現している。 徹底的な改善では,空間的注意,大規模視覚言語で訓練された2Dバックボーン,および粗い目から細い目への重み付けの重要性が示された。 コードとビデオは、私たちのプロジェクトサイト(https://act3d.github.io/)で利用可能です。

3D perceptual representations are well suited for robot manipulation as they easily encode occlusions and simplify spatial reasoning. Many manipulation tasks require high spatial precision in end-effector pose prediction, typically demanding high-resolution 3D perceptual grids that are computationally expensive to process. As a result, most manipulation policies operate directly in 2D, foregoing 3D inductive biases. In this paper, we propose Act3D, a manipulation policy Transformer that casts 6-DoF keypose prediction as 3D detection with adaptive spatial computation. It takes as input 3D feature clouds unprojected from one or more camera views, iteratively samples 3D point grids in free space in a coarse-to-fine manner, featurizes them using relative spatial attention to the physical feature cloud, and selects the best feature point for end-effector pose prediction. Act3D sets a new state-of-the-art in RLbench, an established manipulation benchmark. Our model achieves 10% absolute improvement over the previous SOTA 2D multi-view policy on 74 RLbench tasks and 22% absolute improvement with 3x less compute over the previous SOTA 3D policy. In thorough ablations, we show the importance of relative spatial attention, large-scale vision-language pre-trained 2D backbones, and weight tying across coarse-to-fine attentions. Code and videos are available at our project site: https://act3d.github.io/.
翻訳日:2023-07-03 11:36:49 公開日:2023-06-30
# オンライン等角予測による安全保証によるベイズ最適化

Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction ( http://arxiv.org/abs/2306.17815v1 )

ライセンス: Link先を確認
Yunchuan Zhang, Sangwoo Park and Osvaldo Simeone(参考訳) black-box zero-th order optimizationは金融、物理学、工学など様々な分野のアプリケーションのための中心的なプリミティブである。 この問題の一般的な定式化において、設計者は、システムから各試行の値に対するノイズフィードバックを受けながら、順次、候補解を試行する。 本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討し,最適化プロセスを通じて試される安全でないソリューションの数を制限するために最適化器を制約する。 ベイズ最適化(BO)に基づく手法に着目した先行技術では、安全制約関数の厳密な仮定が満たされる限り、フィードバックノイズよりも制御可能な確率で安全でないソリューションを選択することが保証されるSAFEOPTと呼ばれる最適化スキームが導入された。 本稿では,制約関数の性質に関わらず,安全要件を満たす新しいBOベースのアプローチを提案する。 この強力な理論的保証は、任意で制御可能だがゼロでない安全制約の違反率を許容するコストで得られる。 提案手法は,SAFE-BOCPと呼ばれるオンラインコンフォーマル予測(CP)に基づいており,安全制約に対するフィードバックがノイズのない場合とノイズの多い場合に特化している。 合成および実世界のデータによる実験結果は,提案したSAFE-BOCPの利点と柔軟性を検証した。

Black-box zero-th order optimization is a central primitive for applications in fields as diverse as finance, physics, and engineering. In a common formulation of this problem, a designer sequentially attempts candidate solutions, receiving noisy feedback on the value of each attempt from the system. In this paper, we study scenarios in which feedback is also provided on the safety of the attempted solution, and the optimizer is constrained to limit the number of unsafe solutions that are tried throughout the optimization process. Focusing on methods based on Bayesian optimization (BO), prior art has introduced an optimization scheme -- referred to as SAFEOPT -- that is guaranteed not to select any unsafe solution with a controllable probability over feedback noise as long as strict assumptions on the safety constraint function are met. In this paper, a novel BO-based approach is introduced that satisfies safety requirements irrespective of properties of the constraint function. This strong theoretical guarantee is obtained at the cost of allowing for an arbitrary, controllable but non-zero, rate of violation of the safety constraint. The proposed method, referred to as SAFE-BOCP, builds on online conformal prediction (CP) and is specialized to the cases in which feedback on the safety constraint is either noiseless or noisy. Experimental results on synthetic and real-world data validate the advantages and flexibility of the proposed SAFE-BOCP.
翻訳日:2023-07-03 11:36:23 公開日:2023-06-30
# 歴史的英語の大規模意味的類似性データセット

A Massive Scale Semantic Similarity Dataset of Historical English ( http://arxiv.org/abs/2306.17810v1 )

ライセンス: Link先を確認
Emily Silcock, Melissa Dell(参考訳) タスクの多様性は、意味的類似性データに基づいて訓練された言語モデルを使用する。 セマンティックな類似性をキャプチャするさまざまなデータセットがあるが、それらは現代のWebデータから構築されているか、あるいは人間アノテーションによって過去10年間に作成された比較的小さなデータセットである。 本研究は、1920年から1989年までの70年間に渡り、約4億件のポジティブなセマンティックな類似性ペアを含む大規模なセマンティックな類似性データセットを構築するために、地元紙のコピーライトから新たにデジタル化された新しい情報源を利用する。 歴史的に、アメリカの地方新聞の約半数はap通信のようなニュースワイヤーから来ていた。 地元の新聞はnewswireの記事を再現したが、彼らは独自の見出しを書き、関連する記事の抽象的な要約を形成した。 我々は文書レイアウトと言語理解を利用して記事と見出しを関連付ける。 次に、深層神経法を用いて、ノイズや橋梁の存在下で、どの記事が同じソースからのものであるかを検出する。 再現された記事の見出しは、ポジティブな意味的類似性対を形成する。 その結果公開されたHEADLINESデータセットは、既存のほとんどのセマンティック類似性データセットよりも大幅に大きく、はるかに長い時間にわたってカバーされている。 対照的に訓練されたセマンティックな類似性モデルが、空間と時間にわたるセマンティックな変化の研究を含む様々なタスクに応用される。

A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relatively small datasets created in the past decade by human annotators. This study utilizes a novel source, newly digitized articles from off-copyright, local U.S. newspapers, to assemble a massive-scale semantic similarity dataset spanning 70 years from 1920 to 1989 and containing nearly 400M positive semantic similarity pairs. Historically, around half of articles in U.S. local newspapers came from newswires like the Associated Press. While local papers reproduced articles from the newswire, they wrote their own headlines, which form abstractive summaries of the associated articles. We associate articles and their headlines by exploiting document layouts and language understanding. We then use deep neural methods to detect which articles are from the same underlying source, in the presence of substantial noise and abridgement. The headlines of reproduced articles form positive semantic similarity pairs. The resulting publicly available HEADLINES dataset is significantly larger than most existing semantic similarity datasets and covers a much longer span of time. It will facilitate the application of contrastively trained semantic similarity models to a variety of tasks, including the study of semantic change across space and time.
翻訳日:2023-07-03 11:35:59 公開日:2023-06-30
# デュアルコム分光法による高精度・高ダイナミックレンジ光機械加速度計

High accuracy, high dynamic range optomechanical accelerometry enabled by dual comb spectroscopy ( http://arxiv.org/abs/2306.17809v1 )

ライセンス: Link先を確認
D. A. Long, J. R. Stroud, B. J. Reschovsky, Y. Bao, F. Zhou, S. M. Bresler, T. W. LeBrun, D. F. Plusquellic, J. J. Gorman(参考訳) キャビティ光学センサは極めて感度が高いが、高い精度とダイナミックレンジでキャビティ動作を尋問することは困難であることが証明されている。 ここでは,光周波数コム分光計を用いてマイクロファブリケードキャビティの光学加速度計を読み出し,24g (236 m/s$^2$) の加速でキャビティの変位,微細化,結合の迅速同時測定を行う。 この手法により, マイクロファブリケーションキャビティ光学センサの変位感度は3 fm/hz$^{1/2}$, 測定速度は100 khz, ダイナミックレンジは3.9$\times$ 10$^5$となった。 また,市販の加速度計と直接結合した光学センサの比較では,基準の不確実性によって制限される値である0.5%の一致を示した。 さらに, この手法は加速度計に限らず, 高速, ダイナミックレンジ, 感度の組み合わせが期待できる任意の光学センサに容易に適用することができる。

Cavity optomechanical sensors can offer exceptional sensitivity; however, interrogating the cavity motion with high accuracy and dynamic range has proven to be challenging. Here we employ a dual optical frequency comb spectrometer to readout a microfabricated cavity optomechanical accelerometer, allowing for rapid simultaneous measurements of the cavity's displacement, finesse, and coupling at accelerations up to 24 g (236 m/s$^2$). With this approach, we have achieved a displacement sensitivity of 3 fm/Hz$^{1/2}$, a measurement rate of 100 kHz, and a dynamic range of 3.9 $\times$ 10$^5$ which is the highest we are aware of for a microfabricated cavity optomechanical sensor. In addition, comparisons of our optomechanical sensor coupled directly to a commercial reference accelerometer show agreement at the 0.5% level, a value which is limited by the reference's reported uncertainty. Further, the methods described herein are not limited to accelerometry but rather can be readily applied to nearly any optomechanical sensor where the combination of high speed, dynamic range, and sensitivity is expected to be enabling.
翻訳日:2023-07-03 11:35:37 公開日:2023-06-30
# 循環システム工学

Circular Systems Engineering ( http://arxiv.org/abs/2306.17808v1 )

ライセンス: Link先を確認
Istvan David, Dominik Bork, Gerti Kappel(参考訳) 現代の技術者システムの価値と妥当性の認識は変化している。 機能的・機能的特性に加えて、現在のシステムもサステナビリティ特性によって評価されている。 次世代のシステムの特徴は、そのポストライフを含む全体的な持続可能性の向上であり、効率的な価値保持メカニズムによって駆動される。 現在のシステムエンジニアリングプラクティスは、これらの野心をサポートするために不足しており、適切に修正する必要がある。 本稿では,システム持続可能性のための新しいパラダイムである循環システム工学の概念を紹介する。 システムエンジニアリングの実践を内包する概念参照フレームワークを定義した後、循環システムエンジニアリングの前提条件を導出する。 最後に,循環システム工学に関連する課題と研究機会について概説する。

The perception of the value and propriety of modern engineered systems is changing. In addition to their functional and extra-functional properties, nowadays' systems are also evaluated by their sustainability properties. The next generation of systems will be characterized by an overall elevated sustainability -- including their post-life, driven by efficient value retention mechanisms. Current systems engineering practices fall short to support these ambitions and need to be revised appropriately. In this paper, we introduce the concept of circular systems engineering, a novel paradigm for systems sustainability. After defining a conceptual reference framework to situate systems engineering practices within, we derive prerequisites for circular systems engineering. Finally, we outline the challenges and research opportunities associated with circular systems engineering.
翻訳日:2023-07-03 11:35:14 公開日:2023-06-30
# 分類なし指導でトピックに留まろう

Stay on topic with Classifier-Free Guidance ( http://arxiv.org/abs/2306.17806v1 )

ライセンス: Link先を確認
Guillaume Sanchez, Honglu Fan, Alexander Spangher, Elad Levi, Pawan Sasanka Ammanamanchi, Stella Biderman(参考訳) classifier-free guidance(cfg)は、テキストから画像への生成において、世代間の即応性を促進する軽量な技術として最近登場した。 本研究では,CFGが純粋言語モデリングにおける推論時手法として広く利用できることを示す。 We show that CFG (1) improves the performance of Pythia, GPT-2 and LLaMA-family models across an array of tasks: Q\&A, reasoning, code generation, and machine translation, achieving SOTA on LAMBADA with LLaMA-7B over PaLM-540B; (2) brings improvements equivalent to a model with twice the parameter-count; (3) can stack alongside other inference-time methods like Chain-of-Thought and Self-Consistency, yielding further improvements in difficult tasks; (4) can be used to increase the faithfulness and coherence of assistants in challenging form-driven and content-driven prompts: in a human evaluation we show a 75\% preference for GPT4All using CFG over baseline.

Classifier-Free Guidance (CFG) has recently emerged in text-to-image generation as a lightweight technique to encourage prompt-adherence in generations. In this work, we demonstrate that CFG can be used broadly as an inference-time technique in pure language modeling. We show that CFG (1) improves the performance of Pythia, GPT-2 and LLaMA-family models across an array of tasks: Q\&A, reasoning, code generation, and machine translation, achieving SOTA on LAMBADA with LLaMA-7B over PaLM-540B; (2) brings improvements equivalent to a model with twice the parameter-count; (3) can stack alongside other inference-time methods like Chain-of-Thought and Self-Consistency, yielding further improvements in difficult tasks; (4) can be used to increase the faithfulness and coherence of assistants in challenging form-driven and content-driven prompts: in a human evaluation we show a 75\% preference for GPT4All using CFG over baseline.
翻訳日:2023-07-03 11:35:05 公開日:2023-06-30
# フィルタ正規形における分離性問題のSPC状態への還元

A reduction of the separability problem to SPC states in the filter normal form ( http://arxiv.org/abs/2306.17803v1 )

ライセンス: Link先を確認
Daniel Cariello(参考訳) 近年, 部分的転位の条件下では正な状態(正の係数状態を持つ対称状態, あるいは単にSPC状態と呼ばれる)の分離性問題に対する解法が, 一般には絡み合いに光を当てることが示唆された。 ここでは、そのような解が問題を完全に解決することを示す。 $ \mathcal{M}_k\otimes\mathcal{M}_m$ の状態が与えられたとき、同じシュミット数を持つ $ \mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ の SPC 状態を構築する。 このタイプの状態はその型を保持するフィルター正規形式に置かれることが知られている。 $\mathcal{M}_k\otimes\mathcal{M}_m$ の分離性問題の解は、$\mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ のフィルター正規形におけるSPC状態の同じ問題を解くことで得られる。 このspc状態は、$ \mathbb{c}^{k+m}\otimes\mathbb{c}^{k+m}$の対称部分空間上の射影に任意に近づけることができる。 $ \mathcal{M}_s\otimes\mathcal{M}_t$ $(s+t\leq k+m)$ の絡み合いを理解するために必要なすべての情報は、その射影の周りの小さなボールの中に置かれる。

It was recently suggested that a solution to the separability problem for states that remain positive under partial transpose composed with realignment (the so-called symmetric with positive coefficients states or simply SPC states) could shed light on entanglement in general. Here we show that such a solution would solve the problem completely. Given a state in $ \mathcal{M}_k\otimes\mathcal{M}_m$, we build a SPC state in $ \mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$ with the same Schmidt number. It is known that this type of state can be put in the filter normal form retaining its type. A solution to the separability problem in $\mathcal{M}_k\otimes\mathcal{M}_m$ could be obtained by solving the same problem for SPC states in the filter normal form within $\mathcal{M}_{k+m}\otimes\mathcal{M}_{k+m}$. This SPC state can be build arbitrarily close to the projection on the symmetric subspace of $ \mathbb{C}^{k+m}\otimes\mathbb{C}^{k+m}$. All the information required to understand entanglement in $ \mathcal{M}_s\otimes\mathcal{M}_t$ $(s+t\leq k+m)$ lies inside an arbitrarily small ball around that projection.
翻訳日:2023-07-03 11:34:46 公開日:2023-06-30
# パッチミキシングによるCNNへのVTパッチ選択性

Hardwiring ViT Patch Selectivity into CNNs using Patch Mixing ( http://arxiv.org/abs/2306.17848v1 )

ライセンス: Link先を確認
Ariel N. Lee, Sarah Adel Bargal, Janavi Kasera, Stan Sclaroff, Kate Saenko, Nataniel Ruiz(参考訳) 視覚変換器(ViT)はコンピュータビジョンのランドスケープを大きく変え、畳み込みニューラルネットワーク(CNN)と比較して視覚タスクにおいて定期的に優れた性能を示した。 陪審員はどのモデルが優れているかはまだ明らかになっていないが、それぞれが学習と一般化のパフォーマンスを形作る独自の帰納的バイアスを持っている。 例えば、vitは、早期層非局所的特徴依存に関する興味深い特性と、学習の柔軟性を高める自己照準機構を備えており、文脈外の画像情報をより効果的に無視することができる。 コンテキスト外情報($\textit{patch selectivity}$)を無視しながら、コンテキスト内情報を初期のレイヤに非ローカルな方法で統合することで、vitsがより簡単に閉塞を処理できる、と仮定しています。 本研究では,cnns $\textit{simulate}$のパッチ選択能力をパッチ混合データ拡張法を用いて効果的にハードワイズすることにより確認することを目的としている。 具体的には,最先端のvitsとcnnのトレーニングにパッチミキシングを使用し,文脈外のパッチを無視し,自然な閉塞に対処する能力に与える影響を評価した。 Patch Mixingを用いたトレーニングでは,ViTは改善も劣化もしないことがわかったが,CNNは文脈外情報を無視し,オクルージョンベンチマークを改善するための新機能を新たに取得し,VTがすでに持っている能力をCNNでシミュレートする方法であると結論づける。 パッチミキシング実装と提案するデータセットを一般向けにリリースします。 プロジェクトページ: https://arielnlee.github.io/PatchMixing/

Vision transformers (ViTs) have significantly changed the computer vision landscape and have periodically exhibited superior performance in vision tasks compared to convolutional neural networks (CNNs). Although the jury is still out on which model type is superior, each has unique inductive biases that shape their learning and generalization performance. For example, ViTs have interesting properties with respect to early layer non-local feature dependence, as well as self-attention mechanisms which enhance learning flexibility, enabling them to ignore out-of-context image information more effectively. We hypothesize that this power to ignore out-of-context information (which we name $\textit{patch selectivity}$), while integrating in-context information in a non-local manner in early layers, allows ViTs to more easily handle occlusion. In this study, our aim is to see whether we can have CNNs $\textit{simulate}$ this ability of patch selectivity by effectively hardwiring this inductive bias using Patch Mixing data augmentation, which consists of inserting patches from another image onto a training image and interpolating labels between the two image classes. Specifically, we use Patch Mixing to train state-of-the-art ViTs and CNNs, assessing its impact on their ability to ignore out-of-context patches and handle natural occlusions. We find that ViTs do not improve nor degrade when trained using Patch Mixing, but CNNs acquire new capabilities to ignore out-of-context information and improve on occlusion benchmarks, leaving us to conclude that this training method is a way of simulating in CNNs the abilities that ViTs already possess. We will release our Patch Mixing implementation and proposed datasets for public use. Project page: https://arielnlee.github.io/PatchMixing/
翻訳日:2023-07-03 11:29:19 公開日:2023-06-30
# 時計とピザ:ニューラルネットワークの機械的説明における2つの物語

The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks ( http://arxiv.org/abs/2306.17844v1 )

ライセンス: Link先を確認
Ziqian Zhong, Ziming Liu, Max Tegmark, Jacob Andreas(参考訳) ニューラルネットワークは、よく理解されたアルゴリズムタスクに基づいて訓練され、これらのタスクを解決するための既知のアルゴリズムを確実に再発見するのか? 群算術から文脈内線形回帰までのタスクに関する最近のいくつかの研究は、答えはyesであることを示唆している。 モジュラー加算を原型問題として、ニューラルネットワークにおけるアルゴリズム発見が時として複雑であることを示す。 モデルハイパーパラメータと初期化の小さな変更は、固定されたトレーニングセットから定性的に異なるアルゴリズムの発見を誘導し、そのような複数のアルゴリズムの並列実装を誘導する。 モジュラー加算を行うために訓練されたいくつかのネットワークは、慣れ親しんだクロックアルゴリズムを実装している。 この結果から,単純な学習問題でも驚くほど多様な解が存在することが示され,ニューラルネットワークの動作をアルゴリズム的な位相空間にわたって特徴付ける新たなツールの開発が動機となった。

Do neural networks, trained on well-understood algorithmic tasks, reliably rediscover known algorithms for solving those tasks? Several recent studies, on tasks ranging from group arithmetic to in-context linear regression, have suggested that the answer is yes. Using modular addition as a prototypical problem, we show that algorithm discovery in neural networks is sometimes more complex. Small changes to model hyperparameters and initializations can induce the discovery of qualitatively different algorithms from a fixed training set, and even parallel implementations of multiple such algorithms. Some networks trained to perform modular addition implement a familiar Clock algorithm; others implement a previously undescribed, less intuitive, but comprehensible procedure which we term the Pizza algorithm, or a variety of even more complex procedures. Our results show that even simple learning problems can admit a surprising diversity of solutions, motivating the development of new tools for characterizing the behavior of neural networks across their algorithmic phase space.
翻訳日:2023-07-03 11:28:45 公開日:2023-06-30
# Magic123: 2次元および3次元拡散プリミティブを用いた高品質な3Dオブジェクト生成

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors ( http://arxiv.org/abs/2306.17843v1 )

ライセンス: Link先を確認
Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem(参考訳) Magic123は、高品質でテクスチャ化された3Dメッシュを2Dと3Dの両方の先行画像から生成する2段階粗いアプローチである。 第1段階では、神経放射場を最適化して粗い幾何を生成する。 第2段階では、メモリ効率の良い微分可能なメッシュ表現を採用し、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成する。 いずれの段階でも、参照ビューの監督と、2d拡散前処理と3d拡散前処理の組み合わせによる新しいビューによって3dコンテンツが学習される。 生成した幾何の探索(より想像力のある)と利用(より正確な)を制御するために, 2D と 3D の先行の1つのトレードオフパラメータを導入する。 さらに,テキストインバージョンと単眼深度正規化を用いて,ビュー間の一貫した外観を奨励し,解の退化を防止する。 Magic123は、合成ベンチマークと多様な実世界の画像に関する広範な実験を通じて検証され、従来の画像から3Dへの技術よりも大幅に改善されている。 私たちのコード、モデル、生成された3dアセットは、https://github.com/guochengqian/magic123で利用可能です。

We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
翻訳日:2023-07-03 11:28:26 公開日:2023-06-30
# SPAE:冷凍LDMを用いた多モード生成用セマンティックピラミッドオートエンコーダ

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs ( http://arxiv.org/abs/2306.17842v1 )

ライセンス: Link先を確認
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang(参考訳) 本研究では,凍結LDMが画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを同時に実行できるようにするためのセマンティックピラミッドオートエンコーダ(SPAE)を提案する。 SPAEは、LLMの語彙から抽出された原画素と解釈可能な語彙(または単語)を変換する。 結果として得られるトークンは、視覚的再構成に必要な意味と細かな詳細の両方をキャプチャし、視覚コンテンツをLLMに理解可能な言語に効果的に翻訳し、幅広いマルチモーダルタスクを実行する権限を与える。 本手法は,パーム2とgpt3.5を用いた多種多様な画像理解と生成タスクにおける文脈内学習実験によって検証される。 本手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成する試みとして,初めて成功した試みである。

In this work, we introduce Semantic Pyramid AutoEncoder (SPAE) for enabling frozen LLMs to perform both understanding and generation tasks involving non-linguistic modalities such as images or videos. SPAE converts between raw pixels and interpretable lexical tokens (or words) extracted from the LLM's vocabulary. The resulting tokens capture both the semantic meaning and the fine-grained details needed for visual reconstruction, effectively translating the visual content into a language comprehensible to the LLM, and empowering it to perform a wide array of multimodal tasks. Our approach is validated through in-context learning experiments with frozen PaLM 2 and GPT 3.5 on a diverse set of image understanding and generation tasks. Our method marks the first successful attempt to enable a frozen LLM to generate image content while surpassing state-of-the-art performance in image understanding tasks, under the same setting, by over 25%.
翻訳日:2023-07-03 11:28:05 公開日:2023-06-30
# Statler: 身体的推論のための状態維持型言語モデル

Statler: State-Maintaining Language Models for Embodied Reasoning ( http://arxiv.org/abs/2306.17840v1 )

ライセンス: Link先を確認
Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter(参考訳) 大きな言語モデル(LLM)は、ロボットが複雑なロボット推論タスクを実行できる有望なツールを提供する。 しかし、現代のllmの限られたコンテキストウィンドウは、長い時間軸の推論を困難にしている。 家庭内ロボットが行うことを期待するタスクのような具体化されたタスクは、プランナーが以前から取得した情報を考慮しなければならない(例えば、以前に環境においてロボットが遭遇した多くのオブジェクトの特性)。 LLMの暗黙的な内部表現を用いて世界状態を捉えようとする試みは、ロボットの行動履歴で利用可能なタスク関連および環境関連情報の明細さによって複雑であり、LLMへのプロンプトを介して情報を伝える能力に依存する手法は、その限られたコンテキストウインドウに従う。 本稿では,世界状態の明示的な表現を,時間とともに維持される ``memory'' の形式としてllmを内包するフレームワークである statler を提案する。 Statlerと統合することは、世界モデルリーダーと世界モデルライターである一般LLMの2つのインスタンスを使用して、世界状態とインターフェースし、維持することです。 この世界状態 ``Memory'' へのアクセスを提供することで、Statler はコンテキスト長の制約なしに、既存の LLM が長い時間的水平線を推論する能力を向上させる。 シミュレーションによる3つのテーブルトップ操作領域と実ロボットドメインの有効性を評価し,llmに基づくロボット推論における最先端技術の改善を示す。 プロジェクトウェブサイト: https://statler-lm.github.io/

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/
翻訳日:2023-07-03 11:27:49 公開日:2023-06-30
# 正確に検証可能な状態を超えたゼロノイズ外挿の古典的ベンチマーク

Classical benchmarking of zero noise extrapolation beyond the exactly-verifiable regime ( http://arxiv.org/abs/2306.17839v1 )

ライセンス: Link先を確認
Sajant Anand, Kristan Temme, Abhinav Kandala, Michael Zaletel(参考訳) 最近の研究で、量子エラー軽減プロトコルは、最大$60 \; - \; \mbox{CNOT}$層を持つ127ドルの量子ビットを持つIBM Eagle量子プロセッサの回路から得られる期待値に適用された。 この量子プロトコルの有効性をベンチマークするために、物理的に動機づけられた量子回路ファミリーは、異なる状態における正確な解にアクセスできると考えられていた。 家族はクリフォード回路間を補間し、正確な検証が実用的な低深さで評価された。 高エンタングリングパラメータでは,回路は行列積状態および等尺テンソルネットワーク状態近似法の検証を超えていることがわかった。 ここでは、実験結果をハイゼンベルク進化の行列積演算子シミュレーションと比較し、クリフォード回路と有限作用素成長との密接性を利用してこれらの純粋状態法よりも近い近似を与える。 近年、全回路を最大までシミュレーションするために他の近似法が用いられている。 これまでの古典的アプローチでは最大で20セントの差が見られ、これは実験のブートストラップされたエラーバーに匹敵する不確実性である。 異なる近似スキームに基づいて、ここで議論される特定の古典的手法に挑戦する元の回路ファミリの修正を提案する。

In a recent work a quantum error mitigation protocol was applied to the expectation values obtained from circuits on the IBM Eagle quantum processor with up $127$ - qubits with up to $60 \; - \; \mbox{CNOT}$ layers. To benchmark the efficacy of this quantum protocol a physically motivated quantum circuit family was considered that allowed access to exact solutions in different regimes. The family interpolated between Clifford circuits and was additionally evaluated at low depth where exact validation is practical. It was observed that for highly entangling parameter regimes the circuits are beyond the validation of matrix product state and isometric tensor network state approximation methods. Here we compare the experimental results to matrix product operator simulations of the Heisenberg evolution, find they provide a closer approximation than these pure-state methods by exploiting the closeness to Clifford circuits and limited operator growth. Recently other approximation methods have been used to simulate the full circuit up to its largest extent. We observe a discrepancy of up to $20\%$ among the different classical approaches so far, an uncertainty comparable to the bootstrapped error bars of the experiment. Based on the different approximation schemes we propose modifications to the original circuit family that challenge the particular classical methods discussed here.
翻訳日:2023-07-03 11:27:22 公開日:2023-06-30
# 計量的投票歪障壁を破る

Breaking the Metric Voting Distortion Barrier ( http://arxiv.org/abs/2306.17838v1 )

ライセンス: Link先を確認
Moses Charikar, Prasanna Ramakrishnan, Kangning Wang, Hongxun Wu(参考訳) 社会的選択における計量歪のよく研究された問題について考察する。 共有メトリックスペースに横たわる$n$の有権者と$m$の候補者で選挙を行うとしよう。 我々は、有権者との平均距離が小さい候補者を選ぶ投票規則を設計したい。 しかし、メートル法空間内の距離に直接アクセスする代わりに、各投票者は、距離の順に候補者のランクリストを与える。 私たちは、選挙のインスタンスと基礎となる計量空間に関係なく、コストが真の最適値と異なる候補(歪みとして知られる)を選択するルールを設計できるだろうか? 長い作業の行は、決定論的投票規則をメートル法歪みで3ドル(約3,300円)で見つけることに終止符を打った。 最高の下限は実質的に$2.112$であるが、最高の上限は$であり、ランダムな独裁のような単純な規則によっても達成される。 歪み3- \varepsilon$を一定の$\varepsilon$で保証するルールを見つけることは、計算社会選択において大きな課題である。 本研究では、歪みを2.753ドル未満で保証する規則を与える。 そのためには、問題に新しい投票ルールをいくつか検討します。 1つは最大ロッテリー(Maximal Lotteries)であり、これは60年代にさかのぼる自然ゼロサムゲームのナッシュ均衡に基づく規則である。 その他のルールはランダムな独裁とコープランド・ルールのハイブリッドと考えることができる新しいルールである。 いずれのルールも歪みを3ドル(約3,800円)で打ち負かすことはできないが、Maximal Lotteriesと新しいルールのどれでも慎重にランダム化できる。

We consider the following well studied problem of metric distortion in social choice. Suppose we have an election with $n$ voters and $m$ candidates who lie in a shared metric space. We would like to design a voting rule that chooses a candidate whose average distance to the voters is small. However, instead of having direct access to the distances in the metric space, each voter gives us a ranked list of the candidates in order of distance. Can we design a rule that regardless of the election instance and underlying metric space, chooses a candidate whose cost differs from the true optimum by only a small factor (known as the distortion)? A long line of work culminated in finding deterministic voting rules with metric distortion $3$, which is the best possible for deterministic rules and many other classes of voting rules. However, without any restrictions, there is still a significant gap in our understanding: Even though the best lower bound is substantially lower at $2.112$, the best upper bound is still $3$, which is attained even by simple rules such as Random Dictatorship. Finding a rule that guarantees distortion $3 - \varepsilon$ for some constant $\varepsilon $ has been a major challenge in computational social choice. In this work, we give a rule that guarantees distortion less than $2.753$. To do so we study a handful of voting rules that are new to the problem. One is Maximal Lotteries, a rule based on the Nash equilibrium of a natural zero-sum game which dates back to the 60's. The others are novel rules that can be thought of as hybrids of Random Dictatorship and the Copeland rule. Though none of these rules can beat distortion $3$ alone, a careful randomization between Maximal Lotteries and any of the novel rules can.
翻訳日:2023-07-03 11:27:01 公開日:2023-06-30
# 信念伝播を伴うテンソルネットワークの計測

Gauging tensor networks with belief propagation ( http://arxiv.org/abs/2306.17837v1 )

ライセンス: Link先を確認
Joseph Tindall and Matt Fishman(参考訳) 効果的にテンソルネットワークを圧縮し最適化するには、ゲージとして知られるテンソルの潜在自由度を固定するための信頼できる方法が必要である。 本稿では,グラフィカルモデル上で統計的推論を行うために考案された手法である信念伝搬を用いたテンソルネットワークのゲージ化アルゴリズムを紹介し,最近テンソルネットワークの縮約に応用を見出した。 本手法は既知のテンソルネットワーク計測手法と密接に関連していることを示す。 しかし、既存の信念伝搬実装をテンソルネットワークのゲージングに再利用することは現実的な利点であり、信念伝播は単にテンソルの収縮に基づく非常に単純なアルゴリズムであるため、実装や最適化が容易である。 我々は,このアルゴリズムが既存のガウイングアルゴリズムよりも高速であることを示す数値的証拠とスケーリング論を提示し,構造化,非構造化,無限テンソルネットワーク上での利用を実証する。 さらに,この手法を,広く用いられている簡易更新ゲート進化アルゴリズムの精度向上に応用した。

Effectively compressing and optimizing tensor networks requires reliable methods for fixing the latent degrees of freedom of the tensors, known as the gauge. Here we introduce a new algorithm for gauging tensor networks using belief propagation, a method that was originally formulated for performing statistical inference on graphical models and has recently found applications in tensor network contraction. We show that this method is closely related to known tensor network gauging methods. It has the practical advantage, however, that existing belief propagation implementations can be repurposed for tensor network gauging, and that belief propagation is a very simple algorithm based on just tensor contractions so it can be easier to implement and optimize. We present numerical evidence and scaling arguments that this algorithm is faster than existing gauging algorithms, demonstrating its usage on structured, unstructured, and infinite tensor networks. Additionally, we apply this method to improve the accuracy of the widely used simple update gate evolution algorithm.
翻訳日:2023-07-03 11:26:32 公開日:2023-06-30
# 深部RLにおけるオプティマイザのリセット : 実証的研究

Resetting the Optimizer in Deep RL: An Empirical Study ( http://arxiv.org/abs/2306.17833v1 )

ライセンス: Link先を確認
Kavosh Asadi, Rasool Fakoor, Shoham Sabach(参考訳) 深層強化学習における最適値関数を近似するタスクに着目した。 この反復過程は、目的関数が反復毎に変更可能な最適化問題の系列を概ね解くことによって構成される。 この問題を解決する一般的なアプローチは、アダムのような確率的勾配降下アルゴリズムの現代的な変種を採用することである。 これらのオプティマイザは、勾配の第1モーメントと第2モーメントの推定などの独自の内部パラメータを保持し、時間とともにこれらのパラメータを更新する。 したがって、以前のイテレーションで得られた情報は、現在のイテレーションの最適化問題を解決するために使われている。 これは、以前のイテレーションの最適化環境が現在のイテレーションと大きく異なる状況において、採用したオプティマイザの内部パラメータを汚染する可能性があると仮定する。 この効果に対抗するため、新しいイテレーションを開始する際に最適化器の内部パラメータをリセットする、という単純なアイデアがある。 我々はRainbowアルゴリズムと組み合わせて様々なオプティマイザを用いて,このリセット戦略を実証的に検討する。 この単純な修正が現代のオプティマイザの真の可能性を解き放ち、atariベンチマークでdeep rlの性能を大幅に向上させることを実証する。

We focus on the task of approximating the optimal value function in deep reinforcement learning. This iterative process is comprised of approximately solving a sequence of optimization problems where the objective function can change per iteration. The common approach to solving the problem is to employ modern variants of the stochastic gradient descent algorithm such as Adam. These optimizers maintain their own internal parameters such as estimates of the first and the second moment of the gradient, and update these parameters over time. Therefore, information obtained in previous iterations is being used to solve the optimization problem in the current iteration. We hypothesize that this can contaminate the internal parameters of the employed optimizer in situations where the optimization landscape of the previous iterations is quite different from the current iteration. To hedge against this effect, a simple idea is to reset the internal parameters of the optimizer when starting a new iteration. We empirically investigate this resetting strategy by employing various optimizers in conjunction with the Rainbow algorithm. We demonstrate that this simple modification unleashes the true potential of modern optimizers, and significantly improves the performance of deep RL on the Atari benchmark.
翻訳日:2023-07-03 11:26:16 公開日:2023-06-30
# Federated Ensemble YOLOv5 - より汎用的なオブジェクト検出アルゴリズム

Federated Ensemble YOLOv5 - A Better Generalized Object Detection Algorithm ( http://arxiv.org/abs/2306.17829v1 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler and Martin Ruskowski(参考訳) フェデレーション学習(federated learning, fed avg)は,プライバシ保護アルゴリズムとして大きな注目を集めているが,federated averaging(federated avg)やfederated sgd(federated sgd)といったフェデレーション学習アルゴリズムと,アンサンブル学習アルゴリズムとの類似性は十分に検討されていない。 本研究の目的は,一般化可能性を高める手段としてのオブジェクト検出へのflの適用を検証し,その性能をオブジェクト検出アルゴリズムの集中型トレーニング手法と比較することである。 具体的には,複数のクライアント間でflを用いてトレーニングされたyolov5モデルの性能を調査し,各クライアントが集中トレーニングに使用する同じデータセットの一部を保持するように,ランダムサンプリング戦略を採用した。 実験の結果,flオブジェクト検出器のグローバルモデルにおいて,未検出オブジェクトの正確なバウンディングボックスを生成するのに優れた効率を示し,テストセットはトレーニングデータセットに表されない2つの異なるクライアントからのオブジェクトの混合であることを示した。 これらの結果は, FLをアンサンブルアルゴリズムの観点から見ることができ, バッギングとブースティングの相乗的ブレンドに似ていることを示唆している。 その結果、FLはプライバシーを高める方法としてだけでなく、機械学習モデルの性能を高める方法としても見ることができる。

Federated learning (FL) has gained significant traction as a privacy-preserving algorithm, but the underlying resembles of federated learning algorithm like Federated averaging (FED Avg) or Federated SGD (FED SGD) to ensemble learning algorithms has not been fully explored. The purpose of this paper is to examine the application of FL to object detection as a method to enhance generalizability, and to compare its performance against a centralized training approach for an object detection algorithm. Specifically, we investigate the performance of a YOLOv5 model trained using FL across multiple clients and employ a random sampling strategy without replacement, so each client holds a portion of the same dataset used for centralized training. Our experimental results showcase the superior efficiency of the FL object detector's global model in generating accurate bounding boxes for unseen objects, with the test set being a mixture of objects from two distinct clients not represented in the training dataset. These findings suggest that FL can be viewed from an ensemble algorithm perspective, akin to a synergistic blend of Bagging and Boosting techniques. As a result, FL can be seen not only as a method to enhance privacy, but also as a method to enhance the performance of a machine learning model.
翻訳日:2023-07-03 11:25:54 公開日:2023-06-30