このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230602となっている論文です。

PDF登録状況(公開日: 20230602)

TitleAuthorsAbstract論文公表日・翻訳日
# 『実験されることに感謝しない』:オープンソースプロジェクトにおける実験倫理に関する開発者・研究者の見解

"We do not appreciate being experimented on": Developer and Researcher Views on the Ethics of Experiments on Open-Source Projects ( http://arxiv.org/abs/2112.13217v2 )

ライセンス: Link先を確認
Dror G. Feitelson(参考訳) オープンソースソフトウェア開発の要点は、ユーザ開発者からのコントリビューションを受け入れることだ(通常は適切な審査を経て)。 しかし、これはオープンソース開発の研究の一環として行われる介入も含むべきだろうか? バグのあるコードがlinuxカーネルに送信され、それが捕まるかどうかを確認すると、オープンソース開発者と経験的ソフトウェアエンジニアリング研究者による調査を行い、どのような振る舞いが受け入れられるかを確認します。 これは、一般にアクセス可能な情報の使用とアクティブな実験の2つの主要な問題を含んでいる。 回答者は224人。 結果から,オープンソース開発者はほぼ研究対象であり,透過的に実施されていることが示唆された。 言い換えれば、被験者が通知され、インフォームドコンセントを提供した場合や、プロジェクトリーダーだけが同意した場合など、オープンソースプロジェクトの実験に多くの人が同意するだろう。 研究者は一般的に同様の意見を持っているが、開発者にとって重要なニュアンスを理解できないこともある。 例えば、オープンソースコードの公開に関するライセンス制限の監視や、コードの保護などだ。 逆に、研究者はデベロッパーよりもプライバシーの問題に関心を持っているようだ。 これらの結果に基づき、オープンソースのリポジトリやプロジェクトは、アクセスガイドラインにおける研究の用途に対処することが推奨され、研究者は、公式に必要としない場合にも、許可を求めるよう注意する。 オープンソースコミュニティも耳にしたいと考えているので、専門家団体やIRBは倫理規定を策定する際に彼らと相談すべきである。

A tenet of open source software development is to accept contributions from users-developers (typically after appropriate vetting). But should this also include interventions done as part of research on open source development? Following an incident in which buggy code was submitted to the Linux kernel to see whether it would be caught, we conduct a survey among open source developers and empirical software engineering researchers to see what behaviors they think are acceptable. This covers two main issues: the use of publicly accessible information, and conducting active experimentation. The survey had 224 respondents. The results indicate that open-source developers are largely open to research, provided it is done transparently. In other words, many would agree to experiments on open-source projects if the subjects were notified and provided informed consent, and in special cases also if only the project leaders agree. While researchers generally hold similar opinions, they sometimes fail to appreciate certain nuances that are important to developers. Examples include observing license restrictions on publishing open-source code and safeguarding the code. Conversely, researchers seem to be more concerned than developers about privacy issues. Based on these results, it is recommended that open source repositories and projects address use for research in their access guidelines, and that researchers take care to ask permission also when not formally required to do so. We note too that the open source community wants to be heard, so professional societies and IRBs should consult with them when formulating ethics codes.
翻訳日:2023-10-24 15:49:57 公開日:2023-06-02
# 建築情報のマイニング:システムマッピング研究

Mining Architectural Information: A Systematic Mapping Study ( http://arxiv.org/abs/2212.13179v2 )

ライセンス: Link先を確認
Musengamana Jean de Dieu, Peng Liang, Mojtaba Shahin, Chen Yang, Zengyang Li(参考訳) マイニングソフトウェアリポジトリ(MSR)はソフトウェア開発において重要な活動となっている。 アーキテクチャの回復や理解といったアーキテクチャ活動を支援するためのアーキテクチャ情報(例えば、アーキテクチャモデルやビュー)のマイニングは、近年大きな注目を集めている。 しかし、建築情報マイニングに関する文献がどのような形で入手可能であるかは明確ではない。 結果として、アーキテクト活動を支援するためにどのようなアーキテクチャ情報をマイニングするためにどのようなアプローチを採用するべきかなど、実践者が最先端の研究結果を理解し、採用することが困難になる可能性がある。 また、研究者が特定された研究ギャップの課題や改善に気付くのを妨げる。 ソフトウェアリポジトリ内のアーキテクチャ情報マイニングに関する文献を,アーキテクチャ情報やソースマイニング,サポート対象のアーキテクチャ活動,使用するアプローチやツール,直面する課題などの観点から識別,分析,統合することを目的としています。 2006年1月から2022年12月にかけて,システムマッピング研究(SMS)が出版された。 Of the 87 primary studies finally selected, 8 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 12 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 89 approaches and 54 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. このSMSは、将来有望な方向性を研究者たちに提供するとともに、実践者がどのようなアーキテクチャ情報を使ってさまざまなアーキテクチャ活動を支援するかを知るのに役立つ。

Mining Software Repositories (MSR) has become an essential activity in software development. Mining architectural information (e.g., architectural models and views) to support architecting activities, such as architecture recovery and understanding, has received significant attention in recent years. However, there is a lack of clarity on what literature on mining architectural information is available. Consequently, this may create difficulty for practitioners to understand and adopt the state-of-the-art research results, such as what approaches should be adopted to mine what architectural information in order to support architecting activities. It also hinders researchers from being aware of the challenges and remedies for the identified research gaps. We aim to identify, analyze, and synthesize the literature on mining architectural information in software repositories in terms of architectural information and sources mined, architecting activities supported, approaches and tools used, and challenges faced. A Systematic Mapping Study (SMS) has been conducted on the literature published between January 2006 and December 2022. Of the 87 primary studies finally selected, 8 categories of architectural information have been mined, among which architectural description is the most mined architectural information; 12 architecting activities can be supported by the mined architectural information, among which architecture understanding is the most supported activity; 89 approaches and 54 tools were proposed and employed in mining architectural information; and 4 types of challenges in mining architectural information were identified. This SMS provides researchers with promising future directions and help practitioners be aware of what approaches and tools can be used to mine what architectural information from what sources to support various architecting activities.
翻訳日:2023-10-24 13:47:16 公開日:2023-06-02
# ソフトウェア工学の文脈における自己効力の理解--業界における質的研究

Understanding Self-Efficacy in the Context of Software Engineering: A Qualitative Study in the Industry ( http://arxiv.org/abs/2305.17106v2 )

ライセンス: Link先を確認
Danilo Monteiro Ribeiro and Rayfran Rocha Lima and C\'esar Fran\c{c}a and Alberto de Souza and Isadora Cardoso-Pereira and Gustavo Pinto(参考訳) CONTEXT: 自己効力性(Self-Efficacy)は,パフォーマンスや満足度,モチベーションといったさまざまな要因に影響を与える,さまざまな知識領域で研究されている概念です。 ソフトウェア工学では、主に学術的な文脈で研究され、他の分野の知識と同様の結果を提示している。 しかし、産業的文脈における影響を理解することも重要である。 目的:本研究の目的は,ソフトウェア技術者の自己効力の行動徴候や,自己効力がソフトウェア技術者の作業にどのような影響を及ぼすかを理解することにある。 方法:ブラジルのソフトウェア開発企業31名を対象に,半構造化アンケートを用いて質的研究を行った。 インタビュアーはブートキャンプに参加し、後にソフトウェア開発チームに割り当てられた。 テーマ分析はデータ分析に用いられた。 結果: インタビュアーの認識では, 高い自己効力感と低い自己効力感を示す21の徴候がみられた。 これらの記号は社会と認知の2つの次元に分けられた。 また、18の状況から、ソフトウェアエンジニアの自己効力が増減する可能性があることが判明した。 最後に、ソフトウェア開発チームに影響を与える12の要因が挙げられた。 結論: この作業は、チームリーダーがメンバーの自己効力をよりよく認識するのに役立つ一連の行動サインを示している。 また、リーダーと個人の両方が開発コンテキストにおける自己効力を向上させるために使用できる一連の状況を示し、最後に、ソフトウェア開発コンテキストにおける自己効力によって影響を受ける要因も提示する。 最後に本研究は,産業文脈における自己効力の理解の重要性を強調する。

CONTEXT: Self-efficacy is a concept researched in various areas of knowledge that impacts various factors such as performance, satisfaction, and motivation. In Software Engineering, it has mainly been studied in the academic context, presenting results similar to other areas of knowledge. However, it is also important to understand its impact in the industrial context. OBJECTIVE: Therefore, this study aims to understand the impact on the software development context with a focus on understanding the behavioral signs of self-efficacy in software engineers and how self-efficacy can impact the work-day of software engineers. METHOD: A qualitative research was conducted using semi-structured questionnaires with 31 interviewees from a software development company located in Brazil. The interviewees participated in a Bootcamp and were later assigned to software development teams. Thematic analysis was used to analyze the data. RESULTS: In the perception of the interviewees, 21 signs were found that are related to people with high and low self-efficacy. These signs were divided into two dimensions: social and cognitive. Also, 18 situations were found that can lead to an increase or decrease of self-efficacy of software engineers. Finally, 12 factors were mentioned that can impact software development teams. CONCLUSION: This work evidences a set of behavioral signs that can help team leaders to better perceive the self-efficacy of their members. It also presents a set of situations that both leaders and individuals can use to improve their self-efficacy in the development context, and finally, factors that can be impacted by self-efficacy in the software development context are also presented. Finally, this work emphasizes the importance of understanding self-efficacy in the industrial context.
翻訳日:2023-10-24 05:15:14 公開日:2023-06-02
# SuperFlow: サーバレスコンピューティングのパフォーマンステスト

SuperFlow: Performance Testing for Serverless Computing ( http://arxiv.org/abs/2306.01620v1 )

ライセンス: Link先を確認
Jinfeng Wen, Zhenpeng Chen, Federica Sarro, Xuanzhe Liu(参考訳) サーバレスコンピューティングは、ソフトウェアエンジニアが一連の機能(サーバレス機能と呼ばれる)としてクラウドアプリケーションを開発できる、新たなクラウドコンピューティングパラダイムである。 しかしながら、サーバーレス関数のパフォーマンス(すなわち応答レイテンシ)を正確に取得することは、実行環境の非常にダイナミックな性質のため、難しい。 この問題に取り組むために考えられる解決策は、パフォーマンステストを使用して、パフォーマンスの変動に対応するために、所定の入力を持つサーバーレス関数の繰り返し数を決定することだ。 この目的のために、トップクラスの調査会場から収集した65のサーバーレス関数上で、従来のクラウドアプリケーションにおける最先端のパフォーマンステスト技術に関する実証研究を行う。 これらの手法は精度が低い。 そこで我々は,サーバレスコンピューティングに特化した最初のパフォーマンステスト手法であるSuperFlowを提案する。 SuperFlowには精度チェックと安定性チェックが組み込まれ、正確で信頼性の高いパフォーマンス結果が得られる。 この評価は、SuperFlowが97.22%の精度でテスト結果を提供することを示した。 我々は、将来の複製と拡張を容易にするために、この研究からコードとデータを公開しました。

Serverless computing is an emerging cloud computing paradigm that allows software engineers to develop cloud applications as a set of functions (called serverless functions). However, accurately obtaining the performance (i.e., response latency) of serverless functions is challenging due to the highly dynamic nature of the environment in which they run. To tackle this problem, a possible solution is to use performance testing to determine how many repetitions of a serverless function with a given input are needed to cater to the performance fluctuation. To this end, we conduct an empirical study of state-of-the-art performance testing techniques for traditional cloud applications on 65 serverless functions collected from top-tier research venues. We find that these techniques exhibit low accuracy. Therefore, we propose SuperFlow, the first performance testing approach tailored specifically for serverless computing. SuperFlow incorporates an accuracy check and a stability check to obtain accurate and reliable performance results. The evaluation demonstrates that SuperFlow provides testing results with 97.22% accuracy, 39.91 percentage points higher than the best currently available technique. We have publicly released the code and data from this study to facilitate future replication and extension.
翻訳日:2023-10-24 04:46:08 公開日:2023-06-02
# 制約付きテスト実行スケジューリング: abb roboticsにおける経験報告

Constraint-Guided Test Execution Scheduling: An Experience Report at ABB Robotics ( http://arxiv.org/abs/2306.01529v1 )

ライセンス: Link先を確認
Arnaud Gotlieb, Morten Mossige, Helge Spieker(参考訳) 自動化されたテスト実行スケジューリングは、ハードウェアシステムとの統合に影響を与える変更でコンポーネントを頻繁に更新する現代のソフトウェア開発環境では不可欠である。 テストケースの選択と特定のテスト実行マシンへの割り当てに関する膨大な要件を考慮して、適切なテストに集中し、時間とハードウェアの両方で利用可能なリソースを最適に活用するテストスケジュールの構築は、複雑な最適化作業である。 手動のソリューションは時間がかかり、しばしばエラーが発生しやすい。 さらに、ソフトウェアやハードウェアコンポーネントやテストスクリプトが頻繁に追加、削除、更新される場合、静的なテスト実行スケジューリングはもはや実現不可能であり、動的変更を処理する自動化の動機が大きくなる。 2012年からは、ABB Roboticsの産業ロボットシステムのテストを自動化するための制約プログラミングに基づく技術移転に重点を置いている。 テストケース生成に特化した制約満足度モデルの転送を成功させた後、dyntestと呼ばれるプロジェクトの結果を提示する。 本稿では,ABBロボティクスにおけるテスト実行スケジューリングのための制約ベース最適化モデルの転送に成功した経験と教訓について報告する。 私たちの経験は、業界とアカデミアの密接なコラボレーションのメリットを示しています。

Automated test execution scheduling is crucial in modern software development environments, where components are frequently updated with changes that impact their integration with hardware systems. Building test schedules, which focus on the right tests and make optimal use of the available resources, both time and hardware, under consideration of vast requirements on the selection of test cases and their assignment to certain test execution machines, is a complex optimization task. Manual solutions are time-consuming and often error-prone. Furthermore, when software and hardware components and test scripts are frequently added, removed or updated, static test execution scheduling is no longer feasible and the motivation for automation taking care of dynamic changes grows. Since 2012, our work has focused on transferring technology based on constraint programming for automating the testing of industrial robotic systems at ABB Robotics. After having successfully transferred constraint satisfaction models dedicated to test case generation, we present the results of a project called DynTest whose goal is to automate the scheduling of test execution from a large test repository, on distinct industrial robots. This paper reports on our experience and lessons learned for successfully transferring constraint-based optimization models for test execution scheduling at ABB Robotics. Our experience underlines the benefits of a close collaboration between industry and academia for both parties.
翻訳日:2023-10-24 04:45:50 公開日:2023-06-02
# 要求工学強化のためのマルチモーダル感情認識:新しいアプローチ

Multi-Modal Emotion Recognition for Enhanced Requirements Engineering: A Novel Approach ( http://arxiv.org/abs/2306.01492v1 )

ライセンス: Link先を確認
Ben Cheng, Chetan Arora, Xiao Liu, Thuong Hoang, Yi Wang, John Grundy(参考訳) 要件エンジニアリング(RE)は、ステークホルダのニーズとシステム仕様のギャップを埋めることによって、ソフトウェアシステムの開発において重要な役割を担います。 しかし、従来のRE手法は感情的な手がかりを見落としていることが多いため、効果的なコミュニケーションとステークホルダー要件の活用は困難である。 本稿では,マルチモーダル感情認識プラットフォーム(MEmoRE)を導入し,利害関係者の感情的手がかりをリアルタイムで把握し分析することにより,要求工学プロセスを強化する。 MemoREは最先端の感情認識技術を活用し、表情、発声イントネーション、テキスト感情分析を統合し、ステークホルダーの感情を包括的に理解する。 このマルチモーダルなアプローチは、感情的な手がかりを正確かつタイムリーに検出することを可能にし、要求するエンジニアがその啓発戦略を調整し、ステークホルダーとの全体的なコミュニケーションを改善することができる。 さらに私たちは,要件レビューやユーザビリティテストなど,後続のREステージに当社のプラットフォームを採用するつもりです。 要求工学にマルチモーダル感情認識を統合することで、より共感的で効果的で成功したソフトウェア開発プロセスへの道を開くことを目標としています。 私たちはプラットホームの予備的な評価を行った。 本稿では,現在進行中のプロジェクトとして,プラットフォーム設計,予備評価,今後の開発計画について報告する。

Requirements engineering (RE) plays a crucial role in developing software systems by bridging the gap between stakeholders' needs and system specifications. However, effective communication and elicitation of stakeholder requirements can be challenging, as traditional RE methods often overlook emotional cues. This paper introduces a multi-modal emotion recognition platform (MEmoRE) to enhance the requirements engineering process by capturing and analyzing the emotional cues of stakeholders in real-time. MEmoRE leverages state-of-the-art emotion recognition techniques, integrating facial expression, vocal intonation, and textual sentiment analysis to comprehensively understand stakeholder emotions. This multi-modal approach ensures the accurate and timely detection of emotional cues, enabling requirements engineers to tailor their elicitation strategies and improve overall communication with stakeholders. We further intend to employ our platform for later RE stages, such as requirements reviews and usability testing. By integrating multi-modal emotion recognition into requirements engineering, we aim to pave the way for more empathetic, effective, and successful software development processes. We performed a preliminary evaluation of our platform. This paper reports on the platform design, preliminary evaluation, and future development plan as an ongoing project.
翻訳日:2023-10-24 04:45:00 公開日:2023-06-02
# 機械学習を用いた自己適応システムにおける大規模適応空間の削減

Reducing Large Adaptation Spaces in Self-Adaptive Systems Using Machine Learning ( http://arxiv.org/abs/2306.01404v1 )

ライセンス: Link先を確認
Federico Quin, Danny Weyns, Omid Gheibi(参考訳) 現代のソフトウェアシステムは、ワークロードの変更や無線ネットワークの干渉の変動など、不確定な運用条件に対処しなければならないことが多い。 これらのシステムが目標を達成するためには、不確実性を軽減する必要がある。 これを実現する1つのアプローチは、フィードバックループをシステムに提供する自己適応である。 フィードバックループは、監視、分析、計画、実行の4つのコア機能を実装し、ランタイムモデルの形式で知識を共有する。 多数の適応オプションを持つシステム、すなわち大きな適応空間では、どの適応を選択するかを決めることは、利用可能な時間ウィンドウ内で時間を要するか、あるいは不可能である可能性がある。 これは特に、厳密な分析技術を用いて、実行時の形式検証など、広く採用されている適応オプションを選択する場合である。 多数の適応オプションの分析に対処する1つの手法は、機械学習を用いて適応スペースを減らすことである。 最先端技術は、この手法の有効性を示しているが、異なるタイプの目標を処理できる体系的な解決策が欠如している。 本稿では,ML2ASR+について述べる。 Central to ML2ASR+は、設定可能な機械学習パイプラインで、しきい値、最適化、セットポイント目標のための大きな適応スペースの効率的な分析をサポートする。 我々は、適応空間のサイズが異なる2つのアプリケーションについて、ml2asr+を評価する。 その結果,ML2ASR+は異なる種類の目標に対応するために適用可能であり,適応空間を減少させることができ,適応目標の実現に無視できない影響で90%以上の適応決定を行うことができることがわかった。

Modern software systems often have to cope with uncertain operation conditions, such as changing workloads or fluctuating interference in a wireless network. To ensure that these systems meet their goals these uncertainties have to be mitigated. One approach to realize this is self-adaptation that equips a system with a feedback loop. The feedback loop implements four core functions -- monitor, analyze, plan, and execute -- that share knowledge in the form of runtime models. For systems with a large number of adaptation options, i.e., large adaptation spaces, deciding which option to select for adaptation may be time consuming or even infeasible within the available time window to make an adaptation decision. This is particularly the case when rigorous analysis techniques are used to select adaptation options, such as formal verification at runtime, which is widely adopted. One technique to deal with the analysis of a large number of adaptation options is reducing the adaptation space using machine learning. State of the art has showed the effectiveness of this technique, yet, a systematic solution that is able to handle different types of goals is lacking. In this paper, we present ML2ASR+, short for Machine Learning to Adaptation Space Reduction Plus. Central to ML2ASR+ is a configurable machine learning pipeline that supports effective analysis of large adaptation spaces for threshold, optimization, and setpoint goals. We evaluate ML2ASR+ for two applications with different sizes of adaptation spaces: an Internet-of-Things application and a service-based system. The results demonstrate that ML2ASR+ can be applied to deal with different types of goals and is able to reduce the adaptation space and hence the time to make adaptation decisions with over 90%, with negligible effect on the realization of the adaptation goals.
翻訳日:2023-10-24 04:44:13 公開日:2023-06-02
# ドメインの知識:Pythonの型エラーを修復するための固定テンプレートによるプロンプトの改善

Domain Knowledge Matters: Improving Prompts with Fix Templates for Repairing Python Type Errors ( http://arxiv.org/abs/2306.01394v1 )

ライセンス: Link先を確認
Yun Peng, Shuzheng Gao, Cuiyun Gao, Yintong Huo, Michael R. Lyu(参考訳) Pythonの動的型システムは、開発者がPythonプログラムを書くのを容易にするが、実行時に型エラーをもたらす。 Pythonの型エラーを自動的に修復するためのルールベースのアプローチがある。 これらのアプローチは正確なパッチを生成することができるが、パッチ合成ルールの設計にはドメインの専門家が必要であり、実際の型エラーのテンプレートカバレッジが低い。 学習に基づくアプローチは、パッチ合成ルールの設計における手作業を軽減する。 学習に基づくアプローチのうち、事前定義されたプロンプトを通じて事前学習されたモデルの知識ベースを活用するプロンプトベースのアプローチは、一般的なプログラム修復タスクにおいて最先端のパフォーマンスを得る。 しかし、そのようなプロンプトは手動で定義されており、Pythonの型エラーを修正するための特別な手がかりは含まないため、効果は限られている。 型エラー修復のためのドメイン知識によるプロンプトを自動的に改善する方法は、まだ未調査である。 本稿では,Pythonの型エラーの修正に修正テンプレートを組み込んだ新しいプロンプトベースのアプローチであるTypeFixを提案する。 typefixはまず,新しい階層型クラスタリングアルゴリズムを通じて,一般化された修正テンプレートを発掘する。 特定された修正テンプレートは、既存の型エラー修正の一般的な編集パターンとコンテキストを示している。 次にTypeFixは、一般化された固定テンプレートをドメイン知識として使用することにより、事前訓練されたモデルのコードプロンプトを生成する。 buginpyとtypebugsを含む2つのベンチマーク実験では、typefixが26と55の型エラーをうまく修正し、それぞれ9と14という最高のベースラインアプローチを上回った。 さらに、提案された修正テンプレートマイニングアプローチは、両方のベンチマークで開発者のパッチの75%をカバーし、最高のルールベースのアプローチであるpyterを30%以上増加させる。

Although the dynamic type system of Python facilitates the developers in writing Python programs, it also brings type errors at run-time. There exist rule-based approaches for automatically repairing Python type errors. The approaches can generate accurate patches but they require domain experts to design patch synthesis rules and suffer from low template coverage of real-world type errors. Learning-based approaches alleviate the manual efforts in designing patch synthesis rules. Among the learning-based approaches, the prompt-based approach which leverages the knowledge base of code pre-trained models via pre-defined prompts, obtains state-of-the-art performance in general program repair tasks. However, such prompts are manually defined and do not involve any specific clues for repairing Python type errors, resulting in limited effectiveness. How to automatically improve prompts with the domain knowledge for type error repair is challenging yet under-explored. In this paper, we present TypeFix, a novel prompt-based approach with fix templates incorporated for repairing Python type errors. TypeFix first mines generalized fix templates via a novel hierarchical clustering algorithm. The identified fix templates indicate the common edit patterns and contexts of existing type error fixes. TypeFix then generates code prompts for code pre-trained models by employing the generalized fix templates as domain knowledge, in which the masks are adaptively located for each type error instead of being pre-determined. Experiments on two benchmarks, including BugsInPy and TypeBugs, show that TypeFix successfully repairs 26 and 55 type errors, outperforming the best baseline approach by 9 and 14, respectively. Besides, the proposed fix template mining approach can cover 75% of developers' patches in both benchmarks, increasing the best rule-based approach PyTER by more than 30%.
翻訳日:2023-10-24 04:43:46 公開日:2023-06-02
# FREPA:航空機制御領域における要求モデリングと分析の自動化と形式的アプローチ

FREPA: An Automated and Formal Approach to Requirement Modeling and Analysis in Aircraft Control Domain ( http://arxiv.org/abs/2306.01260v1 )

ライセンス: Link先を確認
Jincao Feng, Weikai Miao, Hanyue Zheng, Yihao Huang, Jianwen Li, Zheng Wang, Ting Su, Bin Gu, Geguang Pu, Mengfei Yang, Jifeng He(参考訳) 形式的手法はシステム要件のモデリングと分析に有効である。 しかし、大規模産業プロジェクトへの形式的手法の適用は依然として課題である。 工業技術者は、正確な要求モデルを効果的に実行し、生成されたモデル(V&V)を厳格に検証し、検証する自動化工学手法が欠如している。 この課題に対処するため,本論文では,航空・航空制御領域における正式な要求モデリングとV\&Vのための,FREPA(Formal Requirement Engineering Platform in Aircraft)というシステム工学アプローチを提案する。 FREPAは、過去8年間のアカデミーと業界間のシームレスなコラボレーションの結果です。 この論文の主な貢献は 1) 航空・航空制御領域における要件モデルの構築、検証及びシステム検証のための自動的かつ体系的な工学的アプローチFREPA 2) 形式仕様を記述するためのドメイン固有モデリング言語AASRDL、及び 3) FREPAベースの実用的なツールであるAeroReqは,我々の業界パートナーによって使用されている。 7つの実空間ジェスチャー制御と2つの航空エンジン制御系にFREPAを採用した。 実験の結果,FREPAと対応するAeroReqは,業界におけるフォーマルなモデリングとV&Vを著しく促進することがわかった。 また,航空・航空プロジェクトにおいてfrepaを用いた経験と教訓についても述べる。

Formal methods are promising for modeling and analyzing system requirements. However, applying formal methods to large-scale industrial projects is a remaining challenge. The industrial engineers are suffering from the lack of automated engineering methodologies to effectively conduct precise requirement models, and rigorously validate and verify (V&V) the generated models. To tackle this challenge, in this paper, we present a systematic engineering approach, named Formal Requirement Engineering Platform in Aircraft (FREPA), for formal requirement modeling and V\&V in the aerospace and aviation control domains. FREPA is an outcome of the seamless collaboration between the academy and industry over the last eight years. The main contributions of this paper include 1) an automated and systematic engineering approach FREPA to construct requirement models, validate and verify systems in the aerospace and aviation control domain, 2) a domain-specific modeling language AASRDL to describe the formal specification, and 3) a practical FREPA-based tool AeroReq which has been used by our industry partners. We have successfully adopted FREPA to seven real aerospace gesture control and two aviation engine control systems. The experimental results show that FREPA and the corresponding tool AeroReq significantly facilitate formal modeling and V&V in the industry. Moreover, we also discuss the experiences and lessons gained from using FREPA in aerospace and aviation projects.
翻訳日:2023-10-24 04:43:15 公開日:2023-06-02
# アクティブなコード学習: コードモデルのサンプル効率なトレーニングのベンチマーク

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models ( http://arxiv.org/abs/2306.01250v1 )

ライセンス: Link先を確認
Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike Papadakis, and Yves Le Traon(参考訳) 機械学習(ml)モデルのトレーニングデータを作成するのに必要なコストの高い人間的努力は、ソフトウェア工学(ml4code)における実践的な開発と使用を妨げる。 そのため、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。 アクティブラーニング(active learning)は、コンピュータビジョンや自然言語処理領域でよく研究されてきた、望ましいパフォーマンスのモデルを作成しながら、少ないデータでモデルをトレーニングできる技術である。 残念ながら、コードモデルに対するアクティブな学習の有効性を探求する研究は存在しない。 本稿では、この重要な問題(アクティブコード学習)を研究するための最初のベンチマークを構築することで、このギャップを埋める。 具体的には、既存の作業から11の獲得関数(アクティブラーニングでデータ選択に使用される)を収集し、コード関連のタスクに適応させます。 そして、これらの取得関数がコードデータのパフォーマンスを維持するかどうかを実証研究する。 その結果、特徴選択がアクティブラーニングに大きく影響し、データ選択に出力ベクトルが最適であることが示されている。 コード要約タスクでは、アクティブなコード学習は非効率であり、期待されるパフォーマンスと比較して29.64倍の差があるモデルを生成する。 さらに,探索的学習によるアクティブコード学習の今後の方向性について検討する。 本研究では, 距離計算法を評価指標に置き換え, 評価に基づく距離法とコードモデルの性能の関係を見いだす。

The costly human effort required to prepare the training data of machine learning (ML) models hinders their practical development and usage in software engineering (ML4Code), especially for those with limited budgets. Therefore, efficiently training models of code with less human effort has become an emergent problem. Active learning is such a technique to address this issue that allows developers to train a model with reduced data while producing models with desired performance, which has been well studied in computer vision and natural language processing domains. Unfortunately, there is no such work that explores the effectiveness of active learning for code models. In this paper, we bridge this gap by building the first benchmark to study this critical problem - active code learning. Specifically, we collect 11 acquisition functions~(which are used for data selection in active learning) from existing works and adapt them for code-related tasks. Then, we conduct an empirical study to check whether these acquisition functions maintain performance for code data. The results demonstrate that feature selection highly affects active learning and using output vectors to select data is the best choice. For the code summarization task, active code learning is ineffective which produces models with over a 29.64\% gap compared to the expected performance. Furthermore, we explore future directions of active code learning with an exploratory study. We propose to replace distance calculation methods with evaluation metrics and find a correlation between these evaluation-based distance methods and the performance of code models.
翻訳日:2023-10-24 04:42:53 公開日:2023-06-02
# エッジクラウドコンピューティングによる大規模AI生成の概観

An Overview on Generative AI at Scale with Edge-Cloud Computing ( http://arxiv.org/abs/2306.17170v1 )

ライセンス: Link先を確認
Yun-Cheng Wang, Jintang Xue, Chengwei Wei, C.-C. Jay Kuo(参考訳) 人工知能(AI)の特定のカテゴリとして、生成人工知能(GenAI)は、人間が生成したものに似た新しいコンテンツを生成する。 GenAIシステムの急速な開発は、インターネット上で大量の新しいデータを生み出し、現在のコンピューティングおよび通信フレームワークに新たな課題を提起している。 現在、GenAIサービスは大規模な計算リソースを必要とするため、従来のクラウドコンピューティングフレームワークに依存している。 しかし、データ転送と大量のリクエストのために、そのようなサービスは高いレイテンシに直面する。 一方、エッジクラウドコンピューティングは、エッジとクラウドのコラボレーションを通じて、適切な計算能力と低レイテンシを同時に提供することができる。 したがって、エッジクラウドコンピューティングのパラダイムを活用することで、GenAIシステムを大規模に構築することは魅力的である。 本稿では,GenAIとエッジクラウドコンピューティングの最近の展開について概説する。 そして、2つの例のGenAIアプリケーションを使って、エッジクラウドの協調システムを使ってソリューションをスケールアップする技術的な課題について議論します。 最後に、GenAIシステムを大規模に運用するための設計上の考慮事項をリストアップし、今後の研究方向性を指摘する。

As a specific category of artificial intelligence (AI), generative artificial intelligence (GenAI) generates new content that resembles what is created by humans. The rapid development of GenAI systems has created a huge amount of new data on the Internet, posing new challenges to current computing and communication frameworks. Currently, GenAI services rely on the traditional cloud computing framework due to the need for large computation resources. However, such services will encounter high latency because of data transmission and a high volume of requests. On the other hand, edge-cloud computing can provide adequate computation power and low latency at the same time through the collaboration between edges and the cloud. Thus, it is attractive to build GenAI systems at scale by leveraging the edge-cloud computing paradigm. In this overview paper, we review recent developments in GenAI and edge-cloud computing, respectively. Then, we use two exemplary GenAI applications to discuss technical challenges in scaling up their solutions using edge-cloud collaborative systems. Finally, we list design considerations for training and deploying GenAI systems at scale and point out future research directions.
翻訳日:2023-07-09 14:18:40 公開日:2023-06-02
# Vital Videos: PPGと血圧グラウンドの真実を収録したビデオのデータセット

Vital Videos: A dataset of videos with PPG and blood pressure ground truths ( http://arxiv.org/abs/2306.11891v1 )

ライセンス: Link先を確認
Pieter-Jan Toye(参考訳) 900近いユニークな参加者からなる大規模なデータセットを収集しました。 参加者全員に30秒の未圧縮ビデオ、ppg波形の同期、血圧測定を2回記録した。 性別、年齢、肌の色も各参加者に登録された。 データセットには、ほぼ同数の男女とあらゆる年齢の参加者が含まれている。 肌の色分布はバランスが良かったかもしれないが、データセットにはすべての肌の色から個人が含まれている。 データはさまざまな場所で収集され、さまざまな背景や照明条件が確保された。 遠隔バイタルサイン測定の研究と開発を支援するために、私たちはこのデータセットへのアクセスを開放しています。

We collected a large dataset consisting of nearly 900 unique participants. For every participant we recorded two 30 second uncompressed videos, synchronized PPG waveforms and a single blood pressure measurement. Gender, age and skin color were also registered for every participant. The dataset includes roughly equal numbers of males and females, as well as participants of all ages. While the skin color distribution could have been more balanced, the dataset contains individuals from every skin color. The data was collected in a diverse set of locations to ensure a wide variety of backgrounds and lighting conditions. In an effort to assist in the research and development of remote vital sign measurement we are now opening up access to this dataset.
翻訳日:2023-06-26 01:08:56 公開日:2023-06-02
# 社会的に認識された時間的カジュアルデコーダ推薦システムに関する研究

STUDY: Socially Aware Temporally Casual Decoder Recommender Systems ( http://arxiv.org/abs/2306.07946v1 )

ライセンス: Link先を確認
Eltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy(参考訳) 今日、オンラインとオフラインの両方で利用可能なデータ量が圧倒的に多いため、リコメンダシステムは、ユーザーが興味をそそるアイテムを見つけるのを助けるために大いに必要になっている。 ソーシャルネットワーク情報が存在する場合には、この情報を利用してより良いレコメンデーションを行う方法があるが、複雑なアーキテクチャやトレーニング手順に悩まされることが多い。 さらに、既存の手法の多くは、訓練が難しいと悪名高いグラフニューラルネットワークを使用している。 そこで本稿では,社会的に意識した時間的カウスアルデコーダレコメンダsYstems (STUDY)を提案する。 変圧器デコーダネットワークの1つのフォワードパスを用いて、ソーシャルネットワークグラフに隣接しているユーザのグループに対する共同推論を行う。 本手法は,教室構造を用いてネットワークを定義できる教育用コンテンツセットでテストする。 提案手法は,データ内のすべてのインタラクションをモデル化する単一均質ネットワークの設計をシンプルに保ちながら,ソーシャルメソッドとシーケンシャルメソッドを両立させる。 また,ユーザ行動の類似性を効果的にモデル化するソーシャルネットワーク構造を活用することにより,パフォーマンス向上の要因を理解するためのアブレーション研究を実施している。

With the overwhelming amount of data available both on and offline today, recommender systems have become much needed to help users find items tailored to their interests. When social network information exists there are methods that utilize this information to make better recommendations, however the methods are often clunky with complex architectures and training procedures. Furthermore many of the existing methods utilize graph neural networks which are notoriously difficult to train. To address this, we propose Socially-aware Temporally caUsal Decoder recommender sYstems (STUDY). STUDY does joint inference over groups of users who are adjacent in the social network graph using a single forward pass of a modified transformer decoder network. We test our method in a school-based educational content setting, using classroom structure to define social networks. Our method outperforms both social and sequential methods while maintaining the design simplicity of a single homogeneous network that models all interactions in the data. We also carry out ablation studies to understand the drivers of our performance gains and find that our model depends on leveraging a social network structure that effectively models the similarities in user behavior.
翻訳日:2023-06-18 12:32:45 公開日:2023-06-02
# スマートアラート生成のためのハイブリッドアプローチ

A Hybrid Approach for Smart Alert Generation ( http://arxiv.org/abs/2306.07983v1 )

ライセンス: Link先を確認
Yao Zhao, Sophine Zhang, Zhiyuan Yao(参考訳) 異常検出はネットワーク管理において重要なタスクである。 しかし、実世界の大規模ネットワークシステムにおけるインテリジェントなアラートシステムの導入は、考慮に入れると困難である。 (i)スケーラビリティ。 (ii)データの不均一性、及び (iii)汎用性と保守性。 本稿では,これらの課題に対処し,誤検出を減らすために,統計モデルとホワイトリスト機構を組み合わせた警告システムのハイブリッドモデルを提案する。 統計モデルは、時系列データの異常を検出するために大きなデータベースを利用する一方、ホワイトリストは永続的に警告されたノードをフィルターして偽陽性を減らす。 本モデルは,顧客支援事例の質的データを用いて検証する。 今後の作業には、機能エンジニアリングと入力データ、モデル開発プロセスにおける人間のフィードバックが含まれる。

Anomaly detection is an important task in network management. However, deploying intelligent alert systems in real-world large-scale networking systems is challenging when we take into account (i) scalability, (ii) data heterogeneity, and (iii) generalizability and maintainability. In this paper, we propose a hybrid model for an alert system that combines statistical models with a whitelist mechanism to tackle these challenges and reduce false positive alerts. The statistical models take advantage of a large database to detect anomalies in time-series data, while the whitelist filters out persistently alerted nodes to further reduce false positives. Our model is validated using qualitative data from customer support cases. Future work includes more feature engineering and input data, as well as including human feedback in the model development process.
翻訳日:2023-06-18 12:21:21 公開日:2023-06-02
# 2d-lclm と zhou yi 8 trigram による沖合風力の画像暗号化

Image encryption for Offshore wind power based on 2D-LCLM and Zhou Yi Eight Trigrams ( http://arxiv.org/abs/2306.09245v1 )

ライセンス: Link先を確認
Lei Kou, Jinbo Wu, Fangfang Zhang, Peng Ji, Wende Ke, Junhe Wan, Hailin Liu, Yang Li, Quande Yuan(参考訳) 洋上風力発電は、海洋における複雑で変化する状況のため、画像等の情報なしには正常な運用や保守ができないため、情報伝達の過程で適切な画像を送信することが特に重要である。 本稿では,2次元ラグランジ複素ロジスティックマッピング (2d-lclm) と周井八三グラムに基づくオフショア風力発電のための新しい暗号化アルゴリズムを提案する。 まず、2D-LCLMの初期値はSha-256によって構成され、2D-LCLMと平文を関連付ける。 次に、周井八三グラムから新たな暗号規則を提案し、画素値の難読化とラウンドキーの生成を行う。 そして、2D−LCLMをジグザグと組み合わせてSボックスを形成する。 最後に,アルゴリズムのシミュレーション実験を行う。 実験の結果,アルゴリズムは一般的な攻撃に耐性を持ち,暗号化性能に優れることが示された。

Offshore wind power is an important part of the new power system, due to the complex and changing situation at ocean, its normal operation and maintenance cannot be done without information such as images, therefore, it is especially important to transmit the correct image in the process of information transmission. In this paper, we propose a new encryption algorithm for offshore wind power based on two-dimensional lagged complex logistic mapping (2D-LCLM) and Zhou Yi Eight Trigrams. Firstly, the initial value of the 2D-LCLM is constructed by the Sha-256 to associate the 2D-LCLM with the plaintext. Secondly, a new encryption rule is proposed from the Zhou Yi Eight Trigrams to obfuscate the pixel values and generate the round key. Then, 2D-LCLM is combined with the Zigzag to form an S-box. Finally, the simulation experiment of the algorithm is accomplished. The experimental results demonstrate that the algorithm can resistant common attacks and has prefect encryption performance.
翻訳日:2023-06-18 12:11:09 公開日:2023-06-02
# ChatGPTは、専門家のための注目すべきツールである

ChatGPT is a Remarkable Tool -- For Experts ( http://arxiv.org/abs/2306.03102v1 )

ライセンス: Link先を確認
Amos Azaria, Rina Azoulay, Shulamit Reches(参考訳) 本稿は,学術著作,数学,教育,プログラミング,医療など,さまざまな分野における自動アシスタントとしてのchatgptの能力について検討する。 生産性の向上,問題解決プロセスの合理化,書き込みスタイルの改善など,ChatGPTの可能性を探究する。 さらに,これらの分野でのChatGPTへの過剰依存に伴う潜在的なリスクを強調した。 これらの制限には、不正で虚偽な応答、コードの不正確さ、論理的推論能力の制限、過信、著作権やプライバシー侵害に対する批判的な倫理的懸念などが含まれる。 chatgptが有益であることを証明した分野と目的、それを適切に使用するべきアプリケーション、信頼性が制限されるシナリオを概説する。 ツールの基本的エラーが非専門家に特別な課題をもたらす可能性があることを考慮すれば、ChatGPTは戦略的手法で使用されるべきである。 総合的な実験結果から、ChatGPTを効果的に活用するための方法とフローチャートを提供する。 提案では,ChatGPTとの反復的相互作用と出力の独立検証を強調した。 また,ChatGPTの活用の重要性と専門性を考慮し,各分野に精通した専門家にその活用を推奨する。

This paper investigates the capabilities of ChatGPT as an automated assistant in diverse domains, including scientific writing, mathematics, education, programming, and healthcare. We explore the potential of ChatGPT to enhance productivity, streamline problem-solving processes, and improve writing style. Furthermore, we highlight the potential risks associated with excessive reliance on ChatGPT in these fields. These limitations encompass factors like incorrect and fictitious responses, inaccuracies in code, limited logical reasoning abilities, overconfidence, and critical ethical concerns of copyrights and privacy violation. We outline areas and objectives where ChatGPT proves beneficial, applications where it should be used judiciously, and scenarios where its reliability may be limited. In light of observed limitations, and given that the tool's fundamental errors may pose a special challenge for non-experts, ChatGPT should be used with a strategic methodology. By drawing from comprehensive experimental studies, we offer methods and flow charts for effectively using ChatGPT. Our recommendations emphasize iterative interaction with ChatGPT and independent verification of its outputs. Considering the importance of utilizing ChatGPT judiciously and with expertise, we recommend its usage for experts who are well-versed in the respective domains.
翻訳日:2023-06-07 19:20:14 公開日:2023-06-02
# 厳密な計算予算に基づくデジタルインク生成のためのサンプリングとランク付け

Sampling and Ranking for Digital Ink Generation on a tight computational budget ( http://arxiv.org/abs/2306.03103v1 )

ライセンス: Link先を確認
Andrei Afonin, Andrii Maksai, Aleksandr Timofeev, and Claudiu Musat(参考訳) デジタルインク(オンライン手書き)生成は、手書きのオートコンプリート、スペル訂正、美化など、ユーザ可視コンテンツを作成するための多くの潜在的な応用がある。 書き込みは個人的であり、通常はデバイス上で処理される。 したがって、インク生成モデルはリソース制約のある環境で、高品質なコンテンツを迅速に生成する必要がある。 本研究では,予測時間予算内に留まりながら,トレーニング済みデジタルインク生成モデルの出力品質を最大化する方法について検討する。 我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。 2つのモデルタイプと2つの一般的なインクデータ表現を用いて,複数のデータセット – 英語とベトナム語で書くこと,数学的公式 – について知見を確認した。 いずれの組み合わせにおいても,文字誤り率メトリクスを半減する以上の場合において,合成インクの認識可能性に有意義な改善を報告し,任意の計算予算に対してサンプリングとランキング手法の最適な組み合わせを選択する方法について述べる。

Digital ink (online handwriting) generation has a number of potential applications for creating user-visible content, such as handwriting autocompletion, spelling correction, and beautification. Writing is personal and usually the processing is done on-device. Ink generative models thus need to produce high quality content quickly, in a resource constrained environment. In this work, we study ways to maximize the quality of the output of a trained digital ink generative model, while staying within an inference time budget. We use and compare the effect of multiple sampling and ranking techniques, in the first ablation study of its kind in the digital ink domain. We confirm our findings on multiple datasets - writing in English and Vietnamese, as well as mathematical formulas - using two model types and two common ink data representations. In all combinations, we report a meaningful improvement in the recognizability of the synthetic inks, in some cases more than halving the character error rate metric, and describe a way to select the optimal combination of sampling and ranking techniques for any given computational budget.
翻訳日:2023-06-07 19:08:44 公開日:2023-06-02
# ストリーミング音声合成ネットワーク音声認識

Streaming Speech-to-Confusion Network Speech Recognition ( http://arxiv.org/abs/2306.03778v1 )

ライセンス: Link先を確認
Denis Filimonov, Prabhat Pandey, Ariya Rastrow, Ankur Gandhe, Andreas Stolcke(参考訳) 対話型自動音声認識(asr)システムでは、低遅延要求はデコード中に探索可能な検索空間、特にエンドツーエンドニューラルネットワークasrの量を制限する。 本稿では,対話型アプリケーションに必要な待ち時間を維持しつつ,混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。 1-bestの結果は同等のrnn-tシステムと同等であり,一方,よりリッチな仮説セットでは,リブリスピーチタスクにおいて,第2パスが10-20\%低い単語誤り率を達成することができる。 また,我々のモデルは,遠方界音声アシスタントタスクにおいて,強力なrnn-tベースラインを上回っていることを示す。

In interactive automatic speech recognition (ASR) systems, low-latency requirements limit the amount of search space that can be explored during decoding, particularly in end-to-end neural ASR. In this paper, we present a novel streaming ASR architecture that outputs a confusion network while maintaining limited latency, as needed for interactive applications. We show that 1-best results of our model are on par with a comparable RNN-T system, while the richer hypothesis set allows second-pass rescoring to achieve 10-20\% lower word error rate on the LibriSpeech task. We also show that our model outperforms a strong RNN-T baseline on a far-field voice assistant task.
翻訳日:2023-06-07 14:44:13 公開日:2023-06-02
# 構造化予測によるコード特徴とコード変換の関係の学習

Learning the Relation between Code Features and Code Transforms with Structured Prediction ( http://arxiv.org/abs/1907.09282v2 )

ライセンス: Link先を確認
Zhongxing Yu, Matias Martinez, Zimin Chen, Tegawend\'e F. Bissyand\'e, Martin Monperrus(参考訳) 本稿では,自動コード進化のためのコード変換空間の探索を効果的に導くために,条件付きランダムフィールド(CRF)を用いてASTノードのレベルでコード変換を構造的に予測する手法を提案する。 このアプローチはまず、特定のASTノードに特定のコード変換を適用する方法をキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。 私たちのアプローチでは、プログラムとコード変換の両方が新しく表現されます。 具体的には、ASTレベルコード変換と呼ばれる形式的なフレームワークを導入し、CRFモデルがどのようにして設計され、学習され、予測に使用されるかを実証する。 Javaプログラムの修復変換予測の文脈で、我々のアプローチをインスタンス化する。 私たちのインスタンス化には、注意深く設計されたコード機能が含まれ、トレーニングデータの不均衡に対処するとともに、コード特有の変換制約が含まれています。 実世界のJavaプロジェクトからのバグ修正コミットのデータセットに基づいて,大規模な実験的評価を行う。 その結果、一般的な評価基準である \emph{top-3} を用いると、変換によって精度が41\%から53\%に変化するコード変換を予測できることがわかった。 本モデルは,履歴確率とニューラルマシン翻訳(NMT)に基づく2つのベースラインより優れており,高い予測精度を実現する上で,コード構造を考えることの重要性が示唆されている。 さらに、コンセプタ・オブ・コンセプタ・シンセサイザーが実装され、いくつかの修復変換を合成して最終パッチを得る。 Defects4jベンチマークにおけるシンセサイザーの評価は、予測されたASTレベルの修復変換が高品質なパッチの生成に有用であることを確認する。

To effectively guide the exploration of the code transform space for automated code evolution techniques, we present in this paper the first approach for structurally predicting code transforms at the level of AST nodes using conditional random fields (CRFs). Our approach first learns offline a probabilistic model that captures how certain code transforms are applied to certain AST nodes, and then uses the learned model to predict transforms for arbitrary new, unseen code snippets. {Our approach involves a novel representation of both programs and code transforms. Specifically, we introduce the formal framework for defining the so-called AST-level code transforms and we demonstrate how the CRF model can be accordingly designed, learned, and used for prediction}. We instantiate our approach in the context of repair transform prediction for Java programs. Our instantiation contains a set of carefully designed code features, deals with the training data imbalance issue, and comprises transform constraints that are specific to code. We conduct a large-scale experimental evaluation based on a dataset of bug fixing commits from real-world Java projects. The results show that when the popular evaluation metric \emph{top-3} is used, our approach predicts the code transforms with an accuracy varying from 41\% to 53\% depending on the transforms. Our model outperforms two baselines based on history probability and neural machine translation (NMT), suggesting the importance of considering code structure in achieving good prediction accuracy. In addition, a proof-of-concept synthesizer is implemented to concretize some repair transforms to get the final patches. The evaluation of the synthesizer on the Defects4j benchmark confirms the usefulness of the predicted AST-level repair transforms in producing high-quality patches.
翻訳日:2023-06-07 06:29:37 公開日:2023-06-02
# 確率的フェアクラスタリング

Probabilistic Fair Clustering ( http://arxiv.org/abs/2006.10916v3 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Brian Brubach, Leonidas Tsepenekas, John P. Dickerson(参考訳) クラスタリング問題において、中央意思決定者は頂点上の完全な計量グラフを与えられ、目的関数を最小化する頂点のクラスタリングを提供する必要がある。 公正なクラスタリング問題では、頂点には色(例えば、グループのメンバーシップ)が付与され、有効なクラスタリングの特徴には、そのクラスタリングにおける色表現が含まれるかもしれない。 フェアクラスタリングにおける以前の仕事は、グループメンバーシップの完全な知識を前提としている。 本稿では,確率的割り当てを通じて,グループメンバシップの不完全な知識を仮定することで,先行作業を一般化する。 近似比保証により,より一般的なクラスタリングアルゴリズムを提案する。 また、異なる群が順序と距離の概念を持つ「計量的メンバーシップ」の問題にも対処する。 提案するアルゴリズムとベースラインを用いて実験を行い,提案手法の妥当性を検証し,グループメンバシップが決定論的に分かっていない場合の不安を浮き彫りにする。

In clustering problems, a central decision-maker is given a complete metric graph over vertices and must provide a clustering of vertices that minimizes some objective function. In fair clustering problems, vertices are endowed with a color (e.g., membership in a group), and the features of a valid clustering might also include the representation of colors in that clustering. Prior work in fair clustering assumes complete knowledge of group membership. In this paper, we generalize prior work by assuming imperfect knowledge of group membership through probabilistic assignments. We present clustering algorithms in this more general setting with approximation ratio guarantees. We also address the problem of "metric membership", where different groups have a notion of order and distance. Experiments are conducted using our proposed algorithms as well as baselines to validate our approach and also surface nuanced concerns when group membership is not known deterministically.
翻訳日:2023-06-07 06:10:51 公開日:2023-06-02
# 固有学習フレームワーク : カーネル回帰と広域ニューラルネットワークに関する保存則の展望

The Eigenlearning Framework: A Conservation Law Perspective on Kernel Regression and Wide Neural Networks ( http://arxiv.org/abs/2110.03922v5 )

ライセンス: Link先を確認
James B. Simon, Madeline Dickens, Dhruva Karkada, Michael R. DeWeese(参考訳) テストリスクとkernel ridge regression(krr)の他の一般化指標に対する単純なクローズドフォーム推定を導出する。 先行研究と比較して、導出は大幅に単純化され、最終表現はより容易に解釈できる。 これらの改善は、KRRが関数の正則基底を学習する能力を制限するシャープな保存法則の同定によって可能となる。 テストリスクおよび他の関心の対象は、カーネル固有ベイジで評価された保存量の観点から透過的に表現される。 改良されたフレームワークを使って i) nakkiran et al (2020)の「ディープブートストラップ」に関する理論的説明を提供する 二 古典パリティ問題の難しさに関する前の結果を一般化すること。 三 敵対的堅牢性の研究のための理論的な道具を造ること、及び 四 統計物理学において、KRRとよく研究されたシステムとの密接な類似性を描くこと。

We derive simple closed-form estimates for the test risk and other generalization metrics of kernel ridge regression (KRR). Relative to prior work, our derivations are greatly simplified and our final expressions are more readily interpreted. These improvements are enabled by our identification of a sharp conservation law which limits the ability of KRR to learn any orthonormal basis of functions. Test risk and other objects of interest are expressed transparently in terms of our conserved quantity evaluated in the kernel eigenbasis. We use our improved framework to: i) provide a theoretical explanation for the "deep bootstrap" of Nakkiran et al (2020), ii) generalize a previous result regarding the hardness of the classic parity problem, iii) fashion a theoretical tool for the study of adversarial robustness, and iv) draw a tight analogy between KRR and a well-studied system in statistical physics.
翻訳日:2023-06-07 06:01:46 公開日:2023-06-02
# 復号問題に対する短符号ベクトル探索の量子化

Quantum Reduction of Finding Short Code Vectors to the Decoding Problem ( http://arxiv.org/abs/2106.02747v2 )

ライセンス: Link先を確認
Thomas Debris-Alazard, Maxime Remaud and Jean-Pierre Tillich(参考訳) ランダムな線形コード中の短い符号語の発見からハミング計量の復号まで、量子的に減少する。 このような還元(古典的あるいは量子的)が得られたのはこれが初めてである。 我々の還元は線形符号Stehl\'e-Steinfield-Tanaka-XgawaによるRegevの量子還元の短い格子ベクトルの発見から最も近いベクトル問題への再解釈に適応する。 ハミング計量はユークリッド計量よりもはるかに粗い計量であり、この適応にはいくつかの新しい材料が必要である。 例えば、有意義な減少を得るためには、ハミング計量において非常に大きな復号半径を選択する必要があり、多くの場合、復号が常に一意である半径を超える必要がある。 削減分析のためのもう1つの重要なステップは、デコードアルゴリズムに供給されるエラーの選択である。 格子の場合、誤差は通常ガウス分布に従ってサンプリングされる。 しかし、ベルヌーイ分布(ガウスの符号の類似体)があまりに広く広がりすぎて、符号の縮小には使用できないことが判明した。 この問題は、代わりに truncated Bernoulli 分布を用いて解決された。

We give a quantum reduction from finding short codewords in a random linear code to decoding for the Hamming metric. This is the first time such a reduction (classical or quantum) has been obtained. Our reduction adapts to linear codes Stehl\'e-Steinfield-Tanaka-Xagawa' re-interpretation of Regev's quantum reduction from finding short lattice vectors to solving the Closest Vector Problem. The Hamming metric is a much coarser metric than the Euclidean metric and this adaptation has needed several new ingredients to make it work. For instance, in order to have a meaningful reduction it is necessary in the Hamming metric to choose a very large decoding radius and this needs in many cases to go beyond the radius where decoding is always unique. Another crucial step for the analysis of the reduction is the choice of the errors that are being fed to the decoding algorithm. For lattices, errors are usually sampled according to a Gaussian distribution. However, it turns out that the Bernoulli distribution (the analogue for codes of the Gaussian) is too much spread out and cannot be used, as such, for the reduction with codes. This problem was solved by using instead a truncated Bernoulli distribution.
翻訳日:2023-06-07 05:59:41 公開日:2023-06-02
# 違いは何ですか? テンプレート減算を伴わない過渡検出のための畳み込みニューラルネットワークの可能性

What's the Difference? The potential for Convolutional Neural Networks for transient detection without template subtraction ( http://arxiv.org/abs/2203.07390v2 )

ライセンス: Link先を確認
Tatiana Acero-Cuellar, Federica Bianco, Gregory Dobler, Masao Sako and Helen Qu(参考訳) 本稿では,画像アーチファクトから天体物理学的トランジェントを分離するための畳み込みニューラルネットワーク(CNN)の可能性について検討する。このタスクは,大量のデータにおいて,小さな空間スケールでの画像マッチングを伴って,計算的に高価な処理を必要とするテンプレート(または差分)画像を必要とすることなく,「リアルボグス」分類と呼ばれるタスクである。 ダーク・エナジー・サーベイのデータを用いて,(1)「リアル・ボーガス」分類の自動化,(2)過渡的な発見の計算コストの削減についてCNNを用いて検討する。 2つのCNNの効率を類似したアーキテクチャと比較する。1つは「像三重項」(テンプレート、検索、差分画像)を使い、もう1つはテンプレートと検索のみを入力とする。 テスト精度が96%から91.1%に低下していることから,入力における情報損失に伴う効率の低下を測定した。 さらに,テンプレートから必要な情報を学習し,サリエンシマップを探索することで検索する方法について検討する。 本研究は,CNNが画像データにのみ依存し,特徴工学的タスクを必要としない「リアルボグ」分類の優れたモデルであることを確認し,画像の違いを伴わずに高精度(>90%)のモデルを構築することができることを示した。 トレーニングされたニューラルネットワークは、最小の計算コストで予測を生成できるため、この手法の将来の実装は、ルビン天文台のレガシな空間と時間の調査のように、差分画像解析を完全にバイパスすることで、トランジェント検出の計算コストを劇的に削減できると主張している。

We present a study of the potential for Convolutional Neural Networks (CNNs) to enable separation of astrophysical transients from image artifacts, a task known as "real-bogus" classification without requiring a template subtracted (or difference) image which requires a computationally expensive process to generate, involving image matching on small spatial scales in large volumes of data. Using data from the Dark Energy Survey, we explore the use of CNNs to (1) automate the "real-bogus" classification, (2) reduce the computational costs of transient discovery. We compare the efficiency of two CNNs with similar architectures, one that uses "image triplets" (templates, search, and difference image) and one that takes as input the template and search only. We measure the decrease in efficiency associated with the loss of information in input finding that the testing accuracy is reduced from 96% to 91.1%. We further investigate how the latter model learns the required information from the template and search by exploring the saliency maps. Our work (1) confirms that CNNs are excellent models for "real-bogus" classification that rely exclusively on the imaging data and require no feature engineering task; (2) demonstrates that high-accuracy (> 90%) models can be built without the need to construct difference images, but some accuracy is lost. Since once trained, neural networks can generate predictions at minimal computational costs, we argue that future implementations of this methodology could dramatically reduce the computational costs in the detection of transients in synoptic surveys like Rubin Observatory's Legacy Survey of Space and Time by bypassing the Difference Image Analysis entirely.
翻訳日:2023-06-07 05:43:22 公開日:2023-06-02
# 離散潜在変数モデルのベイズ能動的学習

Bayesian Active Learning for Discrete Latent Variable Models ( http://arxiv.org/abs/2202.13426v2 )

ライセンス: Link先を確認
Aditi Jha, Zoe C. Ashwood, Jonathan W. Pillow(参考訳) アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を減らすことを目的としており、現代の機械学習において重要なテクニックのクラスを形成している。 しかし、能動的学習に関する過去の研究は、神経科学、心理学、その他の様々な工学および科学分野において重要な役割を果たす潜在変数モデルを見落としてきた。 本稿では,離散的潜在変数回帰モデルに対する最大変動情報入力選択のための新しい枠組みを提案する。 まず,本手法を線形回帰混合 (mlr) と呼ばれるモデル群に適用した。 アクティブラーニングが線形ゲージ回帰モデルに有利でないことはよく知られているが、フィッシャー情報を用いて、アクティブラーニングがこれらのモデルの混合に対して大きな利益をもたらすことを分析的に示し、シミュレーションと実世界データの両方を用いてこの改善を検証する。 次に,最近動物意思決定データから離散状態を特定するために用いられてきた一般化線形モデル (glm) を用いた隠れマルコフモデル (hmm) によって与えられる,時間的構造を持つ潜在変数モデルの強力なクラスを考える。 本手法は, GLM-HMMに適合するデータ量を大幅に削減し, 変分推論とアモータイズ推定に基づく近似手法の性能を向上することを示す。 潜時変動モデルに対するインフォマックス学習は、時間的に構造化された潜時状態の特徴付けに強力な能力を提供する。

Active learning seeks to reduce the amount of data required to fit the parameters of a model, thus forming an important class of techniques in modern machine learning. However, past work on active learning has largely overlooked latent variable models, which play a vital role in neuroscience, psychology, and a variety of other engineering and scientific disciplines. Here we address this gap by proposing a novel framework for maximum-mutual-information input selection for discrete latent variable regression models. We first apply our method to a class of models known as "mixtures of linear regressions" (MLR). While it is well known that active learning confers no advantage for linear-Gaussian regression models, we use Fisher information to show analytically that active learning can nevertheless achieve large gains for mixtures of such models, and we validate this improvement using both simulations and real-world data. We then consider a powerful class of temporally structured latent variable models given by a Hidden Markov Model (HMM) with generalized linear model (GLM) observations, which has recently been used to identify discrete states from animal decision-making data. We show that our method substantially reduces the amount of data needed to fit GLM-HMM, and outperforms a variety of approximate methods based on variational and amortized inference. Infomax learning for latent variable models thus offers a powerful for characterizing temporally structured latent states, with a wide variety of applications in neuroscience and beyond.
翻訳日:2023-06-07 05:41:44 公開日:2023-06-02
# ランタイムディストリビューションに対するフォーマルな優先順位付け

Formalizing Preferences Over Runtime Distributions ( http://arxiv.org/abs/2205.13028v2 )

ライセンス: Link先を確認
Devon R. Graham, Kevin Leyton-Brown, Tim Roughgarden(参考訳) 計算問題を解こうとすると、正しい答えを返すことが保証されているが、実行時分布が異なるアルゴリズム(例えば、satソルバ、ソートアルゴリズム)の間で選択されることが多い。 本稿では,実行時分布に対する選好を形式化し,そのような選択の理論的基盤を構築することを目的とする。 期待するランタイムを最小限にするアルゴリズムを、単に好むべきだと思います。 しかし、そのような選好は、アルゴリズムが悪い入力でどれだけ遅くなっているかによって引き起こされる。 提案手法は,アルゴリズムよりも選好を記述したスコアリング関数を特徴付けるためのユーティリティ理論的手法である。 これらの関数は、問題を解くための価値が時間とともに減少し、キャップタイムが引き出される分布に依存する。 本稿では,現実的なユーティリティ関数の例を説明し,不特定容量分布をモデル化するための最大エントロピー手法の活用方法を示す。 最後に,実行時サンプルからアルゴリズムの予測ユーティリティを効率的に推定する方法を示す。

When trying to solve a computational problem, we are often faced with a choice between algorithms that are guaranteed to return the right answer but differ in their runtime distributions (e.g., SAT solvers, sorting algorithms). This paper aims to lay theoretical foundations for such choices by formalizing preferences over runtime distributions. It might seem that we should simply prefer the algorithm that minimizes expected runtime. However, such preferences would be driven by exactly how slow our algorithm is on bad inputs, whereas in practice we are typically willing to cut off occasional, sufficiently long runs before they finish. We propose a principled alternative, taking a utility-theoretic approach to characterize the scoring functions that describe preferences over algorithms. These functions depend on the way our value for solving our problem decreases with time and on the distribution from which captimes are drawn. We describe examples of realistic utility functions and show how to leverage a maximum-entropy approach for modeling underspecified captime distributions. Finally, we show how to efficiently estimate an algorithm's expected utility from runtime samples.
翻訳日:2023-06-07 05:23:21 公開日:2023-06-02
# メタ最適輸送

Meta Optimal Transport ( http://arxiv.org/abs/2206.05262v2 )

ライセンス: Link先を確認
Brandon Amos, Samuel Cohen, Giulia Luise, Ievgen Redko(参考訳) 我々は,meta otと呼ばれる入力尺度から最適な交通量(ot)マップを予測するために,償却最適化(amortized optimization)の利用について検討する。 これは、過去の問題から存在する知識と情報を活用して、新しい問題を迅速に予測し、解決することで、異なる尺度間で同様のOT問題を繰り返すのに役立つ。 そうでなければ、標準手法は過去の解の知識を無視し、各問題をスクラッチから過度に解決する。 そこで我々は,Meta OTモデルを,グレースケール画像,球面データ,分類ラベル,カラーパレット間の離散的かつ連続的な設定でインスタンス化し,標準OTソルバの計算時間を改善する。 私たちのソースコードはhttp://github.com/facebookresearch/meta-otで利用可能です。

We study the use of amortized optimization to predict optimal transport (OT) maps from the input measures, which we call Meta OT. This helps repeatedly solve similar OT problems between different measures by leveraging the knowledge and information present from past problems to rapidly predict and solve new problems. Otherwise, standard methods ignore the knowledge of the past solutions and suboptimally re-solve each problem from scratch. We instantiate Meta OT models in discrete and continuous settings between grayscale images, spherical data, classification labels, and color palettes and use them to improve the computational time of standard OT solvers. Our source code is available at http://github.com/facebookresearch/meta-ot
翻訳日:2023-06-07 05:15:07 公開日:2023-06-02
# 安全ブラックボックス最適化のためのログバリアと安全強化学習への応用

Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning ( http://arxiv.org/abs/2207.10415v2 )

ライセンス: Link先を確認
Ilnura Usmanova, Yarden As, Maryam Kamgarpour, and Andreas Krause(参考訳) オンラインでノイズの多い機能を最適化する場合、その目的を評価するには、製造、ロボット工学、その他多くの分野において重要な課題となる。 多くの場合、安全な入力に対する制約は事前に不明であり、ノイズの多い情報しか得られず、制約に違反するほど近いことを示す。 しかし、安全はアルゴリズムの最終出力だけでなく、常に保証されなければならない。 本稿では,学習中の安全性維持が不可欠である高次元非線形確率最適化問題において,定常点を求める一般的なアプローチを提案する。 LB-SGDと呼ばれる手法は、確率勾配勾配勾配(SGD)を慎重に選択したステップサイズで元の問題の対数障壁近似に適用することに基づいている。 非凸、凸、強凸のスムーズな制約問題に対する完全収束解析を1次および0次フィードバックで提供する。 我々のアプローチは、既存のアプローチと比較して、効率的な更新と寸法によるスケールをもたらす。 サンプルの複雑さと計算コストを,既存の安全な学習手法と経験的に比較した。 安全強化学習(RL)における政策探索タスクにおける制約違反を最小限に抑えるためのアプローチの有効性を示す。

Optimizing noisy functions online, when evaluating the objective requires experiments on a deployed system, is a crucial task arising in manufacturing, robotics and many others. Often, constraints on safe inputs are unknown ahead of time, and we only obtain noisy information, indicating how close we are to violating the constraints. Yet, safety must be guaranteed at all times, not only for the final output of the algorithm. We introduce a general approach for seeking a stationary point in high dimensional non-linear stochastic optimization problems in which maintaining safety during learning is crucial. Our approach called LB-SGD is based on applying stochastic gradient descent (SGD) with a carefully chosen adaptive step size to a logarithmic barrier approximation of the original problem. We provide a complete convergence analysis of non-convex, convex, and strongly-convex smooth constrained problems, with first-order and zeroth-order feedback. Our approach yields efficient updates and scales better with dimensionality compared to existing approaches. We empirically compare the sample complexity and the computational cost of our method with existing safe learning approaches. Beyond synthetic benchmarks, we demonstrate the effectiveness of our approach on minimizing constraint violation in policy search tasks in safe reinforcement learning (RL).
翻訳日:2023-06-07 05:03:33 公開日:2023-06-02
# 翻訳不変カーネルのオルソノーマル展開

Orthonormal Expansions for Translation-Invariant Kernels ( http://arxiv.org/abs/2206.08648v3 )

ライセンス: Link先を確認
Filip Tronarp and Toni Karvonen(参考訳) 我々は、$\mathscr{L}_2(\mathbb{R})$の正則基底から翻訳不変核の正則基底展開を構築するための一般フーリエ解析手法を提案する。 これにより、実数直線上の明示的な展開を導出できる。 (i)ラゲール関数の項で、すべての半整数順序の Mat\'ern 核。 (ii)有理関数の観点からのコーシー核、及び (iii) エルミート函数の点でのガウス核。

We present a general Fourier analytic technique for constructing orthonormal basis expansions of translation-invariant kernels from orthonormal bases of $\mathscr{L}_2(\mathbb{R})$. This allows us to derive explicit expansions on the real line for (i) Mat\'ern kernels of all half-integer orders in terms of associated Laguerre functions, (ii) the Cauchy kernel in terms of rational functions, and (iii) the Gaussian kernel in terms of Hermite functions.
翻訳日:2023-06-07 05:01:12 公開日:2023-06-02
# 量子ゲージネットワーク:新しい種類のテンソルネットワーク

Quantum Gauge Networks: A New Kind of Tensor Network ( http://arxiv.org/abs/2210.12151v3 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) テンソルネットワークは低次元量子物理学をシミュレートするための強力なツールであるが、テンソルネットワークアルゴリズムは高い空間次元において非常に計算コストが高い。 量子ゲージネットワーク(quantum gauge network)は、シミュレーションの計算コストがより大きな空間次元に対して明示的に増加しないテンソルネットワークアンサッツの一種である。 量子力学のゲージ図から着想を得た。量子力学は空間の各パッチの局所波動関数で構成され、隣接するパッチはユニタリ接続によって関連付けられる。 量子ゲージネットワーク(qgn)は、局所波動関数のヒルベルト空間次元と接続が切断される以外、同様の構造を持つ。 一般化波動関数あるいは行列積状態(MPS)からQGNを得る方法について述べる。 多くの作用素に対する任意の波動関数の2k$-point相関関数はすべて、結合次元 $o(m^k)$ の qgn によって正確に符号化できる。 対照的に、わずか$k=1$の場合、指数的に大きい2^{M/6}$の結合次元は、一般に量子ビットのMPSに対して必要である。 任意の空間次元における量子力学の近似シミュレーションのための簡単なQGNアルゴリズムを提供する。 近似力学は時間に依存しないハミルトニアンの正確なエネルギー保存を達成でき、空間対称性も正確に維持できる。 フェルミオンハミルトニアンの量子クエンチを最大3次元の空間次元でシミュレートしてアルゴリズムをベンチマークする。

Although tensor networks are powerful tools for simulating low-dimensional quantum physics, tensor network algorithms are very computationally costly in higher spatial dimensions. We introduce quantum gauge networks: a different kind of tensor network ansatz for which the computation cost of simulations does not explicitly increase for larger spatial dimensions. We take inspiration from the gauge picture of quantum dynamics, which consists of a local wavefunction for each patch of space, with neighboring patches related by unitary connections. A quantum gauge network (QGN) has a similar structure, except the Hilbert space dimensions of the local wavefunctions and connections are truncated. We describe how a QGN can be obtained from a generic wavefunction or matrix product state (MPS). All $2k$-point correlation functions of any wavefunction for $M$ many operators can be encoded exactly by a QGN with bond dimension $O(M^k)$. In comparison, for just $k=1$, an exponentially larger bond dimension of $2^{M/6}$ is generically required for an MPS of qubits. We provide a simple QGN algorithm for approximate simulations of quantum dynamics in any spatial dimension. The approximate dynamics can achieve exact energy conservation for time-independent Hamiltonians, and spatial symmetries can also be maintained exactly. We benchmark the algorithm by simulating the quantum quench of fermionic Hamiltonians in up to three spatial dimensions.
翻訳日:2023-06-07 04:25:33 公開日:2023-06-02
# 量子力学のゲージ図

The Gauge Picture of Quantum Dynamics ( http://arxiv.org/abs/2210.09314v3 )

ライセンス: Link先を確認
Kevin Slagle(参考訳) 局所ハミルトニアンは局所時間ダイナミクスを示すが、波動関数の振幅が局所運動方程式に従わないという意味では、この局所性はschr\"{o}dinger像では明示されない。 本研究では,幾何局所性が明示的になるようにschr\"{o}dinger画像を変更する。 これを行うために、波動関数をローカルな波動関数の集合に置き換える: $|\psi_J\rangle$, 1 for each patch of space $J$.} である。 空間パッチのコレクションは、空間をカバーするために選択されます。例えば、格子上の最寄りの場所となるパッチを選択できます。 隣接する空間パッチのペアである$I$と$J$に関連するヒルベルト空間は、動的ユニタリ変換$U_{IJ}$によって互いに関連付けられる。 局所波動関数の運動方程式 $|\psi_J\rangle$ と接続 $U_{IJ}$ は空間において明示的に局所的である。 量子力学のこの図は、局所ゲージ対称性を示すため、ゲージ像と呼ぶ。 単一の空間パッチの局所力学は相互作用図形と関連しており、相互作用ハミルトンは近傍のハミルトン項のみからなる。 また、局所電荷とエネルギー密度の局所性を含むように明示的な局所性を一般化することもできる。

Although local Hamiltonians exhibit local time dynamics, this locality is not explicit in the Schr\"{o}dinger picture in the sense that the wavefunction amplitudes do not obey a local equation of motion. In this work, we modify the Schr\"{o}dinger picture such that geometric locality is explicit. To do this, we replace the wavefunction with a collection of local wavefunctions $|\psi_J\rangle$, one for each patch of space $J$. The collection of spatial patches is chosen to cover the space; e.g. we could choose the patches to be nearest-neighbor sites on a lattice. The Hilbert spaces associated with neighboring pairs of spatial patches $I$ and $J$ are related to each other by dynamical unitary transformations $U_{IJ}$. The equations of motion for the local wavefunctions $|\psi_J\rangle$ and connections $U_{IJ}$ are explicitly local in space. We call this picture of quantum dynamics the gauge picture since it exhibits a local gauge symmetry. The local dynamics of a single spatial patch is related to the interaction picture, where the interaction Hamiltonian consists of only nearby Hamiltonian terms. We can also generalize the explicit locality to include locality in local charge and energy densities.
翻訳日:2023-06-07 04:24:56 公開日:2023-06-02
# 自明かつトポロジカルな励起を持つ系に対するプログラマブルアダバティック・デマグネティゼーション

Programmable adiabatic demagnetization for systems with trivial and topological excitations ( http://arxiv.org/abs/2210.17256v3 )

ライセンス: Link先を確認
Anne Matthies and Mark Rudner and Achim Rosch and Erez Berg(参考訳) 量子コンピュータやプログラム可能な量子シミュレータ上で任意のハミルトニアンの低エネルギー状態を作成するための、単純で堅牢なプロトコルを提案する。 このプロトコルは、固体システムを極低温に冷却するために使用される断熱脱磁性技術にインスパイアされている。 クビット(またはスピン)のごく一部は、システムに結合したスピン浴をモデル化するために使用される。 バススピンに作用するシミュレーションゼーマン場の断熱ランプダウンにより、システムからエネルギー及びエントロピーを抽出する。 その後、浴のスピンが測定され、偏極状態にリセットされ、低エネルギーの定常状態への収束が完了するまでプロセスが繰り返される。 量子イジングモデルへの応用によるプロトコルの実証を行う。 提案手法は, 雑音の存在下での性能を検証し, 冷却過程の監視に浴のスピン測定から得られる情報をどのように利用できるかを示す。 アルゴリズムの性能はシステムの励起の性質に依存するが、非局所的な(位相的)励起を持つ系は局所的な励起を持つ系よりも冷却が難しい。 トポロジカルな励起をトラップすることでこの問題の緩和の可能性を探る。

We propose a simple, robust protocol to prepare a low-energy state of an arbitrary Hamiltonian on a quantum computer or programmable quantum simulator. The protocol is inspired by the adiabatic demagnetization technique, used to cool solid-state systems to extremely low temperatures. A fraction of the qubits (or spins) is used to model a spin bath that is coupled to the system. By an adiabatic ramp down of a simulated Zeeman field acting on the bath spins, energy and entropy are extracted from the system. The bath spins are then measured and reset to the polarized state, and the process is repeated until convergence to a low-energy steady state is achieved. We demonstrate the protocol via application to the quantum Ising model. We study the protocol's performance in the presence of noise and show how the information from the measurement of the bath spins can be used to monitor the cooling process. The performance of the algorithm depends on the nature of the excitations of the system; systems with non-local (topological) excitations are more difficult to cool than those with local excitations. We explore the possible mitigation of this problem by trapping topological excitations.
翻訳日:2023-06-07 04:15:35 公開日:2023-06-02
# $k$Nearest隣人のための2段階能動学習アルゴリズム

A Two-Stage Active Learning Algorithm for $k$-Nearest Neighbors ( http://arxiv.org/abs/2211.10773v2 )

ライセンス: Link先を確認
Nick Rittler and Kamalika Chaudhuri(参考訳) k$-nearest neighbor classificationは、分散スケールの変更に対する自動適応のような望ましい特性により、一般的なノンパラメトリックな手法である。 残念なことに、これらの望ましい性質を自然に保持する地元の投票ベースの分類器の訓練のためにアクティブラーニング戦略を設計することは困難であり、したがってk$-nearestの隣人分類のためのアクティブラーニング戦略は文学から顕著に欠落している。 そこで本研究では,$k$-nearest近傍の分類器を学習するための,単純で直感的な能動学習アルゴリズムを提案する。 また,条件付き確率関数 $\mathbb{p}(y=y|x=x)$ が十分に滑らかであり,tsybakov 雑音条件が保持されている場合,能動的に訓練された分類器は,受動的に訓練された $k$-nearest 隣接分類器よりも早い漸近速度でベイズ最適分類器に収束することを示す。

$k$-nearest neighbor classification is a popular non-parametric method because of desirable properties like automatic adaption to distributional scale changes. Unfortunately, it has thus far proved difficult to design active learning strategies for the training of local voting-based classifiers that naturally retain these desirable properties, and hence active learning strategies for $k$-nearest neighbor classification have been conspicuously missing from the literature. In this work, we introduce a simple and intuitive active learning algorithm for the training of $k$-nearest neighbor classifiers, the first in the literature which retains the concept of the $k$-nearest neighbor vote at prediction time. We provide consistency guarantees for a modified $k$-nearest neighbors classifier trained on samples acquired via our scheme, and show that when the conditional probability function $\mathbb{P}(Y=y|X=x)$ is sufficiently smooth and the Tsybakov noise condition holds, our actively trained classifiers converge to the Bayes optimal classifier at a faster asymptotic rate than passively trained $k$-nearest neighbor classifiers.
翻訳日:2023-06-07 04:05:38 公開日:2023-06-02
# コミュニケーション効率の良いバイレベルプログラミングのための分散交代勾配法

A Decentralized Alternating Gradient Method for Communication-Efficient Bilevel Programming ( http://arxiv.org/abs/2211.04088v2 )

ライセンス: Link先を確認
Parvin Nazari, Ahmad Mousavi, Davoud Ataee Tarzanagh, and George Michailidis(参考訳) 強化学習やハイパーパラメータ最適化など、幅広い応用によって、近年、バイレベルプログラミングが文献で注目を集めている。 しかし,星型ネットワークに接続された複数のマシン,すなわちフェデレーション学習環境において,基礎となる二段階最適化問題は一つのマシンで解決されると広く考えられている。 後者のアプローチは、中央ノード(例えばパラメータサーバ)での通信コストが高く、プライバシー上の脆弱性がある。 したがって、双方向最適化問題を通信効率のよい分散方式で解決する手法の開発が注目される。 そこで本稿では,このような最適化問題に対する理論的保証を備えたペナルティ関数に基づく分散アルゴリズムを提案する。 具体的には,分散ネットワーク上でのコンセンサス二レベル計画の解法として,分散交互勾配型アルゴリズムを開発した。 提案アルゴリズムの重要な特徴は,行列ベクトル積の分散計算とベクトル通信によってペナルティ関数の過度な勾配を推定することであり,これは異なる凸性仮定の下で有限時間収束解析を行うための交互アルゴリズムに統合される。 この複雑性解析の汎用性から,この結果は,ミニマックスや構成最適化を含む多種多様なコンセンサス問題に対する収束率をもたらす。 合成データと実データの両方に対する実験結果から,提案手法が実際に有効であることを示す。

Bilevel programming has recently received attention in the literature, due to a wide range of applications, including reinforcement learning and hyper-parameter optimization. However, it is widely assumed that the underlying bilevel optimization problem is solved either by a single machine or in the case of multiple machines connected in a star-shaped network, i.e., federated learning setting. The latter approach suffers from a high communication cost on the central node (e.g., parameter server) and exhibits privacy vulnerabilities. Hence, it is of interest to develop methods that solve bilevel optimization problems in a communication-efficient decentralized manner. To that end, this paper introduces a penalty function based decentralized algorithm with theoretical guarantees for this class of optimization problems. Specifically, a distributed alternating gradient-type algorithm for solving consensus bilevel programming over a decentralized network is developed. A key feature of the proposed algorithm is to estimate the hyper-gradient of the penalty function via decentralized computation of matrix-vector products and few vector communications, which is then integrated within our alternating algorithm to give the finite-time convergence analysis under different convexity assumptions. Owing to the generality of this complexity analysis, our result yields convergence rates for a wide variety of consensus problems including minimax and compositional optimization. Empirical results on both synthetic and real datasets demonstrate that the proposed method works well in practice.
翻訳日:2023-06-07 04:03:21 公開日:2023-06-02
# FiDO:Fusion-in-Decoderによるパフォーマンス向上と推論高速化

FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference ( http://arxiv.org/abs/2212.08153v2 )

ライセンス: Link先を確認
Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas FitzGerald, Sumit Sanghai, Fei Sha, William Cohen(参考訳) Fusion-in-Decoder (FiD)は、多くの知識集約型NLPタスクに最先端を設定できる強力な検索拡張言語モデルである。 しかし,fidに使用されるアーキテクチャは,標準t5モデルに最小限の修正を加えることで選択された。 特にFiDはFLOPの大部分をエンコーダに割り当て、推論時間の大部分がデコーダのメモリ帯域幅の制約によるものである。 本稿では,メモリ帯域幅制約を緩和するためのfidアーキテクチャの2つの簡単な変更と7倍の高速化を提案する。 これにより、はるかに大きなデコーダを控えめなコストで使用できます。 上述した修正をFiDOと表現し、既存のFiDモデルよりも広範囲の推論予算において性能を強く向上させることを示す。 例えば、FiDO-Large-XXLはFiD-Baseよりも高速な推論を行い、FiD-Largeよりも優れたパフォーマンスを実現する。

Fusion-in-Decoder (FiD) is a powerful retrieval-augmented language model that sets the state-of-the-art on many knowledge-intensive NLP tasks. However, the architecture used for FiD was chosen by making minimal modifications to a standard T5 model, which our analysis shows to be highly suboptimal for a retrieval-augmented model. In particular, FiD allocates the bulk of FLOPs to the encoder, while the majority of inference time results from memory bandwidth constraints in the decoder. We propose two simple changes to the FiD architecture to alleviate memory bandwidth constraints, and speed up inference by 7x. This allows us to use a much larger decoder at modest cost. We denote FiD with the above modifications as FiDO, and show that it strongly improves performance over existing FiD models for a wide range of inference budgets. For example, FiDO-Large-XXL performs faster inference than FiD-Base and achieves better performance than FiD-Large.
翻訳日:2023-06-07 03:44:43 公開日:2023-06-02
# プリ計算メモリかオンザフライエンコーディングか? 検索拡張のハイブリッドアプローチは、あなたの計算を最大限に活用する

Pre-computed memory or on-the-fly encoding? A hybrid approach to retrieval augmentation makes the most of your compute ( http://arxiv.org/abs/2301.10448v2 )

ライセンス: Link先を確認
Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Joshua Ainslie, Sumit Sanghai, Fei Sha, William Cohen(参考訳) fusion-in-decoderのような検索型言語モデルは強力であり、様々な知識集約的なタスクで技術の現状を設定する。 しかし、検索された大量のパスをエンコードする必要があるため、コストも高い。 テキストコーパスをメモリにプリエンコードし、密表現を直接検索することで、コストを回避する作業もある。 しかし、メモリ表現が現在の入力で条件付けされていないため、プリエンコーディングメモリは厳しい品質上のペナルティを負う。 提案するLUMENは,検索表現の大部分をプリコンプリートし,質問に対して条件付きかつタスクの微調整を行うライブエンコーダを用いて,ハエの符号化を完了させる。 LUMENは、FiDよりもはるかに安価で、複数の質問応答タスクにおいて純粋メモリを著しく上回り、任意の計算予算において両者を上回ります。 さらに、LUMENのFiDに対する優位性はモデルサイズとともに増大する。

Retrieval-augmented language models such as Fusion-in-Decoder are powerful, setting the state of the art on a variety of knowledge-intensive tasks. However, they are also expensive, due to the need to encode a large number of retrieved passages. Some work avoids this cost by pre-encoding a text corpus into a memory and retrieving dense representations directly. However, pre-encoding memory incurs a severe quality penalty as the memory representations are not conditioned on the current input. We propose LUMEN, a hybrid between these two extremes, pre-computing the majority of the retrieval representation and completing the encoding on the fly using a live encoder that is conditioned on the question and fine-tuned for the task. We show that LUMEN significantly outperforms pure memory on multiple question-answering tasks while being much cheaper than FiD, and outperforms both for any given compute budget. Moreover, the advantage of LUMEN over FiD increases with model size.
翻訳日:2023-06-07 03:25:48 公開日:2023-06-02
# 一般推論のための後方推定器のサンプリングに基づく精度評価

Sampling-Based Accuracy Testing of Posterior Estimators for General Inference ( http://arxiv.org/abs/2302.03026v2 )

ライセンス: Link先を確認
Pablo Lemos, Adam Coogan, Yashar Hezaveh, Laurence Perreault-Levasseur(参考訳) パラメータ推論、すなわち統計モデルのパラメータの後方分布をいくつかのデータから推定することは、多くの科学分野において中心的な問題である。 生成モデルは、確率に基づく問題とシミュレーションに基づく問題の両方において、後方推論を行うためにマルコフ連鎖モンテカルロ法に代わるものとして使うことができる。 しかし、生成モデルで符号化された後肢の精度の評価は簡単ではない。 本稿では,生成後頭部推定器のカバレッジ確率を推定する手法として,tarp(tests of accuracy with random points)カバレッジテストを提案する。 提案手法は, 後続評価を必要とする既存のカバレッジベース手法とは異なる。 提案手法は,後部推定器が正確であることを示すのに十分かつ必要であることを示す。 本手法は, 各種合成例について実証し, 高次元空間における後部推論解析の結果をTARPを用いて検証できることを示す。 また,既存手法が故障した場合に不正確な推論を検出できることを示す。

Parameter inference, i.e. inferring the posterior distribution of the parameters of a statistical model given some data, is a central problem to many scientific disciplines. Generative models can be used as an alternative to Markov Chain Monte Carlo methods for conducting posterior inference, both in likelihood-based and simulation-based problems. However, assessing the accuracy of posteriors encoded in generative models is not straightforward. In this paper, we introduce `Tests of Accuracy with Random Points' (TARP) coverage testing as a method to estimate coverage probabilities of generative posterior estimators. Our method differs from previously-existing coverage-based methods, which require posterior evaluations. We prove that our approach is necessary and sufficient to show that a posterior estimator is accurate. We demonstrate the method on a variety of synthetic examples, and show that TARP can be used to test the results of posterior inference analyses in high-dimensional spaces. We also show that our method can detect inaccurate inferences in cases where existing methods fail.
翻訳日:2023-06-07 03:06:29 公開日:2023-06-02
# 外傷性脳損傷後の臨床経過と予後 : 欧州集中治療単位データによる患者軌道の抽出

Contribution of clinical course to outcome after traumatic brain injury: mining patient trajectories from European intensive care unit data ( http://arxiv.org/abs/2303.04630v2 )

ライセンス: Link先を確認
Shubhayu Bhattacharyay, Pier Francesco Caruso, Cecilia {\AA}kerlund, Lindsay Wilson, Robert D Stevens, David K Menon, Ewout W Steyerberg, David W Nelson, Ari Ercole, the CENTER-TBI investigators/participants(参考訳) 集中治療室(ICU)における外傷性脳損傷(TBI)患者の進行状態を特徴付ける既存の方法は、治療の個別化に必要なコンテキストを捉えていない。 医療記録に格納されているすべてのデータを統合し,tbi患者のicu滞在毎に解釈可能な疾患コースを作成するモデリング戦略を開発することを目的とした。 TBI患者のヨーロッパコホート(n=1,550,65センタ,19か国)から,ICU滞在前後に収集した1,166変数と,Glasgow Outcome Scale-Extended(GOSE)の6ヶ月の機能を抽出した。 リカレントニューラルネットワークモデルをトレーニングして,2時間毎にすべての変数(データ欠落を含む)のトークン埋め込み時系列表現を,順序ゴス予後にマップした。 繰り返しのクロスバリデーションを行い,somers dxyを用いたgoseの校正と順序のばらつきについて検討した。 さらに,TimeSHAPを用いて,患者軌跡の遷移に対する変数および先行時刻の寄与を計算した。 提案手法は8時間でキャリブレーションを行い,最大52% (95% ci: 50-54%) の確率的機能的結果のばらつきが説明できた。 この説明の最大91%(90~91%)はICU以前の情報と入院情報から導かれたものである。 ICUで収集された情報では説明が5%まで(4-6%)増加するが、長期(5.75日)の患者では成績が低かった。 最も寄与率の高い静的変数は、医師の予後と特定の人口統計学的特徴とct特徴であった。 動的変数のうち,頭蓋内高血圧および神経機能マーカーが最も寄与した。 現在、機能的結果説明の大部分が静的情報であるにもかかわらず、我々のデータ駆動分析は、より長期の患者の動的特徴化を改善するための調査方法を強調している。

Existing methods to characterise the evolving condition of traumatic brain injury (TBI) patients in the intensive care unit (ICU) do not capture the context necessary for individualising treatment. We aimed to develop a modelling strategy which integrates all data stored in medical records to produce an interpretable disease course for each TBI patient's ICU stay. From a prospective, European cohort (n=1,550, 65 centres, 19 countries) of TBI patients, we extracted all 1,166 variables collected before or during ICU stay as well as 6-month functional outcome on the Glasgow Outcome Scale-Extended (GOSE). We trained recurrent neural network models to map a token-embedded time series representation of all variables (including missing data) to an ordinal GOSE prognosis every 2 hours. With repeated cross-validation, we evaluated calibration and the explanation of ordinal variance in GOSE with Somers' Dxy. Furthermore, we applied TimeSHAP to calculate the contribution of variables and prior timepoints towards transitions in patient trajectories. Our modelling strategy achieved calibration at 8 hours, and the full range of variables explained up to 52% (95% CI: 50-54%) of the variance in ordinal functional outcome. Up to 91% (90-91%) of this explanation was derived from pre-ICU and admission information. Information collected in the ICU increased explanation (by up to 5% [4-6%]), though not enough to counter poorer performance in longer-stay (>5.75 days) patients. Static variables with the highest contributions were physician prognoses and certain demographic and CT features. Among dynamic variables, markers of intracranial hypertension and neurological function contributed the most. Whilst static information currently accounts for the majority of functional outcome explanation, our data-driven analysis highlights investigative avenues to improve dynamic characterisation of longer-stay patients.
翻訳日:2023-06-07 02:39:36 公開日:2023-06-02
# LIDA:大規模言語モデルを用いた文法非依存可視化とインフォグラフィックの自動生成ツール

LIDA: A Tool for Automatic Generation of Grammar-Agnostic Visualizations and Infographics using Large Language Models ( http://arxiv.org/abs/2303.02927v2 )

ライセンス: Link先を確認
Victor Dibia(参考訳) 可視化の自動生成でユーザをサポートするシステムは、データのセマンティクスを理解し、関連する視覚化目標を列挙し、視覚化仕様を生成する、いくつかのサブタスクに対処しなければならない。 本研究では,多段階生成問題として可視化生成を行い,チャットgpt/gpt-4や画像生成モデル(igms)といった大規模言語モデル(llm)に基づくパイプラインがこれらの課題に適していると主張する。 本稿では,文法に依存しないビジュアライゼーションとインフォグラフィックを生成するための新しいツールLIDAを提案する。 LIDAは4つのモジュールから構成される - データはリッチだがコンパクトな自然言語の要約に変換するSUMMARIZER、データに与えられた視覚化目標を列挙するGOAL EXPLORER、視覚化コードを生成し、洗練し、実行し、フィルタするVISGENERATOR、IGMを使用してデータに忠実なスタイリングされたグラフィックを生成するINFOGRAPHERモジュール。 LIDAは、python apiとインタラクティブチャート、インフォグラフィック、データストーリー生成のためのハイブリッドユーザインタフェース(直接操作と多言語自然言語)を提供する。 プロジェクトの詳細はhttps://microsoft.github.io/lida/。

Systems that support users in the automatic creation of visualizations must address several subtasks - understand the semantics of data, enumerate relevant visualization goals and generate visualization specifications. In this work, we pose visualization generation as a multi-stage generation problem and argue that well-orchestrated pipelines based on large language models (LLMs) such as ChatGPT/GPT-4 and image generation models (IGMs) are suitable to addressing these tasks. We present LIDA, a novel tool for generating grammar-agnostic visualizations and infographics. LIDA comprises of 4 modules - A SUMMARIZER that converts data into a rich but compact natural language summary, a GOAL EXPLORER that enumerates visualization goals given the data, a VISGENERATOR that generates, refines, executes and filters visualization code and an INFOGRAPHER module that yields data-faithful stylized graphics using IGMs. LIDA provides a python api, and a hybrid user interface (direct manipulation and multilingual natural language) for interactive chart, infographics and data story generation. Learn more about the project here - https://microsoft.github.io/lida/
翻訳日:2023-06-07 02:37:03 公開日:2023-06-02
# 非凸最適化のためのばらつき低減クリッピング

Variance-reduced Clipping for Non-convex Optimization ( http://arxiv.org/abs/2303.00883v2 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Haochuan Li, Subhro Das, Ali Jadbabaie(参考訳) 勾配クリッピング(gradient clipping)は、大規模な言語モデリングなどのディープラーニングアプリケーションで使用される標準的なトレーニングテクニックである。 最近の実験的研究は、勾配クリッピングの訓練において、軌道に沿ったトレーニング対象の滑らかさにかなり特別な挙動を示す。 すなわち、滑らかさは勾配ノルムとともに成長する。 これは、フォークロア非凸最適化における確立された仮定とは対照的であり、すなわち、滑らかさはグローバルに一定の$l$で境界づけられていると仮定される。最近導入された$(l_0,l_1)$-smoothnessは、非凸最適化においてそのような振る舞いをキャプチャするより緩和された概念である。 特に、この緩和された滑らか性仮定の下で、クリッピングを伴うSGDは$O(\epsilon^{-4})$確率勾配計算を必要とし、$\epsilon$-定常解を求めることが示されている。 本稿では,SPIDERという分散還元手法を用いて,慎重に設計された学習率に対して,この複雑さをオーダー最適の$O(\epsilon^{-3})$に改善することを示す。 我々の設計した学習速度は、成長する滑らかさを緩和するクリッピング技術からなる。 さらに、目的関数が$n$成分の平均であるとき、確率勾配の複雑さに縛られる$O(n\epsilon^{-2})$を$O(\sqrt{n} \epsilon^{-2} + n)$に改善する。 設計したパラメータを持つSPIDERは、理論的に最適であるだけでなく、複数の視覚タスクにおいて、SVRGやSARAHのような分散推論手法と同等の性能を示す。

Gradient clipping is a standard training technique used in deep learning applications such as large-scale language modeling to mitigate exploding gradients. Recent experimental studies have demonstrated a fairly special behavior in the smoothness of the training objective along its trajectory when trained with gradient clipping. That is, the smoothness grows with the gradient norm. This is in clear contrast to the well-established assumption in folklore non-convex optimization, a.k.a. $L$--smoothness, where the smoothness is assumed to be bounded by a constant $L$ globally. The recently introduced $(L_0,L_1)$--smoothness is a more relaxed notion that captures such behavior in non-convex optimization. In particular, it has been shown that under this relaxed smoothness assumption, SGD with clipping requires $O(\epsilon^{-4})$ stochastic gradient computations to find an $\epsilon$--stationary solution. In this paper, we employ a variance reduction technique, namely SPIDER, and demonstrate that for a carefully designed learning rate, this complexity is improved to $O(\epsilon^{-3})$ which is order-optimal. Our designed learning rate comprises the clipping technique to mitigate the growing smoothness. Moreover, when the objective function is the average of $n$ components, we improve the existing $O(n\epsilon^{-2})$ bound on the stochastic gradient complexity to $O(\sqrt{n} \epsilon^{-2} + n)$, which is order-optimal as well. In addition to being theoretically optimal, SPIDER with our designed parameters demonstrates comparable empirical performance against variance-reduced methods such as SVRG and SARAH in several vision tasks.
翻訳日:2023-06-07 02:36:40 公開日:2023-06-02
# 集束化学空間における自動特許抽出パワー生成モデル

Automated patent extraction powers generative modeling in focused chemical spaces ( http://arxiv.org/abs/2303.08272v2 )

ライセンス: Link先を確認
Akshay Subramanian, Kevin Greenman, Alexis Gervaix, Tzuhsiung Yang, Rafael G\'omez-Bombarelli(参考訳) 深層生成モデルは逆分子設計のエキサイティングな道として登場し、訓練アルゴリズムと分子表現の相互作用から進歩している。 材料科学と化学に適用可能な重要な課題の1つは、プロパティラベルを持つ大規模トレーニングデータセットにアクセスできないことだ。 出版される特許は、ジャーナルに掲載される前に新しい素材を初めて開示することを含み、データ駆動分子設計の分野では比較的未知の科学知識の膨大な情報源である。 特定の用途を保護するために特許が出願されるため、特許の分子はアプリケーションクラスに弱いラベルを付けることができる。 さらに、米国特許商標庁(uspto)が発行する特許はダウンロード可能であり、機械可読テキストおよび分子構造を有する。 本研究では,USPTO特許のデジタルファイルから,人間の介入を最小限に抑えた新規候補を生成するための自動パイプラインを開発することで,特許データソースを用いたドメイン固有生成モデルを訓練する。 本手法は,有機エレクトロニクスとチロシンキナーゼ阻害薬の2種類のin-class抽出データセットでテストした。 次に、これらのクラス内データセットでトレーニングされた生成モデルの能力(分散学習とプロパティ最適化)を評価し、強みと限界を特定し、実際にこれらを克服するために使用できる説明と改善を提案する。

Deep generative models have emerged as an exciting avenue for inverse molecular design, with progress coming from the interplay between training algorithms and molecular representations. One of the key challenges in their applicability to materials science and chemistry has been the lack of access to sizeable training datasets with property labels. Published patents contain the first disclosure of new materials prior to their publication in journals, and are a vast source of scientific knowledge that has remained relatively untapped in the field of data-driven molecular design. Because patents are filed seeking to protect specific uses, molecules in patents can be considered to be weakly labeled into application classes. Furthermore, patents published by the US Patent and Trademark Office (USPTO) are downloadable and have machine-readable text and molecular structures. In this work, we train domain-specific generative models using patent data sources by developing an automated pipeline to go from USPTO patent digital files to the generation of novel candidates with minimal human intervention. We test the approach on two in-class extracted datasets, one in organic electronics and another in tyrosine kinase inhibitors. We then evaluate the ability of generative models trained on these in-class datasets on two categories of tasks (distribution learning and property optimization), identify strengths and limitations, and suggest possible explanations and remedies that could be used to overcome these in practice.
翻訳日:2023-06-07 02:27:40 公開日:2023-06-02
# LLM生成テキスト検出の科学

The Science of Detecting LLM-Generated Texts ( http://arxiv.org/abs/2303.07205v3 )

ライセンス: Link先を確認
Ruixiang Tang, Yu-Neng Chuang, Xia Hu(参考訳) 大規模言語モデル(LLMs)の出現は、高度に洗練され、人間によって書かれたテキストとほとんど区別できないLLM生成のテキストを生み出した。 しかし、これは、誤報の拡散や教育制度の混乱など、そのような文章の誤用の可能性への懸念も引き起こしている。 多くの検出アプローチが提案されているが、成果と課題の包括的理解はまだ不足している。 本調査は,既存のllm生成テキスト検出手法の概要と,言語生成モデルの制御と規制を強化することを目的とする。 さらに,LLM 生成テキスト検出の分野における進歩を促進するため,総合的な評価指標の開発や,オープンソースの LLM による脅威など,今後の研究の重要課題を強調した。

The emergence of large language models (LLMs) has resulted in the production of LLM-generated texts that is highly sophisticated and almost indistinguishable from texts written by humans. However, this has also sparked concerns about the potential misuse of such texts, such as spreading misinformation and causing disruptions in the education system. Although many detection approaches have been proposed, a comprehensive understanding of the achievements and challenges is still lacking. This survey aims to provide an overview of existing LLM-generated text detection techniques and enhance the control and regulation of language generation models. Furthermore, we emphasize crucial considerations for future research, including the development of comprehensive evaluation metrics and the threat posed by open-source LLMs, to drive progress in the area of LLM-generated text detection.
翻訳日:2023-06-07 02:26:33 公開日:2023-06-02
# VILA:Vision-Language Pretrainingによるユーザコメントからイメージ美学を学ぶ

VILA: Learning Image Aesthetics from User Comments with Vision-Language Pretraining ( http://arxiv.org/abs/2303.14302v2 )

ライセンス: Link先を確認
Junjie Ke, Keren Ye, Jiahui Yu, Yonghui Wu, Peyman Milanfar, Feng Yang(参考訳) 画像の審美性を評価することは、構成、色、スタイル、高レベルの意味論など、複数の要因に影響されるため、難しい。 既存の画像美的評価法(IAA)は、人間が知覚する視覚的美的情報を過度に単純化する人間のラベル付き評価スコアに依存している。 逆に、ユーザーコメントはより包括的な情報を提供し、画像美学に関する人間の意見や好みを表現する自然な方法である。 そこで本研究では,ユーザのコメントからイメージ美学を学ぶこと,マルチモーダル美学表現を学習するための視覚言語事前学習法を提案する。 具体的には、コントラスト的および生成的目的を用いて画像テキストエンコーダ-デコーダモデルを事前訓練し、人間のラベルなしでリッチで汎用的な美的意味学を学習する。 下流のiaaタスクに事前学習したモデルを効率的に適応させるために,テキストをアンカーとして使用する軽量なランクベースアダプタを提案する。 以上の結果から,AVA-Captionsデータセットによる画像の美的字幕化は従来よりも優れており,ゼロショットスタイル分類やゼロショットIAAなどの美的タスクには強力なゼロショット機能を備えており,多くの教師付きベースラインを超えていることがわかった。 提案するアダプタモジュールを用いた最小限の微調整パラメータのみを用いて,AVAデータセット上での最先端IAA性能を実現する。

Assessing the aesthetics of an image is challenging, as it is influenced by multiple factors including composition, color, style, and high-level semantics. Existing image aesthetic assessment (IAA) methods primarily rely on human-labeled rating scores, which oversimplify the visual aesthetic information that humans perceive. Conversely, user comments offer more comprehensive information and are a more natural way to express human opinions and preferences regarding image aesthetics. In light of this, we propose learning image aesthetics from user comments, and exploring vision-language pretraining methods to learn multimodal aesthetic representations. Specifically, we pretrain an image-text encoder-decoder model with image-comment pairs, using contrastive and generative objectives to learn rich and generic aesthetic semantics without human labels. To efficiently adapt the pretrained model for downstream IAA tasks, we further propose a lightweight rank-based adapter that employs text as an anchor to learn the aesthetic ranking concept. Our results show that our pretrained aesthetic vision-language model outperforms prior works on image aesthetic captioning over the AVA-Captions dataset, and it has powerful zero-shot capability for aesthetic tasks such as zero-shot style classification and zero-shot IAA, surpassing many supervised baselines. With only minimal finetuning parameters using the proposed adapter module, our model achieves state-of-the-art IAA performance over the AVA dataset.
翻訳日:2023-06-07 02:18:54 公開日:2023-06-02
# 準メトリック学習による最適ゴールリーチ強化学習

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ( http://arxiv.org/abs/2304.01203v4 )

ライセンス: Link先を確認
Tongzhou Wang, Antonio Torralba, Phillip Isola, Amy Zhang(参考訳) 目標到達強化学習(rl)では、最適値関数は準メトリック構造と呼ばれる特定の幾何学を持つ。 本稿では,準メトリックモデルを用いて最適値関数を学習する新しい rl 手法である quasimetric reinforcement learning (qrl) を提案する。 従来のアプローチとは違い、QRLの目標は特に準計量のために設計されており、強力な理論的回復保証を提供する。 実験的に、離散化されたマウンテンカー環境を徹底的に分析し、QRLの特性と代替品に対する優位性を識別する。 オフラインおよびオンラインの目標達成ベンチマークでは、QRLは、状態ベースと画像ベースの両方で、サンプル効率とパフォーマンスが改善されている。

In goal-reaching reinforcement learning (RL), the optimal value function has a particular geometry, called quasimetric structure. This paper introduces Quasimetric Reinforcement Learning (QRL), a new RL method that utilizes quasimetric models to learn optimal value functions. Distinct from prior approaches, the QRL objective is specifically designed for quasimetrics, and provides strong theoretical recovery guarantees. Empirically, we conduct thorough analyses on a discretized MountainCar environment, identifying properties of QRL and its advantages over alternatives. On offline and online goal-reaching benchmarks, QRL also demonstrates improved sample efficiency and performance, across both state-based and image-based observations.
翻訳日:2023-06-07 02:07:54 公開日:2023-06-02
# StyleGAN Salon: Pose-invariant Hairstyle Transferのための多視点遅延最適化

StyleGAN Salon: Multi-View Latent Optimization for Pose-Invariant Hairstyle Transfer ( http://arxiv.org/abs/2304.02744v3 )

ライセンス: Link先を確認
Sasikarn Khwanmuang, Pakkapon Phongthawee, Patsorn Sangkloy, Supasorn Suwajanakorn(参考訳) 本稿は,参照画像のヘアスタイルを,仮想毛髪試着用の入力写真に転送することを目的としている。 例えば、長い髪型をバングでピクシーカットに変えて、既存の髪を取り外し、額の見た目を推測したり、帽子をかぶった人から部分的に見える髪を別のポーズで移すといった、さまざまな課題を想定しています。 過去のソリューションでは、欠落部分の幻覚としてstyleganを利用し、いわゆるgan反転または投影を通じてシームレスな顔毛複合体を生成する。 しかし、髪型を正確に転写し、入力の顔の形やアイデンティティを保持する幻覚の制御には依然として課題がある。 これを解決するために,参照合成の「2つの異なるビュー」を用いて,隠蔽領域や曖昧領域を意味的にガイドする多視点最適化フレームワークを提案する。 最適化は2つのポーズ間で情報を共有するため、不完全な参照から高い忠実度と現実的な結果が得られる。 われわれのフレームワークは, 従来よりはるかに難易度の高いヘアトランスファーシナリオからなるユーザスタディにおいて, 高品質な結果が得られ, 先行研究よりも優れていた。 プロジェクトページ: https://stylegan-salon.github.io/

Our paper seeks to transfer the hairstyle of a reference image to an input photo for virtual hair try-on. We target a variety of challenges scenarios, such as transforming a long hairstyle with bangs to a pixie cut, which requires removing the existing hair and inferring how the forehead would look, or transferring partially visible hair from a hat-wearing person in a different pose. Past solutions leverage StyleGAN for hallucinating any missing parts and producing a seamless face-hair composite through so-called GAN inversion or projection. However, there remains a challenge in controlling the hallucinations to accurately transfer hairstyle and preserve the face shape and identity of the input. To overcome this, we propose a multi-view optimization framework that uses "two different views" of reference composites to semantically guide occluded or ambiguous regions. Our optimization shares information between two poses, which allows us to produce high fidelity and realistic results from incomplete references. Our framework produces high-quality results and outperforms prior work in a user study that consists of significantly more challenging hair transfer scenarios than previously studied. Project page: https://stylegan-salon.github.io/.
翻訳日:2023-06-07 01:57:06 公開日:2023-06-02
# グラフをまたいだ動的転送学習

Dynamic Transfer Learning across Graphs ( http://arxiv.org/abs/2305.00664v4 )

ライセンス: Link先を確認
Haohui Wang, Yuzhen Mao, Jianhui Sun, Si Zhang, Yonghui Fan, Dawei Zhou(参考訳) グラフにまたがる知識の伝達は、輸送ネットワークからeコマースネットワーク、神経科学から金融まで、多くの高リスクドメインにおいて重要な役割を担っている。 これまで、既存の著作物の大部分は、ソース領域とターゲット領域の両方が普遍分布と定常分布からサンプリングされていると仮定している。 しかし、多くの現実世界のシステムは本質的に動的であり、基礎となるドメインは時間とともに進化している。 ラベルリッチなソースグラフと以前のtタイムスタンプで観測されたラベル付きターゲットグラフを考えると、どのようにして進化するドメインの不一致を効果的に特徴付け、t+1タイムスタンプでターゲットドメインの一般化性能を最適化できるか? そこで本研究では,まず,グラフ間の動的移動学習の設定を前提とした一般化法を提案し,その一般化性能は,領域の進化と対象領域間のドメイン差に支配されることを示す。 理論的結果から着想を得て,動的グラフ間の知識伝達性を改善するための新しい汎用フレームワークDyTransを提案する。 特に,進化する領域の時間情報をモデル化するtransformerベースの時間符号化モジュールから始めて,さらに動的領域統一モジュールの設計を行い,ソース領域とターゲット領域間のドメイン不変表現を効率的に学習する。 最後に、様々な実世界のデータセットに関する広範な実験により、動的ソースドメインから動的ターゲットドメインへの知識転送におけるDyTransの有効性を示す。

Transferring knowledge across graphs plays a pivotal role in many high-stake domains, ranging from transportation networks to e-commerce networks, from neuroscience to finance. To date, the vast majority of existing works assume both source and target domains are sampled from a universal and stationary distribution. However, many real-world systems are intrinsically dynamic, where the underlying domains are evolving over time. To bridge the gap, we propose to shift the problem to the dynamic setting and ask: given the label-rich source graphs and the label-scarce target graphs observed in previous T timestamps, how can we effectively characterize the evolving domain discrepancy and optimize the generalization performance of the target domain at the incoming T+1 timestamp? To answer the question, for the first time, we propose a generalization bound under the setting of dynamic transfer learning across graphs, which implies the generalization performance is dominated by domain evolution and domain discrepancy between source and target domains. Inspired by the theoretical results, we propose a novel generic framework DyTrans to improve knowledge transferability across dynamic graphs. In particular, we start with a transformer-based temporal encoding module to model temporal information of the evolving domains; then, we further design a dynamic domain unification module to efficiently learn domain-invariant representations across the source and target domains. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of DyTrans in transferring knowledge from dynamic source domains to dynamic target domains.
翻訳日:2023-06-07 01:49:29 公開日:2023-06-02
# カンチレバービーム損傷検出のためのニューロシンボリックモデル

Neuro-symbolic model for cantilever beams damage detection ( http://arxiv.org/abs/2305.03063v2 )

ライセンス: Link先を確認
Darian Onchis and Gilbert-Rainer Gillich and Eduard Hogea and Cristian Tufisi(参考訳) 過去10年間で、損傷検出アプローチは、高度な信号処理方法から機械学習、特にディープラーニングモデルへと急速に変化し、ビーム構造の状態を正確に非侵襲的に推定する。 しかし、ディープラーニングモデルがピークパフォーマンスに達すると、適用性と脆弱性の制限も観察された。 運用条件における信頼性の欠如の最も重要な理由の1つは、テンソル値における知識の符号化と論理的制約を含まないことによる、ディープラーニングシステムの本質的な説明能力の欠如である。 本稿では,本モデルに実際の論理を組み込むことによって実現されたクエリによる対話制御により,畳み込みネットワークの処理能力と結合する,新しい認知アーキテクチャに基づく,カンチレバービームの損傷検出のためのニューロシンボリックモデルを提案する。 ハイブリッド判別モデルはLogic Convolutional Neural Regressorという名前で導入され、元の数学的関係から導かれたカンチレバービームの相対的な自然周波数シフトの値のデータセット上で検証される。 得られた結果は、ディープラーニングモデルの予測能力をすべて保持する一方で、3つの距離を充足可能性の述語として使用することで、システムは実用的なアプリケーションのために信頼性と拡張性が向上する。 広範囲な数値実験と実験を行い, ハイブリッドアプローチの優位性を実証し, 損傷検出問題を解くための新しい経路を開拓した。

In the last decade, damage detection approaches swiftly changed from advanced signal processing methods to machine learning and especially deep learning models, to accurately and non-intrusively estimate the state of the beam structures. But as the deep learning models reached their peak performances, also their limitations in applicability and vulnerabilities were observed. One of the most important reason for the lack of trustworthiness in operational conditions is the absence of intrinsic explainability of the deep learning system, due to the encoding of the knowledge in tensor values and without the inclusion of logical constraints. In this paper, we propose a neuro-symbolic model for the detection of damages in cantilever beams based on a novel cognitive architecture in which we join the processing power of convolutional networks with the interactive control offered by queries realized through the inclusion of real logic directly into the model. The hybrid discriminative model is introduced under the name Logic Convolutional Neural Regressor and it is tested on a dataset of values of the relative natural frequency shifts of cantilever beams derived from an original mathematical relation. While the obtained results preserve all the predictive capabilities of deep learning models, the usage of three distances as predicates for satisfiability, makes the system more trustworthy and scalable for practical applications. Extensive numerical and laboratory experiments were performed, and they all demonstrated the superiority of the hybrid approach, which can open a new path for solving the damage detection problem.
翻訳日:2023-06-07 01:38:56 公開日:2023-06-02
# ヘイスタックにおけるニューロンの発見 : スパースプローブを用いたケーススタディ

Finding Neurons in a Haystack: Case Studies with Sparse Probing ( http://arxiv.org/abs/2305.01610v2 )

ライセンス: Link先を確認
Wes Gurnee, Neel Nanda, Matthew Pauly, Katherine Harvey, Dmitrii Troitskii, Dimitris Bertsimas(参考訳) 大規模言語モデル(LLM)の急速な採用と展開にもかかわらず、これらのモデルの内部計算は不透明で理解されていない。 本研究では,LLMの内部ニューロン活性化において,高レベルのヒト解釈可能特徴がどのように表現されているかを理解することを目的とする。 私たちは、これらの内部アクティベーションに対して、$k$-スパース線形分類子(probes)を訓練して、入力中の特徴の存在を予測する。 k=1$で、特定の特徴に高い関係を持つ個々のニューロンを局在させ、LLMの一般的な性質を説明するために多くのケーススタディを実行する。 特に、初期層は、重ね合わせにおける多くの特徴を表現するために、神経細胞の疎結合を利用し、中層は高次文脈特徴を表現するために専用のニューロンを持っているように見え、スケールの増大は平均的に表現の空間性を増大させるが、複数の種類のスケーリングダイナミクスが存在することを示す。 総じて、70万から690億のパラメータにまたがる7つの異なるモデルの10のカテゴリからなる100以上のユニークな特徴を探索する。

Despite rapid adoption and deployment of large language models (LLMs), the internal computations of these models remain opaque and poorly understood. In this work, we seek to understand how high-level human-interpretable features are represented within the internal neuron activations of LLMs. We train $k$-sparse linear classifiers (probes) on these internal activations to predict the presence of features in the input; by varying the value of $k$ we study the sparsity of learned representations and how this varies with model scale. With $k=1$, we localize individual neurons which are highly relevant for a particular feature, and perform a number of case studies to illustrate general properties of LLMs. In particular, we show that early layers make use of sparse combinations of neurons to represent many features in superposition, that middle layers have seemingly dedicated neurons to represent higher-level contextual features, and that increasing scale causes representational sparsity to increase on average, but there are multiple types of scaling dynamics. In all, we probe for over 100 unique features comprising 10 different categories in 7 different models spanning 70 million to 6.9 billion parameters.
翻訳日:2023-06-07 01:38:03 公開日:2023-06-02
# 一般化困難度のモデル非依存測定

Model-agnostic Measure of Generalization Difficulty ( http://arxiv.org/abs/2305.01034v2 )

ライセンス: Link先を確認
Akhilan Boopathy, Kevin Liu, Jaedong Hwang, Shu Ge, Asaad Mohammedsaleh, Ila Fiete(参考訳) 機械学習アルゴリズムの尺度は、実行可能なタスクの難しさであり、十分に困難なタスクは、強力な機械学習モデルの重要なドライバである。 しかし、機械学習ベンチマークの一般化の難しさの定量化は依然として困難である。 本稿では,タスクの一般化難易度に関するモデルに依存しない最初の尺度を提案する。 我々の帰納的バイアス複雑性尺度は、そのデータが提供する情報を除くタスクでうまく一般化するために必要な総情報を定量化する。 これは、トレーニングデータに適合するタスクを一般化する仮説によって占有される分数体積を測定することによって行われる。 モデルが一般化しなければならない空間の固有次元と指数関数的にスケールするが、その次元ごとの分解能は多項式のみであり、多くの次元を一般化する必要のあるタスクはより少ない次元でより詳細を必要とするタスクよりも劇的に困難であることを示している。 本手法は,教師付き学習,強化学習,メタラーニング一般化の難しさの計算と比較に応用できる。 実験により,MNIST < CIFAR10 < Imagenet と完全可観測マルコフ決定過程 (MDPs) < 部分的に観測可能な MDP を用いて,直感的に予測される傾向を正式に定量化することを示した。 さらに, 複雑な画像の分類, 簡単な画像によるメタラーニングについて述べる。 我々の測度は、より複雑なタスクの構築を誘導し、より強力な一般化能力を持つより洗練されたアーキテクチャや学習アルゴリズムの開発を促進するための定量的な指標を提供する。

The measure of a machine learning algorithm is the difficulty of the tasks it can perform, and sufficiently difficult tasks are critical drivers of strong machine learning models. However, quantifying the generalization difficulty of machine learning benchmarks has remained challenging. We propose what is to our knowledge the first model-agnostic measure of the inherent generalization difficulty of tasks. Our inductive bias complexity measure quantifies the total information required to generalize well on a task minus the information provided by the data. It does so by measuring the fractional volume occupied by hypotheses that generalize on a task given that they fit the training data. It scales exponentially with the intrinsic dimensionality of the space over which the model must generalize but only polynomially in resolution per dimension, showing that tasks which require generalizing over many dimensions are drastically more difficult than tasks involving more detail in fewer dimensions. Our measure can be applied to compute and compare supervised learning, reinforcement learning and meta-learning generalization difficulties against each other. We show that applied empirically, it formally quantifies intuitively expected trends, e.g. that in terms of required inductive bias, MNIST < CIFAR10 < Imagenet and fully observable Markov decision processes (MDPs) < partially observable MDPs. Further, we show that classification of complex images < few-shot meta-learning with simple images. Our measure provides a quantitative metric to guide the construction of more complex tasks requiring greater inductive bias, and thereby encourages the development of more sophisticated architectures and learning algorithms with more powerful generalization capabilities.
翻訳日:2023-06-07 01:37:41 公開日:2023-06-02
# 量子力学の別の基礎

An alternative foundation of quantum mechanics ( http://arxiv.org/abs/2305.06727v3 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 本稿では,量子論への新たなアプローチを提案する。 基礎は理論変数であり、アクセス可能あるいはアクセス不能な物理変数、すなわち、アクターが任意に鋭い数値をそれらに割り当てることは可能であるか不可能であるかもしれない。 認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。 群作用はこれらの変数上で定義され、群表現論はヒルベルト空間形式論の発展の基礎となる。 アクセス可能な概念変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であると主張する。 このアプローチによって示唆される量子状態(あるいは固有ベクトル空間)の解釈は、自然に焦点を絞った質問であり、これらの質問に対する鋭い答えである。 質問はボーアが定義した意味で補完的かもしれない。 論文の焦点は、提案された量子論の基礎に関連する数学的定理である。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 これは理論をかなり単純化する。 量子力学の解釈に関する議論は、基礎問題の徹底的な処理の後に行われるべきだと私は考えています。 ここで提案される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 これはQB主義に類似しており、ローヴェルリのリレーショナル量子力学の側面の具体的な実装と見なすことができ、他のいくつかの解釈と関係がある。

A new approach towards quantum theory is proposed in this paper. The basis is taken to be theoretical variables, physical variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism. Operators corresponding to accessible conceptual variables are derived, and in the discrete case it is argued that the possible physical values are the eigenvalues of these operators. The interpretation of quantum states (or eigenvector spaces) implied by this approach is as focused questions to nature together with sharp answers to those questions. The questions may be complementary in the sense defined by Bohr. The focus of the paper are some mathematical theorems associated with the proposed foundation of quantum theory. It is shown here that the groups and transformation needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably. It is my view that the discussion on the interpretation of quantum mechanics should come after a thorough treatment of the foundation issue. The interpretation proposed here may be called a general epistemic interpretation of quantum theory. It is similar in some respects to QBism, can also be seen as a concrete implementation of aspects of Rovelli's Relational Quantum Mechanics, and has a relationship to several other interpretations.
翻訳日:2023-06-07 01:29:46 公開日:2023-06-02
# RLocator: バグローカライゼーションのための強化学習

RLocator: Reinforcement Learning for Bug Localization ( http://arxiv.org/abs/2305.05586v2 )

ライセンス: Link先を確認
Partha Chakraborty, Mahmoud Alfadel, and Meiyappan Nagappan(参考訳) ソフトウェア開発者はプロジェクトのバグを修正するのにかなりの時間を費やします。 このプロセスを合理化するために、特定のバグの原因となる可能性のあるソースコードファイルを特定するためのバグローカライズアプローチが提案されている。 以前の研究では、バグローカライゼーションのための類似性に基づく機械学習技術が提案されていた。 これらの手法の大幅な進歩にもかかわらず、評価尺度を直接最適化することはない。 評価尺度の直接的最適化は,バグローカライズ手法の性能向上に寄与する可能性がある。 そこで本稿では,RL(Reinforcement Learning)技術を用いて,ランキングの指標を直接最適化する。 強化学習に基づくバグローカライゼーション手法であるRLocatorを提案する。 マルコフ決定プロセス(MDP)を用いてRLocatorを定式化し,評価手法を直接最適化する。 6つの人気の高いApacheプロジェクトの8,316のバグレポートのベンチマークデータセットに基づいて,このテクニックを提示し,実験的に評価する。 その結果,ロケータは平均逆ランク(mrr) 0.62,平均平均精度(map) 0.59,トップ1スコア(0.46。 我々はRLocatorと2つの最先端バグローカライズツールFLIMとBugLocatorを比較した。 評価の結果、ロケータはともに38.3%、mrは36.73%、トップkは23.68%改善した。 これらの結果から,評価指標を直接最適化することは,バグローカライゼーション問題の性能向上に大きく貢献することがわかった。

Software developers spend a significant portion of time fixing bugs in their projects. To streamline this process, bug localization approaches have been proposed to identify the source code files that are likely responsible for a particular bug. Prior work proposed several similarity-based machine-learning techniques for bug localization. Despite significant advances in these techniques, they do not directly optimize the evaluation measures. We argue that directly optimizing evaluation measures can positively contribute to the performance of bug localization approaches. Therefore, In this paper, we utilize Reinforcement Learning (RL) techniques to directly optimize the ranking metrics. We propose RLocator, a Reinforcement Learning-based bug localization approach. We formulate RLocator using a Markov Decision Process (MDP) to optimize the evaluation measures directly. We present the technique and experimentally evaluate it based on a benchmark dataset of 8,316 bug reports from six highly popular Apache projects. The results of our evaluation reveal that RLocator achieves a Mean Reciprocal Rank (MRR) of 0.62, a Mean Average Precision (MAP) of 0.59, and a Top 1 score of 0.46. We compare RLocator with two state-of-the-art bug localization tools, FLIM and BugLocator. Our evaluation reveals that RLocator outperforms both approaches by a substantial margin, with improvements of 38.3% in MAP, 36.73% in MRR, and 23.68% in the Top K metric. These findings highlight that directly optimizing evaluation measures considerably contributes to performance improvement of the bug localization problem.
翻訳日:2023-06-07 01:28:16 公開日:2023-06-02
# ベル実験と量子基礎について

On the Bell Experiment and Quantum Foundation ( http://arxiv.org/abs/2305.05299v2 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) ベル実験は、量子力学の基礎への新しいアプローチに基づいて議論されている。 基本的なモデルから、どんなオブザーバーの心も何らかの方法で制限されなければならないと結論づけられる: ある文脈では、彼は単に意思決定時に十分な変数を心に保持できない。 これはベルの定理の帰結であるが、より広い結果をもたらすようである。

The Bell experiment is discussed in light of a new approach towards the foundation of quantum mechanics. It is concluded from the basic model that the mind of any observer must be limited in some way: In certain contexts, he is simply not able to keep enough variables in his mind when making decisions. This has consequences for Bell's theorem, but it also seems to have wider consequences.
翻訳日:2023-06-07 01:27:54 公開日:2023-06-02
# モデル予測解析のための自己回帰型言語モデル隠れ状態のトークン分解

Token-wise Decomposition of Autoregressive Language Model Hidden States for Analyzing Model Predictions ( http://arxiv.org/abs/2305.10614v2 )

ライセンス: Link先を確認
Byung-Doh Oh, William Schuler(参考訳) トランスフォーマーをベースとした大規模言語モデルがなぜその動作を予測しているのかを研究することに関心があるが、各層で実行される複雑な計算は、その振る舞いを幾分不透明にしている。 この不透明さを緩和するために、本研究では、ほぼ全ての現代のトランスフォーマーアーキテクチャにおいて正確である、各初期入力トークンに基づく自己回帰言語モデルから最終的な隠れ状態の線形分解を示す。 この分解により、特定の入力トークンの寄与を緩和する確率分布の定義が可能になり、モデルから1つの前方通過しか持たない次の単語の列に対するモデル確率への影響を分析するのに使用できる。 本研究は,次の単語の確率の変化を重要度指標として,まず言語モデル予測に最も寄与する文脈単語について検討する。 回帰実験により、トランスフォーマティブベースの言語モデルは、主にコロケーション関係に依存し、次単語予測において構文依存性やコリファレンス関係などの言語的要因が続くことが示唆された。 さらに、これらの尺度を用いて構文依存やコアフェレント参照スパンを予測した結果、同じトークンのコロケーション関連と繰り返しは、これらのタスクにおける言語モデルの予測を大きく説明している。

While there is much recent interest in studying why Transformer-based large language models make predictions the way they do, the complex computations performed within each layer have made their behavior somewhat opaque. To mitigate this opacity, this work presents a linear decomposition of final hidden states from autoregressive language models based on each initial input token, which is exact for virtually all contemporary Transformer architectures. This decomposition allows the definition of probability distributions that ablate the contribution of specific input tokens, which can be used to analyze their influence on model probabilities over a sequence of upcoming words with only one forward pass from the model. Using the change in next-word probability as a measure of importance, this work first examines which context words make the biggest contribution to language model predictions. Regression experiments suggest that Transformer-based language models rely primarily on collocational associations, followed by linguistic factors such as syntactic dependencies and coreference relationships in making next-word predictions. Additionally, analyses using these measures to predict syntactic dependencies and coreferent mention spans show that collocational association and repetitions of the same token largely explain the language models' predictions on these tasks.
翻訳日:2023-06-07 01:21:01 公開日:2023-06-02
# グラフ上のロングテールカテゴリの特徴付け

Characterizing Long-Tail Categories on Graphs ( http://arxiv.org/abs/2305.09938v3 )

ライセンス: Link先を確認
Haohui Wang, Baoyu Jing, Kaize Ding, Yada Zhu, Liqing Zhang, Dawei Zhou(参考訳) ロングテールデータ配信は、金融取引ネットワーク、eコマースネットワーク、コラボレーションネットワークなど、多くの現実世界のネットワークで一般的である。 最近の開発の成功にもかかわらず、既存の作品は主にグラフ拡張や客観的な重み付けによる機械学習モデルのデバイアスに焦点を当てている。 しかし、グラフ上の長い尾のカテゴリの挙動を特徴づけ、実際のシナリオにおける一般化性能を理解するための理論的ツールを提供する文献は限られている。 このギャップを埋めるために,マルチタスク学習の方法で問題を定式化することにより,グラフ上の長い尾の分類のための最初の一般化を提案し,各タスクは1つの特定のカテゴリの予測に対応する。 その結果,ロングテール分類の一般化性能は,すべてのタスクの損失範囲とタスクの総数に支配されていることがわかった。 理論的な知見に基づいて,グラフのロングテールカテゴリの性能を向上させるための新しい汎用フレームワークtail2learnを提案する。 特に,ラベル制限されたクラスを他のクラスが共有する関連情報から恩恵を受ける階層型タスクグループ化モジュールから始め,頭と尾のクラスの勾配寄与のバランスをとるために,バランスのとれたコントラスト学習モジュールを更に設計する。 最後に、様々な実世界のデータセットに関する広範な実験は、グラフ上の長い尾のカテゴリをキャプチャするTail2Learnの有効性を示した。

Long-tail data distributions are prevalent in many real-world networks, including financial transaction networks, e-commerce networks, and collaboration networks. Despite the success of recent developments, the existing works mainly focus on debiasing the machine learning models via graph augmentation or objective reweighting. However, there is limited literature that provides a theoretical tool to characterize the behaviors of long-tail categories on graphs and understand the generalization performance in real scenarios. To bridge this gap, we propose the first generalization bound for long-tail classification on graphs by formulating the problem in the fashion of multi-task learning, i.e., each task corresponds to the prediction of one particular category. Our theoretical results show that the generalization performance of long-tail classification is dominated by the range of losses across all tasks and the total number of tasks. Building upon the theoretical findings, we propose a novel generic framework Tail2Learn to improve the performance of long-tail categories on graphs. In particular, we start with a hierarchical task grouping module that allows label-limited classes to benefit from the relevant information shared by other classes; then, we further design a balanced contrastive learning module to balance the gradient contributions of head and tail classes. Finally, extensive experiments on various real-world datasets demonstrate the effectiveness of Tail2Learn in capturing long-tail categories on graphs.
翻訳日:2023-06-07 01:19:03 公開日:2023-06-02
# 結束効果モデリングによる大規模行動空間のオフポリシー評価

Off-Policy Evaluation for Large Action Spaces via Conjunct Effect Modeling ( http://arxiv.org/abs/2305.08062v2 )

ライセンス: Link先を確認
Yuta Saito, Qingyang Ren, Thorsten Joachims(参考訳) 従来の重要度重み付けアプローチが過度なばらつきを被る大規模離散行動空間における文脈的バンディットポリシーのオフポリシー評価(ope)について検討した。 この分散問題を回避すべく,結束効果モデル(cem)に基づく新たな推定器であるoffcemを提案し,因果効果のクラスター効果への新しい分解と残留効果を提案する。 OffCEMは、アクションクラスタのみに重み付けを適用し、モデルベースの報酬推定を通じて残留因果効果に対処する。 提案した推定器は局所的正当性と呼ばれる新しい条件下では偏りがなく, 残差効果モデルが各クラスタ内の動作の相対的な報酬差を保持する必要がある。 また,CEMと局所的正当性を最大限に活用するために,第1ステップのバイアスと第2ステップのばらつきを最小化するモデルベース推定法を提案する。 その結果,従来の推定器に比べてバイアスやばらつきが大幅に改善されることがわかった。 OffCEMは、特に多くのアクションが存在する場合、OPEを大幅に改善することを示した。

We study off-policy evaluation (OPE) of contextual bandit policies for large discrete action spaces where conventional importance-weighting approaches suffer from excessive variance. To circumvent this variance issue, we propose a new estimator, called OffCEM, that is based on the conjunct effect model (CEM), a novel decomposition of the causal effect into a cluster effect and a residual effect. OffCEM applies importance weighting only to action clusters and addresses the residual causal effect through model-based reward estimation. We show that the proposed estimator is unbiased under a new condition, called local correctness, which only requires that the residual-effect model preserves the relative expected reward differences of the actions within each cluster. To best leverage the CEM and local correctness, we also propose a new two-step procedure for performing model-based estimation that minimizes bias in the first step and variance in the second step. We find that the resulting OffCEM estimator substantially improves bias and variance compared to a range of conventional estimators. Experiments demonstrate that OffCEM provides substantial improvements in OPE especially in the presence of many actions.
翻訳日:2023-06-07 01:18:07 公開日:2023-06-02
# progsg:電子設計自動化プログラムのためのクロスモダリティ表現学習

ProgSG: Cross-Modality Representation Learning for Programs in Electronic Design Automation ( http://arxiv.org/abs/2305.10838v2 )

ライセンス: Link先を確認
Yunsheng Bai, Atefeh Sohrabizadeh, Zongyue Qin, Ziniu Hu, Yizhou Sun, Jason Cong(参考訳) 近年、googleのtpusのようなドメイン固有アクセラレータ(dsas)が、ディープラーニングや検索、自動運転など、さまざまなアプリケーションを加速するための人気が高まっている。 DSA設計を容易にするために、HLS(High-level synthesis)が使用され、開発者はCとC++のソフトウェアコード形式で高レベルな記述を低レベルなハードウェア記述言語(VHDLやVerilogなど)にコンパイルし、ASIC(アプリケーション固有の集積回路)やFPGA(フィールドプログラマブルゲートアレイ)でDSAに合成することができる。 しかし、既存のHLSツールは相変わらず、プラグマ(並列化やパイプライン化のディレクティブなど)で表されるマイクロアーキテクチャの決定を必要とする。 より多くの人がDSAを設計できるように、HLS設計の品質を予測するためのディープラーニングの助けを借りて、このような意思決定を自動化することが望ましい。 これは、元のコードとプラグマの組み合わせであるプログラムをより深く理解する必要があります。 自然に、これらのプログラムは、大きな言語モデル(llm)が役立つシーケンスデータと見なすことができる。 さらに、これらのプログラムはCDFG(制御データフローグラフ)にコンパイルおよび変換することができ、コンパイラはまた、コードトークンとCDFGノード間の微粒なアライメントも提供する。 しかし、既存の作品は両方のモダリティを活用できないか、その2つを浅いあるいは粗い方法で組み合わせることができない。 本稿では,ソースコードシーケンスのモダリティとグラフのモダリティを深く,きめ細かな方法で相互に相互作用させることができるProgSGを提案する。 ラベル付き設計の不足を軽減するために,コンパイラのデータフロー解析タスクのスイートに基づいて,事前学習手法を提案する。 2つのベンチマークデータセットによる実験結果から,1つのモダリティのみを考慮したり,アライメント情報を使わずに2つを組み合わせるベースライン法よりもProgSGの方が優れていることが示された。

Recent years have witnessed the growing popularity of domain-specific accelerators (DSAs), such as Google's TPUs, for accelerating various applications such as deep learning, search, autonomous driving, etc. To facilitate DSA designs, high-level synthesis (HLS) is used, which allows a developer to compile a high-level description in the form of software code in C and C++ into a design in low-level hardware description languages (such as VHDL or Verilog) and eventually synthesized into a DSA on an ASIC (application-specific integrated circuit) or FPGA (field-programmable gate arrays). However, existing HLS tools still require microarchitecture decisions, expressed in terms of pragmas (such as directives for parallelization and pipelining). To enable more people to design DSAs, it is desirable to automate such decisions with the help of deep learning for predicting the quality of HLS designs. This requires us a deeper understanding of the program, which is a combination of original code and pragmas. Naturally, these programs can be considered as sequence data, for which large language models (LLM) can help. In addition, these programs can be compiled and converted into a control data flow graph (CDFG), and the compiler also provides fine-grained alignment between the code tokens and the CDFG nodes. However, existing works either fail to leverage both modalities or combine the two in shallow or coarse ways. We propose ProgSG allowing the source code sequence modality and the graph modalities to interact with each other in a deep and fine-grained way. To alleviate the scarcity of labeled designs, a pre-training method is proposed based on a suite of compiler's data flow analysis tasks. Experimental results on two benchmark datasets show the superiority of ProgSG over baseline methods that either only consider one modality or combine the two without utilizing the alignment information.
翻訳日:2023-06-07 01:08:07 公開日:2023-06-02
# グループ間バイアスに対する影響・特異性の影響に関する要因調査

Counterfactual Probing for the Influence of Affect and Specificity on Intergroup Bias ( http://arxiv.org/abs/2305.16409v2 )

ライセンス: Link先を確認
Venkata S Govindarajan, Kyle Mahowald, David I. Beaver, Junyi Jessy Li(参考訳) NLPにおける偏見の研究は、否定的または悲観的な言語使用に関するものであるが、Govindarajan et al. (2023) は集団間社会的文脈における偏見の修正と言語行動への影響について述べている。 本稿では,2つの実用的特徴(特異性と影響)が異なるグループ間文脈で体系的に異なるかどうかを考察し,この新たなバイアスフレーミングと言語出力を結びつける。 予備分析では、igr(supervised intergroup relationship)ラベルを用いたツイートの特異性と影響の相関が緩やかに示されている。 IGRラベルを予測するために微調整されたニューラルモデルは、分類に確実に影響を及ぼすが、モデルの特異性の使用は決定的ではない。 コードとデータは、https://github.com/venkatasg/intergroup-probingにある。

While existing work on studying bias in NLP focues on negative or pejorative language use, Govindarajan et al. (2023) offer a revised framing of bias in terms of intergroup social context, and its effects on language behavior. In this paper, we investigate if two pragmatic features (specificity and affect) systematically vary in different intergroup contexts -- thus connecting this new framing of bias to language output. Preliminary analysis finds modest correlations between specificity and affect of tweets with supervised intergroup relationship (IGR) labels. Counterfactual probing further reveals that while neural models finetuned for predicting IGR labels reliably use affect in classification, the model's usage of specificity is inconclusive. Code and data can be found at: https://github.com/venkatasg/intergroup-probing
翻訳日:2023-06-07 00:49:44 公開日:2023-06-02
# 超越格子: 点雲と表面表現による神経処理

Transcending Grids: Point Clouds and Surface Representations Powering Neurological Processing ( http://arxiv.org/abs/2305.15426v2 )

ライセンス: Link先を確認
Kishore Babu Nampalle, Pradeep Singh, Vivek Narayan Uppala, Sumit Gangwar, Rajesh Singh Negi, Balasubramanian Raman(参考訳) 医療分野では、正確な医療画像の分類が不可欠であるが、従来の方法では、一貫したグリッド構造で医療データをヒンジすることが多い。 最近の医学研究は、データの表現を考慮せずに、より良いパフォーマンスを達成するためにアーキテクチャを微調整することに焦点を当てている。 本稿では,非構造化点クラウドデータ構造を利用してグリッドベースデータを高次元表現に変換する新しい手法を提案する。 まず,画素色情報を空間座標として統合することにより,画像から疎点雲を生成する。 次に、画像次元に基づく点からなる超曲面を構築し、この超曲面内の各滑らかな断面が特定の画素位置を象徴する。 多角形面構成は隣接テンソルを用いて達成される。 最後に、高精細な領域に焦点をあてて構築された超曲面を高密度にサンプリングすることで、濃密な点雲が生成される。 本手法の有効性を脳腫瘍データセット上で実証し,既存の分類法よりも大幅に改善した。 この手法により、元の画像から複雑な詳細を抽出し、高度な画像解析と処理タスクの新しい可能性を開くことができる。

In healthcare, accurately classifying medical images is vital, but conventional methods often hinge on medical data with a consistent grid structure, which may restrict their overall performance. Recent medical research has been focused on tweaking the architectures to attain better performance without giving due consideration to the representation of data. In this paper, we present a novel approach for transforming grid based data into its higher dimensional representations, leveraging unstructured point cloud data structures. We first generate a sparse point cloud from an image by integrating pixel color information as spatial coordinates. Next, we construct a hypersurface composed of points based on the image dimensions, with each smooth section within this hypersurface symbolizing a specific pixel location. Polygonal face construction is achieved using an adjacency tensor. Finally, a dense point cloud is generated by densely sampling the constructed hypersurface, with a focus on regions of higher detail. The effectiveness of our approach is demonstrated on a publicly accessible brain tumor dataset, achieving significant improvements over existing classification techniques. This methodology allows the extraction of intricate details from the original image, opening up new possibilities for advanced image analysis and processing tasks.
翻訳日:2023-06-07 00:48:00 公開日:2023-06-02
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v3 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線科医は、異常の一般的な記述規則に依存するが、ニューラルネットワーク(nn)モデルは、入力分布(例えばスキャナタイプ)のわずかな変化でも苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (e.g., scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-06-07 00:41:57 公開日:2023-06-02
# Selective Mixupは分散シフトを支援するが、Mixupのため(今のところ)ではない

Selective Mixup Helps with Distribution Shifts, But Not (Only) because of Mixup ( http://arxiv.org/abs/2305.16817v2 )

ライセンス: Link先を確認
Damien Teney, Jindong Wang, Ehsan Abbasnejad(参考訳) mixupは、トレーニングデータをランダムペアの組み合わせで拡張することにより、ニューラルネットワークの一般化を改善する、非常に成功したテクニックである。 選択的ミックスアップ(selective mixup)は、特定のペアにmixupを適用する一連のメソッドである。 これらの手法は分布シフトを伴うベンチマークにおいて顕著な改善が主張されているが、そのメカニズムや制限は理解されていない。 完全に新しい光の下でその成功を説明する選択的混合の見過ごされた側面について検討する。 ペアの非ランダム選択がトレーニング分布に影響を与え,混合とは無関係な手段による一般化が向上することがわかった。 例えばバイナリ分類では、クラス間のミックスアップが、一様クラスの分散のためにデータを暗黙的に再サンプリングする。 この暗黙的な再サンプリングは、以前の作業における多くの改善を説明してくれます。 理論的には、これらの結果は、いくつかのデータセットで識別する偶然の性質である平均への回帰に依存する。 選択混合法と再サンプリング法という2つの手法の間に新しい等価性を見出した。 前者の限界を特定し、後者の有効性を確認し、それぞれの利点のより良い組み合わせを見つけます。

Mixup is a highly successful technique to improve generalization of neural networks by augmenting the training data with combinations of random pairs. Selective mixup is a family of methods that apply mixup to specific pairs, e.g. only combining examples across classes or domains. These methods have claimed remarkable improvements on benchmarks with distribution shifts, but their mechanisms and limitations remain poorly understood. We examine an overlooked aspect of selective mixup that explains its success in a completely new light. We find that the non-random selection of pairs affects the training distribution and improve generalization by means completely unrelated to the mixing. For example in binary classification, mixup across classes implicitly resamples the data for a uniform class distribution - a classical solution to label shift. We show empirically that this implicit resampling explains much of the improvements in prior work. Theoretically, these results rely on a regression toward the mean, an accidental property that we identify in several datasets. We have found a new equivalence between two successful methods: selective mixup and resampling. We identify limits of the former, confirm the effectiveness of the latter, and find better combinations of their respective benefits.
翻訳日:2023-06-07 00:39:09 公開日:2023-06-02
# シーングラフメモリを用いた動的環境のモデリング

Modeling Dynamic Environments with Scene Graph Memory ( http://arxiv.org/abs/2305.17537v3 )

ライセンス: Link先を確認
Andrey Kurenkov, Michael Lingelbach, Tanmay Agarwal, Chengshu Li, Emily Jin, Ruohan Zhang, Fei-Fei Li, Jiajun Wu, Silvio Savarese, Roberto Mart\'in-Mart\'in(参考訳) 家庭などの大規模環境でオブジェクトを検索する具体化されたaiエージェントは、部分的な情報に基づいてオブジェクトの位置を予測することによって、効率的な判断を行う必要がある。 我々はこれを新しいタイプのリンク予測問題として、部分的に観測可能な動的グラフ上のリンク予測を行う。 私たちのグラフは、部屋やオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。 この部分的な可観測性は、既存のリンク予測アプローチに課題をもたらします。 本稿では,エージェントの蓄積した観測データをキャプチャする新たな状態表現であるシーングラフメモリ(sgm)と,sgmから情報を抽出して効率的に探索するノードエッジ予測器(nep)と呼ばれるニューラルネットワークアーキテクチャを提案する。 提案手法は,家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで評価され,多様な物体の動きの動態を持つ様々な環境におけるオブジェクトの位置を予測し,新たなシーン適応性と全体的な精度の両方において,ベースラインよりも優れていることを示す。 コードベース等はhttps://www.scenegraph memory.comで見ることができる。

Embodied AI agents that search for objects in large environments such as households often need to make efficient decisions by predicting object locations based on partial information. We pose this as a new type of link prediction problem: link prediction on partially observable dynamic graphs. Our graph is a representation of a scene in which rooms and objects are nodes, and their relationships are encoded in the edges; only parts of the changing graph are known to the agent at each timestep. This partial observability poses a challenge to existing link prediction approaches, which we address. We propose a novel state representation -- Scene Graph Memory (SGM) -- with captures the agent's accumulated set of observations, as well as a neural net architecture called a Node Edge Predictor (NEP) that extracts information from the SGM to search efficiently. We evaluate our method in the Dynamic House Simulator, a new benchmark that creates diverse dynamic graphs following the semantic patterns typically seen at homes, and show that NEP can be trained to predict the locations of objects in a variety of environments with diverse object movement dynamics, outperforming baselines both in terms of new scene adaptability and overall accuracy. The codebase and more can be found at https://www.scenegraphmemory.com.
翻訳日:2023-06-07 00:28:15 公開日:2023-06-02
# BetaZero:学習近似を用いた長距離PMDPの信頼状態計画

BetaZero: Belief-State Planning for Long-Horizon POMDPs using Learned Approximations ( http://arxiv.org/abs/2306.00249v2 )

ライセンス: Link先を確認
Robert J. Moss, Anthony Corso, Jef Caers, Mykel J. Kochenderfer(参考訳) 実世界の計画問題$\unicode{x2014}$には、炭素貯蔵や資源探索のような自律運転および持続可能なエネルギーアプリケーションを含む$\unicode{x2014}$haveは、最近部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化され、近似手法を用いて解決された。 高次元のPOMDPを現実的に解くために、最先端の手法では、問題固有のヒューリスティックを用いたオンラインプランニングを用いて、計画の地平線を小さくし、問題を抽出できるようにする。 ヒューリスティックスを置き換える近似を学習するアルゴリズムは、最近完全に観測可能な領域における大規模問題で成功した。 重要な洞察は、オンラインモンテカルロ木探索と、最適ポリシーと値関数のオフラインニューラルネットワーク近似の組み合わせである。 本研究では、この知見を部分的に観測された領域に適用し、POMDPの信念状態計画アルゴリズムであるBetaZeroを提案する。 BetaZeroは、正確な信念モデルに基づいてオフライン近似を学習し、長期にわたる問題のオンライン意思決定を可能にする。 具体的には, 確率的環境への遷移, 探索予算の制限による行動分岐の優先順位付け, ネットワークへの入力としての信念の表現などである。 文献で見いだされた様々なよく確立されたベンチマークPMDPにBetaZeroを適用する。 実世界のケーススタディとして, 臨界鉱物探査の高次元地質問題についてbetazeroを検証した。 実験によれば、betazeroは様々なタスクで最先端のpomdpソルバを上回っている。

Real-world planning problems$\unicode{x2014}$including autonomous driving and sustainable energy applications like carbon storage and resource exploration$\unicode{x2014}$have recently been modeled as partially observable Markov decision processes (POMDPs) and solved using approximate methods. To solve high-dimensional POMDPs in practice, state-of-the-art methods use online planning with problem-specific heuristics to reduce planning horizons and make the problems tractable. Algorithms that learn approximations to replace heuristics have recently found success in large-scale problems in the fully observable domain. The key insight is the combination of online Monte Carlo tree search with offline neural network approximations of the optimal policy and value function. In this work, we bring this insight to partially observed domains and propose BetaZero, a belief-state planning algorithm for POMDPs. BetaZero learns offline approximations based on accurate belief models to enable online decision making in long-horizon problems. We address several challenges inherent in large-scale partially observable domains; namely challenges of transitioning in stochastic environments, prioritizing action branching with limited search budget, and representing beliefs as input to the network. We apply BetaZero to various well-established benchmark POMDPs found in the literature. As a real-world case study, we test BetaZero on the high-dimensional geological problem of critical mineral exploration. Experiments show that BetaZero outperforms state-of-the-art POMDP solvers on a variety of tasks.
翻訳日:2023-06-07 00:21:09 公開日:2023-06-02
# AIイメージとオーバートンウィンドウ

AI Imagery and the Overton Window ( http://arxiv.org/abs/2306.00080v2 )

ライセンス: Link先を確認
Sarah K. Amer(参考訳) aiベースのテキストから画像への生成は、この1年で視覚的に包括的で美的な画像の制作において大きな飛躍を遂げ、人工の芸術作品とaiによって生成された画像との差別化がますます困難になっている。 安定拡散、ミッドジャーニーなどの生成モデルは、技術的および倫理的な側面において、いくつかの主要産業に影響を及ぼすと期待されている。 人間の生活水準と仕事の水準を上げることと、あるグループを利用して他のグループを豊かにすることのバランスを取ることは、議論の複雑で重要な部分です。 この技術の急速な成長、モデルの運営方法、グレーエリアの合法性により、ビデオゲーム産業を含む視覚と芸術のドメインは、aiインフラストラクチャーの所有者によってクリエーターから引き継がれるリスクにさらされている。 本稿は、ID盗難、データ洗浄など、今日のAI開発者とユーザの両方が直面する懸念を調査する文献レビューである。 合法化の課題と倫理的懸念について論じ、適切な規制が与えられた静的メディアとインタラクティブメディアの両方において、AI生成モデルが視覚的創造性のプロセスの合理化にいかに役立つかを結論付けている。 キーワード:AIテキスト・画像生成、Midjourney、安定拡散、AI倫理、ゲームデザイン、デジタルアート、データ洗浄

AI-based text-to-image generation has undergone a significant leap in the production of visually comprehensive and aesthetic imagery over the past year, to the point where differentiating between a man-made piece of art and an AI-generated image is becoming more difficult. Generative Models such as Stable Diffusion, Midjourney and others are expected to affect several major industries in technological and ethical aspects. Striking the balance between raising human standard of life and work vs exploiting one group of people to enrich another is a complex and crucial part of the discussion. Due to the rapid growth of this technology, the way in which its models operate, and gray area legalities, visual and artistic domains - including the video game industry, are at risk of being taken over from creators by AI infrastructure owners. This paper is a literature review examining the concerns facing both AI developers and users today, including identity theft, data laundering and more. It discusses legalization challenges and ethical concerns, and concludes with how AI generative models can be tremendously useful in streamlining the process of visual creativity in both static and interactive media given proper regulation. Keywords: AI text-to-image generation, Midjourney, Stable Diffusion, AI Ethics, Game Design, Digital Art, Data Laundering
翻訳日:2023-06-07 00:20:15 公開日:2023-06-02
# 双曲群の拡散理論

Diffusion Theory of Hyperbolic Groups ( http://arxiv.org/abs/2306.01810v1 )

ライセンス: Link先を確認
P. G. Morrison(参考訳) 本稿では,双曲面に対するブラキストロンの開発について概説する。 この手法はフビニ・スタディ計量とそれに伴うラプラシア作用素を計算するために用いられる。 ポインケア円盤上の固有関数の様々な系について論じ、その中にはメフラー・フォック、マクドナルド、ウィテカー関数が含まれる。 これらの微分方程式の系間の関係は双曲平面上のラプラス変換法を用いて利用され、ヘルムホルツ方程式の解をある空間から別の空間へ変換することができる。 この手法のさらなる応用に関する議論は、双曲的幾何と射影的幾何の交互形式上の拡散系に特に言及してなされる。

This paper outlines a method where a brachistochrone is developed for the hyperbolic plane. This technique is then used to calculate the Fubini-Study metric and consequent Laplacian operator. We discuss the various systems of eigenfunctions on the Poincare disk, including Mehler-Fock, Macdonald and Whittaker functions. The relationship between these systems of differential equations is exploited using an Laplace transform method on the hyperbolic plane, which allows us to transform the solutions to the Helmholz equation from one space to another. Discussion of further applications of this technique is given with particular reference to diffusion systems on alternate forms of hyperbolic and projective geometry.
翻訳日:2023-06-07 00:11:34 公開日:2023-06-02
# 予測補正に基づく敵攻撃

Adversarial Attack Based on Prediction-Correction ( http://arxiv.org/abs/2306.01809v1 )

ライセンス: Link先を確認
Chen Wan, Fangjun Huang(参考訳) ディープニューラルネットワーク(DNN)は、元の例に小さな摂動を加えることで得られる敵の例に対して脆弱である。 既存の攻撃で追加された摂動は主に入力に対する損失関数の勾配によって決定される。 本稿では,勾配に基づく攻撃と常微分方程式(ode)を解く数値解法との密接な関係を初めて研究する。 ODEの数値解にインスパイアされた新しい予測補正(PC)ベースの対角攻撃を提案する。 提案したPCベースの攻撃では、予測された例を最初に生成するために既存の攻撃を選択し、予測された例と現在の例を組み合わせて追加の摂動を決定する。 提案手法は拡張性が高く,すべての勾配攻撃に容易に適用できる。 以上の結果より,PCによる攻撃は攻撃成功率が高く,転送性も良好であることが示唆された。

Deep neural networks (DNNs) are vulnerable to adversarial examples obtained by adding small perturbations to original examples. The added perturbations in existing attacks are mainly determined by the gradient of the loss function with respect to the inputs. In this paper, the close relationship between gradient-based attacks and the numerical methods for solving ordinary differential equation (ODE) is studied for the first time. Inspired by the numerical solution of ODE, a new prediction-correction (PC) based adversarial attack is proposed. In our proposed PC-based attack, some existing attack can be selected to produce a predicted example first, and then the predicted example and the current example are combined together to determine the added perturbations. The proposed method possesses good extensibility and can be applied to all available gradient-based attacks easily. Extensive experiments demonstrate that compared with the state-of-the-art gradient-based adversarial attacks, our proposed PC-based attacks have higher attack success rates, and exhibit better transferability.
翻訳日:2023-06-07 00:11:25 公開日:2023-06-02
# 血管分割とMEA-Netの最適接続モデル

The optimal connection model for blood vessels segmentation and the MEA-Net ( http://arxiv.org/abs/2306.01808v1 )

ライセンス: Link先を確認
Yuntao Zhu, Yuxuan Qiao, Xiaoping Yang(参考訳) 血管疾患は長い間、重要な健康上の懸念とされてきた。 さまざまな医療画像から、血管の位置、形状、苦しむ領域を正確に検出することは、大きな課題であることが証明されている。 正しいトポロジー構造を保持する血管を得ることは、現在重要な研究課題である。 セグメンテーション結果の血管中心線の正しいトポロジー構造を保証する手段を含む、ニューラルネットワークによる血管幾何学的特徴の学習を強化するために多くの努力がなされている。 通常、これらの手法はネットワークのセグメンテーション結果からトポロジ的特徴を抽出し、次に規則的な制約を適用して臨界成分の精度と全体トポロジ的構造を強化する。 しかし,血管は三次元構造であるため,血管境界の分節化の促進を必要とする部分的血管分節化が不可欠である。 さらに、現在の方法は2D血管断片化の処理に限られている。 提案する境界注意モジュールは,ネットワークのセグメンテーション結果から境界ボクセルを直接抽出する。 さらに,血管間の接続順序を決定するために,最小表面に基づく最適接続モデルを構築した。 本手法は,Dice similarity Coefficient (DSC) と Normalized Surface Dice (NSD) の高値が示すように,3次元マルチクラス血管セグメンテーションタスクにおける最先端性能を実現する。 さらに,本手法では, 他の手法と比較して, ベッチ誤差, LR誤差, BR誤差の指標を10%以上改善し, 血管の断片化を効果的に対処し, より正確なトポロジカル構造を持つ血管を得る。

Vascular diseases have long been regarded as a significant health concern. Accurately detecting the location, shape, and afflicted regions of blood vessels from a diverse range of medical images has proven to be a major challenge. Obtaining blood vessels that retain their correct topological structures is currently a crucial research issue. Numerous efforts have sought to reinforce neural networks' learning of vascular geometric features, including measures to ensure the correct topological structure of the segmentation result's vessel centerline. Typically, these methods extract topological features from the network's segmentation result and then apply regular constraints to reinforce the accuracy of critical components and the overall topological structure. However, as blood vessels are three-dimensional structures, it is essential to achieve complete local vessel segmentation, which necessitates enhancing the segmentation of vessel boundaries. Furthermore, current methods are limited to handling 2D blood vessel fragmentation cases. Our proposed boundary attention module directly extracts boundary voxels from the network's segmentation result. Additionally, we have established an optimal connection model based on minimal surfaces to determine the connection order between blood vessels. Our method achieves state-of-the-art performance in 3D multi-class vascular segmentation tasks, as evidenced by the high values of Dice Similarity Coefficient (DSC) and Normalized Surface Dice (NSD) metrics. Furthermore, our approach improves the Betti error, LR error, and BR error indicators of vessel richness and structural integrity by more than 10% compared to other methods, and effectively addresses vessel fragmentation and yields blood vessels with a more precise topological structure.
翻訳日:2023-06-07 00:11:10 公開日:2023-06-02
# 銀行業における単語埋め込み

Word Embeddings for Banking Industry ( http://arxiv.org/abs/2306.01807v1 )

ライセンス: Link先を確認
Avnish Patel(参考訳) 自然言語処理(NLP)の応用は感情分析からテキスト分類まで多岐にわたる。 実践者は静的な単語埋め込み(Word2VecやGloVeなど)や文脈モデル(BERTやELMoなど)からの静的な単語表現に頼り、これらのNLPタスクの多くを実行する。 これらの広く利用可能な単語埋め込みは大量のテキストから構築されているため、多くの語彙を異なる文脈で捉えた可能性が高い。 しかし、ドメイン固有のセマンティクスと単語関連性はどの程度うまく捉えられるだろうか? 本稿では,銀行固有の単語埋め込みを作成し,GloVe や BERT など他の単語埋め込み源と比較して評価する。 銀行固有のコーパスから構築された埋め込みは、銀行固有のセマンティクスと単語の関連性を捉えるのに適しています。 この発見は、銀行固有の単語埋め込みが、銀行業界特有のnlpタスクを実行する際に、他の広く利用可能な埋め込みを補完する良い情報源になり得ることを示唆している。

Applications of Natural Language Processing (NLP) are plentiful, from sentiment analysis to text classification. Practitioners rely on static word embeddings (e.g. Word2Vec or GloVe) or static word representation from contextual models (e.g. BERT or ELMo) to perform many of these NLP tasks. These widely available word embeddings are built from large amount of text, so they are likely to have captured most of the vocabulary in different context. However, how well would they capture domain-specific semantics and word relatedness? This paper explores this idea by creating a bank-specific word embeddings and evaluates them against other sources of word embeddings such as GloVe and BERT. Not surprising that embeddings built from bank-specific corpora does a better job of capturing the bank-specific semantics and word relatedness. This finding suggests that bank-specific word embeddings could be a good stand-alone source or a complement to other widely available embeddings when performing NLP tasks specific to the banking industry.
翻訳日:2023-06-07 00:10:41 公開日:2023-06-02
# 大規模機械学習システムにおける同時分類器誤り検出(CCED)

Concurrent Classifier Error Detection (CCED) in Large Scale Machine Learning Systems ( http://arxiv.org/abs/2306.01820v1 )

ライセンス: Link先を確認
Pedro Reviriego, Ziheng Wang, Alvaro Alonso, Zhen Gao, Farzad Niknia, Shanshan Liu and Fabrizio Lombardi(参考訳) 機械学習(ML)システムの複雑さは毎年増加し、数十億のパラメータを持ち、数十億の演算を必要とする大規模な言語モデルやテキスト・ツー・イメージジェネレータの実装が現在行われている。 これらのシステムが広く活用されているため、信頼性の高い運用が設計要件になりつつある。 従来のエラー検出メカニズムは、システム性能に大きな影響を与える回路や時間冗長性をもたらす。 別の方法として、システムと並行して動作し、その特性を利用してエラーを検出するCED(Concurrent Error Detection)方式がある。 CEDは大規模なMLシステムにとって魅力的であり、エラー検出のコストを削減できる可能性がある。 本稿では,コンカレントml分類器を用いたmlシステムでcedを実装する手法であるconcurrent classifier error detection (cced)を提案する。 CCEDはメインMLシステムの一連のチェック信号を識別し、エラーを検出するために訓練された同時ML分類器にフィードする。 提案手法は,画像分類に使用されるコントラスト言語画像事前学習(CLIP)と,自然言語アプリケーションに使用される変換器からの双方向エンコーダ表現(BERT)の2つの大規模MLモデルに対して実装・評価されている。 以上の結果から,CLIPやBERTよりも桁違いに単純なランダムフォレスト分類器を用いて,95%以上の誤差が検出された。 これらの結果は,大規模MLモデルに誤り検出を実装するCCEDの可能性を示している。

The complexity of Machine Learning (ML) systems increases each year, with current implementations of large language models or text-to-image generators having billions of parameters and requiring billions of arithmetic operations. As these systems are widely utilized, ensuring their reliable operation is becoming a design requirement. Traditional error detection mechanisms introduce circuit or time redundancy that significantly impacts system performance. An alternative is the use of Concurrent Error Detection (CED) schemes that operate in parallel with the system and exploit their properties to detect errors. CED is attractive for large ML systems because it can potentially reduce the cost of error detection. In this paper, we introduce Concurrent Classifier Error Detection (CCED), a scheme to implement CED in ML systems using a concurrent ML classifier to detect errors. CCED identifies a set of check signals in the main ML system and feeds them to the concurrent ML classifier that is trained to detect errors. The proposed CCED scheme has been implemented and evaluated on two widely used large-scale ML models: Contrastive Language Image Pretraining (CLIP) used for image classification and Bidirectional Encoder Representations from Transformers (BERT) used for natural language applications. The results show that more than 95 percent of the errors are detected when using a simple Random Forest classifier that is order of magnitude simpler than CLIP or BERT. These results illustrate the potential of CCED to implement error detection in large-scale ML models.
翻訳日:2023-06-07 00:02:31 公開日:2023-06-02
# 広義オブジェクト指向言語の比較分析

Comparative Analysis of Widely use Object-Oriented Languages ( http://arxiv.org/abs/2306.01819v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Taymour zaman Khan(参考訳) プログラミングはコンピュータ科学の重要な分野である。 プログラミング環境は急速に成長しているだけでなく、変化し、言語は常に進化しています。 オブジェクト指向パラダイムの学習は、すべてのコンピュータサイエンスにおいて必須であるため、オブジェクト指向の原則を教えるための言語の選択は非常に重要である。 オブジェクト指向言語の大規模なプールのため、オブジェクト指向の原則を教えるために、最初にプログラミング言語を選ぶのは困難である。 技術指向概念の第一言語であるべき言語は、多くの研究で示されているが、これらの言語を比較して評価する方法はない。 本稿では,広く使われているオブジェクト指向言語を評価するための包括的フレームワークを提案する。 これらの言語は、技術的および環境的特徴に基づいて評価される。

Programming is an integral part of computer science discipline. Every day the programming environment is not only rapidly growing but also changing and languages are constantly evolving. Learning of object-oriented paradigm is compulsory in every computer science major so the choice of language to teach object-oriented principles is very important. Due to large pool of object-oriented languages, it is difficult to choose which should be the first programming language in order to teach object-oriented principles. Many studies shown which should be the first language to tech object-oriented concepts but there is no method to compare and evaluate these languages. In this article we proposed a comprehensive framework to evaluate the widely used object-oriented languages. The languages are evaluated basis of their technical and environmental features.
翻訳日:2023-06-07 00:02:05 公開日:2023-06-02
# Beta Thalassemia Carriers 検出による連合学習

Beta Thalassemia Carriers detection empowered federated Learning ( http://arxiv.org/abs/2306.01818v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Hafiz Ali Younas(参考訳) タラス血症(英: Thalassemia)は、酸素を運ぶ赤血球のタンパク質であるヘモグロビンが十分に作られていないときに起こる遺伝性血液疾患である。 全身に存在し、生存に必要である。 両親がタラス血症を患うと、子どもが発症する確率が高くなる。 遺伝カウンセリングと早期診断は、サラセミアを治療し、それを将来の世代に渡さないために不可欠である。 医療専門家にとって、タラセミアキャリアーを持つ人と、それのない人とを区別することは難しいかもしれない。 beta thalassemiaキャリアの現在の血液検査は高価すぎるし、時間がかかりすぎるし、検査装置が多すぎる。 世界保健機関(who)によると、タラス血症患者は死亡率が高い。 そのため、タラセミア担体を迅速に作用させることが不可欠である。 高速液体クロマトグラフィー(HPLC)は、標準試験法であり、コスト、時間、機器の要求といった問題がある。 そのため、テラセミア遺伝子を持つ人を見つけるための迅速かつ安価な方法があるに違いない。 この研究は、FL(Federated Learning)技術を用いて、β-サラセミア遺伝子を持つ人を見つける新しい方法を示す。 FLはプライバシ規則に従ってデータを収集し、現場で処理することを可能にするため、機密性の高い健康データには優れた選択肢である。 研究者たちはFLを使って、血液計数結果と赤血球の指標を調べて、β-タラセミアキャリアーのモデルを訓練した。 このモデルでは、ベータ・サラセミアのキャリアーと疾患のない人の違いを示す精度92.38 %であった。 提案されたFLモデルは、その機能や信頼性、プライベート性の観点から、他の公開された方法よりも優れている。 この研究は、タラスセミアキャリアを見つけるための有望で、迅速、正確、かつ低コストな方法を示し、それらを大規模にスクリーニングするための扉を開く。

Thalassemia is a group of inherited blood disorders that happen when hemoglobin, the protein in red blood cells that carries oxygen, is not made enough. It is found all over the body and is needed for survival. If both parents have thalassemia, a child's chance of getting it increases. Genetic counselling and early diagnosis are essential for treating thalassemia and stopping it from being passed on to future generations. It may be hard for healthcare professionals to differentiate between people with thalassemia carriers and those without. The current blood tests for beta thalassemia carriers are too expensive, take too long, and require too much screening equipment. The World Health Organization says there is a high death rate for people with thalassemia. Therefore, it is essential to find thalassemia carriers to act quickly. High-performance liquid chromatography (HPLC), the standard test method, has problems such as cost, time, and equipment needs. So, there must be a quick and cheap way to find people carrying the thalassemia gene. Using federated learning (FL) techniques, this study shows a new way to find people with the beta-thalassemia gene. FL allows data to be collected and processed on-site while following privacy rules, making it an excellent choice for sensitive health data. Researchers used FL to train a model for beta-thalassemia carriers by looking at the complete blood count results and red blood cell indices. The model was 92.38 % accurate at telling the difference between beta-thalassemia carriers and people who did not have the disease. The proposed FL model is better than other published methods in terms of how well it works, how reliable it is, and how private it is. This research shows a promising, quick, accurate, and low-cost way to find thalassemia carriers and opens the door for screening them on a large scale.
翻訳日:2023-06-07 00:01:55 公開日:2023-06-02
# ブロックチェーンと機械学習による心疾患予測

Heart Diseases Prediction Using Block-chain and Machine Learning ( http://arxiv.org/abs/2306.01817v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Kiran Amjad(参考訳) 世界中のほとんどの人が心臓病で死んでいる。 心臓病による死亡率の急上昇の背景にある主な理由は、医療部門のために開発された、安全なデータ保存と送信の手段を提供するインフラストラクチャがないことである。 患者のデータに冗長性があるため、心臓専門医が早期に疾患を予測することは困難である。 この心臓疾患による死亡率の急速な増加は、血圧、コレステロール値、体重、喫煙中毒などの初期の重要な要因をモニターして排除することで制御することができる。 患者データは、医療部門における高度な枠組みを用いて、心臓専門家(Cp)によって監視することができる。 ブロックチェーンは世界で最も信頼性の高いプロバイダです。 医療部門における先進的なシステムの利用も, 新たな治療方法として開発されている。 本稿では,既存のアプローチで最大精度でHearth病を予測するために,Sine-cosine weighted k-nearest neighbor (SCA-WKNN)と呼ばれる機械学習アルゴリズムを用いる。 ブロックチェーン技術は、セッションを通してデータをセキュアにするために研究に使われており、この技術を使ってより正確な結果を提供できる。 このアルゴリズムを用いてシステムの性能を向上させることができ、提案したデータセットも異なるリソースを用いて改善されている。

Most people around the globe are dying due to heart disease. The main reason behind the rapid increase in the death rate due to heart disease is that there is no infrastructure developed for the healthcare department that can provide a secure way of data storage and transmission. Due to redundancy in the patient data, it is difficult for cardiac Professionals to predict the disease early on. This rapid increase in the death rate due to heart disease can be controlled by monitoring and eliminating some of the key attributes in the early stages such as blood pressure, cholesterol level, body weight, and addiction to smoking. Patient data can be monitored by cardiac Professionals (Cp) by using the advanced framework in the healthcare departments. Blockchain is the world's most reliable provider. The use of advanced systems in the healthcare departments providing new ways of dealing with diseases has been developed as well. In this article Machine Learning (ML) algorithm known as a sine-cosine weighted k-nearest neighbor (SCA-WKNN) is used for predicting the Hearth disease with the maximum accuracy among the existing approaches. Blockchain technology has been used in the research to secure the data throughout the session and can give more accurate results using this technology. The performance of the system can be improved by using this algorithm and the dataset proposed has been improved by using different resources as well.
翻訳日:2023-06-07 00:01:23 公開日:2023-06-02
# 機械学習とディープラーニングによるシトラス病の予測:分類器,モデルSLR

Prediction of Citrus Diseases Using Machine Learning And Deep Learning: Classifier, Models SLR ( http://arxiv.org/abs/2306.01816v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Abdullah Mehboob(参考訳) キツネ病は、世界中のキツネにとって長年にわたり大きな問題であり、果実の品質を著しく低下させる可能性がある。 最も有害なカンキツ病はカンキツ、カンキツ緑化病、カンキツ黒斑病、カンキツ葉鉱業であり、世界的な予防と化学処理のような管理戦略においてカンキツ産業に大きな経済的損失をもたらす可能性がある。 カンキツが成長している世界中に存在するカンキツ病は、カンキツの木の根、カンキツの木の葉、カンキツの木オレンジなどである。 既存のシトラス病は、低品質の果実を生産し、疾患管理の率を高めることができる経済要因に大きな影響を及ぼす。 衛生や定期的なモニタリングは、特定のシトラス病の管理に効果があるが、化学や生物の制御方法のようなより集中的な治療を必要とする場合もある。

Citrus diseases have been major issues for citrus growing worldwide for many years they can lead significantly reduce fruit quality. the most harmful citrus diseases are citrus canker, citrus greening, citrus black spot, citrus leaf miner which can have significant economic losses of citrus industry in worldwide prevention and management strategies like chemical treatments. Citrus diseases existing in all over the world where citrus is growing its effects the citrus tree root, citrus tree leaf, citrus tree orange etc. Existing of citrus diseases is highly impact on economic factor that can also produce low quality fruits and increased the rate for diseases management. Sanitation and routine monitoring can be effective in managing certain citrus diseases, but others may require more intensive treatments like chemical or biological control methods.
翻訳日:2023-06-07 00:01:04 公開日:2023-06-02
# 大規模学習コンテンツ作成のための大規模言語モデル(llms)の使用のプロトタイピング

Prototyping the use of Large Language Models (LLMs) for adult learning content creation at scale ( http://arxiv.org/abs/2306.01815v1 )

ライセンス: Link先を確認
Daniel Leiker, Sara Finnigan, Ashley Ricker Gyllen, Mutlu Cukurova(参考訳) 大規模言語モデル(LLM)やその他の生成型AIが私たちの生活の様々な側面に浸透しているため、学習と教育への応用は機会と課題をもたらしてきた。 本稿では, 非同期コース作成におけるLLMの使用, 特に成人学習, トレーニング, アップスキルの文脈における検討について述べる。 我々は,LLMを利用したコースプロトタイプを開発し,その精度と明瞭さを確保するために,頑健なHuman-in-the-loopプロセスを実装した。 研究課題は、人間の関与を減らした高品質な成人学習コンテンツ作成のためのLLMの実現性に焦点をあてる。 最初の発見は、このアプローチを採用することで、正確さや明快さを損なうことなく、コンテンツ作成を高速化できることを示している。 いくつかの制限があるにもかかわらず、この研究は、LLMが学習と教育の景観を変革する可能性を強調し、学習設計における戦略的および倫理的利用に関するさらなる研究と議論を必要としている。

As Large Language Models (LLMs) and other forms of Generative AI permeate various aspects of our lives, their application for learning and education has provided opportunities and challenges. This paper presents an investigation into the use of LLMs in asynchronous course creation, particularly within the context of adult learning, training and upskilling. We developed a course prototype leveraging an LLM, implementing a robust human-in-the-loop process to ensure the accuracy and clarity of the generated content. Our research questions focus on the feasibility of LLMs to produce high-quality adult learning content with reduced human involvement. Initial findings indicate that taking this approach can indeed facilitate faster content creation without compromising on accuracy or clarity, marking a promising advancement in the field of Generative AI for education. Despite some limitations, the study underscores the potential of LLMs to transform the landscape of learning and education, necessitating further research and nuanced discussions about their strategic and ethical use in learning design.
翻訳日:2023-06-07 00:00:45 公開日:2023-06-02
# スケールフリー比較oracleによる高速インタラクティブ検索

Fast Interactive Search with a Scale-Free Comparison Oracle ( http://arxiv.org/abs/2306.01814v1 )

ライセンス: Link先を確認
Daniyar Chumbalov, Lars Klein, Lucas Maystre, Matthias Grossglauser(参考訳) 比較ベースの検索アルゴリズムにより、ユーザはデータベース内のターゲットアイテム$t$を、フォームのクエリに応答して見つけることができる。 ``Which of items $i$ and $j$ is close to $t$?''' 明示的なクエリ(1つまたは複数のキーワードなど)を定式化する代わりに、ユーザはそのような(通常ノイズの多い)クエリのシーケンスを介してターゲットに向かってナビゲートする。 このような類似性三重項に対して$\gamma$-CKLと呼ばれるスケールのない確率的オラクルモデルを提案し、文献で提案されるCKL三重項モデルを一般化する。 一般化は、オラクルの識別力とそれらの項目を含む機能空間の次元を独立に制御することができる。 我々は,目標周辺の信念領域を更新する際の避けられない誤りに対処するバックトラッキング戦略により,$\gamma$-ckl オラクルの下で指数関数的に収束する探索アルゴリズムを開発した。 提案するoracleと実世界のトリプルトデータセットの両方について,アルゴリズムの性能を評価した。 また,被験者が顔画像のデータベースをナビゲートする包括的ユーザスタディについても報告する。

A comparison-based search algorithm lets a user find a target item $t$ in a database by answering queries of the form, ``Which of items $i$ and $j$ is closer to $t$?'' Instead of formulating an explicit query (such as one or several keywords), the user navigates towards the target via a sequence of such (typically noisy) queries. We propose a scale-free probabilistic oracle model called $\gamma$-CKL for such similarity triplets $(i,j;t)$, which generalizes the CKL triplet model proposed in the literature. The generalization affords independent control over the discriminating power of the oracle and the dimension of the feature space containing the items. We develop a search algorithm with provably exponential rate of convergence under the $\gamma$-CKL oracle, thanks to a backtracking strategy that deals with the unavoidable errors in updating the belief region around the target. We evaluate the performance of the algorithm both over the posited oracle and over several real-world triplet datasets. We also report on a comprehensive user study, where human subjects navigate a database of face portraits.
翻訳日:2023-06-07 00:00:26 公開日:2023-06-02
# ハイパーグラフ力学系の有効順序を学習する

Learning the effective order of a hypergraph dynamical system ( http://arxiv.org/abs/2306.01813v1 )

ライセンス: Link先を確認
Leonie Neuh\"auser, Michael Scholkemper, Francesco Tudisco, Michael T. Schaub(参考訳) ハイパーグラフ上の動的システムは、ペアの相互作用を持つシステムでは観測不可能な振る舞いの豊富なセットを表示することができる。 配置されたハイパーグラフ構造を持つ分散力学系を考えると、このハイパーグラフ構造が観測された動的挙動を忠実に再現するために実際にどの程度必要かが興味深い。 そこで本研究では,対応する力学を正確に近似するために必要なハイパーグラフの最小順序を決定する手法を提案する。 具体的には、ダイナミクスのタイプが分かっているときにこの順序を決定できる分析フレームワークを開発します。 これらの概念をハイパーグラフニューラルネットワークと組み合わせて、観測されたシステム軌跡からなる合成データと実データの両方から、ハイパーグラフのダイナミクス自体と結果の順序を直接学習する。

Dynamical systems on hypergraphs can display a rich set of behaviours not observable for systems with pairwise interactions. Given a distributed dynamical system with a putative hypergraph structure, an interesting question is thus how much of this hypergraph structure is actually necessary to faithfully replicate the observed dynamical behaviour. To answer this question, we propose a method to determine the minimum order of a hypergraph necessary to approximate the corresponding dynamics accurately. Specifically, we develop an analytical framework that allows us to determine this order when the type of dynamics is known. We utilize these ideas in conjunction with a hypergraph neural network to directly learn the dynamics itself and the resulting order of the hypergraph from both synthetic and real data sets consisting of observed system trajectories.
翻訳日:2023-06-07 00:00:01 公開日:2023-06-02
# SAPI:交差点付近の車両軌道予測

SAPI: Surroundings-Aware Vehicle Trajectory Prediction at Intersections ( http://arxiv.org/abs/2306.01812v1 )

ライセンス: Link先を確認
Ethan Zhang, Hao Xiao, Yiqian Gan, Lei Wang(参考訳) 本研究では,交差点における車両軌道予測のための深層学習モデル,すなわちSAPIを提案する。 SAPIは、リアルタイムマップ、右道、および周辺トラフィックの情報を利用して、環境を抽象的に表現し、エンコードする。 提案モデルは2つの畳み込みニューラルネットワーク(cnn)とrnn(recurrent neural network)ベースのエンコーダと1つのデコーダで構成される。 生履歴の軌跡情報を十分に活用するために,モデル内部でルックバック操作を行う精錬機を提案する。 我々は、自動運転車による現実世界の交差点で収集されたプロプライエタリなデータセット上でSAPIを評価する。 交差点での車両軌道予測において,SAPIは有望な性能を示し,ベンチマーク手法より優れていた。 6秒予測の平均変位誤差(ADE)と最終変位誤差(FDE)はそれぞれ1.84mと4.32mである。 また,提案モデルにより,異なるシナリオで車両の軌跡を正確に予測できることを示す。

In this work we propose a deep learning model, i.e., SAPI, to predict vehicle trajectories at intersections. SAPI uses an abstract way to represent and encode surrounding environment by utilizing information from real-time map, right-of-way, and surrounding traffic. The proposed model consists of two convolutional network (CNN) and recurrent neural network (RNN)-based encoders and one decoder. A refiner is proposed to conduct a look-back operation inside the model, in order to make full use of raw history trajectory information. We evaluate SAPI on a proprietary dataset collected in real-world intersections through autonomous vehicles. It is demonstrated that SAPI shows promising performance when predicting vehicle trajectories at intersection, and outperforms benchmark methods. The average displacement error(ADE) and final displacement error(FDE) for 6-second prediction are 1.84m and 4.32m respectively. We also show that the proposed model can accurately predict vehicle trajectories in different scenarios.
翻訳日:2023-06-06 23:59:49 公開日:2023-06-02
# DVFO: DNNエッジ推論のための動的電圧、周波数スケーリング、ワークロード負荷

DVFO: Dynamic Voltage, Frequency Scaling and Workload Offloading for DNN Edge Inference ( http://arxiv.org/abs/2306.01811v1 )

ライセンス: Link先を確認
Ziyang Zhang, Yang Zhao, Huan Li, and Jie Liu(参考訳) エッジデバイスのリソース制約とディープニューラルネットワーク(DNN)モデルの異なる特性のため、エッジデバイスのエネルギー消費と推論レイテンシの観点から、DNN推論性能を最適化することは大きな課題である。 動的電圧周波数スケーリング(DVFS)技術に加えて、エッジクラウドアーキテクチャは効率的なDNN推論のための協調的なアプローチを提供する。 しかし、現在のエッジクラウド協調推論手法は、エッジデバイス上で様々な計算資源を最適化していない。 そこで我々は,dvfsとオフロードパラメータをdrl(deep reinforcement learning)で共同で最適化する,新しいdvfs対応エッジクラウド協調推論フレームワークdvfoを提案する。 具体的には、DVFOが自動的に最適化する 1)エッジデバイスのcpu、gpu、メモリ周波数、及び 2) 機能マップをクラウドサーバにオフロードする。 さらに、DRL学習プロセスの高速化のための思考時移動同時機構と、作業負荷オフロードにおいて重要なDNN特徴マップを抽出する空間チャネルアテンション機構を活用する。 このアプローチは、さまざまなエッジクラウドネットワーク条件下で異なるDNNモデルのエネルギー効率と推論遅延を改善する。 異なるデータセットに対する実験結果から、DVFOは最先端のスキームに比べて平均エネルギー消費を33%削減することが示された。 さらに、DVFOは最大54%のエンドツーエンドの推論遅延削減を実現している。

Due to edge device resource constraints and different characteristics of deep neural network (DNN) models, it is a big challenge to optimize DNN inference performance in terms of energy consumption and inference latency on edge devices. In addition to the dynamic voltage frequency scaling (DVFS) technique, the edge-cloud architecture provides a collaborative approach to efficient DNN inference. However, current edge-cloud collaborative inference methods have not optimized various compute resources on edge devices. Thus, we propose DVFO, a novel DVFS-enabled edge-cloud collaborative inference framework, which jointly optimize DVFS and offloading parameters via deep reinforcement learning (DRL). Specifically, DVFO automatically co-optimizes 1) CPU, GPU and memory frequencies of edge devices, and 2) feature maps to be offloaded to cloud servers. In addition, it leverages a thinking-while-moving concurrent mechanism to accelerate the DRL learning process, and a spatialchannel attention mechanism to extract DNN feature maps of secondary importance for workload offloading. This approach improves energy efficiency and inference latency for different DNN models under various edge-cloud network conditions. Experimental results on different datasets show that DVFO reduces the average energy consumption by 33% compared to state-of-the-art schemes. Moreover, DVFO achieves up to 54% end-to-end inference latency reduction.
翻訳日:2023-06-06 23:59:33 公開日:2023-06-02
# オートエンコーダの最大度トレーニング

Maximum Likelihood Training of Autoencoders ( http://arxiv.org/abs/2306.01843v1 )

ライセンス: Link先を確認
Peter Sorrenson, Felix Draxler, Armand Rousselot, Sander Hummerich, Lea Zimmerman and Ullrich K\"othe(参考訳) 最大度トレーニングは好適な統計特性を持ち、特に正規化フローにおいて生成的モデリングに人気がある。 一方、生成オートエンコーダは多様体仮説による流れの正規化よりも効率的なことを約束している。 本研究では,制約のないオートエンコーダの最大確率トレーニングを初めて導入し,この2つのパラダイムを組み合わせる。 第一に、フリーフォームネットワークのための既存の最大確率推定器は、潜在次元と線形にコストがスケールする反復スキームに依存するため、受け入れがたいほど遅い。 改良された推定器を導入し、イテレーションを排除し、一定のコスト(バニラオートエンコーダのバッチあたりのランタイムの約2倍)をもたらす。 第2に,自動エンコーダに最大限の確率を適用することで,異なる解を導き出すことが可能であり,この知見を用いて安定的な最大確率トレーニング目標を動機付けることを実証する。 我々は,玩具,表,画像データについて広範な実験を行い,その結果の競争性能を実証した。 我々は、我々のモデルを最大可能性オートエンコーダ(MLAE)と呼ぶ。

Maximum likelihood training has favorable statistical properties and is popular for generative modeling, especially with normalizing flows. On the other hand, generative autoencoders promise to be more efficient than normalizing flows due to the manifold hypothesis. In this work, we introduce successful maximum likelihood training of unconstrained autoencoders for the first time, bringing the two paradigms together. To do so, we identify and overcome two challenges: Firstly, existing maximum likelihood estimators for free-form networks are unacceptably slow, relying on iteration schemes whose cost scales linearly with latent dimension. We introduce an improved estimator which eliminates iteration, resulting in constant cost (roughly double the runtime per batch of a vanilla autoencoder). Secondly, we demonstrate that naively applying maximum likelihood to autoencoders can lead to divergent solutions and use this insight to motivate a stable maximum likelihood training objective. We perform extensive experiments on toy, tabular and image data, demonstrating the competitive performance of the resulting model. We call our model the maximum likelihood autoencoder (MLAE).
翻訳日:2023-06-06 23:52:31 公開日:2023-06-02
# 二元および三元自然言語生成

Binary and Ternary Natural Language Generation ( http://arxiv.org/abs/2306.01841v1 )

ライセンス: Link先を確認
Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi(参考訳) 三元系および二元系ニューラルネットワークは、乗算フリーな計算を可能にし、専用ハードウェア上で実装された場合、全精度ネットワークよりも数桁の効率向上を約束する。 しかし、パラメータも出力空間も非常に離散化されているため、そのようなネットワークの最適化は非常に困難であることが証明されている。 また, 量子化に対する注意操作の感度や, 自己回帰デコードによる高カーディナリティ出力空間のノイズ圧縮効果により, トランスフォーマティブテキスト生成モデルでは難易度が高められた。 そこで本研究では,アクティベーションの重みと弾性量子化に対する統計に基づく量子化の混合を用いてこの問題にアプローチし,要約と機械翻訳の下流タスクにおいて,第1次および第2次トランスフォーマーモデルを示す。 私たちの3つのBARTベースは、CNN/DailyMailベンチマークでR1スコア41に達しています。 我々のバイナリモデルは精度は低いが、非常に非自明なスコアは35.6である。 機械翻訳では,WMT16 En-RoベンチマークでBLEUスコア21.7と17.6を,mBARTモデルスコア26.8と比較した。 我々はまた、我々のアプローチを8ビットのアクティベーション設定で比較し、我々の3次および2次重みモデルでさえ、文献において最も優れた8ビット重みモデルに適合または優れる。 私たちのコードとモデルは、https://github.com/facebookresearch/Ternary_Binary_Transformerで利用可能です。

Ternary and binary neural networks enable multiplication-free computation and promise multiple orders of magnitude efficiency gains over full-precision networks if implemented on specialized hardware. However, since both the parameter and the output space are highly discretized, such networks have proven very difficult to optimize. The difficulties are compounded for the class of transformer text generation models due to the sensitivity of the attention operation to quantization and the noise-compounding effects of autoregressive decoding in the high-cardinality output space. We approach the problem with a mix of statistics-based quantization for the weights and elastic quantization of the activations and demonstrate the first ternary and binary transformer models on the downstream tasks of summarization and machine translation. Our ternary BART base achieves an R1 score of 41 on the CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while being 16x more efficient. Our binary model, while less accurate, achieves a highly non-trivial score of 35.6. For machine translation, we achieved BLEU scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full precision mBART model score of 26.8. We also compare our approach in the 8-bit activation setting, where our ternary and even binary weight models can match or outperform the best existing 8-bit weight models in the literature. Our code and models are available at: https://github.com/facebookresearch/Ternary_Binary_Transformer
翻訳日:2023-06-06 23:52:12 公開日:2023-06-02
# パラメータ合成フレームワークを用いた効率的なマルチタスク・トランスファー強化学習

Efficient Multi-Task and Transfer Reinforcement Learning with Parameter-Compositional Framework ( http://arxiv.org/abs/2306.01839v1 )

ライセンス: Link先を確認
Lingfeng Sun, Haichao Zhang, Wei Xu, Masayoshi Tomizuka(参考訳) 本研究では,マルチタスクトレーニングの改善の可能性について検討し,強化学習環境の移行にも活用する。 我々は,この目標に対するいくつかの課題を特定し,パラメータ・コンポジション定式化によるトランスファーアプローチを提案する。 本研究では,トランスファーの基盤となるマルチタスク強化学習のトレーニングを改善する方法について検討する。 次に,様々な操作タスクの転送実験を行う。 実験の結果,提案手法はマルチタスク訓練段階における性能の向上,さらにサンプル効率と性能の両面で効果的に伝達できることが確認された。

In this work, we investigate the potential of improving multi-task training and also leveraging it for transferring in the reinforcement learning setting. We identify several challenges towards this goal and propose a transferring approach with a parameter-compositional formulation. We investigate ways to improve the training of multi-task reinforcement learning which serves as the foundation for transferring. Then we conduct a number of transferring experiments on various manipulation tasks. Experimental results demonstrate that the proposed approach can have improved performance in the multi-task training stage, and further show effective transferring in terms of both sample efficiency and performance.
翻訳日:2023-06-06 23:51:46 公開日:2023-06-02
# 局所フロッケ工学による創発的強零モード

Emergent strong zero mode through local Floquet engineering ( http://arxiv.org/abs/2306.01835v1 )

ライセンス: Link先を確認
Bhaskar Mukherjee, Ronald Melendrez, Marcin Szyniszewski, Hitesh J. Changlani, Arijeet Pal(参考訳) 周期的に駆動される量子系は、しばしば非駆動系のアナログを持たないエキゾチックな現象をホストする。 保存法則の出現により, 一定の観測対象物の浮き沈殿と動的凍結は, 駆動周波数を制御して実現される。 これらの動的レシエーションは量子メモリの構築に利用でき、量子情報処理に潜在的に応用できる。 固体と低温の原子実験アーキテクチャは、状態の空間変調量子制御を実現できる局所的なフロケット工学を実装するための道を開いた。 ここでは,非可積分スピンハーフスタッガードハイゼンベルク鎖における局所周期駆動の新たな記憶効果を明らかにする。 動的凍結周波数における境界駆動プロトコルでは、離散大域的$\mathbb{z}_2$ 対称性の出現により、熱前準局所作用素である近似強零モードが形成される。 これは、Floquet-Magnus展開を高次に再仮定したFloquet-Magnus展開を用いて、正確な実効的なFloquet Hamiltonianを構築することによって得られる。 境界スピンの寿命は、適切に選択された駆動型サイトの集合を拡大することで指数関数的に向上することができる。 我々は、駆動部位の数を増やすことで達成される漸近極限において、強いゼロモードが出現し、境界スピンの寿命はシステムサイズとともに指数関数的に増加することを示した。 フロケ・ハミルトンの非局所過程は、熱力学極限における境界スピンの総凍結において重要な役割を果たす。 境界スピンの新たなダイナミクスは、特定の二分項が領域ロースケーリングを生じ、ランダム二分項の絡み合いが体積則としてスケールするフロケット固有状態における絡み合いのリッチな構造を伴う。

Periodically driven quantum systems host exotic phenomena which often do not have any analog in undriven systems. Floquet prethermalization and dynamical freezing of certain observables, via the emergence of conservation laws, are realized by controlling the drive frequency. These dynamical regimes can be leveraged to construct quantum memories and have potential applications in quantum information processing. Solid state and cold atom experimental architectures have opened avenues for implementing local Floquet engineering which can achieve spatially modulated quantum control of states. Here, we uncover the novel memory effects of local periodic driving in a nonintegrable spin-half staggered Heisenberg chain. For a boundary-driven protocol at the dynamical freezing frequency, we show the formation of an approximate strong zero mode, a prethermal quasi-local operator, due to the emergence of a discrete global $\mathbb{Z}_2$ symmetry. This is captured by constructing an accurate effective Floquet Hamiltonian using a higher-order partially resummed Floquet-Magnus expansion. The lifetime of the boundary spin can be exponentially enhanced by enlarging the set of suitably chosen driven sites. We demonstrate that in the asymptotic limit, achieved by increasing the number of driven sites, a strong zero mode emerges, where the lifetime of the boundary spin grows exponentially with system size. The non-local processes in the Floquet Hamiltonian play a pivotal role in the total freezing of the boundary spin in the thermodynamic limit. The novel dynamics of the boundary spin is accompanied by a rich structure of entanglement in the Floquet eigenstates where specific bipartitions yield an area-law scaling while the entanglement for random bipartitions scales as a volume-law.
翻訳日:2023-06-06 23:51:37 公開日:2023-06-02
# 量子情報の動的測度について

On dynamical measures of quantum information ( http://arxiv.org/abs/2306.01831v1 )

ライセンス: Link先を確認
James Fullwood and Arthur J. Parzygnat(参考訳) この研究では、時間とともに量子状態の理論を使い、エントロピー $s(\rho,\mathcal{e})$ と量子プロセス $(\rho,\mathcal{e})$ が関連づけられ、ここで $\rho$ は状態であり、$\mathcal{e}$ は $\rho$ の力学進化に責任を持つ量子チャネルである。 エントロピー$S(\rho,\mathcal{E})$は、フォン・ノイマンのエントロピーの一般化であり、$S(\rho,\mathrm{id})=S(\rho)$(ここで$\mathrm{id}$はアイデンティティーチャネルを表す)という意味で、二部会状態の量子ジョイントエントロピーの動的アナログである。 このようなエントロピーは、量子条件エントロピーと量子相互情報の動的定式化を定義するために使用され、そのような情報測度が量子エントロピーベイズ則のような多くの望ましい性質を満たすことを示す。 また、エントロピー関数を用いて量子系の動的進化に関連する情報損失/利得を定量化し、量子プロセスの情報保存の正確な概念を定式化することができる。

In this work, we use the theory of quantum states over time to define an entropy $S(\rho,\mathcal{E})$ associated with quantum processes $(\rho,\mathcal{E})$, where $\rho$ is a state and $\mathcal{E}$ is a quantum channel responsible for the dynamical evolution of $\rho$. The entropy $S(\rho,\mathcal{E})$ is a generalization of the von Neumann entropy in the sense that $S(\rho,\mathrm{id})=S(\rho)$ (where $\mathrm{id}$ denotes the identity channel), and is a dynamical analogue of the quantum joint entropy for bipartite states. Such an entropy is then used to define dynamical formulations of the quantum conditional entropy and quantum mutual information, and we show such information measures satisfy many desirable properties, such as a quantum entropic Bayes' rule. We also use our entropy function to quantify the information loss/gain associated with the dynamical evolution of quantum systems, which enables us to formulate a precise notion of information conservation for quantum processes.
翻訳日:2023-06-06 23:51:10 公開日:2023-06-02
# 量子論におけるくちばし時計

Ticking clocks in quantum theory ( http://arxiv.org/abs/2306.01829v1 )

ライセンス: Link先を確認
Ralph Silva, Nuriya Nurgalieva, Henrik Wilming(参考訳) 有限系において、一つの自然原理は、私たちがティッカーングクロックとして理解するものと、一般的にはタイムキーピングシステムとを区別するのに役立つことを示すことにより、ティッカーングクロックの構造とダイナミクスを導出する。 その結果、そのような時計の2部構造を復元し、ティッチに関する情報が古典的な自由度であることを証明した。 このような時計の力学の最も一般的な形式を説明し、一般的な時計から文学で見られるモデルへの追加の単純化について論じる。 結果フレームワークは、明らかな違いにもかかわらず、最近の様々な研究結果を含んでいる。 最後に,ダニ時計の情報理論を紹介し,それらの抽象的情報内容と実際にアクセス可能な情報とを区別する。

We present a derivation of the structure and dynamics of a ticking clock by showing that for finite systems a single natural principle serves to distinguish what we understand as ticking clocks from time-keeping systems in general. As a result we recover the bipartite structure of such a clock: that the information about ticks is a classical degree of freedom. We describe the most general form of the dynamics of such a clock, and discuss the additional simplifications to go from a general ticking clock to models encountered in literature. The resultant framework encompasses various recent research results despite their apparent differences. Finally, we introduce the information theory of ticking clocks, distinguishing their abstract information content and the actually accessible information.
翻訳日:2023-06-06 23:50:29 公開日:2023-06-02
# 対実世界モデリングによる統合(機械)ビジョン

Unifying (Machine) Vision via Counterfactual World Modeling ( http://arxiv.org/abs/2306.01828v1 )

ライセンス: Link先を確認
Daniel M. Bear, Kevin Feigelis, Honglin Chen, Wanhee Lee, Rahul Venkatesh, Klemen Kotar, Alex Durango, Daniel L.K. Yamins(参考訳) 機械ビジョンにおける主要なアプローチは、異なるタスクのために異なるアーキテクチャを採用し、高価なタスク固有のラベル付きデータセットでトレーニングされる。 この複雑さは、ロバストなタスク全般の認識が依然としてボトルネックであるロボティクスのような分野における進歩を阻害している。 対照的に、自然言語の「基礎モデル」は、明らかに異なるタスクの幅広い範囲において、事前訓練されたニューラルネットワークがゼロショットのソリューションを提供することができることを示す。 本稿では,視覚基盤モデルを構築するためのフレームワークであるcwm(counterfactual world modeling)について紹介する。 CWMには2つの重要なコンポーネントがあり、ファンデーションモデルの概念のビジョンへの応用を妨げる中核的な問題を解決している。 第一は構造化マスキング(structured masking)であり、視覚データの低次元構造を予測モデルが捉えることを奨励するマスク予測法の一般化である。 これにより、モデルはシーンの重要な物理的コンポーネントを判断し、小さなビジュアルトークンセットを通じてインターフェースを公開する。 これにより、CWMの第二のメインアイデアである「偽ファクトプロンシング」が実現され、実際の入力に対する予測モデルの出力とわずかに修正された「偽ファクトリアル」入力を比較することで、明らかに異なる視覚表現をゼロショットで計算することができる。 cwmは,キーポイントの推定,光学フロー,オクルージョン,オブジェクトセグメント,相対深度など,様々なタスクのために,実世界の画像やビデオで高品質な読み出しを生成する。 その結果,cwmは,概念的に単純な基盤で機械ビジョンの多様体鎖を統一するための有望な経路であることがわかった。

Leading approaches in machine vision employ different architectures for different tasks, trained on costly task-specific labeled datasets. This complexity has held back progress in areas, such as robotics, where robust task-general perception remains a bottleneck. In contrast, "foundation models" of natural language have shown how large pre-trained neural networks can provide zero-shot solutions to a broad spectrum of apparently distinct tasks. Here we introduce Counterfactual World Modeling (CWM), a framework for constructing a visual foundation model: a unified, unsupervised network that can be prompted to perform a wide variety of visual computations. CWM has two key components, which resolve the core issues that have hindered application of the foundation model concept to vision. The first is structured masking, a generalization of masked prediction methods that encourages a prediction model to capture the low-dimensional structure in visual data. The model thereby factors the key physical components of a scene and exposes an interface to them via small sets of visual tokens. This in turn enables CWM's second main idea -- counterfactual prompting -- the observation that many apparently distinct visual representations can be computed, in a zero-shot manner, by comparing the prediction model's output on real inputs versus slightly modified ("counterfactual") inputs. We show that CWM generates high-quality readouts on real-world images and videos for a diversity of tasks, including estimation of keypoints, optical flow, occlusions, object segments, and relative depth. Taken together, our results show that CWM is a promising path to unifying the manifold strands of machine vision in a conceptually simple foundation.
翻訳日:2023-06-06 23:50:09 公開日:2023-06-02
# 多重配列アライメント生成によるタンパク質三次構造予測の促進

Enhancing the Protein Tertiary Structure Prediction by Multiple Sequence Alignment Generation ( http://arxiv.org/abs/2306.01824v1 )

ライセンス: Link先を確認
Le Zhang, Jiayang Chen, Tao Shen, Yu Li, Siqi Sun(参考訳) タンパク質の折りたたみ研究の分野は、AlphaFold2 (AF2) の異常な性能と原子レベルの精度を示す深層学習法によって大きく進歩している。 共進化はタンパク質構造予測に不可欠なため、af2の精度は多重配列アライメント(msa)の深さに大きく影響され、類似配列のために大きなタンパク質データベースを広範囲に探索する必要がある。 しかしながら、全てのタンパク質配列が豊富なホモロジーファミリーを持つわけではないため、AF2の性能はそのようなクエリで劣化し、時には有意義な結果が得られない。 そこで本研究では,タンパク質特異的アテンション機構と大規模MSAを利用した新しい生成言語モデルであるMSA-Augmenterを導入し,データベースに存在しない新規なタンパク質配列を生成する。 これらのシーケンスは浅いMSAを補完し、構造特性予測の精度を高める。 CASP14で行った実験では,MSA-Augmenterが下位のMSAから共進化情報を保持するデノボ配列を生成できることが示され,強力なAF2上でのタンパク質構造予測の品質が向上した。

The field of protein folding research has been greatly advanced by deep learning methods, with AlphaFold2 (AF2) demonstrating exceptional performance and atomic-level precision. As co-evolution is integral to protein structure prediction, AF2's accuracy is significantly influenced by the depth of multiple sequence alignment (MSA), which requires extensive exploration of a large protein database for similar sequences. However, not all protein sequences possess abundant homologous families, and consequently, AF2's performance can degrade on such queries, at times failing to produce meaningful results. To address this, we introduce a novel generative language model, MSA-Augmenter, which leverages protein-specific attention mechanisms and large-scale MSAs to generate useful, novel protein sequences not currently found in databases. These sequences supplement shallow MSAs, enhancing the accuracy of structural property predictions. Our experiments on CASP14 demonstrate that MSA-Augmenter can generate de novo sequences that retain co-evolutionary information from inferior MSAs, thereby improving protein structure prediction quality on top of strong AF2.
翻訳日:2023-06-06 23:49:22 公開日:2023-06-02
# ErfReLU:ディープニューラルネットワークの適応活性化機能

ErfReLU: Adaptive Activation Function for Deep Neural Network ( http://arxiv.org/abs/2306.01822v1 )

ライセンス: Link先を確認
Ashish Rajanand, Pradeep Singh(参考訳) 近年の研究では、アウトプットに非線形性を加えるために選択されたアクティベーション関数(af)が、ディープラーニングネットワークの効率に大きな影響を与えることが示されている。 学習と同時に適応できるアクティベーション関数の開発には時間が必要だ。 研究者たちは最近、trainableやadaptive activation function(aaf)として知られる学習プロセスを通じてトレーニング可能なアクティベーション関数の開発を開始した。 成果を高めるAFの研究は、まだ初期段階にある。 本稿では、erf関数とReLUに基づいて、新しい活性化関数「ErfReLU」を開発した。 この関数は、その利点のためにReLUとエラー関数(erf)を利用する。 Sigmoid、ReLU、Tanhなどのアートアクティベーション機能とその特性について、簡単に説明されている。 Tanhsoft1、Tanhsoft2、Tanhsoft3、TanhLU、SAAF、ErfAct、Pserf、Smish、Serfといった適応活性化関数も記述されている。 最後に、Tanhsoft1、Tanhsoft2、Tanhsoft3、TanhLU、SAAF、ErfAct、Pserf、Smish、Serfという9つのトレーニング可能なアクティベーション関数のパフォーマンス解析が、これらのアクティベーション関数をCIFAR-10、MNIST、FMNISTベンチマークデータセット上のMobileNet、VGG16、ResNetモデルに適用することによって示されている。

Recent research has found that the activation function (AF) selected for adding non-linearity into the output can have a big impact on how effectively deep learning networks perform. Developing activation functions that can adapt simultaneously with learning is a need of time. Researchers recently started developing activation functions that can be trained throughout the learning process, known as trainable, or adaptive activation functions (AAF). Research on AAF that enhance the outcomes is still in its early stages. In this paper, a novel activation function 'ErfReLU' has been developed based on the erf function and ReLU. This function exploits the ReLU and the error function (erf) to its advantage. State of art activation functions like Sigmoid, ReLU, Tanh, and their properties have been briefly explained. Adaptive activation functions like Tanhsoft1, Tanhsoft2, Tanhsoft3, TanhLU, SAAF, ErfAct, Pserf, Smish, and Serf have also been described. Lastly, performance analysis of 9 trainable activation functions along with the proposed one namely Tanhsoft1, Tanhsoft2, Tanhsoft3, TanhLU, SAAF, ErfAct, Pserf, Smish, and Serf has been shown by applying these activation functions in MobileNet, VGG16, and ResNet models on CIFAR-10, MNIST, and FMNIST benchmark datasets.
翻訳日:2023-06-06 23:49:00 公開日:2023-06-02
# 中間スペクトルにおける欠測レベル

Missing levels in intermediate spectra ( http://arxiv.org/abs/2306.01821v1 )

ライセンス: Link先を確認
Mar\'ia Hita, Laura Mu\~noz and Rafael A. Molina(参考訳) ランダムな実験誤差による正規性とカオスと欠落レベルの間の中間ダイナミクスを持つ量子系のエネルギー準位を、最寄りの間隔分布$P(s)$で表す式を導出する。 この式はブロディ分布に基づいており、混合スペクトルを1つのパラメータの関数として適合させるために最も広く用いられる。 ランダム行列理論の$\beta$-hermiteアンサンブルに基づく中間スペクトルのモンテカルロシミュレーションを用いて、公式の質とその適合性を評価する。 ブロディパラメータと不足レベルの割合の推定は、実験値$p(s)$の最小2乗2パラメータフィッティングによって得られる。 この結果は, 実験スペクトルにおける偏差の起源とrmtを区別するために重要である。

We derive an expression for the nearest-neighbor spacing distribution $P(s)$ of the energy levels of quantum systems with intermediate dynamics between regularity and chaos and missing levels due to random experimental errors. The expression is based on the Brody distribution, the most widely used for fitting mixed spectra as a function of one parameter. By using Monte Carlo simulations of intermediate spectra based on the $\beta$-Hermite ensemble of Random Matrix Theory, we evaluate the quality of the formula and its suitability for fitting purposes. Estimations of the Brody parameter and the fraction of missing levels can be obtained by a least-square two-parameter fitting of the experimental $P(s)$. The results should be important to distinguish the origins of deviations from RMT in experimental spectra.
翻訳日:2023-06-06 23:48:33 公開日:2023-06-02
# 事前学習ドメインとの対比学習による未ラベルデータからのCOVID-19カフリングとブレスパターンの発見

Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training Domains ( http://arxiv.org/abs/2306.01864v1 )

ライセンス: Link先を確認
Jinjin Cai, Sudip Vhaduri, and Xiao Luo(参考訳) 新型コロナウイルスなどの新しい病気の迅速発見は、タイムリーな流行の対応を可能にし、大規模な拡散を防ぎ、公衆衛生を保護できる。 しかし、この問題についての研究は限られている。 そこで本研究では,非共発的cooughsからcovid-19を抽出し,呼吸パターンの発見を行うための,コントラスト型学習に基づくモデリング手法を提案する。 我々のモデルを検証するために、4つの大きな音声データセットと1つの画像データセットを用いて広範な実験を行った。 さらに、事前学習モデルに対するドメイン関連性や拡張順序などの異なる要因の影響についても検討する。 以上の結果から,提案モデルでは,0.81 %,0.86 %の精度で,ラベルなしのデータとラベル付きノンコビッドコークスとを効果的に区別できることがわかった。 この研究から得られた知見は、新しい疾患の早期発生を検出するための将来の研究を導く。

Rapid discovery of new diseases, such as COVID-19 can enable a timely epidemic response, preventing the large-scale spread and protecting public health. However, limited research efforts have been taken on this problem. In this paper, we propose a contrastive learning-based modeling approach for COVID-19 coughing and breathing pattern discovery from non-COVID coughs. To validate our models, extensive experiments have been conducted using four large audio datasets and one image dataset. We further explore the effects of different factors, such as domain relevance and augmentation order on the pre-trained models. Our results show that the proposed model can effectively distinguish COVID-19 coughing and breathing from unlabeled data and labeled non-COVID coughs with an accuracy of up to 0.81 and 0.86, respectively. Findings from this work will guide future research to detect an outbreak of a new disease early.
翻訳日:2023-06-06 23:43:03 公開日:2023-06-02
# ビディングなし、レグレトなし:デジタルグッズとデータオークションのためのペアワイズフィードバックメカニズム

No Bidding, No Regret: Pairwise-Feedback Mechanisms for Digital Goods and Data Auctions ( http://arxiv.org/abs/2306.01860v1 )

ライセンス: Link先を確認
Zachary Robertson, Oluwasanmi Koyejo(参考訳) パーソナライズされた文書コンテンツやアートワークなど、データやaiが生成するデジタルグッズに対する需要の高まりは、有用性やコストのかかる生産コストを考慮する効果的な価格とフィードバックメカニズムを必要としている。 本研究は, 市販商品から派生したユーティリティが販売後に明らかになるような, 一般的な再販環境に対処する新しいメカニズムを提示する。 このメカニズムの斬新さは、入札者から情報を引き出すためのペアワイズ比較を使うことであり、数値を割り当てるよりも間違いなく人間にとって容易である。 本機構は,epsilon-greedy戦略を用いてアロケーションを選択し,割り当てられた商品から実現可能なユーティリティと任意の価値をペアで比較する。 我々は、このメカニズムが漸近的に真実であり、個々に合理的であり、福祉と収益の最大化であることを示す。 メカニズムの関連性は広く、様々な品質のオーダー商品の任意の設定に適用できる。 負の効用の一例である多ラベル毒性アノテーションデータによる実験結果から,データオークションにおける社会福祉の促進効果が示唆された。 全体として、人間の要因に焦点が当てられていることは、より人間に敏感で効率的なメカニズム設計の発展に寄与する。

The growing demand for data and AI-generated digital goods, such as personalized written content and artwork, necessitates effective pricing and feedback mechanisms that account for uncertain utility and costly production. Motivated by these developments, this study presents a novel mechanism design addressing a general repeated-auction setting where the utility derived from a sold good is revealed post-sale. The mechanism's novelty lies in using pairwise comparisons for eliciting information from the bidder, arguably easier for humans than assigning a numerical value. Our mechanism chooses allocations using an epsilon-greedy strategy and relies on pairwise comparisons between realized utility from allocated goods and an arbitrary value, avoiding the learning-to-bid problem explored in previous work. We prove this mechanism to be asymptotically truthful, individually rational, and welfare and revenue maximizing. The mechanism's relevance is broad, applying to any setting with made-to-order goods of variable quality. Experimental results on multi-label toxicity annotation data, an example of negative utilities, highlight how our proposed mechanism could enhance social welfare in data auctions. Overall, our focus on human factors contributes to the development of more human-aware and efficient mechanism design.
翻訳日:2023-06-06 23:42:47 公開日:2023-06-02
# バイモーダルコントラスト学習によるH&Eヒストロジー画像からの空間分解遺伝子発現予測

Spatially Resolved Gene Expression Prediction from H&E Histology Images via Bi-modal Contrastive Learning ( http://arxiv.org/abs/2306.01859v1 )

ライセンス: Link先を確認
Ronald Xie, Kuan Pang, Gary D. Bader, Bo Wang(参考訳) 組織像は医学的診断と研究において重要なツールであり、顕微鏡レベルで組織構造と組成を調べることができる。 組織構造の基礎となる分子機構を理解することは、疾患のメカニズムを解明し、効果的な治療法を開発する上で重要である。 遺伝子発現プロファイリングは組織構造の基礎となる分子過程の洞察を与えるが、そのプロセスは時間と費用がかかる可能性がある。 本研究では,全スライドヘマトキシリンおよびエオシン(h&e)染色組織像の空間分解型遺伝子発現プロファイルを生成できるバイモーダル埋め込みフレームワークであるbleep(bi-modal embedded for expression prediction)を提案する。 BLEEPは対照的な学習フレームワークを用いて、顕微鏡解像度でペア画像と表現プロファイルを用いて参照データセットから低次元の関節埋め込み空間を構築する。 このフレームワークでは、参照データセットからの式プロファイルを使用して、任意のクエリイメージパッチの遺伝子発現をインプットすることができる。 10x Visiumプラットフォームで取得したヒト肝組織データセットのパフォーマンスをベンチマークすることで,遺伝子発現予測におけるBLEEPの有効性を実証した。 以上の結果から,BLEEPは組織構造の基礎となる分子機構を解明し,様々な疾患の診断・研究に重要な意味を持つ可能性が示唆された。 提案手法は, 遺伝子発現プロファイリングに関連する時間とコストを大幅に削減し, 研究および臨床応用のための組織像の高スループット解析のための新たな道を開く。

Histology imaging is an important tool in medical diagnosis and research, enabling the examination of tissue structure and composition at the microscopic level. Understanding the underlying molecular mechanisms of tissue architecture is critical in uncovering disease mechanisms and developing effective treatments. Gene expression profiling provides insight into the molecular processes underlying tissue architecture, but the process can be time-consuming and expensive. In this study, we present BLEEP (Bi-modaL Embedding for Expression Prediction), a bi-modal embedding framework capable of generating spatially resolved gene expression profiles of whole-slide Hematoxylin and eosin (H&E) stained histology images. BLEEP uses a contrastive learning framework to construct a low-dimensional joint embedding space from a reference dataset using paired image and expression profiles at micrometer resolution. With this framework, the gene expression of any query image patch can be imputed using the expression profiles from the reference dataset. We demonstrate BLEEP's effectiveness in gene expression prediction by benchmarking its performance on a human liver tissue dataset captured via the 10x Visium platform, where it achieves significant improvements over existing methods. Our results demonstrate the potential of BLEEP to provide insights into the molecular mechanisms underlying tissue architecture, with important implications in diagnosis and research of various diseases. The proposed framework can significantly reduce the time and cost associated with gene expression profiling, opening up new avenues for high-throughput analysis of histology images for both research and clinical applications.
翻訳日:2023-06-06 23:42:19 公開日:2023-06-02
# 量子力学による固有エネルギー推定--統一ノイズレジリエント測定駆動アプローチ

Estimating Eigenenergies from Quantum Dynamics: A Unified Noise-Resilient Measurement-Driven Approach ( http://arxiv.org/abs/2306.01858v1 )

ライセンス: Link先を確認
Yizhi Shen, Daan Camps, Siva Darbha, Aaron Szasz, Katherine Klymko, David B. Williams--Young, Norm M. Tubman, Roel Van Beeumen(参考訳) 物理と化学における基底状態エネルギーの推定は、量子コンピューティングの最も有望な応用の1つである。 本稿では,動的モード分解(dmd)の機構を用いて,実時間計測と後処理を行い,固有エネルギーを求める新しい計測駆動手法を提案する。 提案手法は,ノイズの存在下でも急速に収束することを示す理論的,数値的な証拠を提供するとともに,様々な科学コミュニティで独自に開発されたマトリクス鉛筆法に同型であることを示す。 dmdベースの戦略は摂動ノイズを体系的に軽減し、有望な量子古典的固有解法として際立っている。

Ground state energy estimation in physics and chemistry is one of the most promising applications of quantum computing. In this paper, we introduce a novel measurement-driven approach that finds eigenenergies by collecting real-time measurements and post-processing them using the machinery of dynamic mode decomposition (DMD). We provide theoretical and numerical evidence that our method converges rapidly even in the presence of noise and show that our method is isomorphic to matrix pencil methods developed independently across various scientific communities. Our DMD-based strategy can systematically mitigate perturbative noise and stands out as a promising hybrid quantum-classical eigensolver.
翻訳日:2023-06-06 23:41:55 公開日:2023-06-02
# 大言語モデルにおける文化的道徳規範の知識

Knowledge of cultural moral norms in large language models ( http://arxiv.org/abs/2306.01857v1 )

ライセンス: Link先を確認
Aida Ramezani, Yang Xu(参考訳) 道徳規範は文化によって異なる。 最近の研究の行は、英語の大規模言語モデルは人間のような道徳的偏見を含んでいることを示唆しているが、これらの研究は通常、多様な文化的環境における道徳的変動を調査しない。 各国の道徳規範に関する知識をモノリンガル英語モデルに含める程度について検討する。 分析の2つのレベルを考えます 1)言語モデルが「ホモセクシュアリティ」や「ディヴォース」といった様々な話題について、各国の微妙な道徳変動を捉えているか。 2) 言語モデルが文化的多様性を捉えているか, 世界中の人々が道徳的判断において意見の相違や意見の相違が生じる傾向にあるか。 世界価値観調査(55か国)と、道徳に関するpewグローバル調査(40か国)の2つの公開データセットを用いて分析を行った。 事前学習された英語モデルは、以前報告された英語の道徳規範よりも、各国の経験的道徳規範を悪化させる。 しかし、調査データに基づく微調整言語モデルは、イングランドの道徳規範のより正確な推定を犠牲にして、各国での推論を改善する。 モラル規範の自動推論に文化的知識を取り入れることの関連性と課題について論じる。

Moral norms vary across cultures. A recent line of work suggests that English large language models contain human-like moral biases, but these studies typically do not examine moral variation in a diverse cultural setting. We investigate the extent to which monolingual English language models contain knowledge about moral norms in different countries. We consider two levels of analysis: 1) whether language models capture fine-grained moral variation across countries over a variety of topics such as ``homosexuality'' and ``divorce''; 2) whether language models capture cultural diversity and shared tendencies in which topics people around the globe tend to diverge or agree on in their moral judgment. We perform our analyses with two public datasets from the World Values Survey (across 55 countries) and PEW global surveys (across 40 countries) on morality. We find that pre-trained English language models predict empirical moral norms across countries worse than the English moral norms reported previously. However, fine-tuning language models on the survey data improves inference across countries at the expense of a less accurate estimate of the English moral norms. We discuss the relevance and challenges of incorporating cultural knowledge into the automated inference of moral norms.
翻訳日:2023-06-06 23:41:45 公開日:2023-06-02
# 第一次量子プログラム言語のための型ベースのQubitallocation

Type-based Qubit Allocation for a First-Order Quantum Programming Language ( http://arxiv.org/abs/2306.01856v1 )

ライセンス: Link先を確認
Ryo Wakizaka and Atsushi Igarashi(参考訳) 量子ビット割り当てとは、量子プログラムにおいて物理量子ビットを論理量子ビットに割り当てる過程である。 いくつかの量子コンピュータは2ビット演算の応用に接続の制約があるため、主に接続の制約を満たすための代入を見つけ、命令を挿入することに関心がある。 低レベル量子プログラムの量子ビット割当問題に対する多くの方法が提案されている。 本稿では、一階関数を持つ量子プログラミング言語の量子ビット割り当ての型ベースフレームワークを提案する。 我々のフレームワークでは、接続制約は結合グラフと呼ばれる単純なキュービットのグラフで表される。 本研究では,(1)プログラムの実行に必要なキュービット数が結合グラフのノード数を超えないことを検証したソース言語,(2)十分に型付けされたプログラムが接続制約を満たすことを検証したターゲット言語,(3)ソースコードを対象プログラムに変換するアルゴリズムを定式化する。 両言語がタイプセーフであり,翻訳アルゴリズムが型保存であることを証明する。

Qubit allocation is a process to assign physical qubits to logical qubits in a quantum program. Since some quantum computers have connectivity constraints on applications of two-qubit operations, it is mainly concerned with finding an assignment and inserting instructions to satisfy the connectivity constraints. Many methods have been proposed for the qubit allocation problem for low-level quantum programs. This paper presents a type-based framework of qubit allocation for a quantum programming language with first-order functions. In our framework, the connectivity constraints are expressed by a simple graph of qubits called a coupling graph. We formalize (1) the source language, whose type system verifies that the number of qubits required for a given program to run does not exceed the number of nodes of the coupling graph, (2) the target language, whose qualified type system verifies that a well-typed program satisfies the connectivity constraints, and (3) an algorithm to translate a source program into a target program. We prove that both languages are type-safe and that the translation algorithm is type preserving.
翻訳日:2023-06-06 23:41:23 公開日:2023-06-02
# 5IDER: ステアリング、Intent Carryover、disfluencies、Entity Carryover、Re repairのための統一クエリ書き換え

5IDER: Unified Query Rewriting for Steering, Intent Carryover, Disfluencies, Entity Carryover and Repair ( http://arxiv.org/abs/2306.01855v1 )

ライセンス: Link先を確認
Jiarui Lu, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Site Li, Xueyun Zhu, Hong Yu, Murat Akbacak(参考訳) 音声アシスタントの提供 マルチターン会話をナビゲートする能力は、難しい問題である。 マルチターンインタラクションの処理には、ステアリング、意図の受け渡し、分散性、エンティティの受け渡し、修復など、さまざまな会話のユースケースを理解する必要がある。 この問題の複雑さは、これらのユースケースが互いに混ざり合っていて、しばしば自然言語で同時に現れるという事実によって複合化される。 上記の5つのタスクだけでなく、これらのユースケースの複雑な構成も扱える非自己回帰型クエリ書き換えアーキテクチャを提案する。 提案モデルでは,パラメータが15倍小さく,レイテンシが25倍高速であるにもかかわらず,ベースラインアプローチと比較してシングルタスク性能が向上し,ユースケース構成において微調整T5モデルよりも優れていた。

Providing voice assistants the ability to navigate multi-turn conversations is a challenging problem. Handling multi-turn interactions requires the system to understand various conversational use-cases, such as steering, intent carryover, disfluencies, entity carryover, and repair. The complexity of this problem is compounded by the fact that these use-cases mix with each other, often appearing simultaneously in natural language. This work proposes a non-autoregressive query rewriting architecture that can handle not only the five aforementioned tasks, but also complex compositions of these use-cases. We show that our proposed model has competitive single task performance compared to the baseline approach, and even outperforms a fine-tuned T5 model in use-case compositions, despite being 15 times smaller in parameters and 25 times faster in latency.
翻訳日:2023-06-06 23:41:07 公開日:2023-06-02
# 汎用ユーティリティによる強化学習:より単純な分散低減と大規模状態動作空間

Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action Space ( http://arxiv.org/abs/2306.01854v1 )

ライセンス: Link先を確認
Anas Barakat, Ilyas Fatkhullin, Niao He(参考訳) 我々は,状態行動占有度尺度の機能を最大化する汎用ユーティリティを用いて,強化学習(rl)問題を考える。 標準的な累積報酬RL設定以外にも、特定のケースが制約されたRL、純粋な探索と実演からの学習などが含まれる。 そこで本研究では,より単純な単ループパラメータフリー正規化ポリシー勾配アルゴリズムを提案する。 このアルゴリズムは再帰的運動量分散低減機構を実装し、適切な仮定の下でそれぞれ$\epsilon$-first-order stationarity と $\epsilon$-global optimality のサンプル複素数を$\tilde{\mathcal{o}}(\epsilon^{-3})$ と $\tilde{\mathcal{o}}(\epsilon^{-2})$ を達成する。 さらに、占有測度の線形関数近似による大きな有限状態作用空間の設定にも対処し、線形回帰サブルーチンを持つ単純なポリシー勾配法に対して、$\tilde{\mathcal{o}}(\epsilon^{-4})$のサンプル複雑性を示す。

We consider the reinforcement learning (RL) problem with general utilities which consists in maximizing a function of the state-action occupancy measure. Beyond the standard cumulative reward RL setting, this problem includes as particular cases constrained RL, pure exploration and learning from demonstrations among others. For this problem, we propose a simpler single-loop parameter-free normalized policy gradient algorithm. Implementing a recursive momentum variance reduction mechanism, our algorithm achieves $\tilde{\mathcal{O}}(\epsilon^{-3})$ and $\tilde{\mathcal{O}}(\epsilon^{-2})$ sample complexities for $\epsilon$-first-order stationarity and $\epsilon$-global optimality respectively, under adequate assumptions. We further address the setting of large finite state action spaces via linear function approximation of the occupancy measure and show a $\tilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity for a simple policy gradient method with a linear regression subroutine.
翻訳日:2023-06-06 23:40:50 公開日:2023-06-02
# 健常膵のマルチコントラストctアトラス

Multi-Contrast Computed Tomography Atlas of Healthy Pancreas ( http://arxiv.org/abs/2306.01853v1 )

ライセンス: Link先を確認
Yinchi Zhou, Ho Hin Lee, Yucheng Tang, Xin Yu, Qi Yang, Shunxing Bao, Jeffrey M. Spraggins, Yuankai Huo, and Bennett A. Landman(参考訳) 年齢や体組成の差異など、人口人口の実質的な多様性により、膵臓の体積形態は大きく変化し、形や外観の特異な差異が生じる。 このような変異は、人口全体にわたる膵臓の特徴を一般化することの難しさを増す。 臓器特異的解析のための形態的変動に適応するために,体積空間参照が必要である。 本稿では,マルチコントラストctを用いた膵臓臓器に最適化した高分解能ctアトラスフレームワークを提案する。 本稿では,腹部の関心領域(rois)を抽出し,階層的登録パイプラインを活用し,膵臓の組織構造を調整するための深層学習型前処理手法を提案する。 簡便に、患者腹容積を固定された高解像度アトラステンプレートに転送するために、DEEDアフィン及び非剛性登録を行う。 膵腺テンプレートを作成、評価するために、443名の被験者(膵疾患の既往歴がない15〜50歳)のマルチコントラストCTスキャンを処理した。 異なる登録状態のツールと比較すると、deeds affineとnon-rigid registrationの組み合わせは、すべてのコントラストフェーズにわたって、膵臓ラベル転送の最高のパフォーマンスを達成する。 我々はさらに、ラベル付き13の臓器を用いた100個の未同定門脈静脈スキャンの別の研究コホートを用いて外部評価を行い、教師なし環境で0.504Diceスコアのラベル転送性能が最高である。 各位相の定性表現(例えば平均写像)は、膵臓とその特徴的なコントラスト外観の明確な境界を形成する。 変形面のレンダリング(例えば、小から大容量)は、提案したアトラステンプレートの一般化性をさらに示している。

With the substantial diversity in population demographics, such as differences in age and body composition, the volumetric morphology of pancreas varies greatly, resulting in distinctive variations in shape and appearance. Such variations increase the difficulty at generalizing population-wide pancreas features. A volumetric spatial reference is needed to adapt the morphological variability for organ-specific analysis. Here, we proposed a high-resolution computed tomography (CT) atlas framework specifically optimized for the pancreas organ across multi-contrast CT. We introduce a deep learning-based pre-processing technique to extract the abdominal region of interests (ROIs) and leverage a hierarchical registration pipeline to align the pancreas anatomy across populations. Briefly, DEEDs affine and non-rigid registration are performed to transfer patient abdominal volumes to a fixed high-resolution atlas template. To generate and evaluate the pancreas atlas template, multi-contrast modality CT scans of 443 subjects (without reported history of pancreatic disease, age: 15-50 years old) are processed. Comparing with different registration state-of-the-art tools, the combination of DEEDs affine and non-rigid registration achieves the best performance for the pancreas label transfer across all contrast phases. We further perform external evaluation with another research cohort of 100 de-identified portal venous scans with 13 organs labeled, having the best label transfer performance of 0.504 Dice score in unsupervised setting. The qualitative representation (e.g., average mapping) of each phase creates a clear boundary of pancreas and its distinctive contrast appearance. The deformation surface renderings across scales (e.g., small to large volume) further illustrate the generalizability of the proposed atlas template.
翻訳日:2023-06-06 23:40:23 公開日:2023-06-02
# オープンワールドテキスト指定オブジェクトカウント

Open-world Text-specified Object Counting ( http://arxiv.org/abs/2306.01851v1 )

ライセンス: Link先を確認
Niki Amini-Naieni, Kiana Amini-Naieni, Tengda Han, Andrew Zisserman(参考訳) 我々の目標は、対象のオブジェクトクラスがテキスト記述によって指定される、画像中のオープンワールドオブジェクトカウントである。 そこで本研究では,事前学習されたジョイントテキスト画像表現の上に,トランスデコーダカウントヘッドを用いた,クラスに依存しない単段モデルcountxを提案する。 CounTXは、対象のオブジェクトクラスのイメージとテキスト記述のみを与えられたクラスのインスタンス数をカウントすることができ、エンドツーエンドでトレーニングすることができる。 私たちの知る限りでは、オープンワールドのカウント問題にこの方法で取り組んだのは当社が初めてです。 このモデルに加えて、以下の貢献をしている。 (i)CounTXの性能とオープンワールドオブジェクトカウントの先行研究を比較し,本手法がタスク指定にテキストを使用する手法について,FSC-147ベンチマークのすべての指標において,その手法が技術状況を上回ることを示す。 (II) FSC-147-D はテキスト記述付き FSC-147 の拡張版であり,単純なクラス名よりも詳細な言語で記述できる。 FSC-147-Dはhttps://github.com/niki-amini-naieni/CounTX/で入手できる。

Our objective is open-world object counting in images, where the target object class is specified by a text description. To this end, we propose CounTX, a class-agnostic, single-stage model using a transformer decoder counting head on top of pre-trained joint text-image representations. CounTX is able to count the number of instances of any class given only an image and a text description of the target object class, and can be trained end-to-end. To the best of our knowledge, we are the first to tackle the open-world counting problem in this way. In addition to this model, we make the following contributions: (i) we compare the performance of CounTX to prior work on open-world object counting, and show that our approach exceeds the state of the art on all measures on the FSC-147 benchmark for methods that use text to specify the task; (ii) we present and release FSC-147-D, an enhanced version of FSC-147 with text descriptions, so that object classes can be described with more detailed language than their simple class names. FSC-147-D is available at https://github.com/niki-amini-naieni/CounTX/.
翻訳日:2023-06-06 23:39:53 公開日:2023-06-02
# クラウドコンピューティングを用いたニューヨーク州における電気自動車の消費者行動分析

Consumer's Behavior Analysis of Electric Vehicle using Cloud Computing in the State of New York ( http://arxiv.org/abs/2306.01888v1 )

ライセンス: Link先を確認
Jairo Juarez, Wendy Flores, Zhenfei Lu, Mako Hattori, Melissa Hernandez, Safir Larios-Ramirez, Jongwook Woo(参考訳) 米国における電気自動車(ev)の販売は過去10年間で急速に伸びている。 new york state energy research and development authority(nyserda)による電気自動車のクリーンリベートデータを解析し、ev購入における消費者行動とその環境影響について検討した。 2017年以降の完全なリベートアプリケーションに基づいて、このデータセットは、消費者が購入したEVの作成とモデル、EV消費者の地理的位置、EV取得のためのトランザクションタイプ、環境影響予測、税制インセンティブが特徴である。 この分析は、確立した期間にマッピングされ、計算された統計データ分析からなる。 SAP Analytics Cloud(SAC)を使用して、まずデータをインポートしてクリーンにし、いくつかのプライマリ属性の統計スナップショットを生成する。 次に,環境炭素量とリベート量に基づいて異なるevオプションを評価した。 最後に、可視化、地理、時系列分析がさらなる洞察と推奨を提示した。 この分析は、最も人気のあるメーカーやモデルの変更、ニューヨーク州の異なる地域でのEVの受け入れ、クリーンエアイニシアチブを支援するために必要な資金など、消費者のEV購入行動を理解するのに役立つ。 本研究の結論は, 再生可能エネルギーの利用を促進するとともに, 化石燃料への依存度を低減し, 経済成長を持続的に加速させるとともに, 年々資金規模を縮小する傾向を分析し, 今後の資金調達予測を行う。

Sales of Electric Vehicles (EVs) in the United States have grown fast in the past decade. We analyze the Electric Vehicle Drive Clean Rebate data from the New York State Energy Research and Development Authority (NYSERDA) to understand consumer behavior in EV purchasing and their potential environmental impact. Based on completed rebate applications since 2017, this dataset features the make and model of the EV that consumers purchased, the geographic location of EV consumers, transaction type to obtain the EV, projected environmental impact, and tax incentive issued. This analysis consists of a mapped and calculated statistical data analysis over an established period. Using the SAP Analytics Cloud (SAC), we first import and clean the data to generate statistical snapshots for some primary attributes. Next, different EV options were evaluated based on environmental carbon footprints and rebate amounts. Finally, visualization, geo, and time-series analysis presented further insights and recommendations. This analysis helps the reader to understand consumers' EV buying behavior, such as the change of most popular maker and model over time, acceptance of EVs in different regions in New York State, and funds required to support clean air initiatives. Conclusions from the current study will facilitate the use of renewable energy, reduce reliance on fossil fuels, and accelerate economic growth sustainably, in addition to analyzing the trend of rebate funding size over the years and predicting future funding.
翻訳日:2023-06-06 23:33:29 公開日:2023-06-02
# コネクトーム型貯留層コンピュータの多機能化

Multifunctionality in a Connectome-Based Reservoir Computer ( http://arxiv.org/abs/2306.01885v1 )

ライセンス: Link先を確認
Jacob Morra, Andrew Flynn, Andreas Amann, Mark Daley(参考訳) 多機能性(multifunctionality)とは、ニューラルネットワークがネットワーク接続を変更することなく、複数の排他的タスクを実行する能力を記述する。 多機能性はヒトや他の動物の脳、特にショウジョウバエの外側角で観察されている。 本研究では, 果実ハエの横角のコネクトームを貯水池コンピュータ (RC) に移植し, このフルートフライRC (FFRC) がマルチファンクショナル性を示す程度をベンチマークテストとして検討した。 さらに、ネットワークのスペクトル半径を変化させながら、このFFRCが多機能性を達成する方法のダイナミクスについても検討する。 広く普及しているerd\"os-renyiリザーバコンピュータ(errc)と比較して,ffrcは多機能化能力が高く,より広い超パラメータ領域にまたがる多機能であり,errcのダイナミクスがカオス化するスペクトル半径限界をはるかに越えた2重問題を解く。

Multifunctionality describes the capacity for a neural network to perform multiple mutually exclusive tasks without altering its network connections; and is an emerging area of interest in the reservoir computing machine learning paradigm. Multifunctionality has been observed in the brains of humans and other animals: particularly, in the lateral horn of the fruit fly. In this work, we transplant the connectome of the fruit fly lateral horn to a reservoir computer (RC), and investigate the extent to which this 'fruit fly RC' (FFRC) exhibits multifunctionality using the 'seeing double' problem as a benchmark test. We furthermore explore the dynamics of how this FFRC achieves multifunctionality while varying the network's spectral radius. Compared to the widely-used Erd\"os-Renyi Reservoir Computer (ERRC), we report that the FFRC exhibits a greater capacity for multifunctionality; is multifunctional across a broader hyperparameter range; and solves the seeing double problem far beyond the previously observed spectral radius limit, wherein the ERRC's dynamics become chaotic.
翻訳日:2023-06-06 23:33:07 公開日:2023-06-02
# 位置相関による未検出光による量子画像の分解能に関する実験的検討

Experimental analysis on image resolution of quantum imaging with undetected light through position correlations ( http://arxiv.org/abs/2306.01884v1 )

ライセンス: Link先を確認
Marta Gilaberte Basset, Ren\'e Sondenheimer, Jorge Fuenzalida, Andres Vega, Sebastian T\"opfer, Elkin A. Santos, Sina Saravi, Frank Setzpfandt, Fabian Steinlechner, and Markus Gr\"afe(参考訳) 検出されていない光子による量子画像の解像度は、非線形過程で生成された光子対の光子の空間的相関によって制御される。 これらの相関により、その物体と相互作用しない光で物体の像を得ることができる。 画像構成により、位置相関または運動量相関が利用される。 本研究では, 非線形干渉計を用いた自然パラメトリックダウン変換により生成した光子の位置相関を用いて, 結晶長とポンプ幅が画像分解能に与える影響を実験的に解析する。 本研究は, 結晶長の分解能依存性に関する既存の理論モデルをサポートする。 さらに, 様々なポンプ腰の量子イメージング手法の分解能を1桁で検証した。 この分析は、結晶長が関連する光子波長よりもはるかに大きいパラメータの組み合わせに対して、双光子状態内の相関関係の強さに対する分解能の複雑な依存性を明らかにする。 このパラメータ系における既存のモデルを拡張し、有限ポンプ腰の非自明な効果を適切に考慮し、実験結果と一致することを示す。

Image resolution of quantum imaging with undetected photons is governed by the spatial correlations existing between the photons of a photon pair that has been generated in a nonlinear process. These correlations allow for obtaining an image of an object with light that never interacted with that object. Depending on the imaging configuration, either position or momentum correlations are exploited. We hereby experimentally analyse how the crystal length and pump waist affect the image resolution when using position correlations of photons that have been generated via spontaneous parametric down conversion in a nonlinear interferometer. Our results support existing theoretical models for the dependency of the resolution on the crystal length. In addition, we probe the resolution of our quantum imaging scheme for varying pump waists over one order of magnitude. This analysis reveals the intricate dependency of the resolution on the strength of the correlations within the biphoton states for parameter combinations in which the crystal lengths are much larger than the involved photon wavelengths. We extend the existing models in this parameter regime to properly take nontrivial effects of finite pump waists into account and demonstrate that they match the experimental results.
翻訳日:2023-06-06 23:32:45 公開日:2023-06-02
# VisualGPTScore: マルチモーダル生成事前学習スコアを用いたビシオ言語推論

VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores ( http://arxiv.org/abs/2306.01879v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan(参考訳) 視覚言語モデル (vlms) は、$p(\text{match}|\text{text}, \text{image})$ のような対照的な画像テキストマッチングの損失と区別的に事前訓練されている。 これは、元のキャプションが異なる意味論文に並べ替えられたとしても、同様のスコアを出力できることを意味する。 これを解決するために、${\bf V}$isual ${\bf G}$enerative ${\bf P}$re-${\bf T}$raining Score (${\bf VisualGPTScore}$) of $P(\text{text}|\text{image})$, a $\textit{multimodal generative}$ scoreは、画像条件付き言語モデルを用いて画像に条件付けされたテキストキャプションの可能性をキャプチャする。 VLMは単なる単語のバッグ・オブ・ワードモデルであるという考えとは対照的に,私たちの既製のVisualGPTScoreは,AROやCrepeといった最近提案された画像テキスト検索ベンチマークにおいて,構成的推論を評価する上で,最上位のパフォーマンスを示す。 さらに、VisualGPTScoreを$\textit{marginal}$ P(text)と$\textit{Pointwise Mutual Information}$ (PMI)に分解する。 これは役に立ちます (a)強い言語バイアスでデータセットを診断する、 (b)情報理論フレームワークを使用したWinogroundのような他のベンチマークでのデバイアス結果。 VisualGPTScoreは貴重な洞察を提供し、視覚言語学的構成性の将来の評価の強力なベースラインとなる。

Vision-language models (VLMs) discriminatively pre-trained with contrastive image-text matching losses such as $P(\text{match}|\text{text}, \text{image})$ have been criticized for lacking compositional understanding. This means they might output similar scores even if the original caption is rearranged into a different semantic statement. To address this, we propose to use the ${\bf V}$isual ${\bf G}$enerative ${\bf P}$re-${\bf T}$raining Score (${\bf VisualGPTScore}$) of $P(\text{text}|\text{image})$, a $\textit{multimodal generative}$ score that captures the likelihood of a text caption conditioned on an image using an image-conditioned language model. Contrary to the belief that VLMs are mere bag-of-words models, our off-the-shelf VisualGPTScore demonstrates top-tier performance on recently proposed image-text retrieval benchmarks like ARO and Crepe that assess compositional reasoning. Furthermore, we factorize VisualGPTScore into a product of the $\textit{marginal}$ P(text) and the $\textit{Pointwise Mutual Information}$ (PMI). This helps to (a) diagnose datasets with strong language bias, and (b) debias results on other benchmarks like Winoground using an information-theoretic framework. VisualGPTScore provides valuable insights and serves as a strong baseline for future evaluation of visio-linguistic compositionality.
翻訳日:2023-06-06 23:32:28 公開日:2023-06-02
# DiffECG:ECG信号合成のための一般化確率拡散モデル

DiffECG: A Generalized Probabilistic Diffusion Model for ECG Signals Synthesis ( http://arxiv.org/abs/2306.01875v1 )

ライセンス: Link先を確認
Nour Neifar, Achraf Ben-Hamadou, Afef Mdhaffar, Mohamed Jmaiel(参考訳) 近年,心電図信号に応用した深層学習を用いた心疾患検出のための有望なデータ拡張ソリューションとして,深層生成モデルが注目されている。 本稿では,心電図合成のための拡散確率モデルについて,心電図生成,部分信号補完,全発心電図予測の3つのシナリオをカバーする新しい手法を提案する。 本手法は,ecg合成における最初の一般化条件付きアプローチであり,その効果を示す実験結果である。 さらに,本手法は,他の最先端ECG生成モデルよりも優れ,最先端の分類器の性能を向上させることができることを示す。

In recent years, deep generative models have gained attention as a promising data augmentation solution for heart disease detection using deep learning approaches applied to ECG signals. In this paper, we introduce a novel approach based on denoising diffusion probabilistic models for ECG synthesis that covers three scenarios: heartbeat generation, partial signal completion, and full heartbeat forecasting. Our approach represents the first generalized conditional approach for ECG synthesis, and our experimental results demonstrate its effectiveness for various ECG-related tasks. Moreover, we show that our approach outperforms other state-of-the-art ECG generative models and can enhance the performance of state-of-the-art classifiers.
翻訳日:2023-06-06 23:31:49 公開日:2023-06-02
# SACSoN: ソーシャルナビゲーションのためのスケーラブルな自律データコレクション

SACSoN: Scalable Autonomous Data Collection for Social Navigation ( http://arxiv.org/abs/2306.01874v1 )

ライセンス: Link先を確認
Noriaki Hirose, Dhruv Shah, Ajay Sridhar, Sergey Levine(参考訳) 機械学習は、人間の行動の単純な予測モデルを超えて、社会に準拠したロボットシステムを構築するための強力なツールを提供する。 過去の経験から人間のインタラクションを観察し理解することで、学習はデータから直接効果的なソーシャルナビゲーション行動を可能にする。 しかし、人里離れた環境でのナビゲーションデータ収集には遠隔操作や継続的な監視が必要であるため、スケーリングのコストは極めて高い。 本稿では,視覚ベースのナビゲーションのためのスケーラブルなデータ収集システムであるsacsonを提案する。 SACSoNは、周囲の人間の観察と反応に視覚的観察を使用する。 この視覚的理解は、連続的な学習と、人間のオペレーターの関与を制限する自律的な衝突回復システムとを結びつけ、より良いデータセットスケーリングを可能にします。 SACSoNデータセットは、人間が居住する空間で動く自律ロボットの視覚的ナビゲーションデータセットで、人間と75時間以上、そして4000時間以上のリッチな対話を行う。 実験の結果,対話を促す新たな目的によるデータ収集は,歩行者の動態推定や社会的に適合したナビゲーション行動の学習など,下流作業の大幅な改善につながることがわかった。 自律的なデータ収集システムとSACSoNデータセットのビデオは、プロジェクトページで公開しています。

Machine learning provides a powerful tool for building socially compliant robotic systems that go beyond simple predictive models of human behavior. By observing and understanding human interactions from past experiences, learning can enable effective social navigation behaviors directly from data. However, collecting navigation data in human-occupied environments may require teleoperation or continuous monitoring, making the process prohibitively expensive to scale. In this paper, we present a scalable data collection system for vision-based navigation, SACSoN, that can autonomously navigate around pedestrians in challenging real-world environments while encouraging rich interactions. SACSoN uses visual observations to observe and react to humans in its vicinity. It couples this visual understanding with continual learning and an autonomous collision recovery system that limits the involvement of a human operator, allowing for better dataset scaling. We use a this system to collect the SACSoN dataset, the largest-of-its-kind visual navigation dataset of autonomous robots operating in human-occupied spaces, spanning over 75 hours and 4000 rich interactions with humans. Our experiments show that collecting data with a novel objective that encourages interactions, leads to significant improvements in downstream tasks such as inferring pedestrian dynamics and learning socially compliant navigation behaviors. We make videos of our autonomous data collection system and the SACSoN dataset publicly available on our project page.
翻訳日:2023-06-06 23:31:38 公開日:2023-06-02
# テキスト対ビデオモデルの確率的適応

Probabilistic Adaptation of Text-to-Video Models ( http://arxiv.org/abs/2306.01872v1 )

ライセンス: Link先を確認
Mengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel(参考訳) インターネット規模のデータでトレーニングされた大規模なテキスト対ビデオモデルは、任意のテキスト記述から高精細なビデオを生成するための例外的な能力を示している。 しかしながら、アニメーションやロボティクスビデオのような限られたドメイン固有データを持つタスクにこれらのモデルを適応させることは、事前訓練された大きなモデルの微調整が違法にコストがかかるため、重大な計算上の問題を引き起こす。 モデル重みを必要とせずに、大規模な言語モデルを新しいタスクに適応させる方法に着想を得て、様々な下流ドメインやタスクに大規模な事前訓練されたテキスト・ビデオモデルを適用する方法を検討する。 そこで本研究では,タスク固有の小型ビデオモデルの生成を導く前に,大規模な事前学習ビデオ拡散モデルのスコア関数を確率として活用するビデオ適応器を提案する。 実験の結果,ビデオアダプタは,アニメーションやエゴセントリックモデリング,シミュレーションや実世界のロボットデータのモデリングなど,さまざまなタスクにおいて高品質で特殊な映像を生成できるタスク専用小型ビデオモデルにおいて,事前学習された大規模ビデオモデルの高忠実性を維持し,幅広い知識を組み込むことができることがわかった。 さらなるビデオはhttps://video-adapter.github.io/にある。

Large text-to-video models trained on internet-scale data have demonstrated exceptional capabilities in generating high-fidelity videos from arbitrary textual descriptions. However, adapting these models to tasks with limited domain-specific data, such as animation or robotics videos, poses a significant computational challenge, since finetuning a pretrained large model can be prohibitively expensive. Inspired by how a small modifiable component (e.g., prompts, prefix-tuning) can adapt a large language model to perform new tasks without requiring access to the model weights, we investigate how to adapt a large pretrained text-to-video model to a variety of downstream domains and tasks without finetuning. In answering this question, we propose Video Adapter, which leverages the score function of a large pretrained video diffusion model as a probabilistic prior to guide the generation of a task-specific small video model. Our experiments show that Video Adapter is capable of incorporating the broad knowledge and preserving the high fidelity of a large pretrained video model in a task-specific small video model that is able to generate high-quality yet specialized videos on a variety of tasks such as animation, egocentric modeling, and modeling of simulated and real-world robotics data. More videos can be found on the website https://video-adapter.github.io/.
翻訳日:2023-06-06 23:31:18 公開日:2023-06-02
# 層間フィードバックアライメントはディープニューラルネットワークで保存される

Layer-Wise Feedback Alignment is Conserved in Deep Neural Networks ( http://arxiv.org/abs/2306.01870v1 )

ライセンス: Link先を確認
Zachary Robertson, Oluwasanmi Koyejo(参考訳) 深層ニューラルネットワークのトレーニングの効率性と生物学的評価性を高めるために、トレーニングプロセスにおいて後方通過重量をランダムな行列に置き換えるフィードバックアライメント(FA)が、従来のバックプロパゲーションに代わるものとして登場した。 FAの魅力は計算課題の回避と生物学的アライメントにあるが、この学習規則の理論的理解はいまだに部分的である。 本稿では,FAの学習力学を支える一連の保存法則を明らかにするとともに,FAとグラディエントDescent(GD)の類似点を明らかにする。 分析の結果、faはgdが示すような暗黙のバイアスを保ち、これらの学習アルゴリズムが根本的に異なるという一般的な物語に挑戦していることが明らかとなった。 さらに,これらの保存法則は,ReLUネットワークにおけるフィードバック行列と階層的アライメントの十分な条件を解明することを示した。 さらに,faで訓練された超パラメータ2層線形ネットワークが最小ノルム解に収束することを示す。 以上の結果から,深層ネットワークにおける学習ダイナミクスを規定する原則の理解を通じて,より効率的かつ生物学的に可能なバックプロパゲーションの代替手段の開発への道筋が示唆された。

In the quest to enhance the efficiency and bio-plausibility of training deep neural networks, Feedback Alignment (FA), which replaces the backward pass weights with random matrices in the training process, has emerged as an alternative to traditional backpropagation. While the appeal of FA lies in its circumvention of computational challenges and its plausible biological alignment, the theoretical understanding of this learning rule remains partial. This paper uncovers a set of conservation laws underpinning the learning dynamics of FA, revealing intriguing parallels between FA and Gradient Descent (GD). Our analysis reveals that FA harbors implicit biases akin to those exhibited by GD, challenging the prevailing narrative that these learning algorithms are fundamentally different. Moreover, we demonstrate that these conservation laws elucidate sufficient conditions for layer-wise alignment with feedback matrices in ReLU networks. We further show that this implies over-parameterized two-layer linear networks trained with FA converge to minimum-norm solutions. The implications of our findings offer avenues for developing more efficient and biologically plausible alternatives to backpropagation through an understanding of the principles governing learning dynamics in deep networks.
翻訳日:2023-06-06 23:30:51 公開日:2023-06-02
# 二元行列因子化のための高速$(1+\varepsilon)$近似アルゴリズム

Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix Factorization ( http://arxiv.org/abs/2306.01869v1 )

ライセンス: Link先を確認
Ameya Velingker, Maximilian V\"otsch, David P. Woodruff, Samson Zhou(参考訳) 入力は行列 $\mathbf{a}\in\{0,1\}^{n\times d}$、ランクパラメータ $k>0$、精度パラメータ $\varepsilon>0$ であり、低ランク因子 $\mathbf{u}\in\{0,1\}^{n\times k}$と$\mathbf{v}\in\{0,1\}^{k\times d}$である。 同様に、フロベニウスの損失を最小化する $\mathbf{U}$ と $\mathbf{V}$ は、$\|\mathbf{U}\mathbf{V}\mathbf{A}\|_F^2$ である。 この研究の前に、この問題の最先端は、kumar etの近似アルゴリズムであった。 アル 一定の$C\ge 576$に対して$C$-approximationを達成する[ICML 2019]。 最初の$(1+\varepsilon)$近似アルゴリズムは、実行時間singlely exponential in $k$であり、通常$k$は小さい整数である。 我々の手法はBMF問題の他の一般的な変種に一般化し、$L_p$損失関数に対するbicriteria $(1+\varepsilon)$-approximationアルゴリズムと$\mathbb{F}_2$で行列演算を行う設定を許容する。 当社のアプローチは,ストリーミングや分散モデルといった,標準的なビッグデータモデルにも適用可能です。

We introduce efficient $(1+\varepsilon)$-approximation algorithms for the binary matrix factorization (BMF) problem, where the inputs are a matrix $\mathbf{A}\in\{0,1\}^{n\times d}$, a rank parameter $k>0$, as well as an accuracy parameter $\varepsilon>0$, and the goal is to approximate $\mathbf{A}$ as a product of low-rank factors $\mathbf{U}\in\{0,1\}^{n\times k}$ and $\mathbf{V}\in\{0,1\}^{k\times d}$. Equivalently, we want to find $\mathbf{U}$ and $\mathbf{V}$ that minimize the Frobenius loss $\|\mathbf{U}\mathbf{V} - \mathbf{A}\|_F^2$. Before this work, the state-of-the-art for this problem was the approximation algorithm of Kumar et. al. [ICML 2019], which achieves a $C$-approximation for some constant $C\ge 576$. We give the first $(1+\varepsilon)$-approximation algorithm using running time singly exponential in $k$, where $k$ is typically a small integer. Our techniques generalize to other common variants of the BMF problem, admitting bicriteria $(1+\varepsilon)$-approximation algorithms for $L_p$ loss functions and the setting where matrix operations are performed in $\mathbb{F}_2$. Our approach can be implemented in standard big data models, such as the streaming or distributed models.
翻訳日:2023-06-06 23:30:29 公開日:2023-06-02
# 半古典理論とkoopman-van hove方程式

Semiclassical Theory and the Koopman-van Hove Equation ( http://arxiv.org/abs/2306.01865v1 )

ライセンス: Link先を確認
Ilon Joseph(参考訳) 位相空間 Koopman-van Hove (KvH) 方程式は偏微分方程式の漸近半古典的解析から導かれる。 半古典理論は、複素位相係数に対するハミルトン・ヤコビ方程式と振幅に対する輸送方程式をもたらす。 これらの2つの方程式は結合して構成空間におけるkvh方程式の非線形半古典版を形成することができる。 構成空間 KvH 方程式のすべての解は半古典位相空間 KvH 方程式とハミルトン・ヤコビ制約の両方を満たす。 構成空間の解の場合、この制約は位相空間に2つの異なる保存密度が存在するというパラドックスを解消する。 可積分系では、kvhスペクトルは古典的かつ半古典的スペクトルのデカルト積である。 古典スペクトルが排除されると、ジェフリーズ=ウェンツェル=クラマーズ=ブリルアンマッチング条件(jwkb)の正しい選択により、半古典スペクトルはマスロフ指数による補正を含むアインシュタイン-ブリルアン=ケラー量子化条件を満たす。 しかし、半古典解析は境界条件、連続性要件、定義の領域について異なる選択を用いる。 例えば、複雑なJWKB法を使用すると、位相空間の複素化によるトンネル処理が可能である。 最後に、KvH波動関数は干渉効果の可能性を含むが、位相空間上のすべての観測可能が局所作用素として近似される場合、干渉は観測不可能である。 干渉効果の観測には非局所的な操作、例えば漸近理論の高次を通して考慮する必要がある。

The phase space Koopman-van Hove (KvH) equation can be derived from the asymptotic semiclassical analysis of partial differential equations. Semiclassical theory yields the Hamilton-Jacobi equation for the complex phase factor and the transport equation for the amplitude. These two equations can be combined to form a nonlinear semiclassical version of the KvH equation in configuration space. Every solution of the configuration space KvH equation satisfies both the semiclassical phase space KvH equation and the Hamilton-Jacobi constraint. For configuration space solutions, this constraint resolves the paradox that there are two different conserved densities in phase space. For integrable systems, the KvH spectrum is the Cartesian product of a classical and a semiclassical spectrum. If the classical spectrum is eliminated, then, with the correct choice of Jeffreys-Wentzel-Kramers-Brillouin (JWKB) matching conditions, the semiclassical spectrum satisfies the Einstein-Brillouin-Keller quantization conditions which include the correction due to the Maslov index. However, semiclassical analysis uses different choices for boundary conditions, continuity requirements, and the domain of definition. For example, use of the complex JWKB method allows for the treatment of tunneling through the complexification of phase space. Finally, although KvH wavefunctions include the possibility of interference effects, interference is not observable when all observables are approximated as local operators on phase space. Observing interference effects requires consideration of nonlocal operations, e.g. through higher orders in the asymptotic theory.
翻訳日:2023-06-06 23:29:45 公開日:2023-06-02
# シナプス運動適応:スパイクニューラルネットワークにおける適応ロボット制御のための3要素学習則

Synaptic motor adaptation: A three-factor learning rule for adaptive robotic control in spiking neural networks ( http://arxiv.org/abs/2306.01906v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Joe Hays(参考訳) 現実の環境で動作する脚のあるロボットは、地形やペイロードの変化など、予期せぬ状況に迅速に適応する能力を持つ必要がある。 本稿では,3要素学習によるシナプス可塑性の神経科学に基づくルールを活用し,四足歩行ロボットのリアルタイムオンライン適応を実現するための新しい手法であるsynaptic motor adaptation (sma)アルゴリズムを提案する。 適応の迅速化を図るため,我々は,局所的にアクセス可能なセンシングデータのみを用いて,特権情報による埋め込みを近似することにより,勾配降下を通じて3要素学習規則をメタ最適化し,不確実性に適応させる。 本アルゴリズムは最先端のモータ適応アルゴリズムと同様に動作し,ニューロモルフィックハードウェアを用いた適応ロボットの実現に向けた明確な道筋を示す。

Legged robots operating in real-world environments must possess the ability to rapidly adapt to unexpected conditions, such as changing terrains and varying payloads. This paper introduces the Synaptic Motor Adaptation (SMA) algorithm, a novel approach to achieving real-time online adaptation in quadruped robots through the utilization of neuroscience-derived rules of synaptic plasticity with three-factor learning. To facilitate rapid adaptation, we meta-optimize a three-factor learning rule via gradient descent to adapt to uncertainty by approximating an embedding produced by privileged information using only locally accessible onboard sensing data. Our algorithm performs similarly to state-of-the-art motor adaptation algorithms and presents a clear path toward achieving adaptive robotics with neuromorphic hardware.
翻訳日:2023-06-06 23:23:01 公開日:2023-06-02
# 継続的学習における安定性のギャップ克服

Overcoming the Stability Gap in Continual Learning ( http://arxiv.org/abs/2306.01904v1 )

ライセンス: Link先を確認
Md Yousuf Harun and Christopher Kanan(参考訳) 多くの現実世界のアプリケーションでは、データセットのサイズが大きくなるにつれて、ディープニューラルネットワークはスクラッチから再トレーニングされる。 再トレーニングネットワークの計算コストを考えると、継続的な学習によってネットワークの更新がより効率的になると主張している。 この目標を達成する上での障害は安定性ギャップであり、新しいデータを更新すると、事前に学習したデータのパフォーマンスが回復する前に劣化する、という観察を指す。 この問題に対処することで、連続学習はネットワーク更新が少なくて新しいデータを学ぶことができ、計算効率が向上する。 連続学習手法であるリハーサル(あるいは経験リプレイ)における安定性ギャップの軽減方法について検討した。 我々は、安定性のギャップが発生する理由を理解するために、様々な仮説を試す。 これにより、このギャップを大幅に減らす方法が発見できます。 大規模なインクリメンタルなクラス学習環境の実験では,ネットワーク更新回数を大幅に削減し,性能を回復する。 我々の研究は、更新されたニューラルネットワークを維持するのに必要な炭素フットプリントを減らすとともに、現実世界のアプリケーションに対する継続的な学習の最先端を推し進める可能性がある。

In many real-world applications, deep neural networks are retrained from scratch as a dataset grows in size. Given the computational expense for retraining networks, it has been argued that continual learning could make updating networks more efficient. An obstacle to achieving this goal is the stability gap, which refers to an observation that when updating on new data, performance on previously learned data degrades before recovering. Addressing this problem would enable continual learning to learn new data with fewer network updates, resulting in increased computational efficiency. We study how to mitigate the stability gap in rehearsal (or experience replay), a widely employed continual learning method. We test a variety of hypotheses to understand why the stability gap occurs. This leads us to discover a method that vastly reduces this gap. In experiments on a large-scale incremental class learning setting, we are able to significantly reduce the number of network updates to recover performance. Our work has the potential to advance the state-of-the-art in continual learning for real-world applications along with reducing the carbon footprint required to maintain updated neural networks.
翻訳日:2023-06-06 23:22:45 公開日:2023-06-02
# 拡散モデルの理解不能な例:不正な搾取からデータを保護する

Unlearnable Examples for Diffusion Models: Protect Data from Unauthorized Exploitation ( http://arxiv.org/abs/2306.01902v1 )

ライセンス: Link先を確認
Zhengyue Zhao, Jinhao Duan, Xing Hu, Kaidi Xu, Chenan Wang, Rui Zhang, Zidong Du, Qi Guo, Yunji Chen(参考訳) 拡散モデルは画像生成タスクにおいて顕著な性能を示し、強力なAIGCアプリケーションへの道を開いた。 しかし、これらの広く使われている生成モデルは、著作権侵害や機密データ漏洩など、セキュリティやプライバシーの懸念を引き起こす可能性がある。 これらの問題に対処するため,我々は,画像の不正利用から保護するための無理解拡散摂動法を提案する。 提案手法では,各画像が保護されるサンプル回りの摂動ノイズを発生させるアルゴリズムを設計する。 この知覚不能な保護ノイズは、拡散モデル、すなわち、保護データ上で訓練または微調整された拡散モデルは、保護されたトレーニングデータに関連する高品質で多様な画像を生成することができない。 理論的には、これを最大限の最適化問題とみなし、保護雑音の有効性を高めるためのノイズスケジューラに基づくEUDPを導入する。 本手法は拡散確率モデルと潜在拡散モデルの両方について評価し,保護されたデータに対する拡散モデルの訓練が生成画像の品質を著しく低下させることを示した。 特に,安定拡散に関する実験結果は,特定の物体やスタイルを訓練するなど,様々なタスクにおける拡散モデルの訓練に画像を使用することを効果的に防止できることを実証する。 この成果は、AI生成コンテンツに対するプライバシーと著作権の保護に寄与するため、現実世界のシナリオにおいて重要な意味を持つ。

Diffusion models have demonstrated remarkable performance in image generation tasks, paving the way for powerful AIGC applications. However, these widely-used generative models can also raise security and privacy concerns, such as copyright infringement, and sensitive data leakage. To tackle these issues, we propose a method, Unlearnable Diffusion Perturbation, to safeguard images from unauthorized exploitation. Our approach involves designing an algorithm to generate sample-wise perturbation noise for each image to be protected. This imperceptible protective noise makes the data almost unlearnable for diffusion models, i.e., diffusion models trained or fine-tuned on the protected data cannot generate high-quality and diverse images related to the protected training data. Theoretically, we frame this as a max-min optimization problem and introduce EUDP, a noise scheduler-based method to enhance the effectiveness of the protective noise. We evaluate our methods on both Denoising Diffusion Probabilistic Model and Latent Diffusion Models, demonstrating that training diffusion models on the protected data lead to a significant reduction in the quality of the generated images. Especially, the experimental results on Stable Diffusion demonstrate that our method effectively safeguards images from being used to train Diffusion Models in various tasks, such as training specific objects and styles. This achievement holds significant importance in real-world scenarios, as it contributes to the protection of privacy and copyright against AI-generated content.
翻訳日:2023-06-06 23:22:29 公開日:2023-06-02
# デノイザー表現を用いた非条件拡散モデルからの条件生成

Conditional Generation from Unconditional Diffusion Models using Denoiser Representations ( http://arxiv.org/abs/2306.01900v1 )

ライセンス: Link先を確認
Alexandros Graikos, Srikar Yellapragada, Dimitris Samaras(参考訳) 拡散モデルは高品質で多様な画像を生成するための生成的モデリング技術として人気を集めている。 これらのモデルを下流タスクに適用するには、テキスト、クラスラベル、あるいは他の形式のガイダンスの形をとることができる条件付けが必要である。 しかし、特にアノテーションが不足したり不正確であったりする場合、これらのモデルに条件付き情報を提供することは困難である。 本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適応させることを提案する。 本稿では,属性条件付き生成やマスク条件付き生成などの条件付きタスクに対するアプローチの有効性を示す。 さらに,提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示した。 提案手法は,拡散モデルを新しい条件に適応させ,各種条件生成タスクのための高品質な拡張データを生成する,強力で柔軟な手法を提供する。

Denoising diffusion models have gained popularity as a generative modeling technique for producing high-quality and diverse images. Applying these models to downstream tasks requires conditioning, which can take the form of text, class labels, or other forms of guidance. However, providing conditioning information to these models can be challenging, particularly when annotations are scarce or imprecise. In this paper, we propose adapting pre-trained unconditional diffusion models to new conditions using the learned internal representations of the denoiser network. We demonstrate the effectiveness of our approach on various conditional generation tasks, including attribute-conditioned generation and mask-conditioned generation. Additionally, we show that augmenting the Tiny ImageNet training set with synthetic images generated by our approach improves the classification accuracy of ResNet baselines by up to 8%. Our approach provides a powerful and flexible way to adapt diffusion models to new conditions and generate high-quality augmented data for various conditional generation tasks.
翻訳日:2023-06-06 23:22:04 公開日:2023-06-02
# 単一原子を持つ2光子量子ゲート

Two-photon quantum gates with a single atom ( http://arxiv.org/abs/2306.01897v1 )

ライセンス: Link先を確認
Arkan Hassan and Julio Gea-Banacloche(参考訳) V配置の単一の原子は、2光子レベルまでも自然な光学非線形性を示す。 制御相量子論理ゲートにおいて、原子が単一モードの単一光子場と所定の時間相互作用させることで、これを利用する可能性について詳細に検討する。

A single atom in the V configuration exhibits a natural optical nonlinearity even down to the two-photon level. We explore in detail the possibility to use this for a controlled-phase quantum logical gate, by having the atom interact with single-mode, single-photon fields for a prescribed time.
翻訳日:2023-06-06 23:21:47 公開日:2023-06-02
# タスク強化学習における非有界状態空間の対応

Tackling Unbounded State Spaces in Continuing Task Reinforcement Learning ( http://arxiv.org/abs/2306.01896v1 )

ライセンス: Link先を確認
Brahma S. Pavse, Yudong Chen, Qiaomin Xie, Josiah P. Hanna(参考訳) 深層強化学習(RL)アルゴリズムは多くのタスクにうまく適用されているが、エピソードリセットへの強い依存と外挿ができないため、現実世界の多くの設定に適用できない。 例えば、確率的待ち行列問題では、状態空間はアンバウンドされ、エージェントは、エージェントが以前見た状態にリセットされることなく、オンラインで学習する必要がある。 このような環境では、特に確率的環境において、深いRLエージェントがリセットの欠如により回復できない状態に分岐できることが示される。 この分散を克服するために、我々はリアプノフにインスパイアされた報酬形成アプローチを導入し、エージェントが安定であること(すなわち、限界コストを達成するために)を学び、次に最適なことを学ぶことを奨励する。 理論上,報酬形成手法はエージェントの発散率を減少させ,その防止効果を実証的に確認する。 さらに,これらの手法により,ステート入力の最適性とログ変換を徐々に導入し,非境界状態領域でオンライン学習時に,深いrlアルゴリズムがハイパフォーマンスなポリシを学習できることを見出した。

While deep reinforcement learning (RL) algorithms have been successfully applied to many tasks, their inability to extrapolate and strong reliance on episodic resets inhibits their applicability to many real-world settings. For instance, in stochastic queueing problems, the state space can be unbounded and the agent may have to learn online without the system ever being reset to states the agent has seen before. In such settings, we show that deep RL agents can diverge into unseen states from which they can never recover due to the lack of resets, especially in highly stochastic environments. Towards overcoming this divergence, we introduce a Lyapunov-inspired reward shaping approach that encourages the agent to first learn to be stable (i.e. to achieve bounded cost) and then to learn to be optimal. We theoretically show that our reward shaping technique reduces the rate of divergence of the agent and empirically find that it prevents it. We further combine our reward shaping approach with a weight annealing scheme that gradually introduces optimality and log-transform of state inputs, and find that these techniques enable deep RL algorithms to learn high performing policies when learning online in unbounded state space domains.
翻訳日:2023-06-06 23:21:41 公開日:2023-06-02
# 階層型二次ランダム森林分類器

Hierarchical Quadratic Random Forest Classifier ( http://arxiv.org/abs/2306.01893v1 )

ライセンス: Link先を確認
Faezeh Fallah(参考訳) 本稿では,マルチチャネルデータから抽出したマルチレゾリューションサンプルを分類するための階層型二次ランダムフォレスト分類器を提案する。 この森林は各決定ノードにペナル化多変量線形判別剤を組み込み、元の特徴空間における二次的決定境界を実現するために2乗特徴を処理した。 ペナリミナントはマルチクラスのスパース判別分析に基づいており, ペナリミナントはラッソ正規化器とリッジ正規化器の中間であるグループラッソ正規化器に基づいていた。 この森林によって推定される分類確率とその決定ノードによって学習された特徴は、スタンドアローンまたはグラフベースの分類器で利用することができる。

In this paper, we proposed a hierarchical quadratic random forest classifier for classifying multiresolution samples extracted from multichannel data. This forest incorporated a penalized multivariate linear discriminant in each of its decision nodes and processed squared features to realize quadratic decision boundaries in the original feature space. The penalized discriminant was based on a multiclass sparse discriminant analysis and the penalization was based on a group Lasso regularizer which was an intermediate between the Lasso and the ridge regularizer. The classification probabilities estimated by this forest and the features learned by its decision nodes could be used standalone or foster graph-based classifiers.
翻訳日:2023-06-06 23:21:18 公開日:2023-06-02
# 非弾性原子-表面散乱への完全ab initioアプローチ

A fully ab initio approach to inelastic atom-surface scattering ( http://arxiv.org/abs/2306.01892v1 )

ライセンス: Link先を確認
Michelle M. Kelley, Ravishankar Sundararaman, Tom\'as A. Arias(参考訳) 任意の表面からの原子の非弾性散乱に関する普遍的で完全な初期理論を導入し、Nb(100) からのヘリウム散乱にこの理論を適用する。 このアプローチを普遍化する重要な側面は、散乱原子電子頂点の直接第一原理評価である。 現在の最先端理論の誤解を招く結果を修正することで、この完全な初期的アプローチは次世代の非破壊原子ビーム散乱を採用する実験の導出と解釈において重要である。

We introduce a universal and fully ab initio theory for inelastic scattering of any atom from any surface, and apply the theory to helium scattering from Nb(100). The key aspect making our approach universal is a direct first-principles evaluation of the scattering atom-electron vertex. By correcting misleading results from current state-of-the-art theories, this fully ab initio approach will be critical in guiding and interpreting experiments that adopt next-generation, non-destructive atomic beam scattering.
翻訳日:2023-06-06 23:21:07 公開日:2023-06-02
# dh-ptam:ディープ・ハイブリッド・ステレオ・イベント・フレーム・並列トラッキング・マッピングシステム

DH-PTAM: A Deep Hybrid Stereo Events-Frames Parallel Tracking And Mapping System ( http://arxiv.org/abs/2306.01891v1 )

ライセンス: Link先を確認
Abanob Soliman, Fabien Bonardi, D\'esir\'e Sidib\'e, Samia Bouchafa(参考訳) 本稿では,課題環境において優れた視覚並列追跡マッピング(ptam)システムに対するロバストなアプローチを提案する。 提案手法は,ステレオ映像フレームとステレオイベントストリームの新たな時空間同期により,ステレオイベントベースとフレームベースセンサを含む異種多モード視覚センサの強度を統一基準フレームに組み合わせたものである。 我々は,より堅牢性を高めるために,深層学習に基づく特徴抽出と記述を用いて推定を行う。 また、効率的なSLAM動作のための単純なループ閉鎖アルゴリズムによって補完される、エンドツーエンドの並列追跡とマッピング最適化層も導入する。 VECtor と TUM-VIE ベンチマークの小規模および大規模実世界シーケンスの包括的実験を通じて,本手法は,悪条件におけるロバスト性と精度の観点から,最先端の手法と比較して優れた性能を示す。 私たちの実装のリサーチベースのPython APIは、さらなる研究と開発のためにGitHubで公開されている。

This paper presents a robust approach for a visual parallel tracking and mapping (PTAM) system that excels in challenging environments. Our proposed method combines the strengths of heterogeneous multi-modal visual sensors, including stereo event-based and frame-based sensors, in a unified reference frame through a novel spatio-temporal synchronization of stereo visual frames and stereo event streams. We employ deep learning-based feature extraction and description for estimation to enhance robustness further. We also introduce an end-to-end parallel tracking and mapping optimization layer complemented by a simple loop-closure algorithm for efficient SLAM behavior. Through comprehensive experiments on both small-scale and large-scale real-world sequences of VECtor and TUM-VIE benchmarks, our proposed method (DH-PTAM) demonstrates superior performance compared to state-of-the-art methods in terms of robustness and accuracy in adverse conditions. Our implementation's research-based Python API is publicly available on GitHub for further research and development: https://github.com/AbanobSoliman/DH-PTAM.
翻訳日:2023-06-06 23:20:59 公開日:2023-06-02
# クラスタリング混合型データのためのカーネルメトリック学習

Kernel Metric Learning for Clustering Mixed-type Data ( http://arxiv.org/abs/2306.01890v1 )

ライセンス: Link先を確認
Jesse S. Ghashti and John R. J. Thompson(参考訳) 距離に基づくクラスタリングと分類は、様々な分野において、混合数値と分類データを分類するために広く使われている。 事前定義された距離測定は、その相似性に基づいてデータポイントをクラスタリングする。 純粋な数値属性を持つデータと、順序付きおよび順序なしの分類指標を持つデータには、多くの距離に基づく測度があるが、混合型データの最適距離は未解決の問題である。 多くのメトリクスは、数値属性を分類属性に変換する。 データポイントを単一の属性タイプとして扱うか、それぞれの属性間の距離を別々に計算して追加する。 本研究では,混合カーネルを用いて異種性を測定し,最適カーネル帯域幅を推定するメトリックを提案する。 提案手法は, 完全連続, カテゴリ, 混合型データを含む実世界のシミュレーションデータセット上で, 既存の距離ベースクラスタリングアルゴリズムを用いてクラスタリング精度を向上させる。

Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. A predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an optimal distance for mixed-type data is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric that uses mixed kernels to measure dissimilarity, with cross-validated optimal kernel bandwidths. Our approach improves clustering accuracy when utilized for existing distance-based clustering algorithms on simulated and real-world datasets containing pure continuous, categorical, and mixed-type data.
翻訳日:2023-06-06 23:20:40 公開日:2023-06-02
# 不可知性多集団アクティブラーニング

Agnostic Multi-Group Active Learning ( http://arxiv.org/abs/2306.01922v1 )

ライセンス: Link先を確認
Nick Rittler, Kamalika Chaudhuri(参考訳) 集団の希少な部分集合やハード部分集合の分類精度向上の問題に触発され、近年は「グループ」を表す分布の集合に一般化する学習モデルへの関心が高まっている。 PAC学習の保証を維持しつつラベルクエリ数を最小化することを目的として,学習者がコレクション内の各分布からどの例をラベル付けするかを決定する能力を備えたアクティブラーニングの観点から,この問題の変種を考察する。 私たちの主な課題は、不一致ベースのアクティブラーニングのような標準的なアクティブラーニング技術が、マルチグループ学習の目的に直接適用されないことです。 We modify existing algorithms to provide a consistent active learning algorithm for an agnostic formulation of multi-group learning, which given a collection of $G$ distributions and a hypothesis class $\mathcal{H}$ with VC-dimension $d$, outputs an $\epsilon$-optimal hypothesis using $\tilde{O}\left( (\nu^2/\epsilon^2+1) G d \theta_{\mathcal{G}}^2 \log^2(1/\epsilon) + G\log(1/\epsilon)/\epsilon^2 \right)$ label queries, where $\theta_{\mathcal{G}}$ is the worst-case disagreement coefficient over the collection. 概して、この保証は、意見の相違に基づくアクティブラーニングアルゴリズムが成功する可能性があり、グループ数があまり多くない体制において、標準的な多群学習のラベル複雑性を改善する。 また、コレクション内の各分布が$\mathcal{h}$に関して個別に実現可能である特別な場合も考慮し、この場合の学習には$\tilde{o}\left(g d \theta_{\mathcal{g}} \log(1/\epsilon) \right)$ラベルクエリが十分であることを示す。 さらに,グループ実現戦略に触発された完全無依存症例に対して近似結果を与える。

Inspired by the problem of improving classification accuracy on rare or hard subsets of a population, there has been recent interest in models of learning where the goal is to generalize to a collection of distributions, each representing a ``group''. We consider a variant of this problem from the perspective of active learning, where the learner is endowed with the power to decide which examples are labeled from each distribution in the collection, and the goal is to minimize the number of label queries while maintaining PAC-learning guarantees. Our main challenge is that standard active learning techniques such as disagreement-based active learning do not directly apply to the multi-group learning objective. We modify existing algorithms to provide a consistent active learning algorithm for an agnostic formulation of multi-group learning, which given a collection of $G$ distributions and a hypothesis class $\mathcal{H}$ with VC-dimension $d$, outputs an $\epsilon$-optimal hypothesis using $\tilde{O}\left( (\nu^2/\epsilon^2+1) G d \theta_{\mathcal{G}}^2 \log^2(1/\epsilon) + G\log(1/\epsilon)/\epsilon^2 \right)$ label queries, where $\theta_{\mathcal{G}}$ is the worst-case disagreement coefficient over the collection. Roughly speaking, this guarantee improves upon the label complexity of standard multi-group learning in regimes where disagreement-based active learning algorithms may be expected to succeed, and the number of groups is not too large. We also consider the special case where each distribution in the collection is individually realizable with respect to $\mathcal{H}$, and demonstrate $\tilde{O}\left( G d \theta_{\mathcal{G}} \log(1/\epsilon) \right)$ label queries are sufficient for learning in this case. We further give an approximation result for the full agnostic case inspired by the group realizable strategy.
翻訳日:2023-06-06 23:12:53 公開日:2023-06-02
# 協調型マルチエージェント強化学習のためのコンテキストアウェアベイズネットワークアクタ-クリティック手法

Context-Aware Bayesian Network Actor-Critic Methods for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.01920v1 )

ライセンス: Link先を確認
Dingyang Chen, Qi Zhang(参考訳) 相互に関連付けられた方法で行動を実行することは、協調性の向上につながることの多い、人間の協調のための共通の戦略であり、協調的マルチエージェント強化学習(marl)にも有益である。 しかしながら、最近のmarlの成功は、拡張性を考慮したエージェント間のアクション相関がない純粋に分散した実行の便利なパラダイムに大きく依存している。 本研究では,エージェントの行動選択と協調政策の相関関係を定式化するためのベイズネットワークを提案する。 理論的には、このようなベイズネットワーク合同政策の下でマルチエージェント政策勾配式を導出し、協調マルコフゲームにおける表型ソフトマックス政策パラメータ化の下でnash平衡へのグローバル収束を証明し、なぜアクション依存が有益であるかを理論的に正当化する。 さらに,既存のmarlアルゴリズムを最近の微分可能有向非巡回グラフ(dag)法に応用することにより,部分可観測性と様々な難易度を有するシナリオにおいて,コンテキスト認識ベイズネットワークポリシーを学習するための実用的なアルゴリズムを開発した。 また、学習したDAGの分散度をトレーニングプロセスを通じて動的に減少させ、分散実行のための弱いあるいは純粋に独立したポリシーへと導く。 MARLベンチマークの実証結果は,我々のアプローチの利点を示している。

Executing actions in a correlated manner is a common strategy for human coordination that often leads to better cooperation, which is also potentially beneficial for cooperative multi-agent reinforcement learning (MARL). However, the recent success of MARL relies heavily on the convenient paradigm of purely decentralized execution, where there is no action correlation among agents for scalability considerations. In this work, we introduce a Bayesian network to inaugurate correlations between agents' action selections in their joint policy. Theoretically, we establish a theoretical justification for why action dependencies are beneficial by deriving the multi-agent policy gradient formula under such a Bayesian network joint policy and proving its global convergence to Nash equilibria under tabular softmax policy parameterization in cooperative Markov games. Further, by equipping existing MARL algorithms with a recent method of differentiable directed acyclic graphs (DAGs), we develop practical algorithms to learn the context-aware Bayesian network policies in scenarios with partial observability and various difficulty. We also dynamically decrease the sparsity of the learned DAG throughout the training process, which leads to weakly or even purely independent policies for decentralized execution. Empirical results on a range of MARL benchmarks show the benefits of our approach.
翻訳日:2023-06-06 23:12:16 公開日:2023-06-02
# 安全のための信頼できるケースの構築--waymoによる不合理なリスクの欠如判定の試み

Building a Credible Case for Safety: Waymo's Approach for the Determination of Absence of Unreasonable Risk ( http://arxiv.org/abs/2306.01917v1 )

ライセンス: Link先を確認
Francesca Favaro, Laura Fraade-Blanar, Scott Schnelle, Trent Victor, Mauricio Pe\~na, Johan Engstrom, John Scanlon, Kris Kusano, Dan Smith(参考訳) 本稿では,完全自律運転システムを構築する企業において,安全のための信頼性の高いケースを構築するためのWaymoのアプローチの概要を紹介する。 完全自律運転の安全ケースは、AVシステムが人間のドライバーなしで公道に配備されるのに十分安全であると会社がどのように判断するかを説明する公式な方法であり、その決定を支持する証拠を含んでいる。 システムの説明、開発に使用する方法論、検証に使用するメトリクス、検証テストの実際の結果などが含まれる。 しかし、価値ある安全ケースを開発するためには、まず第一に、信頼性と熟練度を理解し、評価基準に合わせることが重要である。 本論文は,システムがどのように展開の準備が整ったかだけでなく,そのような判断に採用される受け入れ基準の集合が十分であり,その評価(および関連する方法)が信頼できることを正当化する基礎的な考え方を提供することによって,そのようなアライメントを可能にする。 この出版物は、2020年以降waymoが発行したコンテンツをベースにした安全に関する3つの補完的な視点に基づいて構成されており、安全性への階層的アプローチ、安全性への動的なアプローチ、そして安全に対する信頼できるアプローチである。 提案されたアプローチは方法論に依存しないため、空間内の誰でも一部あるいは全部を使用できる。

This paper presents an overview of Waymo's approach to building a reliable case for safety - a novel and thorough blueprint for use by any company building fully autonomous driving systems. A safety case for fully autonomous operations is a formal way to explain how a company determines that an AV system is safe enough to be deployed on public roads without a human driver, and it includes evidence to support that determination. It involves an explanation of the system, the methodologies used to develop it, the metrics used to validate it and the actual results of validation tests. Yet, in order to develop a worthwhile safety case, it is first important to understand what makes one credible and well crafted, and align on evaluation criteria. This paper helps enabling such alignment by providing foundational thinking into not only how a system is determined to be ready for deployment but also into justifying that the set of acceptance criteria employed in such determination is sufficient and that their evaluation (and associated methods) is credible. The publication is structured around three complementary perspectives on safety that build upon content published by Waymo since 2020: a layered approach to safety; a dynamic approach to safety; and a credible approach to safety. The proposed approach is methodology-agnostic, so that anyone in the space could employ portions or all of it.
翻訳日:2023-06-06 23:11:52 公開日:2023-06-02
# 絡み合った自己スーパービジョン表現とニューラルヴォコーダを用いた音声感情変換

In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised Representations and Neural Vocoder-based Resynthesis ( http://arxiv.org/abs/2306.01916v1 )

ライセンス: Link先を確認
Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkmann(参考訳) 音声感情変換は、語彙情報と話者のアイデンティティを維持しつつ、話し言葉の表現された感情をターゲット感情に変換することを目的としている。 本稿では,並列データが存在しない場合の感情変換に着目し,語彙的,話者的,感情的情報を分離する問題について述べる。 本稿では,自己教師付きネットワークを用いて発話の語彙的,話者的,感情的内容の分離を行い,その後,ヒフィガンボコーダを用いて対象感情の音声信号に対する不連続表現の再合成を行う手法を提案する。 より優れた表現と感情インテンシティ制御を達成するために,我々は,カテゴリー表現の感情変換ではなく,連続表現のaro-usal次元に着目した。 MSP-Podcastデータセットにおいて,本手法を検証した。 その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。 さらに, 極端覚醒(1, 7)よりも中規模覚醒(2~6)の音声の合成が優れていることが明らかになった。

Speech emotion conversion aims to convert the expressed emotion of a spoken utterance to a target emotion while preserving the lexical information and the speaker's identity. In this work, we specifically focus on in-the-wild emotion conversion where parallel data does not exist, and the problem of disentangling lexical, speaker, and emotion information arises. In this paper, we introduce a methodology that uses self-supervised networks to disentangle the lexical, speaker, and emotional content of the utterance, and subsequently uses a HiFiGAN vocoder to resynthesise the disentangled representations to a speech signal of the targeted emotion. For better representation and to achieve emotion intensity control, we specifically focus on the aro\-usal dimension of continuous representations, as opposed to performing emotion conversion on categorical representations. We test our methodology on the large in-the-wild MSP-Podcast dataset. Results reveal that the proposed approach is aptly conditioned on the emotional content of input speech and is capable of synthesising natural-sounding speech for a target emotion. Results further reveal that the methodology better synthesises speech for mid-scale arousal (2 to 6) than for extreme arousal (1 and 7).
翻訳日:2023-06-06 23:11:30 公開日:2023-06-02
# スムースモデル予測制御と統計的学習への応用

Smooth Model Predictive Control with Applications to Statistical Learning ( http://arxiv.org/abs/2306.01914v1 )

ライセンス: Link先を確認
Kwangjun Ahn, Daniel Pfrommer, Jack Umenberger, Tobia Marcucci, Zak Mhammedi and Ali Jadbabaie(参考訳) 統計的学習理論と高次元統計学は機械学習理論に大きな影響を与え、システムや制御理論を含む様々な領域に影響を与えた。 過去数年間、我々はこのような理論ツールの様々な応用を目撃し、次のような質問に答えた。 与えられた精度で静的制御ポリシーを学ぶのに、状態-作用ペアがいくつ必要か? 近年の研究では、連続的な微分可能かつ安定化制御ポリシーは、性能の保証が難しいニューラルネットワークを用いて適切に近似できるが、最も単純な制約された制御問題でさえ滑らかではないことが示されている。 本稿では, 線形モデル予測制御 (MPC) ポリシーのスムーズな近似について検討し, 厳密な制約をバリア関数, すなわちバリア MPC に置き換える。 特に、障壁MPCは、元の非滑らかなMPCポリシーの指数的安定性特性を継承することを示す。 提案した障壁MPCを慎重に解析することにより,その滑らかさ定数を慎重に制御できることを示す。

Statistical learning theory and high dimensional statistics have had a tremendous impact on Machine Learning theory and have impacted a variety of domains including systems and control theory. Over the past few years we have witnessed a variety of applications of such theoretical tools to help answer questions such as: how many state-action pairs are needed to learn a static control policy to a given accuracy? Recent results have shown that continuously differentiable and stabilizing control policies can be well-approximated using neural networks with hard guarantees on performance, yet often even the simplest constrained control problems are not smooth. To address this void, in this paper we study smooth approximations of linear Model Predictive Control (MPC) policies, in which hard constraints are replaced by barrier functions, a.k.a. barrier MPC. In particular, we show that barrier MPC inherits the exponential stability properties of the original non-smooth MPC policy. Using a careful analysis of the proposed barrier MPC, we show that its smoothness constant can be carefully controlled, thereby paving the way for new sample complexity results for approximating MPC policies from sampled state-action pairs.
翻訳日:2023-06-06 23:11:10 公開日:2023-06-02
# PDT: タイムアウェアなバイパルタイトグラフのための事前訓練されたデュアルトランス

PDT: Pretrained Dual Transformers for Time-aware Bipartite Graphs ( http://arxiv.org/abs/2306.01913v1 )

ライセンス: Link先を確認
Xin Dai, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Chin-Chia Michael Yeh, Junpeng Wang, Liang Wang, Yan Zheng, Wei Zhang(参考訳) 大規模モデルの事前トレーニングは広く普及しており、多くの機械学習アプリケーションカテゴリでユーザー生成コンテンツが増え続けている。 ユーザとコンテンツの相互作用を記述するデータセットから文脈知識を学ぶことは、下流タスクにおいて重要な役割を果たすことが認識されている。 事前学習手法を用いて文脈知識を学習しようとするいくつかの研究にもかかわらず、このようなタスクのための最適な訓練目標と戦略を見つけることは難しい問題である。 本研究では,ユーザとコンテンツの相互作用を2部グラフとして表現できるデータセットに対して,文脈知識には2つの異なる側面,すなわちユーザ側とコンテンツ側があると主張する。 文脈知識を学習するために,ユーザ側とコンテンツ側の空間間の双方向マッピングを学習する事前学習手法を提案する。 学習目標をコントラスト学習タスクとして定式化し、文脈知識を符号化するデュアルトランスフォーマーアーキテクチャを提案する。 提案手法を推薦課題として評価する。 実験の結果,提案手法がすべてのベースラインを上回り,有意な利益を得た。

Pre-training on large models is prevalent and emerging with the ever-growing user-generated content in many machine learning application categories. It has been recognized that learning contextual knowledge from the datasets depicting user-content interaction plays a vital role in downstream tasks. Despite several studies attempting to learn contextual knowledge via pre-training methods, finding an optimal training objective and strategy for this type of task remains a challenging problem. In this work, we contend that there are two distinct aspects of contextual knowledge, namely the user-side and the content-side, for datasets where user-content interaction can be represented as a bipartite graph. To learn contextual knowledge, we propose a pre-training method that learns a bi-directional mapping between the spaces of the user-side and the content-side. We formulate the training goal as a contrastive learning task and propose a dual-Transformer architecture to encode the contextual knowledge. We evaluate the proposed method for the recommendation task. The empirical studies have demonstrated that the proposed method outperformed all the baselines with significant gains.
翻訳日:2023-06-06 23:10:50 公開日:2023-06-02
# 1次元ローゼン・モースIIハミルトニアンのSUSYパートナーと$S$-行列極

SUSY partners and $S$-matrix poles of the one dimensional Rosen-Morse II Hamiltonian ( http://arxiv.org/abs/2306.01912v1 )

ライセンス: Link先を確認
Carlos San Mill\'an, Manuel Gadella, \c{S}eng\"ul Kuru, Javier Negro(参考訳) 1次元可解ハミルトニアンのリストの中で、ローゼン=モースiiポテンシャルを持つハミルトニアンを見つける。 第一の目的は、このポテンシャルに対応する散乱行列を分析することである。 冗長極や反有界極の種類に対応する一連の極を含むことを示す。 場合によっては、境界状態が存在し、これは与えられたパラメータの値に依存する。 次に、基底状態(束縛状態が存在するような場合)の波動関数や、反束縛状態または冗長状態から生じる他の波動関数を用いて、元のハミルトニアン上で異なる超対称変換を行う。 我々はこれらの変換の性質について研究する。

Among the list of one dimensional solvable Hamiltonians, we find the Hamiltonian with the Rosen-Morse II potential. The first objective is to analyze the scattering matrix corresponding to this potential. We show that it includes a series of poles corresponding to the types of redundant poles or anti-bound poles. In some cases, there are even bound states and this depends on the values of given parameters. Then, we perform different supersymmetric transformations on the original Hamiltonian using the ground state (for those situations where there are bound states) wave functions, or other wave functions that comes from anti-bound states or redundant states. We study the properties of these transformations.
翻訳日:2023-06-06 23:10:33 公開日:2023-06-02
# 代数量子力学における分離定理とベル不等式

Separation theorems and Bell inequalities in algebraic quantum mechanics ( http://arxiv.org/abs/2306.01909v1 )

ライセンス: Link先を確認
Guido Bacciagaluppi(参考訳) 本稿では,代数的手法による量子力学系の分離の概念について述べる。 我々は既知の定理を見直し、c*-代数概念と対応するw*-代数概念のリンクを確立する。 Raggio (1988) によるベルの不等式による分離の特徴づけは C*-代数的定式化を与える。 最後に,ベルの不等式を理解する上での意義について述べる。

The paper discusses the concept of separation of quantum mechanical systems in the algebraic approach. We review known theorems, then establish a link between the C*-algebraic and the corresponding W*-algebraic concepts. A characterization of separation in terms of Bell inequalities, due to Raggio (1988), is given a C*-algebraic formulation. Finally, we comment on the implications for the understanding of the Bell inequalities.
翻訳日:2023-06-06 23:10:21 公開日:2023-06-02
# 光周波数の急激な非線形利得レーザーからのインセンス励起光

Intense squeezed light from lasers with sharply nonlinear gain at optical frequencies ( http://arxiv.org/abs/2306.01908v1 )

ライセンス: Link先を確認
Linh Nguyen, Jamison Sloan, Nicholas Rivera, Marin Soljacic(参考訳) 古典的なショットノイズレベル以下で変動する数列光のような古典的でない光の状態は、メトロジー、通信、量子情報処理、量子シミュレーションにおいて重要な用途を持っている。 しかし、これらの非古典的な光状態、特に高い強度と高いスクイーズを発生させることは困難である。 この問題に対処するために,ゲインを用いた光周波数の強いサブポアソン光を生成する新しい概念を導入する。 これは周波数依存利得とkerr非線形性の組み合わせから生じる光子の強い非線形利得を利用する。 このレーザーアーキテクチャでは、利得媒質とカー非線形性の相互作用は高い光子数状態における自発的な放出を抑制し、光子数変動を抑制する強い「負のフィードバック」をもたらす。 本研究では,レーザーキャビティにおける固体利得媒質とケラー非線形材料を用いて,この概念の現実的な実装について検討し,光子数ゆらぎの90%がショットノイズレベル以下で実現できることを示す。

Non-classical states of light, such as number-squeezed light, with fluctuations below the classical shot noise level, have important uses in metrology, communication, quantum information processing, and quantum simulation. However, generating these non-classical states of light, especially with high intensity and high degree of squeezing, is challenging. To address this problem, we introduce a new concept which uses gain to generate intense sub-Poissonian light at optical frequencies. It exploits a strongly nonlinear gain for photons which arises from a combination of frequency-dependent gain and Kerr nonlinearity. In this laser architecture, the interaction between the gain medium and Kerr nonlinearity suppresses the spontaneous emission at high photon number states, leading to a strong "negative feedback" that suppresses photon-number fluctuations. We discuss realistic implementations of this concept based on the use of solid-state gain media in laser cavities with Kerr nonlinear materials, showing how 90% squeezing of photon number fluctuations below the shot noise level can be realized.
翻訳日:2023-06-06 23:10:16 公開日:2023-06-02
# 変圧器モデルのための単純かつ効果的な自己バイアスフレームワーク

A Simple yet Effective Self-Debiasing Framework for Transformer Models ( http://arxiv.org/abs/2306.01907v1 )

ライセンス: Link先を確認
Xiaoyue Wang, Lijie Wang, Xin Liu, Suhang Wu, Jinsong Su, Hua Wu(参考訳) 現在のTransformerベースの自然言語理解(NLU)モデルは、実際のアウトオブディストリビューション(OOD)インスタンスの処理に失敗しながら、データセットバイアスに大きく依存している。 この問題に対処する多くの手法が提案されているが、TransformerベースのNLUモデルの異なる層で学んだ機能は異なるという事実を無視している。 本稿では,まず2つの結論を得るための予備研究を行う。 1) 訓練中の共通バイアス特徴を符号化する低層文及び高層文表現 2)低層文表現は高層文よりも偏りのない特徴を符号化する。 これらの結論に基づき、トランスフォーマーベースNLUモデルのための簡易かつ効果的な自己退化フレームワークを提案する。 具体的には,まず選択した低層に分類器を積み重ねる。 次に,低層文表現を上位層分類器に供給する残差接続を導入する。 このようにして、上位層文表現は、低層文表現で符号化される共通のバイアス特徴を無視し、タスクに関連する非バイアス特徴に焦点を当てるように訓練される。 推測中、残差接続を除去し、最上層文表現を直接使用して予測を行う。 NLUタスクに関する大規模な実験と詳細な分析により、我々のフレームワークは、いくつかの競合するベースラインよりも優れた性能を示し、すべてのOODテストセット上で新しいSOTAを達成する。

Current Transformer-based natural language understanding (NLU) models heavily rely on dataset biases, while failing to handle real-world out-of-distribution (OOD) instances. Many methods have been proposed to deal with this issue, but they ignore the fact that the features learned in different layers of Transformer-based NLU models are different. In this paper, we first conduct preliminary studies to obtain two conclusions: 1) both low- and high-layer sentence representations encode common biased features during training; 2) the low-layer sentence representations encode fewer unbiased features than the highlayer ones. Based on these conclusions, we propose a simple yet effective self-debiasing framework for Transformer-based NLU models. Concretely, we first stack a classifier on a selected low layer. Then, we introduce a residual connection that feeds the low-layer sentence representation to the top-layer classifier. In this way, the top-layer sentence representation will be trained to ignore the common biased features encoded by the low-layer sentence representation and focus on task-relevant unbiased features. During inference, we remove the residual connection and directly use the top-layer sentence representation to make predictions. Extensive experiments and indepth analyses on NLU tasks show that our framework performs better than several competitive baselines, achieving a new SOTA on all OOD test sets.
翻訳日:2023-06-06 23:09:55 公開日:2023-06-02
# スパイキングニューロモーフィックプロセッサを用いたバイナリスパース符号化QUBOモデルのサンプリング

Sampling binary sparse coding QUBO models using a spiking neuromorphic processor ( http://arxiv.org/abs/2306.01940v1 )

ライセンス: Link先を確認
Kyle Henke, Elijah Pelofske, Georg Hahn, Garrett T. Kenyon(参考訳) 画像の疎二元表現を計算することの問題点を考察する。 正確に言うと、画像と超完全で非正規な基底が与えられたとき、我々は与えられた入力を最もよく再構成する最小基底ベクトルの集合を示すスパースバイナリベクトルを見つけることを目指している。 我々はこの問題を再構成誤差の$L_2$損失と二進ベクトルの$L_0$(または同値の$L_1$)損失で定式化する。 これはいわゆる準非拘束バイナリ最適化(QUBO)問題をもたらし、その解は一般にNP-ハードである。 この作品の貢献は2つある。 まず、データに最も合うように、所望のスパーシティレベルに対する教師なし・非正規化辞書特徴学習方法を示す。 第二に、二項スパース符号問題は、非凸エネルギーの風景を横切るためにニューロンの確率的ネットワークを用いて、Loihi 1ニューロモルフィックチップ上で解決される。 解法は古典的ヒューリスティック・シミュレートされたアニーリングに対してベンチマークされる。 ニューロモルフィックコンピューティングはバイナリスパース符号化QUBOモデルの低エネルギー解をサンプリングするのに適しており、Loihi 1はQUBOモデルの非常にスパース解をサンプリングすることができるが、シミュレーションアニールと競合するためには実装の改善が必要である。

We consider the problem of computing a sparse binary representation of an image. To be precise, given an image and an overcomplete, non-orthonormal basis, we aim to find a sparse binary vector indicating the minimal set of basis vectors that when added together best reconstruct the given input. We formulate this problem with an $L_2$ loss on the reconstruction error, and an $L_0$ (or, equivalently, an $L_1$) loss on the binary vector enforcing sparsity. This yields a so-called Quadratic Unconstrained Binary Optimization (QUBO) problem, whose solution is generally NP-hard to find. The contribution of this work is twofold. First, the method of unsupervised and unnormalized dictionary feature learning for a desired sparsity level to best match the data is presented. Second, the binary sparse coding problem is then solved on the Loihi 1 neuromorphic chip by the use of stochastic networks of neurons to traverse the non-convex energy landscape. The solutions are benchmarked against the classical heuristic simulated annealing. We demonstrate neuromorphic computing is suitable for sampling low energy solutions of binary sparse coding QUBO models, and although Loihi 1 is capable of sampling very sparse solutions of the QUBO models, there needs to be improvement in the implementation in order to be competitive with simulated annealing.
翻訳日:2023-06-06 21:25:00 公開日:2023-06-02
# 魚眼・視線画像の自己監督的関心点検出と記述

Self-supervised Interest Point Detection and Description for Fisheye and Perspective Images ( http://arxiv.org/abs/2306.01938v1 )

ライセンス: Link先を確認
Marcela Mera-Trujillo, Shivang Patel, Yu Gu, Gianfranco Doretto(参考訳) キーポイント検出とマッチングは、形状再構成から動きから構造、AR/VRアプリケーション、ロボット工学に至るまで、多くのコンピュータビジョンにおける基本的なタスクである。 SIFTのような目覚ましい成功や、より最近のディープラーニングアプローチでよく研究されている問題である。 ノイズ, 照明変化, 剛性変形などにおいて, 強い頑健性が示されているが, 画像の歪み感度にはあまり注意が払われていない。 本研究では,画像取得に使用するカメラの形状が原因である場合に注目し,魚眼と投影像のハイブリッドシナリオにおけるキーポイント検出とマッチングの問題を検討する。 我々は最先端のアプローチを構築し,関心点検出器とディスクリプタネットワークのトレーニングを可能にする自己監督手順を導出する。 また、この未検討のシナリオで追加のトレーニングとテストのために2つの新しいデータセットを収集し、従来の投影的条件で動作するように設計されたため、現在のアプローチが最適ではないことを実証しました。

Keypoint detection and matching is a fundamental task in many computer vision problems, from shape reconstruction, to structure from motion, to AR/VR applications and robotics. It is a well-studied problem with remarkable successes such as SIFT, and more recent deep learning approaches. While great robustness is exhibited by these techniques with respect to noise, illumination variation, and rigid motion transformations, less attention has been placed on image distortion sensitivity. In this work, we focus on the case when this is caused by the geometry of the cameras used for image acquisition, and consider the keypoint detection and matching problem between the hybrid scenario of a fisheye and a projective image. We build on a state-of-the-art approach and derive a self-supervised procedure that enables training an interest point detector and descriptor network. We also collected two new datasets for additional training and testing in this unexplored scenario, and we demonstrate that current approaches are suboptimal because they are designed to work in traditional projective conditions, while the proposed approach turns out to be the most effective.
翻訳日:2023-06-06 21:24:35 公開日:2023-06-02
# lic-GAN:言語情報条件付きグラフ生成GANモデル

LIC-GAN: Language Information Conditioned Graph Generative GAN Model ( http://arxiv.org/abs/2306.01937v1 )

ライセンス: Link先を確認
Robert Lo, Arnhav Datar, Abishek Sridhar(参考訳) グラフを直接生成する微分可能なモデルを最適化することで、可能なグラフの離散的かつ広大な空間において、高価な探索手順をサイドステップで進めることができる。 コストのかかるグラフマッチング手順を回避し,小さなグラフに対して,暗黙的かつ可能性のない生成モデルであるlic-ganを導入する。 本手法は,自然言語クエリを入力として,言語モデリングとGAN(Generative Adversarial Networks)の組み合わせを用いて,クエリの記述と密接に一致するグラフを返す。 提案手法を報奨ネットワークと組み合わせて,所望の特性を持つグラフ生成をさらに強化する。 実験の結果, lic-GAN は PropMatch や Closeness などの指標で0.36 と 0.48 のスコアを得ることができた。 また, lic-GAN は ChatGPT と同等の性能を示し, ChatGPT は 0.40 と 0.42 のスコアを得た。 また,本手法のロバスト性を示すために,いくつかの実験を行った。

Deep generative models for Natural Language data offer a new angle on the problem of graph synthesis: by optimizing differentiable models that directly generate graphs, it is possible to side-step expensive search procedures in the discrete and vast space of possible graphs. We introduce LIC-GAN, an implicit, likelihood-free generative model for small graphs that circumvents the need for expensive graph matching procedures. Our method takes as input a natural language query and using a combination of language modelling and Generative Adversarial Networks (GANs) and returns a graph that closely matches the description of the query. We combine our approach with a reward network to further enhance the graph generation with desired properties. Our experiments, show that LIC-GAN does well on metrics such as PropMatch and Closeness getting scores of 0.36 and 0.48. We also show that LIC-GAN performs as good as ChatGPT, with ChatGPT getting scores of 0.40 and 0.42. We also conduct a few experiments to demonstrate the robustness of our method, while also highlighting a few interesting caveats of the model.
翻訳日:2023-06-06 21:24:16 公開日:2023-06-02
# 空中画像とLiDARインフォームドU-Netモデルを用いたカリフォルニアのサブメートル木高マッピング

Sub-Meter Tree Height Mapping of California using Aerial Images and LiDAR-Informed U-Net Model ( http://arxiv.org/abs/2306.01936v1 )

ライセンス: Link先を確認
Fabien H Wagner, Sophia Roberts, Alison L Ritz, Griffin Carter, Ricardo Dalagnol, Samuel Favrichon, Mayumi CM Hirye, Martin Brandt, Philipe Ciais and Sassan Saatchi(参考訳) 樹冠の高さは森林のバイオマス、生産性、種多様性の最も重要な指標の1つであるが、地上や宇宙から正確に測定することは困難である。 そこで我々は,USDA-NAIPプログラムから高解像度の空中画像(60cm)を用いて,カリフォルニアのすべての樹冠の高さを回帰に適応したU-Netモデルを用いた。 U-Netモデルは、2020年に収集されたRGB-NIR NAIP画像とともに、空中LiDARデータから算出されたキャノピー高さモデルを用いて訓練された。 カリフォルニア州の様々な森林タイプと景観変動を考慮した42の独立した1 km$^2$サイトを用いた深層学習モデルの性能評価を行った。 樹高の予測値の平均誤差は2.9mであり,カリフォルニアの樹高全体にわたって比較的低い系統的偏差を示した。 2020年、高さ5m以上の木がカリフォルニアの19.3%を占めた。 我々のモデルは飽和なしで最大50mのキャノピー高さを推定し、グローバルモデルによる既存のキャノピー高さ製品よりも優れていた。 この手法は,nadir型光学空中画像から観察された個々の樹木の3次元構造を再構成することを可能にし,画像歪みの存在下でも比較的ロバストな推定とマッピング能力を示した。 これらの結果は,naip画像を用いた大規模マッピングと樹高モニタリング,およびバイオマス推定の可能性を示している。

Tree canopy height is one of the most important indicators of forest biomass, productivity, and species diversity, but it is challenging to measure accurately from the ground and from space. Here, we used a U-Net model adapted for regression to map the canopy height of all trees in the state of California with very high-resolution aerial imagery (60 cm) from the USDA-NAIP program. The U-Net model was trained using canopy height models computed from aerial LiDAR data as a reference, along with corresponding RGB-NIR NAIP images collected in 2020. We evaluated the performance of the deep-learning model using 42 independent 1 km$^2$ sites across various forest types and landscape variations in California. Our predictions of tree heights exhibited a mean error of 2.9 m and showed relatively low systematic bias across the entire range of tree heights present in California. In 2020, trees taller than 5 m covered ~ 19.3% of California. Our model successfully estimated canopy heights up to 50 m without saturation, outperforming existing canopy height products from global models. The approach we used allowed for the reconstruction of the three-dimensional structure of individual trees as observed from nadir-looking optical airborne imagery, suggesting a relatively robust estimation and mapping capability, even in the presence of image distortion. These findings demonstrate the potential of large-scale mapping and monitoring of tree height, as well as potential biomass estimation, using NAIP imagery.
翻訳日:2023-06-06 21:23:54 公開日:2023-06-02
# 疾患のセマンティック情報を探る:中国病の正規化のための簡易データ拡張技術

Exploring semantic information in disease: Simple Data Augmentation Techniques for Chinese Disease Normalization ( http://arxiv.org/abs/2306.01931v1 )

ライセンス: Link先を確認
Wenqian Cui and Shaohui Liu and Xiangling Fu and Xien Liu and Ji Wu(参考訳) この病気は医療分野における中核的な概念であり、病名標準化の課題は、すべての疾患関連タスクの基礎である。 しかし,病名の多軸・多結晶性のため,誤情報がしばしば注入され,一般的なテキストデータ拡張技術を用いた場合の性能が損なわれる。 そこで本研究では,疾患の正規化のための強化訓練タスクとして機能するデータ拡張手法を提案する。 ICD-10コードから得られた臨床疾患コーパスと標準疾患コーパスの両方に基づいてデータ拡張を行った。 提案手法の有効性を示すために広範な実験を行った。 その結果,提案手法は,提案手法に比べて最大3-%の性能向上が可能となり,より小さなデータセットでもより優れた処理が可能となった。

The disease is a core concept in the medical field, and the task of normalizing disease names is the basis of all disease-related tasks. However, due to the multi-axis and multi-grain nature of disease names, incorrect information is often injected and harms the performance when using general text data augmentation techniques. To address the above problem, we propose a set of data augmentation techniques that work together as an augmented training task for disease normalization. Our data augmentation methods are based on both the clinical disease corpus and standard disease corpus derived from ICD-10 coding. Extensive experiments are conducted to show the effectiveness of our proposed methods. The results demonstrate that our methods can have up to 3\% performance gain compared to non-augmented counterparts, and they can work even better on smaller datasets.
翻訳日:2023-06-06 21:23:30 公開日:2023-06-02
# 脳に似た単語表現に収束する大言語モデル

Large Language Models Converge on Brain-Like Word Representations ( http://arxiv.org/abs/2306.01930v1 )

ライセンス: Link先を確認
Jiaang Li, Antonia Karamolegkou, Yova Kementchedjhieva, Mostafa Abdou, Sune Lehmann, Anders S{\o}gaard(参考訳) 史上最大のパズルの1つは、いかに理解が神経力学から生じるかである。 私たちの脳は、何十億もの生物学的ニューロンが結合に沿って化学信号や電気信号を伝達するネットワークです。 大規模言語モデルは数百万から数十億のデジタルニューロンのネットワークであり、複雑なネットワークで他の関数の出力を読み取る機能を実装している。 このような力学からどのような意味が生じるか見つからなかったため、多くの認知科学者や哲学者は多種多様な双対主義に移行し、多くの人工知能研究者は、大きな言語モデルを確率的なオウムまたはjpegのようなテキストコーパスの圧縮として排除した。 人型表現が大きな言語モデルに現れることを示す。 特に、より大きなニューラルネットワークモデルが増えるほど、その表現は脳画像からの神経反応測定と構造的に似ている。

One of the greatest puzzles of all time is how understanding arises from neural mechanics. Our brains are networks of billions of biological neurons transmitting chemical and electrical signals along their connections. Large language models are networks of millions or billions of digital neurons, implementing functions that read the output of other functions in complex networks. The failure to see how meaning would arise from such mechanics has led many cognitive scientists and philosophers to various forms of dualism -- and many artificial intelligence researchers to dismiss large language models as stochastic parrots or jpeg-like compressions of text corpora. We show that human-like representations arise in large language models. Specifically, the larger neural language models get, the more their representations are structurally similar to neural response measurements from brain imaging.
翻訳日:2023-06-06 21:23:16 公開日:2023-06-02
# コンピュータビジョンにおける局所的メカニズムの最近の進歩:最近の研究動向と展望

Recent Advances of Local Mechanisms in Computer Vision: A Survey and Outlook of Recent Work ( http://arxiv.org/abs/2306.01929v1 )

ライセンス: Link先を確認
Qiangchang Wang, Yilong Yin(参考訳) 人間の脳は入力の識別的部分を強調し、無関係な部分を抑制することができるという事実に触発され、コンピュータビジョンの開発を促進するために重要な局所的なメカニズムが設計されている。 識別的局所表現を学習するために対象部品に焦点を合わせるだけでなく、効率を向上させるために選択的に情報を処理することができる。 アプリケーションシナリオとパラダイムの観点では、ローカルメカニズムには異なる特性があります。 本研究では,視覚の微粒化,人物の再識別,少数/ゼロショット学習,マルチモーダル学習,自己教師型学習,ビジョントランスフォーマーなど,様々なコンピュータビジョンタスクやアプローチの局所的なメカニズムを体系的に検討する。 各分野における局所メカニズムの分類を要約する。 そして、各カテゴリーの利点と欠点を深く分析し、探索の余地を残します。 最後に、今後の研究に役立つであろう局所的なメカニズムに関する今後の研究方向についても議論されている。 私たちの知る限りでは、コンピュータビジョンのローカルメカニズムに関する最初の調査である。 この調査が将来のコンピュータビジョン分野の研究に光を当てることを願っている。

Inspired by the fact that human brains can emphasize discriminative parts of the input and suppress irrelevant ones, substantial local mechanisms have been designed to boost the development of computer vision. They can not only focus on target parts to learn discriminative local representations, but also process information selectively to improve the efficiency. In terms of application scenarios and paradigms, local mechanisms have different characteristics. In this survey, we provide a systematic review of local mechanisms for various computer vision tasks and approaches, including fine-grained visual recognition, person re-identification, few-/zero-shot learning, multi-modal learning, self-supervised learning, Vision Transformers, and so on. Categorization of local mechanisms in each field is summarized. Then, advantages and disadvantages for every category are analyzed deeply, leaving room for exploration. Finally, future research directions about local mechanisms have also been discussed that may benefit future works. To the best our knowledge, this is the first survey about local mechanisms on computer vision. We hope that this survey can shed light on future research in the computer vision field.
翻訳日:2023-06-06 21:23:02 公開日:2023-06-02
# RITA: 過去の分析に必要なのはグループアテンションだけ

RITA: Group Attention is All You Need for Timeseries Analytics ( http://arxiv.org/abs/2306.01926v1 )

ライセンス: Link先を確認
Jiaming Liang, Lei Cao, Samuel Madden, Zachary Ives, Guoliang Li(参考訳) 時系列分析は多くの現実世界のアプリケーションで非常に重要である。 近年,自然言語処理に人気があるTransformerモデルは,様々な時系列分析タスクのコアとなる,時系列からの高品質な特徴埋め込み学習に活用されている。 しかし、二次時間と空間の複雑さはトランスフォーマーのスケーラビリティ、特に長い時系列を制限している。 これらの課題に対処するために,グループアテンションと呼ばれる新しいアテンション機構を用いた時系列解析ツールRITAを開発し,その拡張性に対処する。 グループアテンションは、その類似性に基づいてオブジェクトを少数のグループに動的にクラスタリングし、粗いグループの粒度で注意をおよそ計算する。 したがって、時間と空間の複雑さを大幅に減らすが、計算された注意の質に関する理論的保証を提供する。 RITAの動的スケジューラは、トレーニングプロセスにおけるグループ数とバッチサイズを継続的に調整し、グループ注意が近似品質要件を満たすのに必要な最小のグループを常に使用することを保証する。 様々な時系列データセットと分析タスクに関する広範囲な実験によって、ritaは最先端の精度を上回っており、最大63倍のスピードアップを実現している。

Timeseries analytics is of great importance in many real-world applications. Recently, the Transformer model, popular in natural language processing, has been leveraged to learn high quality feature embeddings from timeseries, core to the performance of various timeseries analytics tasks. However, the quadratic time and space complexities limit Transformers' scalability, especially for long timeseries. To address these issues, we develop a timeseries analytics tool, RITA, which uses a novel attention mechanism, named group attention, to address this scalability issue. Group attention dynamically clusters the objects based on their similarity into a small number of groups and approximately computes the attention at the coarse group granularity. It thus significantly reduces the time and space complexity, yet provides a theoretical guarantee on the quality of the computed attention. The dynamic scheduler of RITA continuously adapts the number of groups and the batch size in the training process, ensuring group attention always uses the fewest groups needed to meet the approximation quality requirement. Extensive experiments on various timeseries datasets and analytics tasks demonstrate that RITA outperforms the state-of-the-art in accuracy and is significantly faster -- with speedups of up to 63X.
翻訳日:2023-06-06 21:22:45 公開日:2023-06-02
# 大規模信号制御の一般化性とロバスト性の向上

Improving the generalizability and robustness of large-scale traffic signal control ( http://arxiv.org/abs/2306.01925v1 )

ライセンス: Link先を確認
Tianyu Shi and Francois-Xavier Devailly and Denis Larocque and Laurent Charlin(参考訳) 多くの深層強化学習(RL)アプローチが交通信号を制御するために提案されている。 本研究では,2つの軸に沿った手法のロバスト性について検討する。 まず、センサーの故障とGPSの排除がデータ不足の課題を引き起こし、これらのデータ不足に直面した最近の手法が脆弱であることを示します。 第二に、RL法を異なるトラフィック構造を持つ新しいネットワークに一般化する能力をより体系的に研究する。 繰り返しますが、最近のアプローチの限界を特定します。 次に,分散学習とバニラ強化学習の組み合わせを,政策アンサンブルを用いて提案する。 グラフ畳み込みネットワーク(gcns)を用いた大規模トラヒック信号制御のための分散アプローチを用いた最先端の事前モデルに基づいて,まずdistributional reinforcement learning(disrl)アプローチを用いてモデルを学習する。 特に,暗黙の量子化ネットワーク (iqn) を用いて,量子化回帰を用いた状態応答戻り分布をモデル化する。 トラヒック信号制御問題では、標準rlとdrlのアンサンブルにより、センサデータの欠落レベルやトラフィックフローパターンなど、さまざまなシナリオで優れた性能が得られる。 さらに、得られたモデルの学習スキームは、合成ネットワークと実世界のネットワーク(例えば、マンハッタンのルクセンブルク)を含む異なる道路ネットワーク構造へのゼロショット転送性を改善することができる。 提案手法を多エージェント強化学習と従来の輸送手法と比較するための広範な実験を行った。 提案手法は, 欠落データ, 道路網, 交通流に面したロバスト性や一般化性を向上することを示す。

A number of deep reinforcement-learning (RL) approaches propose to control traffic signals. In this work, we study the robustness of such methods along two axes. First, sensor failures and GPS occlusions create missing-data challenges and we show that recent methods remain brittle in the face of these missing data. Second, we provide a more systematic study of the generalization ability of RL methods to new networks with different traffic regimes. Again, we identify the limitations of recent approaches. We then propose using a combination of distributional and vanilla reinforcement learning through a policy ensemble. Building upon the state-of-the-art previous model which uses a decentralized approach for large-scale traffic signal control with graph convolutional networks (GCNs), we first learn models using a distributional reinforcement learning (DisRL) approach. In particular, we use implicit quantile networks (IQN) to model the state-action return distribution with quantile regression. For traffic signal control problems, an ensemble of standard RL and DisRL yields superior performance across different scenarios, including different levels of missing sensor data and traffic flow patterns. Furthermore, the learning scheme of the resulting model can improve zero-shot transferability to different road network structures, including both synthetic networks and real-world networks (e.g., Luxembourg, Manhattan). We conduct extensive experiments to compare our approach to multi-agent reinforcement learning and traditional transportation approaches. Results show that the proposed method improves robustness and generalizability in the face of missing data, varying road networks, and traffic flows.
翻訳日:2023-06-06 21:22:25 公開日:2023-06-02
# 拡散モデルによる光学的流れと単眼深度推定の驚くべき効果

The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation ( http://arxiv.org/abs/2306.01923v1 )

ライセンス: Link先を確認
Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet(参考訳) 拡散確率モデルは、その印象的な忠実さと多様性で画像生成を変換した。 また,これらのタスクに支配的なタスク固有のアーキテクチャや損失関数がなければ,光学的フローと単眼深度の推定にも優れることを示す。 従来の回帰に基づく手法の点推定と比較すると、拡散モデルは、流れと深さの不確かさと曖昧さを捉えるなど、モンテカルロ推論を可能にする。 自己教師付き事前訓練、教師付きトレーニングのための合成データと実データの統合、ノイズのない不完全なトレーニングデータを扱う技術革新(補足と段階的に学習する拡散訓練)、および粗い微細化の簡単な形態により、深度と光フロー推定のための最先端拡散モデルを訓練することができる。 広範な実験では、ベンチマーク、アブレーション、モデルの不確実性とマルチモダリティを捉える能力、欠落した値に対する定量的なパフォーマンスに焦点を当てている。 我々のモデルDDVM(Denoising Diffusion Vision Model)は、室内NYUベンチマークで0.074の最先端相対深度誤差と、KITTIの光学フローベンチマークで3.26倍のFl-allアウトリー率を得る。 概要はhttps://diffusion-vision.github.ioを参照。

Denoising diffusion probabilistic models have transformed image generation with their impressive fidelity and diversity. We show that they also excel in estimating optical flow and monocular depth, surprisingly, without task-specific architectures and loss functions that are predominant for these tasks. Compared to the point estimates of conventional regression-based methods, diffusion models also enable Monte Carlo inference, e.g., capturing uncertainty and ambiguity in flow and depth. With self-supervised pre-training, the combined use of synthetic and real data for supervised training, and technical innovations (infilling and step-unrolled denoising diffusion training) to handle noisy-incomplete training data, and a simple form of coarse-to-fine refinement, one can train state-of-the-art diffusion models for depth and optical flow estimation. Extensive experiments focus on quantitative performance against benchmarks, ablations, and the model's ability to capture uncertainty and multimodality, and impute missing values. Our model, DDVM (Denoising Diffusion Vision Model), obtains a state-of-the-art relative depth error of 0.074 on the indoor NYU benchmark and an Fl-all outlier rate of 3.26\% on the KITTI optical flow benchmark, about 25\% better than the best published method. For an overview see https://diffusion-vision.github.io.
翻訳日:2023-06-06 21:21:59 公開日:2023-06-02
# 量子コンピューティングによる電力系統力学における微分代数方程式の解法

Solving Differential-Algebraic Equations in Power Systems Dynamics with Quantum Computing ( http://arxiv.org/abs/2306.01961v1 )

ライセンス: Link先を確認
Huynh T. T. Tran, Hieu T. Nguyen, Long Thanh Vu, Samuel T. Ojetola(参考訳) 電力系統の力学は、多くの発電機、負荷、伝送線路のために高次元非線形微分代数方程式によってモデル化される。 したがって、計算複雑性はシステムサイズとともに指数関数的に増加する。 本稿では,代替コンピューティング手法,特に量子コンピューティングアルゴリズムを用いた電力系統ダイナミクスの解法について評価することを目的とする。 シンボリックプログラミングフレームワークを活用することで、電力系統力学のDAEを通常の微分方程式(ODE)の等価な集合に変換する。 それらのデータは振幅エンコーディングによって量子コンピュータにエンコードできる。 システムの非線形性はテイラー多項式展開と量子状態テンソルによって捉えられ、状態変数は量子線形方程式解法によって更新される。 この結果から,量子コンピューティングは高精度で電力系統の力学を解くことができるが,複雑度はシステム次元の対数多項式であることがわかった。

Power system dynamics are generally modeled by high dimensional nonlinear differential-algebraic equations due to a large number of generators, loads, and transmission lines. Thus, its computational complexity grows exponentially with the system size. In this paper, we aim to evaluate the alternative computing approach, particularly the use of quantum computing algorithms to solve the power system dynamics. Leveraging a symbolic programming framework, we convert the power system dynamics' DAEs into an equivalent set of ordinary differential equations (ODEs). Their data can be encoded into quantum computers via amplitude encoding. The system's nonlinearity is captured by Taylor polynomial expansion and the quantum state tensor whereas state variables can be updated by a quantum linear equation solver. Our results show that quantum computing can solve the dynamics of the power system with high accuracy whereas its complexity is polynomial in the logarithm of the system dimension.
翻訳日:2023-06-06 21:14:49 公開日:2023-06-02
# グラフニューラルネットワークの説明可能性に関する調査

A Survey on Explainability of Graph Neural Networks ( http://arxiv.org/abs/2306.01958v1 )

ライセンス: Link先を確認
Jaykumar Kakkad, Jaspal Jannu, Kartik Sharma, Charu Aggarwal, Sourav Medya(参考訳) グラフニューラルネットワーク(GNN)は強力なグラフベースのディープラーニングモデルであり、自然言語処理、薬物発見、レコメンデーションシステムなど、さまざまな領域で顕著なパフォーマンスを示している。 しかし、特徴情報と組合せグラフ構造の組み合わせは、複雑な非線形gnnモデルにつながった。 その結果、GNNの動作と、その予測の背後にある根本的な理由を理解するという課題が増大した。 これを解決するために、GNNの内部メカニズムに光を放つための多くの説明可能性法が提案されている。 説明可能なGNNはセキュリティを改善し、レコメンデーションの信頼を高める。 本調査は,GNNの既存の説明可能性技術の概要を概観することを目的としている。 我々はこれらの手法をその目的と方法論に基づいて分類する新しい分類と階層を作成する。 また、各カテゴリの長所、制限、アプリケーションシナリオについても論じます。 さらに、GNNの説明可能性を評価するためによく使われる重要な評価指標とデータセットを強調した。 この調査は、研究者や実践者が既存の説明可能性手法の状況を理解し、ギャップを特定し、解釈可能なグラフベース機械学習のさらなる進歩を促進することを目的としている。

Graph neural networks (GNNs) are powerful graph-based deep-learning models that have gained significant attention and demonstrated remarkable performance in various domains, including natural language processing, drug discovery, and recommendation systems. However, combining feature information and combinatorial graph structures has led to complex non-linear GNN models. Consequently, this has increased the challenges of understanding the workings of GNNs and the underlying reasons behind their predictions. To address this, numerous explainability methods have been proposed to shed light on the inner mechanism of the GNNs. Explainable GNNs improve their security and enhance trust in their recommendations. This survey aims to provide a comprehensive overview of the existing explainability techniques for GNNs. We create a novel taxonomy and hierarchy to categorize these methods based on their objective and methodology. We also discuss the strengths, limitations, and application scenarios of each category. Furthermore, we highlight the key evaluation metrics and datasets commonly used to assess the explainability of GNNs. This survey aims to assist researchers and practitioners in understanding the existing landscape of explainability methods, identifying gaps, and fostering further advancements in interpretable graph-based machine learning.
翻訳日:2023-06-06 21:14:35 公開日:2023-06-02
# 光遠心分離型超流動ヘリウム中のロトンの励起制御

Controlled excitation of rotons in superfluid helium with an optical centrifuge ( http://arxiv.org/abs/2306.01955v1 )

ライセンス: Link先を確認
Alexander A. Milner and Valery Milner(参考訳) 超流動ヘリウム中のロートン対への角運動量制御を実験的に実証した。 光遠心分離器で制御を行い、コヒーレント時間及び周波数分解ラマン散乱で検出する。 レーザー場からロートンへ移動した角運動量の方向は,ラマンシフトの符号が遠心力によって決定されることを示す。 シフトの大きさは2ロートンエネルギーを反映しており、遠心分離によって引き起こされるホットロートン対はより冷たい量子浴との平衡から遠く離れていることを示している。 観測されたコヒーレントラマン信号の崩壊は、デコヒーレンスが熱ロートンとフォノンの散乱によって制御されていることを示唆している。 本手法は,超流動体の集団励起を制御することにより,超流動の微視的起源を調べる方法を示す。

We experimentally demonstrate a controlled transfer of angular momentum to roton pairs in superfluid helium. The control is executed with an optical centrifuge and detected with coherent time- and frequency-resolved Raman scattering. We show that the sign of the Raman shift, and hence the orientation of the angular momentum transferred from the laser field to the rotons, is dictated by the centrifuge. The magnitude of the shift reflects the two-roton energy and indicates that the centrifuge-induced hot roton pairs are far from the equilibrium with the colder quantum bath. The observed decay of the coherent Raman signal suggests that the decoherence is governed by the scattering on thermal rotons and phonons. The demonstrated method offers ways of examining microscopic origins of superfluidity by controlling collective excitations in superfluids.
翻訳日:2023-06-06 21:14:18 公開日:2023-06-02
# ウォーターマーク攻撃者としてのジェネレーティブオートエンコーダ:脆弱性と脅威の分析

Generative Autoencoders as Watermark Attackers: Analyses of Vulnerabilities and Threats ( http://arxiv.org/abs/2306.01953v1 )

ライセンス: Link先を確認
Xuandong Zhao, Kexun Zhang, Yu-Xiang Wang, Lei Li(参考訳) Invisibleの透かしは、所有者が検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。 また、画像、特にAIモデルによる画像の誤使用を防ぐ。 悪意のある敵は、透かしを取り除いてこれらの権利を侵害することができる。 視覚的品質を損なうことなく透かしを除去するためには、画像に不可欠な情報を保持しながら消さなければならない。 これは、生成オートエンコーダの符号化および復号過程、特に変動オートエンコーダ(VAE)と拡散モデルに類似している。 生成型オートエンコーダを用いて、見えない透かしを除去し、VAEと拡散を用いてテストするフレームワークを提案する。 その結果, 特定の訓練がなくても, 既成の安定拡散は効果的にほとんどの透かしを除去し, 現在の攻撃者を上回ることがわかった。 その結果、既存の透かし方式の脆弱性を強調し、著作権保護のためのより堅牢な方法を求めている。

Invisible watermarks safeguard images' copyrights by embedding hidden messages detectable by owners. It also prevents people from misusing images, especially those generated by AI models. Malicious adversaries can violate these rights by removing the watermarks. In order to remove watermarks without damaging the visual quality, the adversary needs to erase them while retaining the essential information in the image. This is analogous to the encoding and decoding process of generative autoencoders, especially variational autoencoders (VAEs) and diffusion models. We propose a framework using generative autoencoders to remove invisible watermarks and test it using VAEs and diffusions. Our results reveal that, even without specific training, off-the-shelf Stable Diffusion effectively removes most watermarks, surpassing all current attackers. The result underscores the vulnerabilities in existing watermarking schemes and calls for more robust methods for copyright protection.
翻訳日:2023-06-06 21:14:05 公開日:2023-06-02
# GAD-NR 近傍再構成によるグラフ異常検出

GAD-NR: Graph Anomaly Detection via Neighborhood Reconstruction ( http://arxiv.org/abs/2306.01951v1 )

ライセンス: Link先を確認
Amit Roy, Juan Shu, Jia Li, Carl Yang, Olivier Elshocht, Jeroen Smeets and Pan Li(参考訳) Graph Anomaly Detection (GAD) は、グラフ内の異常ノードを識別し、ネットワークセキュリティ、不正検出、ソーシャルメディアスパム検出、その他さまざまな分野の応用を見つけるために用いられるテクニックである。 GADの一般的な方法は、グラフデータをノード表現にエンコードし、これらの表現に基づいてグラフの再構成品質を評価することによって異常を識別するグラフオートエンコーダ(GAE)である。 しかし、既存のGAEモデルは直接リンク再構成に最適化されており、グラフに接続されたノードは潜在空間にクラスタ化される。 その結果、クラスター型構造異常を検出するのに優れるが、クラスタに適合しないより複雑な構造異常に悩まされる。 この制限に対処するため,グラフ異常検出のための近傍再構成を組み込んだGAEの新しい変種であるGAD-NRを提案する。 GAD-NRは、ノード表現に基づいて、ローカル構造、自己属性、および隣接属性を含むノードの近傍全体を再構築することを目的としている。 異常ノードと正常ノード間の近傍再構成損失を比較することで、GAD-NRは任意の異常を効果的に検出できる。 6つの実世界のデータセットで実施された大規模な実験は、GAD-NRの有効性を検証し、最先端の競合相手よりも顕著な改善(AUCでは最大30%)を示す。 GAD-NRのソースコードが公開されている。 比較分析の結果,既存の手法は3種類の異常から1種類または2種類の異常を検出する場合にのみ有効であることが判明した。 対照的に、GAD-NRはデータセット全体の3種類の異常を検知し、その包括的な異常検出能力を示す。

Graph Anomaly Detection (GAD) is a technique used to identify abnormal nodes within graphs, finding applications in network security, fraud detection, social media spam detection, and various other domains. A common method for GAD is Graph Auto-Encoders (GAEs), which encode graph data into node representations and identify anomalies by assessing the reconstruction quality of the graphs based on these representations. However, existing GAE models are primarily optimized for direct link reconstruction, resulting in nodes connected in the graph being clustered in the latent space. As a result, they excel at detecting cluster-type structural anomalies but struggle with more complex structural anomalies that do not conform to clusters. To address this limitation, we propose a novel solution called GAD-NR, a new variant of GAE that incorporates neighborhood reconstruction for graph anomaly detection. GAD-NR aims to reconstruct the entire neighborhood of a node, encompassing the local structure, self-attributes, and neighbor attributes, based on the corresponding node representation. By comparing the neighborhood reconstruction loss between anomalous nodes and normal nodes, GAD-NR can effectively detect any anomalies. Extensive experimentation conducted on six real-world datasets validates the effectiveness of GAD-NR, showcasing significant improvements (by up to 30% in AUC) over state-of-the-art competitors. The source code for GAD-NR is openly available. Importantly, the comparative analysis reveals that the existing methods perform well only in detecting one or two types of anomalies out of the three types studied. In contrast, GAD-NR excels at detecting all three types of anomalies across the datasets, demonstrating its comprehensive anomaly detection capabilities.
翻訳日:2023-06-06 21:13:51 公開日:2023-06-02
# マルチラベル分類による音声音声認識

Efficient Spoken Language Recognition via Multilabel Classification ( http://arxiv.org/abs/2306.01945v1 )

ライセンス: Link先を確認
Oriol Nieto, Zeyu Jin, Franck Dernoncourt, Justin Salamon(参考訳) 音声言語認識(SLR)は、音声信号に含まれる言語を自動的に識別するタスクである。 既存のSLRモデルは計算コストがかかりすぎるか、リソースが限られているデバイス上で効率的に動作するには大きすぎる。 実世界のデプロイメントでは、モデルは対象言語以外の未認識の言語を優雅に扱うべきですが、以前の作業ではすべての入力言語がa-prioriとして知られているクローズドセットの分類に重点を置いています。 本稿では,畳み込みネットワークに基づくslrの効率的なモデルアーキテクチャを探索し,非対象言語を推論時に扱うためのマルチラベルトレーニング戦略を提案する。 voxlingua107データセットを用いて,我々のモデルが現在の最先端手法よりも桁違いに小さく高速で競争結果を得るとともに,マルチラベル戦略が非ターゲット言語に対して,マルチクラス分類よりも堅牢であることを示す。

Spoken language recognition (SLR) is the task of automatically identifying the language present in a speech signal. Existing SLR models are either too computationally expensive or too large to run effectively on devices with limited resources. For real-world deployment, a model should also gracefully handle unseen languages outside of the target language set, yet prior work has focused on closed-set classification where all input languages are known a-priori. In this paper we address these two limitations: we explore efficient model architectures for SLR based on convolutional networks, and propose a multilabel training strategy to handle non-target languages at inference time. Using the VoxLingua107 dataset, we show that our models obtain competitive results while being orders of magnitude smaller and faster than current state-of-the-art methods, and that our multilabel strategy is more robust to unseen non-target languages compared to multiclass classification.
翻訳日:2023-06-06 21:13:23 公開日:2023-06-02
# edgcon: 技術的ジェスチャの生成を支援するための語彙特性に基づく表現性評価の自動アサイン

EdGCon: Auto-assigner of Iconicity Ratings Grounded by Lexical Properties to Aid in Generation of Technical Gestures ( http://arxiv.org/abs/2306.01944v1 )

ライセンス: Link先を確認
Sameena Hossain, Payal Kamboj, Aranyak Maity, Tamiko Azuma, Ayan Banerjee, Sandeep K. S. Gupta(参考訳) 形態の類似性を共有し、その意味に関連があるジェスチャーは、学習者が既存の語彙に認識し、組み込むのが容易である。 その点において、Deaf and Hard of Hearing コミュニティは、より容易に標準として受け入れられるように、American Sign Language (ASL) の技術的なジェスチャーは、語彙的隣人と類似した形式を最適に共有する。 我々は,ASLの語彙データベースであるASL-LEXを用いて,一連の技術的ジェスチャー内での語彙関係を同定する。 asl位置、手形、移動の3つのユニークなサブ語彙特性について自動識別を行う。 edgconは、新しいジェスチャーの語彙的特性と既存の技術的ジェスチャーのセットとの類似性と、新しい技術用語の意味と既存の技術用語のそれとの関連性に基づいて、象徴的評価を割り当てた。 私たちは、異なるインターネットウェブサイトから30のアドホックな技術的ジェスチャーをクラウドソースし、DeafTECの技術コーパスから31のジェスチャーに対してテストしました。 我々はEdGConが80.76%のアイコン性評価を正しく自動割り当てできることを発見した。

Gestures that share similarities in their forms and are related in their meanings, should be easier for learners to recognize and incorporate into their existing lexicon. In that regard, to be more readily accepted as standard by the Deaf and Hard of Hearing community, technical gestures in American Sign Language (ASL) will optimally share similar in forms with their lexical neighbors. We utilize a lexical database of ASL, ASL-LEX, to identify lexical relations within a set of technical gestures. We use automated identification for 3 unique sub-lexical properties in ASL- location, handshape and movement. EdGCon assigned an iconicity rating based on the lexical property similarities of the new gesture with an existing set of technical gestures and the relatedness of the meaning of the new technical word to that of the existing set of technical words. We collected 30 ad hoc crowdsourced technical gestures from different internet websites and tested them against 31 gestures from the DeafTEC technical corpus. We found that EdGCon was able to correctly auto-assign the iconicity ratings 80.76% of the time.
翻訳日:2023-06-06 21:13:05 公開日:2023-06-02
# NLPositionality:データセットとモデルの設計バイアスを特徴付ける

NLPositionality: Characterizing Design Biases of Datasets and Models ( http://arxiv.org/abs/2306.01943v1 )

ライセンス: Link先を確認
Sebastin Santy, Jenny T. Liang, Ronan Le Bras, Katharina Reinecke, Maarten Sap(参考訳) 異なる集団に対するパフォーマンスの違いのようなNLPシステムにおける設計バイアスは、しばしば作者の立場、すなわちアイデンティティと背景によって形作られた生活経験に由来する。 設計バイアスの頻度とリスクにもかかわらず、研究者、システム、データセットの位置がしばしば観測されないため、定量化することは難しい。 設計バイアスを特徴づけ,NLPデータセットとモデルの位置性を定量化するフレームワークであるNLPositionalityを紹介する。 このフレームワークは,RaintheWild上で様々なボランティア参加者からアノテーションを連続的に収集し,データセットラベルやモデル予測との整合性を統計的に定量化する。 既存のデータセットとモデルにnlpositionalityを適用し,ソーシャルアクセシビリティとヘイトスピーチ検出の2つのタスクに適用した。 これまでのところ、87カ国の1,096人の注釈家から1年で16,299件のアノテーションを集めています。 データセットとモデルは、主に西洋、白人、大学生、若年層と一致している。 さらに、非バイナリの人々や非ネイティブ英語話者のような特定のグループは、すべてのタスクにおいて最小のランク付けを行うため、データセットやモデルによってさらに限界化される。 最後に,先行文献から,研究者が自身の位置性やデータセットやモデルについてどのように検討できるかを考察し,より包括的なnlpシステムへの扉を開く。

Design biases in NLP systems, such as performance differences for different populations, often stem from their creator's positionality, i.e., views and lived experiences shaped by identity and background. Despite the prevalence and risks of design biases, they are hard to quantify because researcher, system, and dataset positionality is often unobserved. We introduce NLPositionality, a framework for characterizing design biases and quantifying the positionality of NLP datasets and models. Our framework continuously collects annotations from a diverse pool of volunteer participants on LabintheWild, and statistically quantifies alignment with dataset labels and model predictions. We apply NLPositionality to existing datasets and models for two tasks -- social acceptability and hate speech detection. To date, we have collected 16,299 annotations in over a year for 600 instances from 1,096 annotators across 87 countries. We find that datasets and models align predominantly with Western, White, college-educated, and younger populations. Additionally, certain groups, such as non-binary people and non-native English speakers, are further marginalized by datasets and models as they rank least in alignment across all tasks. Finally, we draw from prior literature to discuss how researchers can examine their own positionality and that of their datasets and models, opening the door for more inclusive NLP systems.
翻訳日:2023-06-06 21:12:43 公開日:2023-06-02
# コンテキストバイアスはWhisperとGPT-2に有効か?

Can Contextual Biasing Remain Effective with Whisper and GPT-2? ( http://arxiv.org/abs/2306.01942v1 )

ライセンス: Link先を確認
Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland(参考訳) エンドツーエンドの自動音声認識(ASR)とWhisperやGPT-2のような大規模言語モデルは、最近、膨大なトレーニングデータを使用するように拡張されている。 大量のトレーニングデータにもかかわらず、特定のタスクで発生する不適切なコンテンツワードは、文脈バイアスによって、asrのパフォーマンスが低下する可能性がある。 本稿では,GPT-2を併用したWhisperに対する神経コンテキストバイアスの有効性について検討する。 具体的には,Whisper に適応した木制約ポインタジェネレータ (TCPGen) コンポーネントと,Whisper モデルパラメータを変更することなく最終的な出力を動的に調整する専用のトレーニングスキームを統合することを提案する。 3つのデータセットに対する実験では、1000単語の偏りリストで単語の偏りの誤差が大幅に減少している。 コンテキストバイアスはドメイン固有のデータに適用するとより効果的であり、一般性を失うことなくwhisperとgpt-2のパフォーマンスを高めることができる。

End-to-end automatic speech recognition (ASR) and large language models, such as Whisper and GPT-2, have recently been scaled to use vast amounts of training data. Despite the large amount of training data, infrequent content words that occur in a particular task may still exhibit poor ASR performance, with contextual biasing a possible remedy. This paper investigates the effectiveness of neural contextual biasing for Whisper combined with GPT-2. Specifically, this paper proposes integrating an adapted tree-constrained pointer generator (TCPGen) component for Whisper and a dedicated training scheme to dynamically adjust the final output without modifying any Whisper model parameters. Experiments across three datasets show a considerable reduction in errors on biasing words with a biasing list of 1000 words. Contextual biasing was more effective when applied to domain-specific data and can boost the performance of Whisper and GPT-2 without losing their generality.
翻訳日:2023-06-06 21:12:22 公開日:2023-06-02
# LLM時代のAI透明性:人間中心の研究ロードマップ

AI Transparency in the Age of LLMs: A Human-Centered Research Roadmap ( http://arxiv.org/abs/2306.01941v1 )

ライセンス: Link先を確認
Q. Vera Liao and Jennifer Wortman Vaughan(参考訳) 強力な大規模言語モデル(llm)の台頭は、イノベーションの絶好の機会をもたらすだけでなく、個人や社会全体に対するリスクも高めている。 我々は LLM と LLM を注入したアプリケーションの開発とデプロイを責任を持って行うための重要な瞬間に達した。 しかし、責任あるAI — 透明性 — の中心的な柱は、LLMに関する現在の議論から大きく逸脱している。 LLMの透明性を提供するための新しいアプローチを追求することが最重要であり、AIとヒューマンコンピュータの相互作用(HCI)の交差点における長年の研究は、人間中心の視点で行う必要があることを強調している。 新たなLLMエコシステムにおける利害関係者のニーズ、新しいタイプのLLM組み込みアプリケーション、LLMに関する新たな利用パターンと課題を考慮し、人々の処理、インタラクション、情報の利用に関する教訓に基づいて、透明性へのアプローチを開発し、設計する必要があります。 私たちは、LLMに透明性を提供する上で生じるユニークな課題と、HCIから学んだ教訓、AI透明性を人間中心の視点で捉えた責任あるAI研究を反映しています。 次に、透明性を達成するためにコミュニティが採用した4つの一般的なアプローチ -- モデルレポート、評価結果の公開、説明の提供、不確実性の伝達 -- を概説し、これらのアプローチがllmにどのように適用されるか、あるいは適用されないかに関するオープン質問を提起します。 これが議論の出発点となり、将来の研究に有用なロードマップになることを願っています。

The rise of powerful large language models (LLMs) brings about tremendous opportunities for innovation but also looming risks for individuals and society at large. We have reached a pivotal moment for ensuring that LLMs and LLM-infused applications are developed and deployed responsibly. However, a central pillar of responsible AI -- transparency -- is largely missing from the current discourse around LLMs. It is paramount to pursue new approaches to provide transparency for LLMs, and years of research at the intersection of AI and human-computer interaction (HCI) highlight that we must do so with a human-centered perspective: Transparency is fundamentally about supporting appropriate human understanding, and this understanding is sought by different stakeholders with different goals in different contexts. In this new era of LLMs, we must develop and design approaches to transparency by considering the needs of stakeholders in the emerging LLM ecosystem, the novel types of LLM-infused applications being built, and the new usage patterns and challenges around LLMs, all while building on lessons learned about how people process, interact with, and make use of information. We reflect on the unique challenges that arise in providing transparency for LLMs, along with lessons learned from HCI and responsible AI research that has taken a human-centered perspective on AI transparency. We then lay out four common approaches that the community has taken to achieve transparency -- model reporting, publishing evaluation results, providing explanations, and communicating uncertainty -- and call out open questions around how these approaches may or may not be applied to LLMs. We hope this provides a starting point for discussion and a useful roadmap for future research.
翻訳日:2023-06-06 21:12:05 公開日:2023-06-02
# 2次元量子スピン系における翻訳不変性から生じるSPT指標

SPT indices emerging from translation invariance in two dimensional quantum spin systems ( http://arxiv.org/abs/2202.11758v5 )

ライセンス: Link先を確認
Tijl Jappens(参考訳) 2次元量子スピン系に対するオンサイト$G$(ここで$G$は任意の有限群)対称性を持つSPT相を考える。 すると、一方向の変換不変性を課し、$H^3(G,\mathbb{T})$-valued index の上に \cite{ogata2021h3gmathbb} で構築された $H^2(G,\mathbb{T})$-valued index が出現することを観察する。 また, 2 方向の変換不変性が与えられた場合, 期待される $h^3(g,\mathbb{t})\oplus h^2(g,\mathbb{t})\oplus h^2(g,\mathbb{t})$ valued index に加えて, $h^1(g,\mathbb{t})$-valued index が出現することを示した。

We consider SPT-phases with on-site $G$ (where $G$ is any finite group) symmetry for two-dimensional quantum spin systems. We then impose translation invariance in one direction and observe that on top of the $H^3(G,\mathbb{T})$-valued index constructed in \cite{ogata2021h3gmathbb}, an additional $H^2(G,\mathbb{T})$-valued index emerges. We also show that if we impose translation invariance in two directions, on top of the expected $H^3(G,\mathbb{T})\oplus H^2(G,\mathbb{T})\oplus H^2(G,\mathbb{T})$ valued index, an additional $H^1(G,\mathbb{T})$-valued index emerges.
翻訳日:2023-06-06 11:32:13 公開日:2023-06-02
# オンライン教師なし根本原因分析のための不連続因果グラフ学習

Disentangled Causal Graph Learning for Online Unsupervised Root Cause Analysis ( http://arxiv.org/abs/2305.10638v3 )

ライセンス: Link先を確認
Dongjie Wang, Zhengzhang Chen, Yanjie Fu, Yanchi Liu, Haifeng Chen(参考訳) 根本原因分析 (RCA) の課題は, システムモニタリングデータを分析し, システム障害・障害の根本原因を特定することである。 効率的なRCAはシステム障害の回復を著しく加速し、システム障害や損失を軽減する。 しかし、以前の研究では主にオフラインのRCAアルゴリズムの開発に重点を置いており、RCAプロセスを手動で開始する必要があり、堅牢なモデルのトレーニングにはかなりの時間とデータが必要であり、新しいシステム障害のためにゼロから再訓練される。 本稿では、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。 CoRAL は Trigger Point Detection, Incremental Disentangled Causal Graph Learning, Network Propagation-based Root Cause Localization で構成されている。 Trigger Point Detectionコンポーネントは、システム状態遷移を自動的に、ほぼリアルタイムで検出することを目的としている。 これを実現するために,多変量特異スペクトル解析と累積和統計に基づくオンライントリガーポイント検出手法を開発した。 RCAモデルを効率的に更新するために、状態不変情報と状態依存情報を分離する漸進的不整合因果グラフ学習手法を提案する。 その後、CoRALは更新された因果グラフに再起動を伴うランダムウォークを適用し、根本原因を正確に識別する。 オンラインRCAプロセスは、因果グラフと生成された根本原因リストが収束すると終了する。 ケーススタディを用いた実世界の3つのデータセットに対する大規模な実験は、提案フレームワークの有効性と優位性を示している。

The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
翻訳日:2023-06-06 11:21:44 公開日:2023-06-02
# QCBA:離散化による情報損失の回復による量的データから学習したルール分類器の改善

QCBA: Improving Rule Classifiers Learned from Quantitative Data by Recovering Information Lost by Discretisation ( http://arxiv.org/abs/1711.10166v3 )

ライセンス: Link先を確認
Tomas Kliegr, Ebroul Izquierdo(参考訳) いくつかのルール学習アルゴリズムが必要とする数値属性の事前離散化は非効率の源である。 本稿では,離散化における失われた情報を復元することを目的とした新たなルールチューニングステップと,ルールモデルのサイズを更に削減し,精度を向上させる新たなプルーニング手法について述べる。 提案するqcba法は,cbaアルゴリズムに基づく分類によって生成されたモデルの定量的属性を後処理するために開発されたが,他のルール学習手法の結果にも適用できる。 本稿では,5つの関連ルール分類アルゴリズム (cba, cmar, cpar, ids, sbrl) と2つの一階論理ルール学習者 (foil2, prm) による後処理の有効性を示す。 UCIリポジトリの22のデータセットのベンチマークでは、FOIL2+QCBAの7つのベースラインと比較して、サイズが小さく、全体的な最高の予測性能を示している。 最適化後のCBAモデルは、このベンチマークの最先端ルール学習者CORELSよりも優れた予測性能を有する。 この記事では、個々の後処理ステップに関するアブレーション研究と、KDD'99 Anomaly Detectionデータセットのスケーラビリティ分析について述べる。

A prediscretisation of numerical attributes which is required by some rule learning algorithms is a source of inefficiencies. This paper describes new rule tuning steps that aim to recover lost information in the discretisation and new pruning techniques that may further reduce the size of rule models and improve their accuracy. The proposed QCBA method was initially developed to postprocess quantitative attributes in models generated by the Classification based on associations (CBA) algorithm, but it can also be applied to the results of other rule learning approaches. We demonstrate the effectiveness on the postprocessing of models generated by five association rule classification algorithms (CBA, CMAR, CPAR, IDS, SBRL) and two first-order logic rule learners (FOIL2 and PRM). Benchmarks on 22 datasets from the UCI repository show smaller size and the overall best predictive performance for FOIL2+QCBA compared to all seven baselines. Postoptimised CBA models have a better predictive performance compared to the state-of-the-art rule learner CORELS in this benchmark. The article contains an ablation study for the individual postprocessing steps and a scalability analysis on the KDD'99 Anomaly detection dataset.
翻訳日:2023-06-05 23:26:59 公開日:2023-06-02
# DCIS検出における深層学習モデルへのXAIアプローチ

An XAI Approach to Deep Learning Models in the Detection of DCIS ( http://arxiv.org/abs/2106.14186v2 )

ライセンス: Link先を確認
Michele La Ferla(参考訳) その結果,XAIは,臨床コミュニティにおける補助的AIシステムの実装に関する議論を始める上で,概念実証として活用できることが示唆された。

The results showed that XAI could indeed be used as a proof of concept to begin discussions on the implementation of assistive AI systems within the clinical community.
翻訳日:2023-06-05 21:37:45 公開日:2023-06-02
# 安全な三分割量子状態共有のための資源としての量子ステアリング

Quantum steering as a resource for secure tripartite Quantum State Sharing ( http://arxiv.org/abs/2106.06337v2 )

ライセンス: Link先を確認
Cailean Wilkinson, Matthew Thornton and Natalia Korolkova(参考訳) 量子状態共有 (quantum state sharing, qss) は、(秘密)量子状態が安全に分割され、複数の潜在的に不正なプレイヤー間で共有され、再構成されるプロトコルである。 重要な点として、プレイヤーはそれぞれ不当であると仮定されるため、QSSはプレイヤーの協力的な許可されたサブセットのみが元の秘密状態にアクセスできなければならない。 我々は3人の不信任者を含むqssプロトコルを分析し、量子ステアリングがプロトコルをセキュアに進めるために必要なリソースであることを実証する。 資源の最適利用と状態の共有を可能にする単一モードのガウス秘密を共有するために必要なステアリングのレベルを分析する。

Quantum State Sharing (QSS) is a protocol by which a (secret) quantum state may be securely split, shared between multiple potentially dishonest players, and reconstructed. Crucially the players are each assumed to be dishonest, and so QSS requires that only a collaborating authorised subset of players can access the original secret state; any dishonest unauthorised conspiracy cannot reconstruct it. We analyse a QSS protocol involving three untrusted players and demonstrate that quantum steering is the required resource which enables the protocol to proceed securely. We analyse the level of steering required to share any single-mode Gaussian secret which enables the states to be shared with the optimal use of resources.
翻訳日:2023-06-05 21:37:42 公開日:2023-06-02
# Rewardは凸型MDPに十分である

Reward is enough for convex MDPs ( http://arxiv.org/abs/2106.00661v4 )

ライセンス: Link先を確認
Tom Zahavy, Brendan O'Donoghue, Guillaume Desjardins and Satinder Singh(参考訳) マルコフと定常である累積報酬関数の最大化、すなわち状態-作用対上で定義された時間独立性は、マルコフ決定過程(MDP)において多くの種類の目標を捉えるのに十分である。 しかし、この方法で全ての目標を達成できるわけではない。 本稿では,定常分布の凸関数として目標が表現される凸MDPについて検討し,定常報酬関数を用いて定式化できないことを示す。 凸MDPは、標準強化学習(RL)問題の定式化を一般化し、見習い学習、制約されたMDP、いわゆる「純粋な探究」など、教師付きおよび教師なしのRL問題を含むより大きなフレームワークへと一般化する。 我々のアプローチは、Fenchel双対性を用いて、ポリシーとコスト(負の報酬)「プレイヤー」を含むmin-maxゲームとして凸MDP問題を再構成することである。 本稿では,この問題を解くためのメタアルゴリズムを提案し,既存のアルゴリズムを多くの文献に統一することを示す。

Maximising a cumulative reward function that is Markov and stationary, i.e., defined over state-action pairs and independent of time, is sufficient to capture many kinds of goals in a Markov decision process (MDP). However, not all goals can be captured in this manner. In this paper we study convex MDPs in which goals are expressed as convex functions of the stationary distribution and show that they cannot be formulated using stationary reward functions. Convex MDPs generalize the standard reinforcement learning (RL) problem formulation to a larger framework that includes many supervised and unsupervised RL problems, such as apprenticeship learning, constrained MDPs, and so-called `pure exploration'. Our approach is to reformulate the convex MDP problem as a min-max game involving policy and cost (negative reward) `players', using Fenchel duality. We propose a meta-algorithm for solving this problem and show that it unifies many existing algorithms in the literature.
翻訳日:2023-06-05 21:37:28 公開日:2023-06-02
# Generative Actor-Critic: Push-forwardモデルを用いたオフポリシーアルゴリズム

Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model ( http://arxiv.org/abs/2105.03733v3 )

ライセンス: Link先を確認
Lingwei Peng, Hui Qian, Zhebang Shen, Chao Zhang, Fei Li(参考訳) モデルなしの深層強化学習は、ビデオゲーム、レコメンデーションシステム、ロボット制御タスクなど、多くの領域で大きな成功を収めている。 連続制御タスクでは、ガウス分布を持つ広く使われるポリシーは、多くの場合、環境の非効率的な探索とアルゴリズムの性能の制限をもたらす。 本稿では,政策の表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズム(GAC)を提案し,また,探索と搾取のバランスをとるためにエントロピー的手法であるMDDエントロピー正規化器を含む。 さらに,このレギュレータを自動スケールする適応機構を考案し,GACの安定性と堅牢性をさらに向上させる。 実験結果から, プッシュフォワードポリシには, 探索効率の向上やアルゴリズムの漸近性能の向上など, 望ましい特徴があることが明らかとなった。

Model-free deep reinforcement learning has achieved great success in many domains, such as video games, recommendation systems and robotic control tasks. In continuous control tasks, widely used policies with Gaussian distributions results in ineffective exploration of environments and limited performance of algorithms in many cases. In this paper, we propose a density-free off-policy algorithm, Generative Actor-Critic(GAC), using the push-forward model to increase the expressiveness of policies, which also includes an entropy-like technique, MMD-entropy regularizer, to balance the exploration and exploitation. Additionnally, we devise an adaptive mechanism to automatically scale this regularizer, which further improves the stability and robustness of GAC. The experiment results show that push-forward policies possess desirable features, such as multi-modality, which can improve the efficiency of exploration and asymptotic performance of algorithms obviously.
翻訳日:2023-06-05 21:37:09 公開日:2023-06-02
# セマンティックロールラベリングのための構文対応グラフ-グラフ変換器

Syntax-Aware Graph-to-Graph Transformer for Semantic Role Labelling ( http://arxiv.org/abs/2104.07704v2 )

ライセンス: Link先を確認
Alireza Mohammadshahi, James Henderson(参考訳) 近年のモデルでは、構文知識を意味的役割ラベリング(SRL)タスクに組み込むことで、大幅な改善が示されている。 本稿では,グラフ関係を埋め込みとして入力する新しい手法を用いて構文構造を符号化する構文認識型グラフ・ツー・グラフトランスフォーマ(syng2g-tr)モデルを提案する。 このアプローチは、構文構造に従う注意パターンに対するソフトバイアスを付加するが、モデルはこの情報を使って別のパターンを学ぶことができる。 我々は,Span-based SRLデータセットとDependency-based SRLデータセットの両方でモデルを評価し,CoNLL 2005とCoNLL 2009データセットにおいて,ドメイン内およびドメイン外設定の両方で従来の代替手法よりも優れた性能を示した。

Recent models have shown that incorporating syntactic knowledge into the semantic role labelling (SRL) task leads to a significant improvement. In this paper, we propose Syntax-aware Graph-to-Graph Transformer (SynG2G-Tr) model, which encodes the syntactic structure using a novel way to input graph relations as embeddings, directly into the self-attention mechanism of Transformer. This approach adds a soft bias towards attention patterns that follow the syntactic structure but also allows the model to use this information to learn alternative patterns. We evaluate our model on both span-based and dependency-based SRL datasets, and outperform previous alternative methods in both in-domain and out-of-domain settings, on CoNLL 2005 and CoNLL 2009 datasets.
翻訳日:2023-06-05 21:36:51 公開日:2023-06-02
# 変圧器における層間パラメータ共有の教訓

Lessons on Parameter Sharing across Layers in Transformers ( http://arxiv.org/abs/2104.06022v4 )

ライセンス: Link先を確認
Sho Takase and Shun Kiyono(参考訳) 本稿ではトランスフォーマーのパラメータ共有手法を提案する(Vaswani et al., 2017)。 提案手法は,Universal Transformers (Dehghani et al., 2019) などの全層で1層のパラメータを共有することで,計算時間の効率を向上させるために広く利用されている手法を緩和する。 各層にパラメータを割り当てるためのシーケンス、サイクル、サイクル(rev)の3つの戦略を提案する。 実験の結果,提案手法はパラメータサイズと計算時間において効率的であることが判明した。 また,提案手法は,最近のWMTコンペティションなど,多くのトレーニングデータを使用する構成においても有効であることを示す。

We propose a parameter sharing method for Transformers (Vaswani et al., 2017). The proposed approach relaxes a widely used technique, which shares parameters for one layer with all layers such as Universal Transformers (Dehghani et al., 2019), to increase the efficiency in the computational time. We propose three strategies: Sequence, Cycle, and Cycle (rev) to assign parameters to each layer. Experimental results show that the proposed strategies are efficient in the parameter size and computational time. Moreover, we indicate that the proposed strategies are also effective in the configuration where we use many training data such as the recent WMT competition.
翻訳日:2023-06-05 21:36:33 公開日:2023-06-02
# 複合測定による相関

Correlations constrained by composite measurements ( http://arxiv.org/abs/2009.04994v3 )

ライセンス: Link先を確認
John H. Selby, Ana Bel\'en Sainz, Victor Magron, {\L}ukasz Czekaj, Micha{\l} Horodecki(参考訳) 自然界で許容される相関の集合をどう理解するかは、量子論の基礎の中核における際立ったオープンな問題である。 ここでは、デバイス非依存のアプローチを補完的に捉え、物理理論がそれらの測定値の特定の制約によって制限される場合の相関について検討する。 理論が {a Composite} の測定を要求されることは、その状態と効果の集合の構造に制約の階層を課し、許容される相関自体に制約の階層を課すことが示される。 さらに我々は,局所的な実測値のパリティを読み出す相関測定の存在を要求した場合に焦点をあてる。 非線形最適化問題とそれに対する半定値緩和を定式化し,ベル不等式違反に対するパリティ読解法の存在の帰結を考察する。 特に、ある状況において、この仮定は驚くほど強い結果、すなわち、tsirelson の束縛が回復できることを示す。

How to understand the set of correlations admissible in nature is one outstanding open problem in the core of the foundations of quantum theory. Here we take a complementary viewpoint to the device-independent approach, and explore the correlations that physical theories may feature when restricted by some particular constraints on their measurements. We show that demanding that a theory exhibits {a composite} measurement imposes a hierarchy of constraints on the structure of its sets of states and effects, which translate to a hierarchy of constraints on the allowed correlations themselves. We moreover focus on the particular case where one demands the existence of a correlated measurement that reads out the parity of local fiducial measurements. By formulating a non-linear Optimisation Problem, and semidefinite relaxations of it, we explore the consequences of the existence of such a parity reading measurement for violations of Bell inequalities. In particular, we show that in certain situations this assumption has surprisingly strong consequences, namely, that Tsirelson's bound can be recovered.
翻訳日:2023-06-05 21:36:20 公開日:2023-06-02
# 因果パースペクティビズムの物理的根拠

Physical grounds for causal perspectivalism ( http://arxiv.org/abs/2009.04121v3 )

ライセンス: Link先を確認
G. J. Milburn, S. Shrapnel and P. W. Evans(参考訳) 我々は、特殊な開かつ不可逆的な物理系、因果エージェントの内部物理状態における因果関係の非対称性を基礎とする。 因果剤(Cousal agent)は、センサ、アクチュエータ、学習機械といった特殊なサブシステムを備えた、熱平衡から遠く離れた定常状態の自律的な物理システムである。 フィードバックを利用して、学習機械は内部状態を変えて、センサーとアクチュエータの記録の相関に固有の確率論的機能関係を学ぶ。 これらの機能的関係は、エージェントが学習した因果関係に過ぎず、そのような因果関係は単に因果関係の内部物理的状態の間の関係である。 学習は熱力学的原理によって駆動される: 散逸電力が最小化されると誤差率は最小化される。 因果エージェントの内部状態は必ず確率的であるが、学習された因果関係は、同じ環境に同じハードウェアを組み込んだすべてのマシンで共有される。 このような「ハードウェア」に対する因果関係のこの依存は、因果観念の新たな実証である。

We ground the asymmetry of causal relations in the internal physical states of a special kind of open and irreversible physical system, a causal agent. A causal agent is an autonomous physical system, maintained in a steady state, far from thermal equilibrium, with special subsystems: sensors, actuators, and learning machines. Using feedback, the learning machine, driven purely by thermodynamic constraints, changes its internal states to learn probabilistic functional relations inherent in correlations between sensor and actuator records. We argue that these functional relations just are causal relations learned by the agent, and so such causal relations are simply relations between the internal physical states of a causal agent. We show that learning is driven by a thermodynamic principle: the error rate is minimised when the dissipated power is minimised. While the internal states of a causal agent are necessarily stochastic, the learned causal relations are shared by all machines with the same hardware embedded in the same environment. We argue that this dependence of causal relations on such `hardware' is a novel demonstration of causal perspectivalism.
翻訳日:2023-06-05 21:36:03 公開日:2023-06-02
# グループに基づく参照表現理解のための微分関連埋め込み

Differentiated Relevances Embedding for Group-based Referring Expression Comprehension ( http://arxiv.org/abs/2203.06382v2 )

ライセンス: Link先を確認
Fuhai Chen, Xuri Ge, Xiaoshuai Sun, Yue Gao, Jianzhuang Liu, Fufeng Chen, Wenjie Li(参考訳) 表現理解を参照する鍵は、モーダルな視覚言語関係を捉えることである。 既存の作業は通常、各画像における相互関係をモデル化し、アンカーオブジェクト/表現とその正の表現/オブジェクトは負の表現/オブジェクトと同じ属性を持つが、異なる属性値を持つ。 これらのオブジェクト/表現は、属性の暗黙的な表現を1対の異なる値で学習するためにのみ使用されるが、それぞれのアンカーオブジェクト/表現は通常複数の属性を持ち、各属性は通常複数の潜在的な値を持っているため、属性表現、表現/オブジェクト表現、およびそれらの相互モーダル関係の精度を阻害する。 この目的のために,グループベースRECと呼ばれる新しいREC問題について検討し,各オブジェクト/表現を同時に使用して,意味論的に類似した画像の複数の三重項を構成する。 負の爆発とアンカー負の妥当性スコアの分化に対処するために,多群自己ペースの妥当性学習スキーマを提案し,それらの相互モーダル関係に基づいて,グループ内のオブジェクト表現ペアを異なる優先順位でアダプティブに割り当てる。 平均的相互関連性は異なるグループ間で大きく異なるため、グループ優先のバイアスのバランスをとるために、グループ間の関連性制約をさらに設計する。 3つの標準RECベンチマーク実験により,本手法の有効性と優位性を示した。

The key of referring expression comprehension lies in capturing the cross-modal visual-linguistic relevance. Existing works typically model the cross-modal relevance in each image, where the anchor object/expression and their positive expression/object have the same attribute as the negative expression/object, but with different attribute values. These objects/expressions are exclusively utilized to learn the implicit representation of the attribute by a pair of different values, which however impedes the accuracies of the attribute representations, expression/object representations, and their cross-modal relevances since each anchor object/expression usually has multiple attributes while each attribute usually has multiple potential values. To this end, we investigate a novel REC problem named Group-based REC, where each object/expression is simultaneously employed to construct the multiple triplets among the semantically similar images. To tackle the explosion of the negatives and the differentiation of the anchor-negative relevance scores, we propose the multi-group self-paced relevance learning schema to adaptively assign within-group object-expression pairs with different priorities based on their cross-modal relevances. Since the average cross-modal relevance varies a lot across different groups, we further design an across-group relevance constraint to balance the bias of the group priority. Experiments on three standard REC benchmarks demonstrate the effectiveness and superiority of our method.
翻訳日:2023-06-05 21:28:20 公開日:2023-06-02
# 身体的フィードバックから学ぶ:オブジェクト中心のワンショット適応法

Learning from Physical Human Feedback: An Object-Centric One-Shot Adaptation Method ( http://arxiv.org/abs/2203.04951v2 )

ライセンス: Link先を確認
Alvin Shek, Bo Ying Su, Rui Chen and Changliu Liu(参考訳) ロボットが新しい環境やタスクに効果的に展開するためには、介入中に人間が示すフィードバックを理解する必要がある。 これは望ましくない振る舞いを修正するか、追加の好みを示すことができる。 既存の手法では、繰り返し発生するインタラクションや、データ非効率で新しいタスクへの転送がほとんどできない既知の報酬機能を前提としています。 人間のタスクをオブジェクト中心のサブタスクで記述し、特定のオブジェクトに関連する物理的介入を解釈することで、これらの仮定を緩和する。 提案手法であるObject Preference Adaptation (OPA)は,2つの重要な段階から構成される。 1) 多様な行動を生み出すための基本方針を事前学習すること、及び 2) 人的フィードバックによるオンライン更新。 高速でシンプルな適応の鍵は、エージェントとオブジェクト間の一般的な相互作用のダイナミクスが固定され、オブジェクト固有の好みだけが更新されることです。 私たちの適応はオンラインで行われ、人間の介入(ワンショット)を1つだけ必要とします。 我々の方針は、高価な人間のデモではなく、安価な合成データに基づいて訓練され、物理的な7DOFロボット上の現実的なタスクに対する人間の摂動に正しく適応する。 ビデオ、コード、補足資料が提供される。

For robots to be effectively deployed in novel environments and tasks, they must be able to understand the feedback expressed by humans during intervention. This can either correct undesirable behavior or indicate additional preferences. Existing methods either require repeated episodes of interactions or assume prior known reward features, which is data-inefficient and can hardly transfer to new tasks. We relax these assumptions by describing human tasks in terms of object-centric sub-tasks and interpreting physical interventions in relation to specific objects. Our method, Object Preference Adaptation (OPA), is composed of two key stages: 1) pre-training a base policy to produce a wide variety of behaviors, and 2) online-updating according to human feedback. The key to our fast, yet simple adaptation is that general interaction dynamics between agents and objects are fixed, and only object-specific preferences are updated. Our adaptation occurs online, requires only one human intervention (one-shot), and produces new behaviors never seen during training. Trained on cheap synthetic data instead of expensive human demonstrations, our policy correctly adapts to human perturbations on realistic tasks on a physical 7DOF robot. Videos, code, and supplementary material are provided.
翻訳日:2023-06-05 21:27:55 公開日:2023-06-02
# contextize me -- 強化学習におけるコンテキストのケース

Contextualize Me -- The Case for Context in Reinforcement Learning ( http://arxiv.org/abs/2202.04500v2 )

ライセンス: Link先を確認
Carolin Benjamins, Theresa Eimer, Frederik Schubert, Aditya Mohan, Sebastian D\"ohler, Andr\'e Biedenkapp, Bodo Rosenhahn, Frank Hutter, Marius Lindauer(参考訳) 強化学習(rl)はますます複雑な問題を解決する上で大きな一歩を踏み出したが、多くのアルゴリズムはいまだにわずかな環境変化に対して脆弱である。 文脈強化学習(cRL)は、このような変化を原則的にモデル化するフレームワークを提供し、柔軟で正確で解釈可能なタスク仕様と生成を可能にする。 我々の目標は、cRLのフレームワークが、意味のあるベンチマークや一般化タスクに関する構造化推論を通じて、RLのゼロショット一般化の改善にどのように貢献するかを示すことである。 我々は,cRLにおける最適行動は,他の部分観測可能性の領域と同様に,文脈情報を必要とするという知見を裏付ける。 cRLフレームワークでこれを実証的に検証するために、共通RL環境の様々なコンテキスト拡張版を提供する。 これらは、一般的なベンチマークのcRL拡張に基づく一般化のために設計された最初のベンチマークライブラリであるCARLの一部である。 文脈設定では、単純なrl環境でさえ困難になり、ナイーブなソリューションが複雑なコンテキスト空間をまたいで一般化するには不十分であることを示している。

While Reinforcement Learning ( RL) has made great strides towards solving increasingly complicated problems, many algorithms are still brittle to even slight environmental changes. Contextual Reinforcement Learning (cRL) provides a framework to model such changes in a principled manner, thereby enabling flexible, precise and interpretable task specification and generation. Our goal is to show how the framework of cRL contributes to improving zero-shot generalization in RL through meaningful benchmarks and structured reasoning about generalization tasks. We confirm the insight that optimal behavior in cRL requires context information, as in other related areas of partial observability. To empirically validate this in the cRL framework, we provide various context-extended versions of common RL environments. They are part of the first benchmark library, CARL, designed for generalization based on cRL extensions of popular benchmarks, which we propose as a testbed to further study general agents. We show that in the contextual setting, even simple RL environments become challenging - and that naive solutions are not enough to generalize across complex context spaces.
翻訳日:2023-06-05 21:27:36 公開日:2023-06-02
# de rham互換深層ニューラルネットワークfem

De Rham compatible Deep Neural Network FEM ( http://arxiv.org/abs/2201.05395v3 )

ライセンス: Link先を確認
Marcello Longo, Joost A. A. Opschoor, Nico Disch, Christoph Schwab, Jakob Zech(参考訳) 一般の正則な単純分割 $\mathcal{T}$ of bounded polytopal domain $\Omega \subset \mathbb{R}^d$, $d\in\{2,3\}$ では、離散ド・ラム複体内のすべての最下階有限要素空間に対して \emph{exact Neural Network (NN) emulations} を構築する。 これらには、ピースワイズ定数関数の空間、連続ピースワイズ線型(CPwL)関数、古典的な ``Raviart-Thomas element'' や ``N\'{e}d\'{e}lec edge element'' などが含まれる。 CPwLの場合を除いて、我々のネットワークアーキテクチャはReLU(修正線形単位)とBiSU(バイナリステップ単位)の両方のアクティベーションを用いて不連続を捕捉する。 CPwL関数の重要な場合において、純粋なReLUネットを扱うのに十分であることを示す。 我々の構成とDNNアーキテクチャは、DNNエミュレーションに必要となる通常のsimplicial partitions $\mathcal{T}$ of $\Omega$の幾何学的制限は不要であるとして、以前の結果を一般化する。 さらに、CPwL 関数に対しては、DNN の構成は任意の次元 $d\geq 2$ で有効である。 fe-nets'' は、非凸ポリヘドラ $\omega \subset \mathbb{r}^3$ における電磁気学の境界値問題の変分的正しい構造保存近似に必要である。 したがって、例えば ‘physics-informed nns'' や ‘deep ritz method' の方法論を深層学習技術による電磁場シミュレーションに適用する上で必須の要素である。 我々は、高階互換空間や他の非互換離散化クラス、特に ‘crouzeix-raviart'' 要素とハイブリダライズされた高階(hho)メソッドへの構成の一般化を示す。

On general regular simplicial partitions $\mathcal{T}$ of bounded polytopal domains $\Omega \subset \mathbb{R}^d$, $d\in\{2,3\}$, we construct \emph{exact neural network (NN) emulations} of all lowest order finite element spaces in the discrete de Rham complex. These include the spaces of piecewise constant functions, continuous piecewise linear (CPwL) functions, the classical ``Raviart-Thomas element'', and the ``N\'{e}d\'{e}lec edge element''. For all but the CPwL case, our network architectures employ both ReLU (rectified linear unit) and BiSU (binary step unit) activations to capture discontinuities. In the important case of CPwL functions, we prove that it suffices to work with pure ReLU nets. Our construction and DNN architecture generalizes previous results in that no geometric restrictions on the regular simplicial partitions $\mathcal{T}$ of $\Omega$ are required for DNN emulation. In addition, for CPwL functions our DNN construction is valid in any dimension $d\geq 2$. Our ``FE-Nets'' are required in the variationally correct, structure-preserving approximation of boundary value problems of electromagnetism in nonconvex polyhedra $\Omega \subset \mathbb{R}^3$. They are thus an essential ingredient in the application of e.g., the methodology of ``physics-informed NNs'' or ``deep Ritz methods'' to electromagnetic field simulation via deep learning techniques. We indicate generalizations of our constructions to higher-order compatible spaces and other, non-compatible classes of discretizations, in particular the ``Crouzeix-Raviart'' elements and Hybridized, Higher Order (HHO) methods.
翻訳日:2023-06-05 21:27:16 公開日:2023-06-02
# PhysNLU:物理における自然言語理解と説明コヒーレンスを評価するための言語資源

PhysNLU: A Language Resource for Evaluating Natural Language Understanding and Explanation Coherence in Physics ( http://arxiv.org/abs/2201.04275v3 )

ライセンス: Link先を確認
Jordan Meadows, Zili Zhou, Andre Freitas(参考訳) 言語モデルが物理学研究を支援するためには、まず数学的および自然言語の言説の表現を符号化し、正しい順序付けとステートメントの関連性を伴う一貫性のある説明につながる必要がある。 本稿では, 文の順序, 位置, 部分予測, 談話のコヒーレンスに関して, 言語モデルの性能を評価するために開発されたデータセットの集合について述べる。 データの分析により、物理学の談話でもっともよく見られる方程式や分節、および方程式や式の文レベルの頻度が明らかになる。 本稿では,現代言語モデルが物理学におけるコヒーレンス関連課題によってどのように挑戦されるかを示すベースラインを示す。

In order for language models to aid physics research, they must first encode representations of mathematical and natural language discourse which lead to coherent explanations, with correct ordering and relevance of statements. We present a collection of datasets developed to evaluate the performance of language models in this regard, which measure capabilities with respect to sentence ordering, position, section prediction, and discourse coherence. Analysis of the data reveals equations and sub-disciplines which are most common in physics discourse, as well as the sentence-level frequency of equations and expressions. We present baselines that demonstrate how contemporary language models are challenged by coherence related tasks in physics, even when trained on mathematical natural language objectives.
翻訳日:2023-06-05 21:26:35 公開日:2023-06-02
# 誤った予測の最大エントロピー(meep) : 医用画像分割のためのモデルキャリブレーションの改善

Maximum Entropy on Erroneous Predictions (MEEP): Improving model calibration for medical image segmentation ( http://arxiv.org/abs/2112.12218v3 )

ライセンス: Link先を確認
Agostina Larrazabal, Cesar Martinez, Jose Dolz, Enzo Ferrante(参考訳) 現代のディープニューラルネットワークは、医療画像分割タスクにおいて著しく進歩した。 しかし、最近は不確実度の高い状況でも自信過剰な推定を生じる傾向があり、不正確で信頼性の低いモデルに繋がる傾向があることが観測されている。 本研究では,過密予測を選択的にペナルティ化するセグメンテーションネットワークのためのトレーニング戦略であるerroneous predictions (meep) の最大エントロピーを導入する。 本手法はニューラルアーキテクチャに依存せず,モデルの複雑さを増すことなく,複数のセグメンテーション損失関数と結合することができる。 脳の磁気共鳴画像(MRI)における白質高強度病変と、心臓MRIにおける心房細動の2つの課題について、提案手法をベンチマークした。 実験結果から,MEEPと標準セグメンテーション損失の結合がモデル校正だけでなく,セグメンテーション品質の向上につながることが示された。

Modern deep neural networks achieved remarkable progress in medical image segmentation tasks. However, it has recently been observed that they tend to produce overconfident estimates, even in situations of high uncertainty, leading to poorly calibrated and unreliable models. In this work we introduce Maximum Entropy on Erroneous Predictions (MEEP), a training strategy for segmentation networks which selectively penalizes overconfident predictions, focusing only on misclassified pixels. Our method is agnostic to the neural architecture, does not increase model complexity and can be coupled with multiple segmentation loss functions. We benchmark the proposed strategy in two challenging segmentation tasks: white matter hyperintensity lesions in magnetic resonance images (MRI) of the brain, and atrial segmentation in cardiac MRI. The experimental results demonstrate that coupling MEEP with standard segmentation losses leads to improvements not only in terms of model calibration, but also in segmentation quality.
翻訳日:2023-06-05 21:26:22 公開日:2023-06-02
# オープンシステム・ビュー

The Open Systems View ( http://arxiv.org/abs/2112.11095v2 )

ライセンス: Link先を確認
Michael E. Cuffaro and Stephan Hartmann(参考訳) 哲学や物理学では、閉じたシステムという視点が深く定着しており、そこでは孤立したシステムが基本として考えられている。 この観点からは、システムがその環境の影響下にある場合、それを結合したシステムと分離したシステムが分離される。 この考え方に反対し、環境と相互作用するシステムが基本として考えられており、環境の影響はシステムの進化を支配する力学方程式によって表される、別のオープン・システム・ビューを支持している。 閉系と開系の量子論をケーススタディとして、基本性の3つの代替概念を考える。 (i)−オンティックな基本性。 (ii)-観念的基本性、及び (三)―説明的基本性、オープンシステム観は基本的であり、これは物理学の哲学、科学の哲学、メタ物理にとって重要な意味を持つものであると論じる。

There is a deeply entrenched view in philosophy and physics, the closed systems view, according to which isolated systems are conceived of as fundamental. On this view, when a system is under the influence of its environment this is described in terms of a coupling between it and a separate system which taken together are isolated. We argue against this view, and in favor of the alternative open systems view, for which systems interacting with their environment are conceived of as fundamental, and the environment's influence is represented via the dynamical equations that govern the system's evolution. Taking quantum theories of closed and open systems as our case study, and considering three alternative notions of fundamentality: (i)~ontic fundamentality, (ii)~epistemic fundamentality, and (iii)~explanatory fundamentality, we argue that the open systems view is fundamental, and that this has important implications for the philosophy of physics, the philosophy of science, and for metaphysics.
翻訳日:2023-06-05 21:26:02 公開日:2023-06-02
# プレゼンテーションアタック検出のための自己教師付き学習:デフォールディングとデミックス

Taming Self-Supervised Learning for Presentation Attack Detection: De-Folding and De-Mixing ( http://arxiv.org/abs/2109.04100v3 )

ライセンス: Link先を確認
Zhe Kong, Wentian Zhang, Feng Liu, Wenhan Luo, Haozhe Liu, Linlin Shen and Raghavendra Ramachandra(参考訳) バイオメトリックシステムは、様々なプレゼンテーションアタック機器(PAI)を使用して実行されるプレゼンテーションアタック(PA)に対して脆弱である。 深層学習と手作り両方の特徴に基づく提示攻撃検出(PAD)技術は数多く存在するが、未知のPAIに対するPADの一般化は依然として難しい問題である。 本研究では,PADモデルの初期化が一般化の重要な要因であることを実証的に証明する。 そこで本研究では,DF-DMと呼ばれる自己教師型学習手法を提案する。 具体的には、DF-DMは、PDDのタスク固有の表現を導出するために、De-FoldingとDe-Mixingを組み合わせたグローバルローカルビューに基づいている。 De-Folding中、提案手法は、生成損失を明示的に最小化し、局所パターンでサンプルを表現するために、地域固有の特徴を学習する。 De-Mixingはインタプリタを駆動し、インタプリケーションベースの一貫性を最小化することで、グローバル情報によるインスタンス固有の特徴をより包括的な表現のために取得する。 広範な実験結果から,最先端手法と比較した場合,顔と指紋パッドの両方において,より複雑でハイブリッドなデータセットにおいて有意な改善が得られた。 CASIA-FASD と Idiap Replay-Attack のトレーニングでは,OULU-NPU と MSU-MFSD で 18.60% の誤差率 (EER) が得られる。 提案手法のソースコードはhttps://github.com/kongzhecn/dfdm.comで入手できる。

Biometric systems are vulnerable to Presentation Attacks (PA) performed using various Presentation Attack Instruments (PAIs). Even though there are numerous Presentation Attack Detection (PAD) techniques based on both deep learning and hand-crafted features, the generalization of PAD for unknown PAI is still a challenging problem. In this work, we empirically prove that the initialization of the PAD model is a crucial factor for the generalization, which is rarely discussed in the community. Based on such observation, we proposed a self-supervised learning-based method, denoted as DF-DM. Specifically, DF-DM is based on a global-local view coupled with De-Folding and De-Mixing to derive the task-specific representation for PAD. During De-Folding, the proposed technique will learn region-specific features to represent samples in a local pattern by explicitly minimizing generative loss. While De-Mixing drives detectors to obtain the instance-specific features with global information for more comprehensive representation by minimizing interpolation-based consistency. Extensive experimental results show that the proposed method can achieve significant improvements in terms of both face and fingerprint PAD in more complicated and hybrid datasets when compared with state-of-the-art methods. When training in CASIA-FASD and Idiap Replay-Attack, the proposed method can achieve an 18.60% Equal Error Rate (EER) in OULU-NPU and MSU-MFSD, exceeding baseline performance by 9.54%. The source code of the proposed technique is available at https://github.com/kongzhecn/dfdm.
翻訳日:2023-06-05 21:25:47 公開日:2023-06-02
# オンライン3Dビンパッキングのための実用性のある政策の学習

Learning Practically Feasible Policies for Online 3D Bin Packing ( http://arxiv.org/abs/2108.13680v3 )

ライセンス: Link先を確認
Hang Zhao, Chenyang Zhu, Xin Xu, Hui Huang, Kai Xu(参考訳) Online 3D Bin Packing Problemは、従来のBin Packing Problemの難解だが実用的には有用である。 この問題では、全シーケンス情報を通知することなく、アイテムをエージェントに配信する。 エージェントは、これらのアイテムを到着順序を変更することなく、ターゲットビンに直接安定して詰め込む必要があり、追加調整は許可されない。 オンライン3D-BPP は Markov Decision Process (MDP) として自然に定式化できる。 我々は,このMDPを制約された行動空間で解くために,特に政治的アクター批判的枠組みの深層強化学習を採用する。 実用可能なパッケージングポリシーを学習するために,我々は3つの重要な設計を提案する。 まず,新しい積み重ね木に基づく荷積み安定性のオンライン解析を提案する。 計算複雑性を$O(N^2)$から$O(N \log N)$に下げつつ高い解析精度を達成し、特にRLトレーニングに適している。 第2に,高分解能空間離散化と高い充填精度を実現する,配置次元の異なるパッキングポリシー学習を提案する。 第3に,ロボットアームの移動計画において,物体を遠方から近方へ配置するように指示する報酬関数を導入し,衝突回避を簡略化する。 さらに、いくつかの重要な実装問題について包括的な議論を行う。 この評価により,我々の学習方針は最先端の手法を著しく上回り,現実の応用に実用的であることが示された。

We tackle the Online 3D Bin Packing Problem, a challenging yet practically useful variant of the classical Bin Packing Problem. In this problem, the items are delivered to the agent without informing the full sequence information. Agent must directly pack these items into the target bin stably without changing their arrival order, and no further adjustment is permitted. Online 3D-BPP can be naturally formulated as Markov Decision Process (MDP). We adopt deep reinforcement learning, in particular, the on-policy actor-critic framework, to solve this MDP with constrained action space. To learn a practically feasible packing policy, we propose three critical designs. First, we propose an online analysis of packing stability based on a novel stacking tree. It attains a high analysis accuracy while reducing the computational complexity from $O(N^2)$ to $O(N \log N)$, making it especially suited for RL training. Second, we propose a decoupled packing policy learning for different dimensions of placement which enables high-resolution spatial discretization and hence high packing precision. Third, we introduce a reward function that dictates the robot to place items in a far-to-near order and therefore simplifies the collision avoidance in movement planning of the robotic arm. Furthermore, we provide a comprehensive discussion on several key implemental issues. The extensive evaluation demonstrates that our learned policy outperforms the state-of-the-art methods significantly and is practically usable for real-world applications.
翻訳日:2023-06-05 21:25:16 公開日:2023-06-02
# 機械学習におけるフェアネスのための方法と方法: 調査, 振り返り, 展望

What-is and How-to for Fairness in Machine Learning: A Survey, Reflection, and Perspective ( http://arxiv.org/abs/2206.04101v2 )

ライセンス: Link先を確認
Zeyu Tang, Jiji Zhang, Kun Zhang(参考訳) アルゴリズムの公正さは、機械学習コミュニティで注目を集めている。 文献では様々な定義が提案されているが、その違いや関連性は明確ではない。 本稿では、機械学習文学で提案されている様々な公平性概念を見直し、考察し、道徳哲学や政治哲学、特に正義論の議論との関連を考察する。 また,現在の予測と意思決定によって引き起こされる長期的影響についても,動的観点から公平性に関する問合せを考察する。 識別された公平性の違いに照らして,データ生成過程,予測結果,誘導影響について,異なる種類の公平性質問の暗黙の仮定と期待結果とを包含するフローチャートを提案する。 本稿では、目的を達成するために、ミッション(どんな公正を強制したいのか)と手段(どの公正分析が興味を持つのか、適切な分析手法は何か)を一致させることの重要性を示す。

Algorithmic fairness has attracted increasing attention in the machine learning community. Various definitions are proposed in the literature, but the differences and connections among them are not clearly addressed. In this paper, we review and reflect on various fairness notions previously proposed in machine learning literature, and make an attempt to draw connections to arguments in moral and political philosophy, especially theories of justice. We also consider fairness inquiries from a dynamic perspective, and further consider the long-term impact that is induced by current prediction and decision. In light of the differences in the characterized fairness, we present a flowchart that encompasses implicit assumptions and expected outcomes of different types of fairness inquiries on the data generating process, on the predicted outcome, and on the induced impact, respectively. This paper demonstrates the importance of matching the mission (which kind of fairness one would like to enforce) and the means (which spectrum of fairness analysis is of interest, what is the appropriate analyzing scheme) to fulfill the intended purpose.
翻訳日:2023-06-05 21:18:36 公開日:2023-06-02
# ランダムな時間変化グラフによるオンライン正規化学習

Decentralized Online Regularized Learning Over Random Time-Varying Graphs ( http://arxiv.org/abs/2206.03861v3 )

ライセンス: Link先を確認
Xiwei Zhang, Tao Li and Xiaozheng Fu(参考訳) ランダム時変グラフ上の分散オンライン正規化線形回帰アルゴリズムについて検討した。 各時間ステップで、各ノードは、新しい測定値を処理するイノベーションタームと、付加的かつ乗法的な通信ノイズを伴う自分自身とその隣人の見積もりの重み付け和を取るコンセンサスタームと、過剰フィッティングを防止する正規化項からなるオンライン推定アルゴリズムを実行する。 回帰行列とグラフは相互独立性、時空間独立性、定常性といった特別な統計的仮定を満たす必要はない。 推定誤差の非負スーパーマーチンゲール不等式を開発し、アルゴリズムが励起条件のサンプルパス時空間的持続性を共に満たすと、全てのノードの推定が未知の真のパラメータベクトルにほぼ確実に収束することを証明した。 特に、この条件は、グラフが一様条件付き連結かつ条件付き均衡である場合、適切なアルゴリズムゲインを選択することで保たれ、すべてのノードの回帰モデルは一様条件付き時空間的結合観測可能であり、その下にアルゴリズムが平均正方形およびほぼ確実に収束する。 さらに、後悔の上限が$o(t^{1-\tau}\ln t)$であることを証明し、ここで$\tau\in (0.5,1)$ はアルゴリズムのゲインに依存する定数である。

We study the decentralized online regularized linear regression algorithm over random time-varying graphs. At each time step, every node runs an online estimation algorithm consisting of an innovation term processing its own new measurement, a consensus term taking a weighted sum of estimations of its own and its neighbors with additive and multiplicative communication noises and a regularization term preventing over-fitting. It is not required that the regression matrices and graphs satisfy special statistical assumptions such as mutual independence, spatio-temporal independence or stationarity. We develop the nonnegative supermartingale inequality of the estimation error, and prove that the estimations of all nodes converge to the unknown true parameter vector almost surely if the algorithm gains, graphs and regression matrices jointly satisfy the sample path spatio-temporal persistence of excitation condition. Especially, this condition holds by choosing appropriate algorithm gains if the graphs are uniformly conditionally jointly connected and conditionally balanced, and the regression models of all nodes are uniformly conditionally spatio-temporally jointly observable, under which the algorithm converges in mean square and almost surely. In addition, we prove that the regret upper bound is $O(T^{1-\tau}\ln T)$, where $\tau\in (0.5,1)$ is a constant depending on the algorithm gains.
翻訳日:2023-06-05 21:18:19 公開日:2023-06-02
# フェデレーション学習における主観的メンバーシップ推論攻撃

Subject Membership Inference Attacks in Federated Learning ( http://arxiv.org/abs/2206.03317v3 )

ライセンス: Link先を確認
Anshuman Suri, Pallika Kanani, Virendra J. Marathe, Daniel W. Peterson(参考訳) 機械学習(ML)モデルに対するプライバシ攻撃は、トレーニングデータに特定のデータポイントが存在することを推測することに集中することが多い。 しかし、相手が本当に知りたいのは、訓練中に特定の個人(対象)のデータが含まれているかどうかです。 このようなシナリオでは、敵は実際の記録よりも特定の主題の分布にアクセスできる可能性が高い。 さらに、クロスサイロフェデレートラーニング(FL)のような設定では、複数の組織にまたがる複数のデータレコードによって、対象データの具体化が可能である。 既存のプライベートFL文献のほぼ全てが、アイテムレベル(個人データ記録)とユーザレベル(フェデレーションに参加するユーザ)の2つの粒度のプライバシーの研究に費やされているが、どちらもクロスサイロFLのデータ対象には当てはまらない。 この洞察は、データレコードのプライバシから、主題レベルのプライバシとして知られるデータサブジェクトのプライバシに、私たちの注意を移す動機となります。 そこで本研究では,各トレーニングラウンド後のモデルへのアクセスを想定した2つの新しいブラックボックス攻撃を提案する。 これらの攻撃を用いて、単体モデルとFLシナリオの実際のデータに対する対象メンバーシップ推定リスクを推定する。 正確な訓練記録にアクセスできず、少数の被験者の会員の知識を使わずとも、我々の攻撃は極めて強力なものとなる。 クロスサイロfl設定において、対象プライバシリスクに影響を及ぼすさまざまな要因をより深く理解するために、数百の合成フェデレーション構成、データの性質、モデル設計とトレーニング、フェデレーション自体を体系的に生成する。 最後に,この脅威を緩和する上での差分プライバシーの有効性について検討する。

Privacy attacks on Machine Learning (ML) models often focus on inferring the existence of particular data points in the training data. However, what the adversary really wants to know is if a particular individual's (subject's) data was included during training. In such scenarios, the adversary is more likely to have access to the distribution of a particular subject than actual records. Furthermore, in settings like cross-silo Federated Learning (FL), a subject's data can be embodied by multiple data records that are spread across multiple organizations. Nearly all of the existing private FL literature is dedicated to studying privacy at two granularities -- item-level (individual data records), and user-level (participating user in the federation), neither of which apply to data subjects in cross-silo FL. This insight motivates us to shift our attention from the privacy of data records to the privacy of data subjects, also known as subject-level privacy. We propose two novel black-box attacks for subject membership inference, of which one assumes access to a model after each training round. Using these attacks, we estimate subject membership inference risk on real-world data for single-party models as well as FL scenarios. We find our attacks to be extremely potent, even without access to exact training records, and using the knowledge of membership for a handful of subjects. To better understand the various factors that may influence subject privacy risk in cross-silo FL settings, we systematically generate several hundred synthetic federation configurations, varying properties of the data, model design and training, and the federation itself. Finally, we investigate the effectiveness of Differential Privacy in mitigating this threat.
翻訳日:2023-06-05 21:17:53 公開日:2023-06-02
# 高速非線形ベクトル量子回帰

Fast Nonlinear Vector Quantile Regression ( http://arxiv.org/abs/2205.14977v3 )

ライセンス: Link先を確認
Aviv A. Rosenberg, Sanketh Vedula, Yaniv Romano, Alex M. Bronstein(参考訳) quantile regression (qr) は、対象変数 $\mathrm{y}$ が与えられた説明的特徴 $\boldsymbol{\mathrm{x}}$ の1つ以上の条件付き量子タイルを推定するための強力なツールである。 QRの制限は、目的関数の定式化のため、スカラー対象変数に対してのみ定義され、また、量子化の概念は多変量分布の標準的な定義を持たないためである。 近年,ベクトル量子量軸回帰(vector quantile regression, vqr)が,ベクトル値対象変数に対するqrの拡張として提案されている。 その優雅さにもかかわらず、VQRはいくつかの制限のために実際は適用されない。 (i) 目的の $\boldsymbol{\mathrm{Y}}$ の量子化に対する線型モデルを仮定し、その特徴を $\boldsymbol{\mathrm{X}}$ と仮定する。 (二)その厳密な定式化は、目標次元、回帰量子度数、特徴数において適度な大きさの問題であっても難解であり、その緩和された二重定式化は、推定された量子度の単調性に反する可能性がある。 (iii)VQRの高速かつスケーラブルな解法は存在しない。 この作業では、これらの制限、すなわち: (i)vqrを非線形の場合まで拡張し、線形vqrよりも大幅に改善する。 (ii) vqr で推定される分位関数が単子関数であることを保証する方法である {vector monotone rerangement} を提案する。 3) 固定メモリフットプリントを維持する線形および非線形VQRに対して,高速でGPUを高速化した解法を提供し,数百万のサンプルと数千の量子レベルにスケールできることを実証する。 (iv)現実のアプリケーションでVQRを広く活用するために,解決者の最適化されたピソンパッケージをリリースする。

Quantile regression (QR) is a powerful tool for estimating one or more conditional quantiles of a target variable $\mathrm{Y}$ given explanatory features $\boldsymbol{\mathrm{X}}$. A limitation of QR is that it is only defined for scalar target variables, due to the formulation of its objective function, and since the notion of quantiles has no standard definition for multivariate distributions. Recently, vector quantile regression (VQR) was proposed as an extension of QR for vector-valued target variables, thanks to a meaningful generalization of the notion of quantiles to multivariate distributions via optimal transport. Despite its elegance, VQR is arguably not applicable in practice due to several limitations: (i) it assumes a linear model for the quantiles of the target $\boldsymbol{\mathrm{Y}}$ given the features $\boldsymbol{\mathrm{X}}$; (ii) its exact formulation is intractable even for modestly-sized problems in terms of target dimensions, number of regressed quantile levels, or number of features, and its relaxed dual formulation may violate the monotonicity of the estimated quantiles; (iii) no fast or scalable solvers for VQR currently exist. In this work we fully address these limitations, namely: (i) We extend VQR to the non-linear case, showing substantial improvement over linear VQR; (ii) We propose {vector monotone rearrangement}, a method which ensures the quantile functions estimated by VQR are monotone functions; (iii) We provide fast, GPU-accelerated solvers for linear and nonlinear VQR which maintain a fixed memory footprint, and demonstrate that they scale to millions of samples and thousands of quantile levels; (iv) We release an optimized python package of our solvers as to widespread the use of VQR in real-world applications.
翻訳日:2023-06-05 21:17:22 公開日:2023-06-02
# 確率的な隣人の埋め込みを秘密裏に行う「Contrastive Learning」

Your Contrastive Learning Is Secretly Doing Stochastic Neighbor Embedding ( http://arxiv.org/abs/2205.14814v2 )

ライセンス: Link先を確認
Tianyang Hu, Zhili Liu, Fengwei Zhou, Wenjia Wang, Weiran Huang(参考訳) コントラスト学習、特に自己教師付きコントラスト学習(SSCL)は、ラベルのないデータから強力な特徴を抽出することに成功した。 本研究では,ssclの理論的理解に寄与し,対距離保存を目的とした古典的なデータ可視化手法である確率的近傍埋め込み (sne) との関連を明らかにする。 隣接する情報を保存する観点からは、SSCLはデータ拡張によって指定された入力空間の対等な類似性を持つSNEの特別なケースと見なすことができる。 確立された対応は、SSCLの学習的特徴のより深い理論的理解と実践的改善のための方法論的ガイドラインを促進する。 具体的には、SNEのレンズを通して、ドメインに依存しない拡張、暗黙のバイアス、学習特徴の堅牢性について、新しい分析を行う。 sneから$t$-sneへの変更はsscl設定でも適用可能であり,分布内および分布外一般化の両方において有意な改善が得られた。

Contrastive learning, especially self-supervised contrastive learning (SSCL), has achieved great success in extracting powerful features from unlabeled data. In this work, we contribute to the theoretical understanding of SSCL and uncover its connection to the classic data visualization method, stochastic neighbor embedding (SNE), whose goal is to preserve pairwise distances. From the perspective of preserving neighboring information, SSCL can be viewed as a special case of SNE with the input space pairwise similarities specified by data augmentation. The established correspondence facilitates deeper theoretical understanding of learned features of SSCL, as well as methodological guidelines for practical improvement. Specifically, through the lens of SNE, we provide novel analysis on domain-agnostic augmentations, implicit bias and robustness of learned features. To illustrate the practical advantage, we demonstrate that the modifications from SNE to $t$-SNE can also be adopted in the SSCL setting, achieving significant improvement in both in-distribution and out-of-distribution generalization.
翻訳日:2023-06-05 21:16:50 公開日:2023-06-02
# アーキテクチャに依存しないマスク付き画像モデリング - ViTからCNNへ

Architecture-Agnostic Masked Image Modeling -- From ViT back to CNN ( http://arxiv.org/abs/2205.13943v4 )

ライセンス: Link先を確認
Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li(参考訳) 自己教師付き事前学習手法であるマスク画像モデリングは、視覚トランスフォーマーを備えた多数の下流の視覚タスクで素晴らしい成功を収めている。 その基本的な考え方は単純で、入力画像の一部がマスクアウトされ、テキスト前タスクによって再構築される。 しかし、MIMの動作原理はよく説明されておらず、以前の研究では、MIMは主にTransformerファミリーで機能するが、CNNと互換性がないと主張している。 そこで本研究では,MIMがより一般化された特徴抽出のために,パッチ間のより優れた中次相互作用を学習するためのモデルを教える。 次に、トランスフォーマーとCNNの両方と統一的に互換性のあるアーキテクチャ非依存のマスク付き画像モデリングフレームワーク(A$^2$MIM)を提案する。 一般的なベンチマーク実験では、A$^2$MIMは明示的な設計なしにより良い表現を学習し、様々な下流タスクに転送する能力を持つバックボーンモデルを提供する。

Masked image modeling, an emerging self-supervised pre-training method, has shown impressive success across numerous downstream vision tasks with Vision transformers. Its underlying idea is simple: a portion of the input image is masked out and then reconstructed via a pre-text task. However, the working principle behind MIM is not well explained, and previous studies insist that MIM primarily works for the Transformer family but is incompatible with CNNs. In this work, we observe that MIM essentially teaches the model to learn better middle-order interactions among patches for more generalized feature extraction. We then propose an Architecture-Agnostic Masked Image Modeling framework (A$^2$MIM), which is compatible with both Transformers and CNNs in a unified way. Extensive experiments on popular benchmarks show that A$^2$MIM learns better representations without explicit design and endows the backbone model with the stronger capability to transfer to various downstream tasks.
翻訳日:2023-06-05 21:16:32 公開日:2023-06-02
# Poisson Approximate Likelihoodsを用いた疫病のコンパートメンタルモデルにおける一貫性と高速推論

Consistent and fast inference in compartmental models of epidemics using Poisson Approximate Likelihoods ( http://arxiv.org/abs/2205.13602v4 )

ライセンス: Link先を確認
Michael Whitehouse, Nick Whiteley, Lorenzo Rimella(参考訳) 複雑および不均一なモデルに対する疫学的推測のスケールアップの課題に対処するため,Poisson Approximate Likelihood (PAL)法を提案する。 人口制限が決定論的モデルへの動機付けに使用されるようなコンパートメンタルモデリングに対する一般的なODEアプローチとは対照的に、PALは有限人口、確率的コンパートメンタルモデルに対する近似フィルタリング方程式から導出され、大きな人口制限は最大PAL推定器の一貫性を駆動する。 我々の理論的結果は, 確率的区画モデルの幅広いクラスに適用され, 集団の限界に対処した最初の確率的パラメータ推定一貫性結果であると考えられる。 PALの実装は簡単で、初等演算のみを伴い、チューニングパラメータを含まず、モデルからのシミュレーションを必要とせず、集団サイズに依存しない計算コストを持つ。 例を通して、PALがインフルエンザの年齢構造モデルに適合し、スタンにおける自動分化を生かし、連続モンテカルロにPALを埋め込むことでロタウイルスのモデルにおける過分散機構を比較し、麻疹のメタポピュレーションモデルにおける単位特異的パラメータの役割を評価する。

Addressing the challenge of scaling-up epidemiological inference to complex and heterogeneous models, we introduce Poisson Approximate Likelihood (PAL) methods. In contrast to the popular ODE approach to compartmental modelling, in which a large population limit is used to motivate a deterministic model, PALs are derived from approximate filtering equations for finite-population, stochastic compartmental models, and the large population limit drives consistency of maximum PAL estimators. Our theoretical results appear to be the first likelihood-based parameter estimation consistency results which apply to a broad class of partially observed stochastic compartmental models and address the large population limit. PALs are simple to implement, involving only elementary arithmetic operations and no tuning parameters, and fast to evaluate, requiring no simulation from the model and having computational cost independent of population size. Through examples we demonstrate how PALs can be used to: fit an age-structured model of influenza, taking advantage of automatic differentiation in Stan; compare over-dispersion mechanisms in a model of rotavirus by embedding PALs within sequential Monte Carlo; and evaluate the role of unit-specific parameters in a meta-population model of measles.
翻訳日:2023-06-05 21:16:14 公開日:2023-06-02
# 古典最適化ハミルトンシミュレーション

Classically optimized Hamiltonian simulation ( http://arxiv.org/abs/2205.11427v5 )

ライセンス: Link先を確認
Conor Mc Keever, Michael Lubasch(参考訳) ハミルトンシミュレーションは量子コンピュータが量子優位を達成するための有望な応用である。 本稿では,量子回路を最適化するためのテンソルネットワーク法に基づく古典的アルゴリズムを提案する。 トロッター積公式と比較して、古典的に最適化された回路は桁違いに精度が高く、シミュレーション時間も大幅に拡張できることを示す。

Hamiltonian simulation is a promising application for quantum computers to achieve a quantum advantage. We present classical algorithms based on tensor network methods to optimize quantum circuits for this task. We show that, compared to Trotter product formulas, the classically optimized circuits can be orders of magnitude more accurate and significantly extend the total simulation time.
翻訳日:2023-06-05 21:15:49 公開日:2023-06-02
# 時間差学習の有限時間解析:離散時間線形システムの観点から

Finite-Time Analysis of Temporal Difference Learning: Discrete-Time Linear System Perspective ( http://arxiv.org/abs/2204.10479v6 )

ライセンス: Link先を確認
Donghwan Lee and Do Wan Kim(参考訳) TD学習は強化学習(RL)の分野での基本的アルゴリズムであり、マルコフ決定過程の対応する値関数を推定することにより、与えられたポリシーを評価するために用いられる。 td-learningの理論解析において大きな進展が見られたが、近年の研究では有限時間誤差境界の開発による統計効率の保証が明らかにされている。 本稿では,離散時間確率線形系モデルを直接的かつ効果的に利用し,schur行列の特性を活用し,td学習の有限時間解析を提案することにより,既存の知識体系に寄与することを目的とする。 提案する分析は,オン・ポリシーとオフ・ポリシーの両方を統一的にカバーできる。 このアプローチを採用することで、TD学習と関連するRLアルゴリズムの分析にさらなる光を当てるだけでなく、この領域における今後の研究に有用な洞察を提供する、新しくて分かりやすいテンプレートを提供したいと思っています。

TD-learning is a fundamental algorithm in the field of reinforcement learning (RL), that is employed to evaluate a given policy by estimating the corresponding value function for a Markov decision process. While significant progress has been made in the theoretical analysis of TD-learning, recent research has uncovered guarantees concerning its statistical efficiency by developing finite-time error bounds. This paper aims to contribute to the existing body of knowledge by presenting a novel finite-time analysis of tabular temporal difference (TD) learning, which makes direct and effective use of discrete-time stochastic linear system models and leverages Schur matrix properties. The proposed analysis can cover both on-policy and off-policy settings in a unified manner. By adopting this approach, we hope to offer new and straightforward templates that not only shed further light on the analysis of TD-learning and related RL algorithms but also provide valuable insights for future research in this domain.
翻訳日:2023-06-05 21:15:43 公開日:2023-06-02
# Kupczynski の文脈局所因果確率モデルはベルの定理によって制約される

Kupczynski's Contextual Locally Causal Probabilistic Models are constrained by Bell's theorem ( http://arxiv.org/abs/2208.09930v8 )

ライセンス: Link先を確認
Richard D. Gill and Justo Pastor Lambare(参考訳) マリアン・クプシンスキーは一連の論文で、ベルの定理は測定器を記述する文脈的設定依存パラメータを正しく考慮すれば回避できると主張した。 これは事実ではないことを示す。 初期の出現にもかかわらず、クプシンキの文脈的局所因果確率モデルの概念は数学的にはベル局所隠れ変数モデルの特別な場合である。 したがって、たとえ彼が提案した方法で文脈性を考慮するとしても、ベル-CHSHの不等式は導出可能である。 量子力学と局所実在論(クプチンスキーの主張による概念の拡大を含む)は互いに相容れない。 さらなる検査の結果、クプチンスキーは実際に検出の抜け穴に落ちていることがわかった。 2015年以降、ベル・チェシュの不等式に違反する多くの抜け穴のない実験が行われており、そのような実験の他の不完全さにもかかわらず、クプチンスキーの局所実在論への脱出ルートは入手できない。

In a sequence of papers, Marian Kupczynski has argued that Bell's theorem can be circumvented if one takes correct account of contextual setting-dependent parameters describing measuring instruments. We show that this is not true. Despite first appearances, Kupczynksi's concept of a contextual locally causal probabilistic model is mathematically a special case of a Bell local hidden variables model. Thus, even if one takes account of contextuality in the way he suggests, the Bell-CHSH inequality can still be derived. Violation thereof by quantum mechanics cannot be easily explained away: quantum mechanics and local realism (including Kupczynski's claimed enlargement of the concept) are not compatible with one another. Further inspection shows that Kupczynski is actually falling back on the detection loophole. Since 2015, numerous loophole-free experiments have been performed, in which the Bell-CHSH inequality is violated, so despite any other possible imperfections of such experiments, Kupczynski's escape route for local realism is not available
翻訳日:2023-06-05 21:08:17 公開日:2023-06-02
# 結合型マクロペンデュラによる可視化波動力学:駆動量子ビットの古典的解析

Visualized Wave Mechanics by Coupled Macroscopic Pendula: Classical Analogue to Driven Quantum Bits ( http://arxiv.org/abs/2207.09296v2 )

ライセンス: Link先を確認
Heribert Lorenz and Sigmund Kohler and Anton Parafilo and Mikhail Kiselev and Stefan Ludwig(参考訳) 量子力学はますます現代の技術に浸透するが、その非決定論的な性質は我々の古典的日常世界と矛盾しているように見えるため、我々の理解はしばしば理解できないままである。 古典力学は対応原理に沿って、量子コヒーレンスを完全に平均化する大規模系の理論と見なされることが多い。 驚くべきことに、古典的モデルシステムを用いて量子ビット(qubit)のコヒーレントダイナミクスを再構築することは依然として可能である。 この古典から量子へのアナログは、古典と量子の世界の両方に適用される波動力学に基づいている。 本研究は, 微視的ペンデュラの動的挙動を変調カップリングを用いて検討する。 原理の証明として、Ravi振動、Landau-Zener遷移、Landau-Zener-St\"uckelberg-Majoranaインターフェロメトリーによって、我々の1対1のアナログを量子ビットに完全に制御することを示した。 我々の古典的量子ビット実証器は有用な量子技術を理解し開発するのに役立ちます。

Quantum mechanics increasingly penetrates modern technologies but, due to its non-deterministic nature seemingly contradicting our classical everyday world, our comprehension often stays elusive. Arguing along the correspondence principle, classical mechanics is often seen as a theory for large systems where quantum coherence is completely averaged out. Surprisingly, it is still possible to reconstruct the coherent dynamics of a quantum bit (qubit) by using a classical model system. This classical-to-quantum analogue is based on wave mechanics, which applies to both, the classical and the quantum world. In this spirit we investigate the dynamics of macroscopic physical pendula with a modulated coupling. As a proof of principle, we demonstrate full control of our one-to-one analogue to a qubit by realizing Rabi oscillations, Landau-Zener transitions and Landau-Zener-St\"uckelberg-Majorana interferometry. Our classical qubit demonstrator can help comprehending and developing useful quantum technologies.
翻訳日:2023-06-05 21:08:02 公開日:2023-06-02
# 外因性入力を持つMDPの視線学習

Hindsight Learning for MDPs with Exogenous Inputs ( http://arxiv.org/abs/2207.06272v2 )

ライセンス: Link先を確認
Sean R. Sinclair, Felipe Frujeri, Ching-An Cheng, Luke Marshall, Hugo Barbalho, Jingling Li, Jennifer Neville, Ishai Menache, Adith Swaminathan(参考訳) 多くの資源管理問題は不確実性の下での逐次的な意思決定を必要とし、意思決定結果に影響を与える不確実性は意思決定者の制御の外にある外因性変数のみである。 本研究では,これらの問題をExo-MDP (Markov Decision Processs with Exogenous Inputs) としてモデル化し,Handsight Learning (HL) と呼ばれるデータ効率アルゴリズムのクラスを設計する。 我々のHLアルゴリズムは、重要な洞察を生かして、データ効率を達成する。例えば、外因性変数のサンプルを持つことで、過去の決定を後から再考して、政策改善を加速する反実的な結果を予測することができる。 多官庁・航空会社の収益管理問題において,HLと古典的ベースラインを比較した。 当社のアルゴリズムは、仮想マシン(VM)を物理マシンに割り当て、大規模なパブリッククラウドプロバイダの実際のデータセットでそのパフォーマンスをシミュレートする、ビジネスクリティカルなクラウドリソース管理問題にも拡張しています。 HLアルゴリズムは、最先端の強化学習法と同様に、ドメイン固有のヒューリスティックよりも優れている。

Many resource management problems require sequential decision-making under uncertainty, where the only uncertainty affecting the decision outcomes are exogenous variables outside the control of the decision-maker. We model these problems as Exo-MDPs (Markov Decision Processes with Exogenous Inputs) and design a class of data-efficient algorithms for them termed Hindsight Learning (HL). Our HL algorithms achieve data efficiency by leveraging a key insight: having samples of the exogenous variables, past decisions can be revisited in hindsight to infer counterfactual consequences that can accelerate policy improvements. We compare HL against classic baselines in the multi-secretary and airline revenue management problems. We also scale our algorithms to a business-critical cloud resource management problem -- allocating Virtual Machines (VMs) to physical machines, and simulate their performance with real datasets from a large public cloud provider. We find that HL algorithms outperform domain-specific heuristics, as well as state-of-the-art reinforcement learning methods.
翻訳日:2023-06-05 21:07:41 公開日:2023-06-02
# 機能的オブジェクト指向ネットワークによる長期計画と実行

Long-Horizon Planning and Execution with Functional Object-Oriented Networks ( http://arxiv.org/abs/2207.05800v6 )

ライセンス: Link先を確認
David Paulius, Alejandro Agostini and Dongheui Lee(参考訳) ロボットの知識グラフ表現として機能的オブジェクト指向ネットワーク(foon)が導入された。 FOONは、ロボットのタスクとその環境に対する理解に有用な象徴的な概念を含んでいる。 この研究に先立ち、FOONから取得した計画がロボットによってどのように実行されるかを示すために、FOONの概念は実行するには抽象的すぎるため、ほとんど行われていない。 そこで我々は,タスク計画と実行のためのFOONとして,オブジェクトレベルの知識を活用するアイデアを紹介した。 提案手法はフォオンをpddlに自動的に変換し,既成のプランナー,アクションコンテキスト,ロボットスキルを階層的計画パイプラインで活用し,実行可能なタスクプランを生成する。 我々はCoppeliaSimの長期タスクに対するアプローチ全体を実証し、学習されたアクションコンテキストが、これまで見たことのないシナリオにどのように拡張できるかを示す。

Following work on joint object-action representations, functional object-oriented networks (FOON) were introduced as a knowledge graph representation for robots. A FOON contains symbolic concepts useful to a robot's understanding of tasks and its environment for object-level planning. Prior to this work, little has been done to show how plans acquired from FOON can be executed by a robot, as the concepts in a FOON are too abstract for execution. We thereby introduce the idea of exploiting object-level knowledge as a FOON for task planning and execution. Our approach automatically transforms FOON into PDDL and leverages off-the-shelf planners, action contexts, and robot skills in a hierarchical planning pipeline to generate executable task plans. We demonstrate our entire approach on long-horizon tasks in CoppeliaSim and show how learned action contexts can be extended to never-before-seen scenarios.
翻訳日:2023-06-05 21:07:22 公開日:2023-06-02
# 無調波リプキン-メシュコフ-グリックモデルにおける励起状態量子相転移:動的側面

Excited-State Quantum Phase Transitions in the Anharmonic Lipkin-Meshkov-Glick Model: Dynamical Aspects ( http://arxiv.org/abs/2207.04489v4 )

ライセンス: Link先を確認
Jamil Khalouf-Rivera, Juan Gamito, Francisco P\'erez-Bernal, Jos\'e Miguel Arias, Pedro P\'erez-Fern\'andez(参考訳) 標準のLipkin-Meshkov-Glick(LMG)モデルは、二階基底量子相転移(QPT)と励起状態量子相転移(ESQPT)を行う。 LMGハミルトニアンへの無調和項の包含は、モデルの静的特性を変更する第二のESQPT(Phys. Rev. E 106, 044125 (2022))]をもたらす。 本研究では, この新たなESQPTに関する動的含意を解析した。 その目的のために、量子クエンチプロトコルは、初期状態(通常は基底状態)を時間とともに進化する複雑な励起状態にするハミルトニアン系上で定義される。 量子クエンチ後の生存確率と状態の局所密度の時間的変化に対する新しいESQPTの影響と、ロシミットエコーと時間外相関器(OTOC)について述べる。 無調波誘発ESQPTは、物理的起源が異なるにもかかわらず、標準LMGモデルにすでに存在するESQPTと同様のダイナミックな結果をもたらす。

The standard Lipkin-Meshkov-Glick (LMG) model undergoes a second-order ground-state quantum phase transition (QPT) and an excited-state quantum phase transition (ESQPT). The inclusion of an anharmonic term in the LMG Hamiltonian gives rise to a second ESQPT that alters the static properties of the model [Phys. Rev. E 106, 044125 (2022)]. In the present work, the dynamical implications associated to this new ESQPT are analyzed. For that purpose, a quantum quench protocol is defined on the system Hamiltonian that takes an initial state, usually the ground state, into a complex excited state that evolves on time. The impact of the new ESQPT on the time evolution of the survival probability and the local density of states after the quantum quench, as well as on the Loschmidt echoes and the microcanonical out-of-time-order correlator (OTOC) are discussed. The anharmonity-induced ESQPT, despite having a different physical origin, has dynamical consequences similar to those observed in the ESQPT already present in the standard LMG model.
翻訳日:2023-06-05 21:07:06 公開日:2023-06-02
# 効率的な視覚トランスフォーマーと畳み込みニューラルネットワークのための動的空間スパーシフィケーション

Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks ( http://arxiv.org/abs/2207.01580v2 )

ライセンス: Link先を確認
Yongming Rao, Zuyan Liu, Wenliang Zhao, Jie Zhou, Jiwen Lu(参考訳) 本稿では,視覚データの空間的スパーシティを利用した新しいモデル加速度法を提案する。 視覚変換器の最終的な予測は最も情報性の高いトークンのサブセットのみに基づいており、正確な画像認識には十分である。 そこで本研究では,視覚トランスフォーマーを高速化するための入力に基づいて,冗長なトークンを段階的かつ動的にプルーピングするための動的トークンスパーシフィケーションフレームワークを提案する。 具体的には、現在の特徴から各トークンの重要度を推定する軽量な予測モジュールを考案する。 モジュールは異なるレイヤに追加され、冗長トークンを階層的にプルークする。 このフレームワークは視覚トランスフォーマーにおける注意の薄さから着想を得たものであるが、適応的かつ非対称な計算は様々なアーキテクチャを加速するための一般的な解決策であると考えられる。 提案手法は,CNNや階層型視覚変換器などの階層モデルや,より汎用的な動的空間空間空間空間空間空間分割フレームワークを定式化することにより,より複雑な特徴マップを必要とする複雑な予測タスクに拡張する。 より少ない情報的特徴に軽量な高速パスを適用し、より表現力のあるスローパスをより重要な場所に利用することにより、機能マップの構造を維持しながら、全体的な計算を大幅に削減することができる。 様々な現代的なアーキテクチャと異なる視覚認識タスクにおけるフレームワークの有効性を広範な実験により実証した。 その結果、動的空間スパーシフィケーションは、モデル加速に新しくより効果的な次元を提供することが明らかとなった。 コードはhttps://github.com/raoyongming/DynamicViTで入手できる。

In this paper, we present a new approach for model acceleration by exploiting spatial sparsity in visual data. We observe that the final prediction in vision Transformers is only based on a subset of the most informative tokens, which is sufficient for accurate image recognition. Based on this observation, we propose a dynamic token sparsification framework to prune redundant tokens progressively and dynamically based on the input to accelerate vision Transformers. Specifically, we devise a lightweight prediction module to estimate the importance score of each token given the current features. The module is added to different layers to prune redundant tokens hierarchically. While the framework is inspired by our observation of the sparse attention in vision Transformers, we find the idea of adaptive and asymmetric computation can be a general solution for accelerating various architectures. We extend our method to hierarchical models including CNNs and hierarchical vision Transformers as well as more complex dense prediction tasks that require structured feature maps by formulating a more generic dynamic spatial sparsification framework with progressive sparsification and asymmetric computation for different spatial locations. By applying lightweight fast paths to less informative features and using more expressive slow paths to more important locations, we can maintain the structure of feature maps while significantly reducing the overall computations. Extensive experiments demonstrate the effectiveness of our framework on various modern architectures and different visual recognition tasks. Our results clearly demonstrate that dynamic spatial sparsification offers a new and more effective dimension for model acceleration. Code is available at https://github.com/raoyongming/DynamicViT
翻訳日:2023-06-05 21:06:44 公開日:2023-06-02
# BertNet: 事前訓練された言語モデルと任意関係を持つ知識グラフ

BertNet: Harvesting Knowledge Graphs with Arbitrary Relations from Pretrained Language Models ( http://arxiv.org/abs/2206.14268v3 )

ライセンス: Link先を確認
Shibo Hao, Bowen Tan, Kaiwen Tang, Bin Ni, Xiyan Shao, Hengzhe Zhang, Eric P. Xing, Zhiting Hu(参考訳) 知識発見と幅広い応用を支援するために、多様な新しい関係を持つ知識グラフ(KG)を自動構築することが重要である。 クラウドソーシングやテキストマイニングに基づく以前のKG構築手法は、手作業のコストやテキストコーパスの制限のため、しばしば小さな事前定義された関係に制限される。 近年の研究では、事前訓練された言語モデル(LM)を暗黙の知識ベースとして使用し、プロンプトによる知識クエリを受け入れることが提案されている。 しかし、暗黙の知識は、容易なアクセス、ナビゲーション、編集、品質保証など、本格的なシンボリックkgの多くの望ましい特性を欠いている。 本稿では,事前学習したlmsから任意の関係の大量のkgを収穫する新しい手法を提案する。 関係定義(例えばエンティティペアのプロンプトと数ショット)の最小限の入力で、アプローチは広大なエンティティペア空間を効率的に探索し、望ましい関係の多様な正確な知識を抽出する。 我々は効率と精度を向上させるための効率的な探索・再スコア機構を開発した。 我々は、異なるlmsから400以上の新しい関係のkgを収穫するアプローチを展開する。 大規模な人的・自動的な評価は、複雑な関係のタプル(例えば「Aは能力があるが、Bは得意ではない」など)を含む様々な正確な知識を抽出する方法を示している。 ソースLMの象徴的な解釈として得られたKGは、LMの知識能力に関する新たな洞察も示している。

It is crucial to automatically construct knowledge graphs (KGs) of diverse new relations to support knowledge discovery and broad applications. Previous KG construction methods, based on either crowdsourcing or text mining, are often limited to a small predefined set of relations due to manual cost or restrictions in text corpus. Recent research proposed to use pretrained language models (LMs) as implicit knowledge bases that accept knowledge queries with prompts. Yet, the implicit knowledge lacks many desirable properties of a full-scale symbolic KG, such as easy access, navigation, editing, and quality assurance. In this paper, we propose a new approach of harvesting massive KGs of arbitrary relations from pretrained LMs. With minimal input of a relation definition (a prompt and a few shot of example entity pairs), the approach efficiently searches in the vast entity pair space to extract diverse accurate knowledge of the desired relation. We develop an effective search-and-rescore mechanism for improved efficiency and accuracy. We deploy the approach to harvest KGs of over 400 new relations from different LMs. Extensive human and automatic evaluations show our approach manages to extract diverse accurate knowledge, including tuples of complex relations (e.g., "A is capable of but not good at B"). The resulting KGs as a symbolic interpretation of the source LMs also reveal new insights into the LMs' knowledge capacities.
翻訳日:2023-06-05 21:06:15 公開日:2023-06-02
# 推薦システムにおける供給側平衡

Supply-Side Equilibria in Recommender Systems ( http://arxiv.org/abs/2206.13489v2 )

ライセンス: Link先を確認
Meena Jagadeesan, Nikhil Garg, Jacob Steinhardt(参考訳) SpotifyやNetflixのようなアルゴリズムによるレコメンデーションシステムは、消費者の行動だけでなく、プロデューサーのインセンティブにも影響を及ぼす。 プロデューサーはレコメンデーションアルゴリズムで示されるコンテンツを作成しようとしており、コンテンツの多様性と品質の両方に影響を与える可能性がある。 本研究では、パーソナライズされたコンテンツレコメンデーションシステムにおけるサプライサイド均衡について検討する。 我々は、ユーザとコンテンツをD$次元ベクトルとしてモデル化し、レコメンデーションアルゴリズムは、各ユーザに最高のドット製品でコンテンツを見せ、プロデューサは、コンテンツを推奨するユーザの数を最大化し、生産コストを抑える。 我々のモデルの主な特徴は、生産者決定空間が多次元であり、ユーザベースが異質であることであり、古典的な低次元モデルとは対照的である。 多次元性と不均質性は、異なる生産者が平衡で異なる種類のコンテンツを創造する特殊化の可能性を生み出す。 これらの条件は, ユーザが不均一である程度と, 生産者が高コストを伴わずに, 一度にすべての次元で良好な性能を発揮できる程度に依存している。 次に, 2 個体群を具体的設定として, コンテンツの平衡分布を特徴付ける。 最後に, 専門化によって生産者が均衡でポジティブな利益を得られることが示され, つまり, 専門化が市場競争力を低下させる可能性がある。 概念レベルでは、サプライサイドコンペティションの分析は、デジタルグッズ市場をいかにパーソナライズされたレコメンデーションが形成するかを解明し、多次元競争環境において新たな現象が生じるのかを理解するための一歩となる。

Algorithmic recommender systems such as Spotify and Netflix affect not only consumer behavior but also producer incentives. Producers seek to create content that will be shown by the recommendation algorithm, which can impact both the diversity and quality of their content. In this work, we investigate the resulting supply-side equilibria in personalized content recommender systems. We model users and content as $D$-dimensional vectors, the recommendation algorithm as showing each user the content with highest dot product, and producers as maximizing the number of users who are recommended their content minus the cost of production. Two key features of our model are that the producer decision space is multi-dimensional and the user base is heterogeneous, which contrasts with classical low-dimensional models. Multi-dimensionality and heterogeneity create the potential for specialization, where different producers create different types of content at equilibrium. Using a duality argument, we derive necessary and sufficient conditions for whether specialization occurs: these conditions depend on the extent to which users are heterogeneous and to which producers can perform well on all dimensions at once without incurring a high cost. Then, we characterize the distribution of content at equilibrium in concrete settings with two populations of users. Lastly, we show that specialization can enable producers to achieve positive profit at equilibrium, which means that specialization can reduce the competitiveness of the marketplace. At a conceptual level, our analysis of supply-side competition takes a step towards elucidating how personalized recommendations shape the marketplace of digital goods, and towards understanding what new phenomena arise in multi-dimensional competitive settings.
翻訳日:2023-06-05 21:05:52 公開日:2023-06-02
# 超平面格子上の不均一自由フェルミオンの絡み合い

Entanglement of inhomogeneous free fermions on hyperplane lattices ( http://arxiv.org/abs/2206.06509v3 )

ライセンス: Link先を確認
Pierre-Antoine Bernard, Nicolas Cramp\'e, Rafael I. Nepomechie, Gilles Parez, Lo\"ic Poulain d'Andecy, Luc Vinet(参考訳) 我々は,隣接サイト間のホッピング強度を制御する$d(d-1)/2$連続パラメータを持つ$(d-1)$-次元格子上の自由フェルミオンの不均質モデルを導入する。 このモデルを正確に解いて、固有函数がクラトチョーク多項式の多次元一般化によって与えられることを見つける。 我々は, 切り刻まれた相関行列に通勤するフン作用素を構築し, 幅広いパラメータに対して, エンタングルメントエントロピーをD=2,3,4$で数値計算する。 d=2$の場合、エントロピーのエントロピーに対するサブリーディングの寄与の振動を観察し、正確な表現を予想する。 d>2$ では、パラメータに非自明な依存を持つ絡み合いエントロピーの領域法則の対数的違反を見つける。

We introduce an inhomogeneous model of free fermions on a $(D-1)$-dimensional lattice with $D(D-1)/2$ continuous parameters that control the hopping strength between adjacent sites. We solve this model exactly, and find that the eigenfunctions are given by multidimensional generalizations of Krawtchouk polynomials. We construct a Heun operator that commutes with the chopped correlation matrix, and compute the entanglement entropy numerically for $D=2,3,4$, for a wide range of parameters. For $D=2$, we observe oscillations in the sub-leading contribution to the entanglement entropy, for which we conjecture an exact expression. For $D>2$, we find logarithmic violations of the area law for the entanglement entropy with nontrivial dependence on the parameters.
翻訳日:2023-06-05 21:05:23 公開日:2023-06-02
# 微分可能かつ伝達可能な構造学習

Differentiable and Transportable Structure Learning ( http://arxiv.org/abs/2206.06354v3 )

ライセンス: Link先を確認
Jeroen Berrevoets, Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar(参考訳) 直接非巡回グラフ(DAG)は、その構造内の特定の分布に関する多くの情報を符号化する。 しかしながら、これらの構造を推測するために必要な計算は通常変数の数において超指数的である、なぜなら推論は組合せ的に大きなポテンシャル構造の空間を網羅する必要があるからである。 つまり、最近の進歩により、この空間を微分可能な計量を用いて探索できるようになり、検索時間を大幅に削減した。 この手法は notears と名付けられ、dag-discovery の独創的な作品と見なされているが、微分可能性(英語版)(transportability)を支持する重要な特性である。 転送可能であるためには、あるデータセットで発見された構造は同じドメインから別のデータセットに適用する必要がある。 我々は, 完全微分可能でありながら, 新たなアーキテクチャと損失関数により, 検出された構造物の輸送性を回復するd-structを導入する。 D-Struct は依然として微分可能であるため,従来の NOTEARS と同様,既存の微分可能アーキテクチャにも容易に適用できる。 実験では,様々な環境下でのエッジ精度と構造ハミング距離に関して,D構造を実証的に検証した。

Directed acyclic graphs (DAGs) encode a lot of information about a particular distribution in their structure. However, compute required to infer these structures is typically super-exponential in the number of variables, as inference requires a sweep of a combinatorially large space of potential structures. That is, until recent advances made it possible to search this space using a differentiable metric, drastically reducing search time. While this technique -- named NOTEARS -- is widely considered a seminal work in DAG-discovery, it concedes an important property in favour of differentiability: transportability. To be transportable, the structures discovered on one dataset must apply to another dataset from the same domain. We introduce D-Struct which recovers transportability in the discovered structures through a novel architecture and loss function while remaining fully differentiable. Because D-Struct remains differentiable, our method can be easily adopted in existing differentiable architectures, as was previously done with NOTEARS. In our experiments, we empirically validate D-Struct with respect to edge accuracy and structural Hamming distance in a variety of settings.
翻訳日:2023-06-05 21:05:10 公開日:2023-06-02
# 文脈類似度最適化による検索用メトリクス学習のランク付け

Supervised Metric Learning to Rank for Retrieval via Contextual Similarity Optimization ( http://arxiv.org/abs/2210.01908v3 )

ライセンス: Link先を確認
Christopher Liao, Theodoros Tsiligkaridis, Brian Kulis(参考訳) 画像検索のための計量学習手法には幅広い関心がある。 多くのメートル法学習損失関数は、トレーニングサンプルの正しいランク付けを学ぶことに集中するが、意味的に一貫性のないラベルに強く適合し、大量のデータを必要とする。 これらの欠点に対処するために,コサイン類似性に加えて文脈類似性を最適化する文脈損失という新しいメトリクス学習手法を提案する。 我々の文脈的損失は、正しいランキングに収束しながら隣人の意味的一貫性を暗黙的に強制する。 その結果,提案する損失はラベルノイズに対してより頑健であり,列車データの大部分が保持されていない場合でも過度に適合しにくいことがわかった。 大規模な実験により,4つの画像検索ベンチマークと複数の異なる評価設定にまたがる新しい最先端の手法が得られた。 https://github.com/Chris210634/metric-learning-using-contextual-similarity

There is extensive interest in metric learning methods for image retrieval. Many metric learning loss functions focus on learning a correct ranking of training samples, but strongly overfit semantically inconsistent labels and require a large amount of data. To address these shortcomings, we propose a new metric learning method, called contextual loss, which optimizes contextual similarity in addition to cosine similarity. Our contextual loss implicitly enforces semantic consistency among neighbors while converging to the correct ranking. We empirically show that the proposed loss is more robust to label noise, and is less prone to overfitting even when a large portion of train data is withheld. Extensive experiments demonstrate that our method achieves a new state-of-the-art across four image retrieval benchmarks and multiple different evaluation settings. Code is available at: https://github.com/Chris210634/metric-learning-using-contextual-similarity
翻訳日:2023-06-05 20:59:37 公開日:2023-06-02
# ThinkSum: 大きな言語モデルを用いた集合上の確率論的推論

ThinkSum: Probabilistic reasoning over sets using large language models ( http://arxiv.org/abs/2210.01293v2 )

ライセンス: Link先を確認
Batu Ozturkler, Nikolay Malkin, Zhen Wang, Nebojsa Jojic(参考訳) 大規模言語モデル(llm)は、トレーニングデータ(ゼロショット評価)や提供されたコンテキスト(フェウショットインコンテキスト学習)で発生する線形テキストでパターンを再現する、ハイレベルなアナロジー推論にかなりの能力を持っている。 しかし、最近の研究では、より先進的なLSMでさえ、複数のオブジェクトや事実を推論し、論理的推論のシーケンスを作成する必要があるシナリオで失敗することを示している。 本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。 第1段階(連想の検索)では、プロンプトまたは補助モデル呼び出しから抽出された一連のフレーズに対して、llmが並列にクエリされる。 第2段階(確率的推論または推論)では、これらのクエリの結果を集約して最終的な予測を行う。 我々は,LLM評価タスクのBIG-benchスイートにおけるThinkSumの可能性とメリットを実証し,13の困難なタスクにおいて,GPT- familyモデルを用いて,より小さなモデル変種を伴って,技術状況の改善を実現する。 また、ThinkSumとLLMの直接的プロンプトのための他の修正、例えばチェーン・オブ・シント・プロンプトの変種を比較して比較する。 その結果,ThinkSum の確率的推論は LLM の呼び出し外で行われるため,設計の迅速化にはあまり敏感ではなく,より解釈可能な予測が得られ,潜在変数モデルと柔軟に組み合わせて LLM から構造化知識を抽出できることが示唆された。 提案するパラダイムは,LLMの推論能力を高めるための有望なアプローチである。

Large language models (LLMs) have a substantial capacity for high-level analogical reasoning: reproducing patterns in linear text that occur in their training data (zero-shot evaluation) or in the provided context (few-shot in-context learning). However, recent studies show that even the more advanced LLMs fail in scenarios that require reasoning over multiple objects or facts and making sequences of logical deductions. We propose a two-stage probabilistic inference paradigm, ThinkSum, which reasons over sets of objects or facts in a structured manner. In the first stage (Think - retrieval of associations), a LLM is queried in parallel over a set of phrases extracted from the prompt or an auxiliary model call. In the second stage (Sum - probabilistic inference or reasoning), the results of these queries are aggregated to make the final prediction. We demonstrate the possibilities and advantages of ThinkSum on the BIG-bench suite of LLM evaluation tasks, achieving improvements over the state of the art using GPT-family models on thirteen difficult tasks, often with far smaller model variants. We also compare and contrast ThinkSum with other proposed modifications to direct prompting of LLMs, such as variants of chain-of-thought prompting. Our results suggest that because the probabilistic inference in ThinkSum is performed outside of calls to the LLM, ThinkSum is less sensitive to prompt design, yields more interpretable predictions, and can be flexibly combined with latent variable models to extract structured knowledge from LLMs. Overall, our proposed paradigm represents a promising approach for enhancing the reasoning capabilities of LLMs.
翻訳日:2023-06-05 20:59:23 公開日:2023-06-02
# 構造化pcaにおけるベイズ最適限界とその到達方法

Bayes-optimal limits in structured PCA, and how to reach them ( http://arxiv.org/abs/2210.01237v2 )

ライセンス: Link先を確認
Jean Barbier, Francesco Camilli, Marco Mondelli and Manuel Saenz(参考訳) 計測ノイズの統計的依存性は高次元推測にどのように影響するか? そこで本研究では,主成分分析(PCA)のパラダイム的スパイク行列モデルについて検討する。 我々は、低次多項式直交行列アンサンブルからノイズを描画することで、ノイズエントリの通常の独立性仮定を超える。 結果として生じるノイズ相関は、アプリケーションに関係しているが解析的に困難である。 我々は、このモデルにおける推論のベイズ最適限界の第一の特徴付けを提供する。 スパイクが回転不変であれば、標準スペクトルPCAが最適であることを示す。 しかし、より一般的には、PCAと既存の近似メッセージパッシングアルゴリズム(AMP)は、統計力学から複製法を用いて計算した情報理論の限界を達成できない。 そこで我々は,適応的Thouless-Anderson-Palmer方程式の理論から着想を得た新しいAMPを提案する。 このAMPは、そのパフォーマンスを追跡する厳密な状態進化解析を備えている。 我々は特定の雑音分布に焦点をあてるが、より関連する表現を犠牲にして、この手法をトレース行列アンサンブルの幅広いクラスに一般化することができる。 最後に, 回転不変ノイズの強い仮定にもかかわらず, 実データに対するアルゴリズム性能を実証的に予測し, 顕著な普遍性に着目した。

How do statistical dependencies in measurement noise influence high-dimensional inference? To answer this, we study the paradigmatic spiked matrix model of principal components analysis (PCA), where a rank-one matrix is corrupted by additive noise. We go beyond the usual independence assumption on the noise entries, by drawing the noise from a low-order polynomial orthogonal matrix ensemble. The resulting noise correlations make the setting relevant for applications but analytically challenging. We provide the first characterization of the Bayes-optimal limits of inference in this model. If the spike is rotation-invariant, we show that standard spectral PCA is optimal. However, for more general priors, both PCA and the existing approximate message passing algorithm (AMP) fall short of achieving the information-theoretic limits, which we compute using the replica method from statistical mechanics. We thus propose a novel AMP, inspired by the theory of Adaptive Thouless-Anderson-Palmer equations, which saturates the theoretical limit. This AMP comes with a rigorous state evolution analysis tracking its performance. Although we focus on specific noise distributions, our methodology can be generalized to a wide class of trace matrix ensembles at the cost of more involved expressions. Finally, despite the seemingly strong assumption of rotation-invariant noise, our theory empirically predicts algorithmic performance on real data, pointing at remarkable universality properties.
翻訳日:2023-06-05 20:58:54 公開日:2023-06-02
# 電子カルテラベリングのためのビジュアルインタラクティブインタフェースの開発:説明可能な機械学習アプローチ

Developing A Visual-Interactive Interface for Electronic Health Record Labeling: An Explainable Machine Learning Approach ( http://arxiv.org/abs/2209.12778v2 )

ライセンス: Link先を確認
Donlapark Ponnoprat, Parichart Pattarapanitchai, Phimphaka Taninpong, Suthep Suantai, Natthanaphop Isaradech, Thiraphat Tanphiriyakun(参考訳) 大量の電子健康記録のラベル付けは高価で時間がかかり、ラベル付けアシスタントツールを持つと医療専門家の作業負荷を大幅に削減できる。 それでも専門家の信頼を得るには、ツールがアウトプットの背後にある理由を説明する必要がある。 そこで我々は,データラベリングのための新しい視覚対話型ツール Explainable Labeling Assistant (XLabel) を紹介した。 高いレベルでは、XLabelはExplainable Boosting Machine (EBM)を使用して各データポイントのラベルを分類し、ESMの説明のヒートマップを視覚化する。 ケーススタディでは、XLabelを用いて、医療専門家が電子健康記録に4つの共通非通信性疾患(NCD)をラベル付けするのを支援する。 私たちの実験は 1) XLabelはラベル付けアクションの数を減らすのに役立つ。 2)説明可能な分類器としてのEMMは、他のよく知られた機械学習モデルと同じくらい正確であり、NCDの専門家が使用するルールベースモデルよりも優れている。 3)40%以上のレコードが意図的に誤記された場合でも、ebmは90%以上のレコードの正しいラベルを思い出すことができた。

Labeling a large number of electronic health records is expensive and time consuming, and having a labeling assistant tool can significantly reduce medical experts' workload. Nevertheless, to gain the experts' trust, the tool must be able to explain the reasons behind its outputs. Motivated by this, we introduce Explainable Labeling Assistant (XLabel) a new visual-interactive tool for data labeling. At a high level, XLabel uses Explainable Boosting Machine (EBM) to classify the labels of each data point and visualizes heatmaps of EBM's explanations. As a case study, we use XLabel to help medical experts label electronic health records with four common non-communicable diseases (NCDs). Our experiments show that 1) XLabel helps reduce the number of labeling actions, 2) EBM as an explainable classifier is as accurate as other well-known machine learning models outperforms a rule-based model used by NCD experts, and 3) even when more than 40% of the records were intentionally mislabeled, EBM could recall the correct labels of more than 90% of these records.
翻訳日:2023-06-05 20:58:29 公開日:2023-06-02
# 標準ハミルトンの対称性から通勤代数へ

From Symmetries to Commutant Algebras in Standard Hamiltonians ( http://arxiv.org/abs/2209.03370v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, Olexei I. Motrunich(参考訳) 本研究では、文献に現れる標準ハミルトニアンのいくつかの族を再検討し、可換代数の言語における対称性と保存量について議論する。 特に、局所的な部分によって定義されるハミルトン群の族から始まり、各部分と独立に可換な作用素の代数を研究する。 私たちが議論するモデルのファミリーには、スピン1/2ハイゼンベルクモデルとその変形、スピンレスおよびスピンフル自由フェルミオンモデル、ハバードモデルなどがある。 この言語はヒルベルト空間を動的に非連結なセクターに分解し、通常の対称性の従来の量子数セクターに還元することができる。 さらに、単純な場合であっても、非標準保存量の一例を見つけ、通常の対称性や保存量の定義を拡張する必要性を示す。 自由フェルミオンモデルの場合、この分解は、初期の研究で提案されたあるリー群の既約表現を介してヒルベルト空間の分解に関連しているが、代数的観点はより広く適用され、特に任意の相互作用モデルにも適用される。 さらに、von Neumann Double Commutant Theorem (DCT) は、与えられた対称性または可換代数を持つ局所作用素の体系的な構成を可能にし、文献で実施される「ブルートフォース」な数値探索の必要性を排除し、DCTのそのような応用例を示す。 本稿では, 厳密な傷跡を有するモデルのファミリーを体系的に構築する方法と, 非標準対称性の観点から, それらのファミリーを特徴付ける手法を並列論文で検討する。

In this work, we revisit several families of standard Hamiltonians that appear in the literature and discuss their symmetries and conserved quantities in the language of commutant algebras. In particular, we start with families of Hamiltonians defined by parts that are local, and study the algebra of operators that separately commute with each part. The families of models we discuss include the spin-1/2 Heisenberg model and its deformations, several types of spinless and spinful free-fermion models, and the Hubbard model. This language enables a decomposition of the Hilbert space into dynamically disconnected sectors that reduce to the conventional quantum number sectors for regular symmetries. In addition, we find examples of non-standard conserved quantities even in some simple cases, which demonstrates the need to enlarge the usual definitions of symmetries and conserved quantities. In the case of free-fermion models, this decomposition is related to the decompositions of Hilbert space via irreducible representations of certain Lie groups proposed in earlier works, while the algebra perspective applies more broadly, in particular also to arbitrary interacting models. Further, the von Neumann Double Commutant Theorem (DCT) enables a systematic construction of local operators with a given symmetry or commutant algebra, potentially eliminating the need for "brute-force" numerical searches carried out in the literature, and we show examples of such applications of the DCT. This paper paves the way for both systematic construction of families of models with exact scars and characterization of such families in terms of non-standard symmetries, pursued in a parallel paper.
翻訳日:2023-06-05 20:58:08 公開日:2023-06-02
# 未知の統計量を持つマルチサーバシステムにおけるスケジューリング中の学習: Uncounted UCBを用いたマックスウェイト

Learning While Scheduling in Multi-Server Systems with Unknown Statistics: MaxWeight with Discounted UCB ( http://arxiv.org/abs/2209.01126v3 )

ライセンス: Link先を確認
Zixian Yang, R. Srikant, Lei Ying(参考訳) マルチサーバキューシステムは、機械学習、無線ネットワーク、クラウドソーシング、医療システムにおけるジョブスケジューリングのモデルとして広く使われている。 本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。 目標は、処理時間の統計を知らずにサーバでジョブをスケジュールすることである。 サーバの処理能力を十分に活用するには、異なるサーバ上で異なるジョブタイプのサービスレートを少なくとも学ばなければならないことが知られている。 このトピックに関する先行研究は、過剰な探索や極めて大きな作業遅延につながる学習とスケジューリングのフェーズを分離する。 そこで我々は,MaxWeightスケジューリングポリシーと割引された高信頼度境界(UCB)を併用した新しいアルゴリズムを提案し,その統計を同時に学習し,ジョブをサーバにスケジュールする。 我々のアルゴリズムでは、漸近平均キュー長はトラフィックのスラックネスによって分割され、順序的に最適であることが証明されている。 また、任意の時間待ち行列長に対して指数関数的に減衰する確率テールを得る。 これらの結果は定常サービスと非定常サービスの両方に当てはまる。 シミュレーションにより,提案アルゴリズムよりもアルゴリズムの遅延性能が桁違いに優れていることを確認した。

Multi-server queueing systems are widely used models for job scheduling in machine learning, wireless networks, crowdsourcing, and healthcare systems. This paper considers a multi-server system with multiple servers and multiple types of jobs, where different job types require different amounts of processing time at different servers. The goal is to schedule jobs on servers without knowing the statistics of the processing times. To fully utilize the processing power of the servers, it is known that one has to at least learn the service rates of different job types on different servers. Prior works on this topic decouple the learning and scheduling phases which leads to either excessive exploration or extremely large job delays. We propose a new algorithm, which combines the MaxWeight scheduling policy with discounted upper confidence bound (UCB), to simultaneously learn the statistics and schedule jobs to servers. We prove that under our algorithm the asymptotic average queue length is bounded by one divided by the traffic slackness, which is order-wise optimal. We also obtain an exponentially decaying probability tail bound for any-time queue length. These results hold for both stationary and nonstationary service rates. Simulations confirm that the delay performance of our algorithm is several orders of magnitude better than previously proposed algorithms.
翻訳日:2023-06-05 20:57:39 公開日:2023-06-02
# 量子相関における非局所性蒸留

Distilling Nonlocality in Quantum Correlations ( http://arxiv.org/abs/2208.13976v4 )

ライセンス: Link先を確認
Sahil Gopalkrishna Naik, Govind Lal Sidhardh, Samrat Sen, Arup Roy, Ashutosh Rai, Manik Banik(参考訳) セミナルベルの定理によって確立された非局所性は、分離事象のような空間に存在する相関の最も顕著な特徴であると考えられている。 セキュアなキー配布、ランダム性認証、.itなど、デバイス独立プロトコルにおける実用的応用。 量子世界で観測された相関関係の同定と増幅を要求する。 本稿では,非局所性蒸留の展望について検討し,弱い非局所系の多くのコピーに自然に自由操作(配線と呼ばれる)を施すことで,高次非局所強度の相関を発生させることを目的としている。 最も単純なベルシナリオでは、非局所性を任意に弱い量子非局所相関からかなり高い程度に分離できるプロトコル、すなわち論理的なor-and 配線を同定する。 私たちのプロトコルにはいくつかの興味深い側面があります。 i)全8次元相関空間において、蒸留可能な量子相関の集合がゼロ測度を持たないことを示す。 (ii)その構造を維持して量子ハーディ相関を分離することができる。 3) 局所決定論点に十分近い(非局所的な)量子相関は、かなりの量で蒸留可能であることを示す。 最後に, 留置後相関の検出における蒸留プロトコルの有効性を示す。

Nonlocality, as established by seminal Bell's theorem, is considered to be the most striking feature of correlations present in space like separated events. Its practical application in device independent protocols, such as secure key distribution, randomness certification, {\it etc.}, demands identification and amplification of such correlations observed in the quantum world. In this Letter we study the prospect of nonlocality distillation, wherein, by applying a natural set of free operations (called wirings) on many copies of weakly nonlocal systems, one aims to generate correlations of higher nonlocal strength. In the simplest Bell scenario, we identify a protocol, namely, logical OR-AND wiring, that can distil nonlocality to significantly high degree starting from arbitrarily weak quantum nonlocal correlations. As it turns out, our protocol has several interesting facets: (i) it demonstrates that set of distillable quantum correlations has non zero measure in the full eight-dimensional correlation space, (ii) it can distil quantum Hardy correlations by preserving its structure, (iii) it shows that (nonlocal) quantum correlations sufficiently close to the local deterministic points can be distilled by a significant amount. Finally, we also demonstrate efficacy of the considered distillation protocol in detecting postquantum correlations.
翻訳日:2023-06-05 20:57:20 公開日:2023-06-02
# 地球系モデリングのための微分プログラミング

Differentiable Programming for Earth System Modeling ( http://arxiv.org/abs/2208.13825v2 )

ライセンス: Link先を確認
Maximilian Gelbrecht and Alistair White and Sebastian Bathiany and Niklas Boers(参考訳) 地球系モデル (Earth System Models, ESMs) は、数十年から数世紀にわたって、特に人為的な温室効果ガスの放出に反応して、将来の地球系の状態を調査するための主要なツールである。 最先端esmは過去150年間の観測平均気温異常を再現することができる。 それでもESMにはさらなる改善が必要だ。 (i)大気中の温室効果ガスの増加に対する温度応答という,気候感受性の推定値の大規模な拡散 (II)温度や降水などの鍵変数のモデル化された空間パターン (三)極度の気象事象の表現、及び (iv)それらの多安定地球系成分の表現と、それに伴う急変を予測する能力 ここでは、ESMを自動で差別化できることは、特にこれらの重要な欠点に関して、ESMを前進させる大きな可能性を秘めていると論じる。 第一に、自動微分可能性(automatic differentiability)は、ESMの客観的な校正、すなわち、現在主に手動で調整されている多数の自由パラメータに対するコスト関数に対する最適値の選択を可能にする。 第2に、機械学習(ML)の最近の進歩と観測データの量、正確性、解像度は、観測からESMに付加的な情報を組み込むためにMLが使用されるため、上記の少なくともいくつかの側面に役立つと約束されている。 自動微分は、プロセスベースのESMとMLコンポーネントを組み合わせたハイブリッドモデルの構築において重要な要素である。 我々は、データインフォームドESMを改良した新しい世代の自動微分の可能性を示す最近の研究を報告する。

Earth System Models (ESMs) are the primary tools for investigating future Earth system states at time scales from decades to centuries, especially in response to anthropogenic greenhouse gas release. State-of-the-art ESMs can reproduce the observational global mean temperature anomalies of the last 150 years. Nevertheless, ESMs need further improvements, most importantly regarding (i) the large spread in their estimates of climate sensitivity, i.e., the temperature response to increases in atmospheric greenhouse gases, (ii) the modeled spatial patterns of key variables such as temperature and precipitation, (iii) their representation of extreme weather events, and (iv) their representation of multistable Earth system components and their ability to predict associated abrupt transitions. Here, we argue that making ESMs automatically differentiable has huge potential to advance ESMs, especially with respect to these key shortcomings. First, automatic differentiability would allow objective calibration of ESMs, i.e., the selection of optimal values with respect to a cost function for a large number of free parameters, which are currently tuned mostly manually. Second, recent advances in Machine Learning (ML) and in the amount, accuracy, and resolution of observational data promise to be helpful with at least some of the above aspects because ML may be used to incorporate additional information from observations into ESMs. Automatic differentiability is an essential ingredient in the construction of such hybrid models, combining process-based ESMs with ML components. We document recent work showcasing the potential of automatic differentiation for a new generation of substantially improved, data-informed ESMs.
翻訳日:2023-06-05 20:56:59 公開日:2023-06-02
# CounTR: トランスフォーマーベースの一般化ビジュアルカウント

CounTR: Transformer-based Generalised Visual Counting ( http://arxiv.org/abs/2208.13721v3 )

ライセンス: Link先を確認
Chang Liu, Yujie Zhong, Andrew Zisserman, Weidi Xie(参考訳) 本稿では、任意の意味圏から対象を数える計算モデルを開発することを目的として、ゼロショットや少数ショットカウントといった任意の数の「例」を用いて、一般化されたビジュアルオブジェクトカウントの問題を考察する。 To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.

In this paper, we consider the problem of generalised visual object counting, with the goal of developing a computational model for counting the number of objects from arbitrary semantic categories, using arbitrary number of "exemplars", i.e. zero-shot or few-shot counting. To this end, we make the following four contributions: (1) We introduce a novel transformer-based architecture for generalised visual object counting, termed as Counting Transformer (CounTR), which explicitly capture the similarity between image patches or with given "exemplars" with the attention mechanism;(2) We adopt a two-stage training regime, that first pre-trains the model with self-supervised learning, and followed by supervised fine-tuning;(3) We propose a simple, scalable pipeline for synthesizing training images with a large number of instances or that from different semantic categories, explicitly forcing the model to make use of the given "exemplars";(4) We conduct thorough ablation studies on the large-scale counting benchmark, e.g. FSC-147, and demonstrate state-of-the-art performance on both zero and few-shot settings.
翻訳日:2023-06-05 20:56:32 公開日:2023-06-02
# Universal Mini-Batch ConsistencyとUnbiased Full Gradient Approximationを用いたスケーラブルなセット符号化

Scalable Set Encoding with Universal Mini-Batch Consistency and Unbiased Full Set Gradient Approximation ( http://arxiv.org/abs/2208.12401v4 )

ライセンス: Link先を確認
Jeffrey Willette, Seanie Lee, Bruno Andreis, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang(参考訳) 集合関数のミニバッチ一貫性(MBC)に関する最近の研究は、すべての分割に対して同じ出力を保証しつつ、分割された集合のチャンクを逐次処理し集約する必要性に注意を向けている。 しかし、既存のMBCアーキテクチャの制約は、表現力に制限のあるモデルにつながる。 さらに、事前の作業は、完全なセット勾配が必要な場合、トレーニング中に大きなセットを扱う方法に対処していない。 これらの問題に対処するために,MBC を満足しながら任意の非MBC コンポーネントと組み合わせて使用可能な集合関数のUniversally MBC (UMBC) クラスを提案し,より広い範囲の関数クラスを MBC 設定で使用できるようにする。 さらに,全設定勾配の偏りのない近似を与える効率の良いMBCトレーニングアルゴリズムを提案し,列車時間とテスト時間の両方において,任意の設定サイズに対してメモリオーバーヘッドが一定であることを示す。 画像補完,テキスト分類,教師なしクラスタリング,高分解能画像による癌検出など広範な実験を行い,スケーラブルな集合符号化フレームワークの効率と有効性を検証する。

Recent work on mini-batch consistency (MBC) for set functions has brought attention to the need for sequentially processing and aggregating chunks of a partitioned set while guaranteeing the same output for all partitions. However, existing constraints on MBC architectures lead to models with limited expressive power. Additionally, prior work has not addressed how to deal with large sets during training when the full set gradient is required. To address these issues, we propose a Universally MBC (UMBC) class of set functions which can be used in conjunction with arbitrary non-MBC components while still satisfying MBC, enabling a wider range of function classes to be used in MBC settings. Furthermore, we propose an efficient MBC training algorithm which gives an unbiased approximation of the full set gradient and has a constant memory overhead for any set size for both train- and test-time. We conduct extensive experiments including image completion, text classification, unsupervised clustering, and cancer detection on high-resolution images to verify the efficiency and efficacy of our scalable set encoding framework.
翻訳日:2023-06-05 20:56:16 公開日:2023-06-02
# 非複製系に対するボルンルール拡張とUnruh-DeWitt検出器への応用

Born rule extension for non-replicable systems and its consequences for Unruh-DeWitt detectors ( http://arxiv.org/abs/2210.13347v2 )

ライセンス: Link先を確認
Nicola Pranzini, Guillermo Garc\'ia-P\'erez, Esko Keski-Vakkuri, Sabrina Maniscalco(参考訳) ボルン規則は、量子系の観測可能量を測定する際に結果を得る確率を記述する。 検討中のシステムの多くのコピーを測定することでのみテストできるため、非複製システムに対して厳密に保持することはできない。 これらのシステムに対して, 繰り返し測定(rm)により測定結果の将来の統計を予測する手法を提案する。 RMを用いて得られた結果の統計値がボルン則と十分に類似している場合、後者を効果的に利用できることを示す。 本研究では,RM が必要とされる制御不能な環境(フィールド)と相互作用するシステム(検出器)の例として,無質量スカラー量子場と相互作用するUnruh-DeWitt 検出器に適用する。 観察者がRMの結果から何を学ぶかを分析すると、歴史に依存したRM確率がボルンの確率に近い状態が見つかる。 したがって、後者はすべての実用目的に使用できる。 最後に,Unruh効果をRMで観測できることを示す数値慣性・加速検出器について検討した。

The Born rule describes the probability of obtaining an outcome when measuring an observable of a quantum system. As it can only be tested by measuring many copies of the system under consideration, it cannot hold strictly for non-replicable systems. For these systems, we give a procedure to predict the future statistics of measurement outcomes through Repeated Measurements (RM). We prove that if the statistics of the results acquired via RM is sufficiently similar to that obtained by the Born rule, the latter can be used effectively. We apply our framework to a repeatedly measured Unruh-DeWitt detector interacting with a massless scalar quantum field, which is an example of a system (detector) interacting with an uncontrollable environment (field) for which using RM is necessary. Analysing what an observer learns from the RM outcomes, we find a regime where history-dependent RM probabilities are close to the Born ones. Consequently, the latter can be used for all practical purposes. Finally, we study numerically inertial and accelerated detectors showing that an observer can see the Unruh effect via RM.
翻訳日:2023-06-05 20:47:27 公開日:2023-06-02
# 自己調和型バリアハミルトニアンモンテカルロによる非バイアス制約サンプリング

Unbiased constrained sampling with Self-Concordant Barrier Hamiltonian Monte Carlo ( http://arxiv.org/abs/2210.11925v2 )

ライセンス: Link先を確認
Maxence Noble, Valentin De Bortoli, Alain Durmus(参考訳) 本稿では, hmcアルゴリズムのバージョンであるバリア・ハミルトン・モンテカルロ(bhmc)を提案する。これは,多様体上のギブス分布から$\pi$をサンプリングすることを目的としたもので, 自己一致障壁から導出されるヘッセン計量 $\mathfrak{g}$ を付与するものである。 我々の方法は、$\mathfrak{g}$からなるハミルトン力学に依存する。 したがって、$\mathrm{M}$を定義する制約を取り入れ、その基礎となる幾何学を活用できる。 しかし、対応するハミルトン力学はユークリッドの場合とは対照的に非分離正規微分方程式(ODE)によって定義される。 これは、HMC のリーマン多様体への既存の一般化における避けられないバイアスを意味する。 本稿では,この問題に対処するため,新しいフィルタステップである「進化チェックステップ」を提案する。 このステップは、連続BHMC(c-BHMC)と数値BHMC(n-BHMC)の2つのバージョンで実装されている。 我々の主な結果は、これらの2つの新しいアルゴリズムが$\pi$に関して可逆マルコフ連鎖を生成し、以前の実装と比較してバイアスを負わないことを示しています。 この結論は,ポリトープ上で定義される対象分布を考える数値実験によって裏付けられている。

In this paper, we propose Barrier Hamiltonian Monte Carlo (BHMC), a version of the HMC algorithm which aims at sampling from a Gibbs distribution $\pi$ on a manifold $\mathrm{M}$, endowed with a Hessian metric $\mathfrak{g}$ derived from a self-concordant barrier. Our method relies on Hamiltonian dynamics which comprises $\mathfrak{g}$. Therefore, it incorporates the constraints defining $\mathrm{M}$ and is able to exploit its underlying geometry. However, the corresponding Hamiltonian dynamics is defined via non separable Ordinary Differential Equations (ODEs) in contrast to the Euclidean case. It implies unavoidable bias in existing generalization of HMC to Riemannian manifolds. In this paper, we propose a new filter step, called "involution checking step", to address this problem. This step is implemented in two versions of BHMC, coined continuous BHMC (c-BHMC) and numerical BHMC (n-BHMC) respectively. Our main results establish that these two new algorithms generate reversible Markov chains with respect to $\pi$ and do not suffer from any bias in comparison to previous implementations. Our conclusions are supported by numerical experiments where we consider target distributions defined on polytopes.
翻訳日:2023-06-05 20:46:52 公開日:2023-06-02
# REV:自由テキスト合理化の情報理論評価

REV: Information-Theoretic Evaluation of Free-Text Rationales ( http://arxiv.org/abs/2210.04982v5 )

ライセンス: Link先を確認
Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha Swayamdipta(参考訳) 自由文有理数の生成は、説明可能なNLPへの有望なステップであるが、そのような有理数の評価は依然として課題である。 既存のメトリクスは主に、合理的性と与えられたラベルの関係を測定することに重点を置いています。 理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである。 本研究は,条件付きV情報を用いた情報理論の観点から検討する(Hewitt et al., 2021)。 より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外の理性理論において,ラベル関連情報量の定量化を行う。 思考の連鎖を含む推論タスクを伴う4つのベンチマーク実験は、既存のメトリクスと比較して合理性とラベルのペアを評価する上でのREVの有効性を示す。 さらに、REVは、有理性評価に関する人間の判断と整合性を示し、自由文有理性における新しい情報のより敏感な測定を提供する。 従来のパフォーマンス指標と並行して使用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。

Generating free-text rationales is a promising step towards explainable NLP, yet evaluating such rationales remains a challenge. Existing metrics have mostly focused on measuring the association between the rationale and a given label. We argue that an ideal metric should focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using conditional V-information (Hewitt et al., 2021). More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), to quantify the amount of new, label-relevant information in a rationale beyond the information already available in the input or the label. Experiments across four benchmarks with reasoning tasks, including chain-of-thought, demonstrate the effectiveness of REV in evaluating rationale-label pairs, compared to existing metrics. We further demonstrate REV is consistent with human judgments on rationale evaluations and provides more sensitive measurements of new information in free-text rationales. When used alongside traditional performance metrics, REV provides deeper insights into models' reasoning and prediction processes.
翻訳日:2023-06-05 20:46:08 公開日:2023-06-02
# 推論時間適応最適化による言語生成における統一的デトキサイゼーションとデバイアス

Unified Detoxifying and Debiasing in Language Generation via Inference-time Adaptive Optimization ( http://arxiv.org/abs/2210.04492v2 )

ライセンス: Link先を確認
Zonghan Yang, Xiaoyuan Yi, Peng Li, Yang Liu, Xing Xie(参考訳) 警告: 本論文は攻撃性とバイアスを示すモデル出力を含む。 近年,学習済みの言語モデル (PLM) は, 様々な自然言語生成(NLG)タスクにおいて, かなり流用なテキストを生成する能力に長けている。 それにもかかわらず、これらのモデルは、通常有毒な言語と社会的バイアスであるコーパスの訓練において有害なコンテンツを捕獲し、再現することが観察され、厳しい道徳的問題を引き起こしている。 倫理的NLGに関する以前の研究は、脱毒と脱湿を別々に取り組んだが、これは、脱酸したモデルが依然として毒性を示し、解毒したモデルが社会的バイアスをさらに悪化させることが問題である。 このような課題に対処するため,我々はuddiaと呼ばれるデトックス化・デバイアス化の最初の統一フレームワークを提案し,この2つの問題を出力空間の整流化として定式化する。 重み付き属性を混合したテキスト分布を学習するフレームワークを理論的に解釈する。 さらに、UDDIAは、トレーニングデータなしでパラメータ効率のよいチューニングスキーマに基づいて、デコード中に少数のパラメータのみを適応的に最適化する。 これにより、生成品質の損失が最小限に抑えられ、計算コストを許容して修正性能が向上する。 実験結果から, UDDIAは, いくつかの強いベースラインと比較して, 同時に脱ベン・消毒を達成し, 効率と効率のバランスを良くし, 実用的倫理的NLGへのさらなる一歩を踏み出した。

Warning: this paper contains model outputs exhibiting offensiveness and biases. Recently pre-trained language models (PLMs) have prospered in various natural language generation (NLG) tasks due to their ability to generate fairly fluent text. Nevertheless, these models are observed to capture and reproduce harmful contents in training corpora, typically toxic language and social biases, raising severe moral issues. Prior works on ethical NLG tackle detoxifying and debiasing separately, which is problematic since we find debiased models still exhibit toxicity while detoxified ones even exacerbate social biases. To address such a challenge, we propose the first unified framework of detoxifying and debiasing called UDDIA, which jointly formalizes these two problems as rectifying the output space. We theoretically interpret our framework as learning a text distribution mixing weighted attributes. Besides, UDDIA conducts adaptive optimization of only a few parameters during decoding based on a parameter-efficient tuning schema without any training data. This leads to minimal generation quality loss and improved rectification performance with acceptable computational cost. Experimental results demonstrate that compared to several strong baselines, UDDIA achieves debiasing and detoxifying simultaneously and better balances efficiency and effectiveness, taking a further step towards practical ethical NLG.
翻訳日:2023-06-05 20:45:35 公開日:2023-06-02
# 企業で説明可能なAIは必要か? 従業員の視点からみた課題・期待・可能性の検討

Do We Need Explainable AI in Companies? Investigation of Challenges, Expectations, and Chances from Employees' Perspective ( http://arxiv.org/abs/2210.03527v2 )

ライセンス: Link先を確認
Katharina Weitz, Chi Tai Dang, Elisabeth Andr\'e(参考訳) 企業における人工知能(AI)の採用は、ビジネスの成功の重要な要素になりつつある。 しかし、AIを使用することは、AIシステムの透明性と理解性を含む、企業とその従業員に新たな要件をもたらす。 説明可能なAI(XAI)の分野は、これらの問題に対処することを目指している。 しかし、現在の研究は主に実験室で行われており、実際の状況における研究結果の適用性を改善する必要がある。 そこで本論文では,従業員のX)AIに対するニーズと態度について考察する。 そこで我々は,(X)AIに関する従業員の視点を調査した。 以上の結果から,AIとXAIは従業員にとって重要な用語であると考えられた。 この認識は、AI技術に対する理解可能な洞察を提供することによって、XAIがAIの使用を成功させるための重要な第一歩である。 本稿では,企業を対象とした人間中心型XAI設計に向けた今後の研究の方向性について考察する。 当社のプロジェクトレポートは、従業員のニーズと(X)AIに対する態度に関する洞察を提供することで、企業や従業員の要求を満たすXAIソリューションの開発に貢献し、最終的にビジネスコンテキストにおけるAIテクノロジの採用を成功させる。

Companies' adoption of artificial intelligence (AI) is increasingly becoming an essential element of business success. However, using AI poses new requirements for companies and their employees, including transparency and comprehensibility of AI systems. The field of Explainable AI (XAI) aims to address these issues. Yet, the current research primarily consists of laboratory studies, and there is a need to improve the applicability of the findings to real-world situations. Therefore, this project report paper provides insights into employees' needs and attitudes towards (X)AI. For this, we investigate employees' perspectives on (X)AI. Our findings suggest that AI and XAI are well-known terms perceived as important for employees. This recognition is a critical first step for XAI to potentially drive successful usage of AI by providing comprehensible insights into AI technologies. In a lessons-learned section, we discuss the open questions identified and suggest future research directions to develop human-centered XAI designs for companies. By providing insights into employees' needs and attitudes towards (X)AI, our project report contributes to the development of XAI solutions that meet the requirements of companies and their employees, ultimately driving the successful adoption of AI technologies in the business context.
翻訳日:2023-06-05 20:45:11 公開日:2023-06-02
# 適応リーマン空間における自己教師付き連続グラフ学習

Self-Supervised Continual Graph Learning in Adaptive Riemannian Spaces ( http://arxiv.org/abs/2211.17068v2 )

ライセンス: Link先を確認
Li Sun, Junda Ye, Hao Peng, Feiyang Wang, Philip S. Yu(参考訳) 連続グラフ学習は、異なるタスクを持つグラフデータが順次やってくる様々な現実のアプリケーションにおいて、日常的にその役割を見出す。 先行作品の成功にもかかわらず、依然として大きな課題に直面している。 一方、既存の手法はゼロ曲率ユークリッド空間で作用し、今後のグラフ列で曲率が変化するという事実をほとんど無視する。 一方、文学における連続的な学習者は豊富なラベルに依存しているが、実際にはラベル付けグラフが特に困難である。 上記の課題に対処するために,適応リーマン空間における自己教師付き連続グラフ学習という,挑戦的で実用的な問題を検討することを提案する。 本稿では,新しい自己教師付きリーマングラフ連続学習者(riegrace)を提案する。 リーマン空間を各グラフに適応した学習曲率によって形作るために,まず適応リーマンGCN (Adaptive Riemannian GCN) とニューラル曲率アダプタを結合した統一GCNを設計する。 次に,ラベルのないローレンツ蒸留法を提案し,グラフシーケンスのための教師学習用AdaRGCNを作成する。 生徒は自らからの蒸留と教師からの蒸留を連続して行い、破滅的な忘れることなく知識を固める。 特に、リーマン空間におけるコントラスト蒸留に対する理論的に接地された一般化ローレンツ射影を提案する。 ベンチマークデータセットの大規模な実験は、RieGraceの優位性を示し、さらにグラフ列上での曲率の変化について検討する。

Continual graph learning routinely finds its role in a variety of real-world applications where the graph data with different tasks come sequentially. Despite the success of prior works, it still faces great challenges. On the one hand, existing methods work with the zero-curvature Euclidean space, and largely ignore the fact that curvature varies over the coming graph sequence. On the other hand, continual learners in the literature rely on abundant labels, but labeling graph in practice is particularly hard especially for the continuously emerging graphs on-the-fly. To address the aforementioned challenges, we propose to explore a challenging yet practical problem, the self-supervised continual graph learning in adaptive Riemannian spaces. In this paper, we propose a novel self-supervised Riemannian Graph Continual Learner (RieGrace). In RieGrace, we first design an Adaptive Riemannian GCN (AdaRGCN), a unified GCN coupled with a neural curvature adapter, so that Riemannian space is shaped by the learnt curvature adaptive to each graph. Then, we present a Label-free Lorentz Distillation approach, in which we create teacher-student AdaRGCN for the graph sequence. The student successively performs intra-distillation from itself and inter-distillation from the teacher so as to consolidate knowledge without catastrophic forgetting. In particular, we propose a theoretically grounded Generalized Lorentz Projection for the contrastive distillation in Riemannian space. Extensive experiments on the benchmark datasets show the superiority of RieGrace, and additionally, we investigate on how curvature changes over the graph sequence.
翻訳日:2023-06-05 20:38:55 公開日:2023-06-02
# 勾配領域重み付きガイド画像フィルタリング

Gradient Domain Weighted Guided Image Filtering ( http://arxiv.org/abs/2211.16796v2 )

ライセンス: Link先を確認
Bo Wang, Yihong Wang, Xiubao Sui, Yuan Liu, Qian Chen(参考訳) ガイド画像フィルタは画像処理においてよく知られた局所フィルタである。 しかし、ハロアーティファクトの存在は、この種のフィルターに関連する一般的な問題である。 本稿では,勾配情報を用いて画像のエッジを正確に識別するアルゴリズムを提案する。 さらに, 重み付き情報を用いてエッジ領域と平坦領域を区別し, エッジが鋭くなり, 平坦領域のぼやけが減少する。 このアプローチは、しばしばhaloアーティファクトにつながる端付近のぼやけを緩和する。 実験により,提案アルゴリズムは端面のハロアーティファクトを著しく抑制し,画像のデノゲーションとディテールエンハンスメントの両方に有効であることが示された。

Guided image filter is a well-known local filter in image processing. However, the presence of halo artifacts is a common issue associated with this type of filter. This paper proposes an algorithm that utilizes gradient information to accurately identify the edges of an image. Furthermore, the algorithm uses weighted information to distinguish flat areas from edge areas, resulting in sharper edges and reduced blur in flat areas. This approach mitigates the excessive blurring near edges that often leads to halo artifacts. Experimental results demonstrate that the proposed algorithm significantly suppresses halo artifacts at the edges, making it highly effective for both image denoising and detail enhancement.
翻訳日:2023-06-05 20:38:30 公開日:2023-06-02
# テキスト内分布検出のための多レベル知識蒸留

Multi-Level Knowledge Distillation for Out-of-Distribution Detection in Text ( http://arxiv.org/abs/2211.11300v3 )

ライセンス: Link先を確認
Qianhui Wu, Huiqiang Jiang, Haonan Yin, B\"orje F. Karlsson, Chin-Yew Lin(参考訳) 自己教師型表現学習は,分布外(OoD)検出において,分布内(ID)例のテキストのみを用いた貴重な要素であることが証明された。 これらのアプローチは、言語モデルをスクラッチからトレーニングするか、ID例を使ってトレーニング済みの言語モデルを微調整するか、あるいはOoDスコアとして言語モデルによって出力されるパープレキシティを判断する。 本稿では, 両OoD検出手法の相補的特性を解析し, 限界を緩和しつつ, 強度を統合した多段階の知識蒸留手法を提案する。 具体的には、教師として微調整モデルを用いて、IDの例についてランダムに初期化学生モデルを教える。 予測層蒸留の他に, 類似性に基づく中間層蒸留法を提案し, 教師モデルの表現空間を徹底的に探索する。 このようにして、学習した学生は、IDデータ多様体の外でOoD例を事前学習から継承した正規化でマッピングする能力を得ながら、IDデータ多様体をより良く表現することができる。 さらに、学生モデルはパラメータ学習中のID例しか見ず、OoD検出のためのより区別しやすい特徴を促進する。 我々は,複数のベンチマークデータセット,例えばCLINC150,SST,ROSTD,20 NewsGroups,AG Newsに対して広範な実験を行い,提案手法が新たな最先端性能をもたらすことを示す。 また、ChatGPTと人間の専門家による回答を区別するためのAIGC検出器としての利用についても検討する。 このモデルでは,Human ChatGPT Comparison Corpusのペア・エキスパート・タスクにおいて,人間の評価値を超えることが観察された。

Self-supervised representation learning has proved to be a valuable component for out-of-distribution (OoD) detection with only the texts of in-distribution (ID) examples. These approaches either train a language model from scratch or fine-tune a pre-trained language model using ID examples, and then take the perplexity output by the language model as OoD scores. In this paper, we analyze the complementary characteristics of both OoD detection methods and propose a multi-level knowledge distillation approach that integrates their strengths while mitigating their limitations. Specifically, we use a fine-tuned model as the teacher to teach a randomly initialized student model on the ID examples. Besides the prediction layer distillation, we present a similarity-based intermediate layer distillation method to thoroughly explore the representation space of the teacher model. In this way, the learned student can better represent the ID data manifold while gaining a stronger ability to map OoD examples outside the ID data manifold with the regularization inherited from pre-training. Besides, the student model sees only ID examples during parameter learning, further promoting more distinguishable features for OoD detection. We conduct extensive experiments over multiple benchmark datasets, i.e., CLINC150, SST, ROSTD, 20 NewsGroups, and AG News; showing that the proposed method yields new state-of-the-art performance. We also explore its application as an AIGC detector to distinguish between answers generated by ChatGPT and human experts. It is observed that our model exceeds human evaluators in the pair-expert task on the Human ChatGPT Comparison Corpus.
翻訳日:2023-06-05 20:38:19 公開日:2023-06-02
# 対話型機械翻訳における簡単なガイド付き復号法の提案

Easy Guided Decoding in Providing Suggestions for Interactive Machine Translation ( http://arxiv.org/abs/2211.07093v2 )

ライセンス: Link先を確認
Ke Wang, Xin Ge, Jiayi Wang, Yu Zhao, Yuqi Zhang(参考訳) 近年,機械翻訳技術は大きな進歩を遂げているが,誤りのない結果を保証することはできない。 人間の翻訳者は、コンピュータ翻訳の現場でエラーを修正するために機械翻訳のポスト編集を行う。 ポスト編集プロセスを促進するために、多くの作品が対話モードで機械翻訳を調査しており、機械は人間の編集によって制約された他の翻訳を自動的に洗練することができる。 翻訳提案(TS)は、人間の翻訳者を支援するインタラクティブモードとして、機械が人間の翻訳者によって選択された特定の不正確な単語やフレーズの代替語を生成する必要がある。 本稿では、ニューラルネットワーク翻訳(NMT)のパラメータ化目的関数を利用して、新たな制約付き復号アルゴリズム、すなわちPrefix Suffix Guided Decoding(PSGD)を提案する。 技術的制約付き復号法と比較すると、PSGD は平均 10.87$ BLEU と 8.62$ BLEU を WeTS と WMT 2022 Translation Suggestion データセットでそれぞれ改善し、WMT Translation Suggestion データセットでの平均 63.4% で復号時間オーバーヘッドを低減する。 さらに、TSベンチマークデータセットは、TSアノテートされたデータでトレーニングされた他の教師あり学習システムよりも優れている。

Machine translation technology has made great progress in recent years, but it cannot guarantee error free results. Human translators perform post editing on machine translations to correct errors in the scene of computer aided translation. In favor of expediting the post editing process, many works have investigated machine translation in interactive modes, in which machines can automatically refine the rest of translations constrained by human's edits. Translation Suggestion (TS), as an interactive mode to assist human translators, requires machines to generate alternatives for specific incorrect words or phrases selected by human translators. In this paper, we utilize the parameterized objective function of neural machine translation (NMT) and propose a novel constrained decoding algorithm, namely Prefix Suffix Guided Decoding (PSGD), to deal with the TS problem without additional training. Compared to the state of the art lexically constrained decoding method, PSGD improves translation quality by an average of $10.87$ BLEU and $8.62$ BLEU on the WeTS and the WMT 2022 Translation Suggestion datasets, respectively, and reduces decoding time overhead by an average of 63.4% tested on the WMT translation datasets. Furthermore, on both of the TS benchmark datasets, it is superior to other supervised learning systems trained with TS annotated data.
翻訳日:2023-06-05 20:37:41 公開日:2023-06-02
# DiffPhase: 生成拡散に基づくSTFT位相検索

DiffPhase: Generative Diffusion-based STFT Phase Retrieval ( http://arxiv.org/abs/2211.04332v2 )

ライセンス: Link先を確認
Tal Peer, Simon Welker, Timo Gerkmann(参考訳) 拡散確率モデルは最近、音声強調や合成を含む様々なタスクで使われている。 生成的アプローチとして、拡散モデルは既存のデータに基づいて欠落データを生成する計算問題に特に適していることが示されている。 位相検索は本質的に、与えられた大きさに基づいて位相情報を生成する必要がある計算問題である。 本研究は,STFT位相探索に特化して音声強調拡散モデルを適用し,音声領域における先行研究に基づいて構築する。 音声品質とインテリジェンス指標を用いた評価は, 位相探索作業に拡散アプローチが適していることを示し, 性能は古典的手法と近代的手法に勝っている。

Diffusion probabilistic models have been recently used in a variety of tasks, including speech enhancement and synthesis. As a generative approach, diffusion models have been shown to be especially suitable for imputation problems, where missing data is generated based on existing data. Phase retrieval is inherently an imputation problem, where phase information has to be generated based on the given magnitude. In this work we build upon previous work in the speech domain, adapting a speech enhancement diffusion model specifically for STFT phase retrieval. Evaluation using speech quality and intelligibility metrics shows the diffusion approach is well-suited to the phase retrieval task, with performance surpassing both classical and modern methods.
翻訳日:2023-06-05 20:37:14 公開日:2023-06-02
# デチューン2次系における解析解

An Analytical Solution in Detuned Two Level Systems ( http://arxiv.org/abs/2211.03342v2 )

ライセンス: Link先を確認
Zhi-Cheng He, Yi-Xuan Wu and Zheng-Yuan Xue(参考訳) 2レベルハミルトニアンの進化を見つけることは、量子実験制御の必要性から、量子計算と量子精度操作において非常に重要である。 しかし、任意の時間依存2レベルハミルトニアンのシュル=オディンガー方程式は、異なる時間における非可換ハミルトニアンのため、ほとんど解けない。 本稿では、いくつかの制限のある一般二段階系に対するシュリンガー方程式の厳密な解を拡張して実演する。 この解析解には多くの操作パラメータといくつかの境界制限があり、多くのアプリケーションを駆動することができる。 さらに,提案手法を広く活用した適応能力を示し,実験ハミルトニアンのほとんどに適応させる。

Finding the evolution of two level Hamiltonian is of great importance in quantum computation and quantum precision manipulation due to the requirement of quantum experiment control. However, the Schr\"odinger equation of an arbitrary time-dependent two level Hamiltonian is hardly solvable due to its non-commutativity Hamiltonian in different times. In this article, we expand and demonstrate an exact solution of Schr\"odinger equation respect to general two level systems with a few limitations. This analytical solution has lots of manipulative parameters and a few boundary restrictions, which could drive many applications. Furthermore, we show the adaptive capacity of our scheme, which demonstrated the widely use of our scheme, and make it suitable for most of experiment Hamiltonian directly.
翻訳日:2023-06-05 20:37:01 公開日:2023-06-02
# KLディバージェンスにおける不コンパクトランゲヴィンアルゴリズムとスコアベース生成モデルの収束性

Convergence of the Inexact Langevin Algorithm and Score-based Generative Models in KL Divergence ( http://arxiv.org/abs/2211.01512v2 )

ライセンス: Link先を確認
Kaylee Yingxi Yang, Andre Wibisono(参考訳) 推定スコア関数をサンプリングに利用した場合,ild (inexact langevin dynamics) とila (inexact langevin algorithm) とsgm (sgm) について検討を行った。 我々の焦点は、KL(Kulback-Leibler)の発散の観点から、安定したバイアス収束を保証することにある。 これらの保証を達成するために、私たちは2つの重要な仮定を課します。 1)ターゲット分布は対数ソボレフ不等式(LSI)を満たす。 2)スコア推定器は、有界モーメント生成関数(MGF)誤差を示す。 特に、我々が採用しているMGF誤差仮定は、既存の文献で用いられる$L^\infty$エラー仮定よりも寛大である。 しかし、最近の研究で使われている$L^2$の誤差仮定よりも強く、しばしば不安定な境界につながる。 本研究では,mgf誤差の仮定を満足する正確なスコア推定器を得る方法について検討する。 具体的には,核密度推定に基づく単純な推定器が,個体群レベルでのサブガウシアンターゲット分布のmgf誤差仮定を満たしていることを示す。

We study the Inexact Langevin Dynamics (ILD), Inexact Langevin Algorithm (ILA), and Score-based Generative Modeling (SGM) when utilizing estimated score functions for sampling. Our focus lies in establishing stable biased convergence guarantees in terms of the Kullback-Leibler (KL) divergence. To achieve these guarantees, we impose two key assumptions: 1) the target distribution satisfies the log-Sobolev inequality (LSI), and 2) the score estimator exhibits a bounded Moment Generating Function (MGF) error. Notably, the MGF error assumption we adopt is more lenient compared to the $L^\infty$ error assumption used in existing literature. However, it is stronger than the $L^2$ error assumption utilized in recent works, which often leads to unstable bounds. We explore the question of how to obtain a provably accurate score estimator that satisfies the MGF error assumption. Specifically, we demonstrate that a simple estimator based on kernel density estimation fulfills the MGF error assumption for sub-Gaussian target distribution, at the population level.
翻訳日:2023-06-05 20:36:51 公開日:2023-06-02
# モーダル論理による統計的因果関係の定式化

Formalizing Statistical Causality via Modal Logic ( http://arxiv.org/abs/2210.16751v4 )

ライセンス: Link先を確認
Yusuke Kawamoto, Tetsuya Sato, Kohei Suenaga(参考訳) 統計的因果関係を記述・説明するための形式言語を提案する。 具体的には,統計的因果関係言語(StaCL)を定義し,因果関係の条件を規定する。 staclは、クリプケモデルにおいて、異なる可能な世界における確率分布間の因果特性を表現するために介入のためにモード演算子を組み込んでいる。 確率分布,介入,因果述語に対する公理を StaCL 式を用いて定式化する。 これらの公理はパールのdo-calculusの規則を導出するのに十分表現的である。 最後に,StaCLを用いて統計的因果推論の正しさを特定・説明できることを示す。

We propose a formal language for describing and explaining statistical causality. Concretely, we define Statistical Causality Language (StaCL) for expressing causal effects and specifying the requirements for causal inference. StaCL incorporates modal operators for interventions to express causal properties between probability distributions in different possible worlds in a Kripke model. We formalize axioms for probability distributions, interventions, and causal predicates using StaCL formulas. These axioms are expressive enough to derive the rules of Pearl's do-calculus. Finally, we demonstrate by examples that StaCL can be used to specify and explain the correctness of statistical causal inference.
翻訳日:2023-06-05 20:36:32 公開日:2023-06-02
# フェデレーション学習における局所モデル再構築攻撃とその利用

Local Model Reconstruction Attacks in Federated Learning and their Uses ( http://arxiv.org/abs/2210.16205v2 )

ライセンス: Link先を確認
Ilias Driouich, Chuan Xu, Giovanni Neglia, Frederic Giroire, Eoin Thomas(参考訳) 本稿では,対象とするクライアントとサーバの間で交換されたメッセージを,真に反抗する相手が盗聴し,被害者のローカル/パーソナライズされたモデルを再構築する,フェデレーション学習のための局所モデル再構成攻撃の研究を開始する。 ローカルモデル再構築攻撃は、ローカルモデルがクライアントのデータのみに依存し、サーバが学習したグローバルモデルよりも多くのプライベート情報をリークするので、敵が他の古典的攻撃を効果的に引き起こすことができる。 さらに,局所モデル再構成攻撃を利用したフェデレーション学習におけるモデルに基づく属性推論攻撃を提案する。 この属性推論攻撃の解析的低バウンドを提供する。 実世界のデータセットを用いた実証実験の結果、我々の局所的再構築攻撃は回帰と分類の両方に有効であることを確認した。 さらに,フェデレーション学習における最先端攻撃に対する新たな属性推論攻撃のベンチマークを行った。 我々の攻撃は、特にクライアントのデータセットが不均一である場合に、高い再構成精度をもたらす。 我々の研究は、FLのプライバシーリスクを効果的に定量化するために、強力で説明可能な攻撃を設計するための新しい角度を提供する。

In this paper, we initiate the study of local model reconstruction attacks for federated learning, where a honest-but-curious adversary eavesdrops the messages exchanged between a targeted client and the server, and then reconstructs the local/personalized model of the victim. The local model reconstruction attack allows the adversary to trigger other classical attacks in a more effective way, since the local model only depends on the client's data and can leak more private information than the global model learned by the server. Additionally, we propose a novel model-based attribute inference attack in federated learning leveraging the local model reconstruction attack. We provide an analytical lower-bound for this attribute inference attack. Empirical results using real world datasets confirm that our local reconstruction attack works well for both regression and classification tasks. Moreover, we benchmark our novel attribute inference attack against the state-of-the-art attacks in federated learning. Our attack results in higher reconstruction accuracy especially when the clients' datasets are heterogeneous. Our work provides a new angle for designing powerful and explainable attacks to effectively quantify the privacy risk in FL.
翻訳日:2023-06-05 20:36:22 公開日:2023-06-02
# インフレーションの絡み合い

Inflationary entanglement ( http://arxiv.org/abs/2212.06448v2 )

ライセンス: Link先を確認
Alessio Belfiglio, Orlando Luongo, Stefano Mancini(参考訳) インフレーション時の粒子生成における幾何補正による絡み合いについて検討した。 そこで我々は,時空のスカラー曲率と非最小に結合した単場インフレーションシナリオを提案する。 粒子生成は純粋に幾何学的であり、ボゴルボフ係数をゼロに設定し、時空の摂動に関連する$S$行列を計算し、それはインフラトンゆらぎに遡る。 対応する粒子密度は、宇宙の進化の原始時間で研究される非零の絡み合いエントロピーをもたらす。 ダークマターの観点から粒子候補をモデル化する可能性について論じる。 均質な動的背景自由度に対する不均一性の古典的逆反応も研究され、スローロール法で定量化されている。

We investigate the entanglement due to geometric corrections in particle creation during inflation. To do so, we propose a single-field inflationary scenario, nonminimally coupled to the scalar curvature of spacetime. We require particle production to be purely geometric, setting to zero the Bogolubov coefficients and computing the $S$ matrix associated to spacetime perturbations, which are traced back to inflaton fluctuations. The corresponding particle density leads to a nonzero entanglement entropy whose effects are investigated at primordial time of Universe evolution. The possibility of modeling our particle candidate in terms of dark matter is discussed. The classical back-reaction of inhomogeneities on the homogeneous dynamical background degrees of freedom is also studied and quantified in the slow-roll regime.
翻訳日:2023-06-05 20:28:42 公開日:2023-06-02
# PrefRec: 長期ユーザエンゲージメント強化のための人間優先型レコメンダシステム

PrefRec: Recommender Systems with Human Preferences for Reinforcing Long-term User Engagement ( http://arxiv.org/abs/2212.02779v2 )

ライセンス: Link先を確認
Wanqi Xue, Qingpeng Cai, Zhenghai Xue, Shuo Sun, Shuchang Liu, Dong Zheng, Peng Jiang, Kun Gai, Bo An(参考訳) 現在のレコメンダシステムの進歩は、即時エンゲージメントの最適化に著しく成功している。 しかしながら、より望ましいパフォーマンス指標である長期的なユーザエンゲージメントは、改善が難しいままです。 一方、近年の強化学習(RL)アルゴリズムは、様々な長期目標最適化タスクにおいて有効性を示している。 このため、RLは長期ユーザーエンゲージメントを最適化するための有望なフレームワークとして広く考えられている。 有望ではあるが、rlの応用はよく設計された報酬に大きく依存するが、長期ユーザーエンゲージメントに関連する報酬の設計は極めて困難である。 この問題を軽減するために,RLレコメンダシステムは,明確に定義された報酬ではなく,ユーザの過去の行動に対する嗜好から学習することができる,人間の嗜好(あるいは嗜好に基づくレコメンダシステム)を備えた新しいパラダイムを提案する。 このような好みは、専門家の知識を必要としないため、クラウドソーシングのような技術を通じて簡単にアクセスできます。 prefrecでは、複雑な報酬エンジニアリングを避けながら、長期目標の最適化にrlの利点を完全に活用できます。 PrefRecは好みを使って報酬関数をエンドツーエンドで自動的にトレーニングする。 報酬関数は、レコメンデーションポリシーをトレーニングするための学習信号を生成するために使用される。 さらに,付加価値関数,期待回帰および報奨モデルを用いたPrefRecの効率的な最適化手法を設計し,性能向上を図る。 我々は,様々な長期ユーザエンゲージメント最適化タスクについて実験を行う。 その結果、PrefRecはすべてのタスクにおいて従来の最先端メソッドよりも大幅に優れていた。

Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Though promising, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, recommender systems with human preferences (or Preference-based Recommender systems), which allows RL recommender systems to learn from preferences about users historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. We conduct experiments on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
翻訳日:2023-06-05 20:28:12 公開日:2023-06-02
# 一般3次元形状のオンラインパッケージングのための物理的に実現可能なスキルの学習

Learning Physically Realizable Skills for Online Packing of General 3D Shapes ( http://arxiv.org/abs/2212.02094v2 )

ライセンス: Link先を確認
Hang Zhao, Zherong Pan, Yang Yu, Kai Xu(参考訳) 本研究では,不規則な3次元形状に対するオンラインパッキングスキルの学習問題について検討する。 目的は、任意の形状の3Dオブジェクトのシーケンスを、オブジェクトシーケンスの部分的な観察のみで指定されたコンテナに連続的に移動させることである。 一方、物理力学や配置の制約など、物理的な実現可能性を考慮している。 充填ポリシーは、充填対象の3d形状を理解し、物理的に実現可能な方法でコンテナに収容するための効果的な決定を行う必要がある。 政策学習のための強化学習(RL)パイプラインを提案する。 複雑な不規則な幾何学と不完全な対象配置は、巨大な解空間をもたらす。 このような空間での直接訓練は禁断のデータ集約である。 そこで本研究では,rlの動作空間と学習負担を軽減するための提案手法を提案する。 パラメータ化されたポリシーが学習され、候補から最適な配置を選択する。 非同期RLアクセラレーションの効率的な方法とシミュレーション可能なトレーニングシーケンスのデータ準備プロセスを備え,48時間以内に物理ベースの環境で成熟したパッキングポリシーを訓練することができる。 各種実生活形状データセットの広範囲な評価と最先端のベースラインとの比較により,本手法が全データセット上で最高のパフォーマンスのベースラインを少なくとも12.8%上回っていることを示す。

We study the problem of learning online packing skills for irregular 3D shapes, which is arguably the most challenging setting of bin packing problems. The goal is to consecutively move a sequence of 3D objects with arbitrary shapes into a designated container with only partial observations of the object sequence. Meanwhile, we take physical realizability into account, involving physics dynamics and constraints of a placement. The packing policy should understand the 3D geometry of the object to be packed and make effective decisions to accommodate it in the container in a physically realizable way. We propose a Reinforcement Learning (RL) pipeline to learn the policy. The complex irregular geometry and imperfect object placement together lead to huge solution space. Direct training in such space is prohibitively data intensive. We instead propose a theoretically-provable method for candidate action generation to reduce the action space of RL and the learning burden. A parameterized policy is then learned to select the best placement from the candidates. Equipped with an efficient method of asynchronous RL acceleration and a data preparation process of simulation-ready training sequences, a mature packing policy can be trained in a physics-based environment within 48 hours. Through extensive evaluation on a variety of real-life shape datasets and comparisons with state-of-the-art baselines, we demonstrate that our method outperforms the best-performing baseline on all datasets by at least 12.8% in terms of packing utility.
翻訳日:2023-06-05 20:27:22 公開日:2023-06-02
# 長期電池劣化予測のための知識伝達を持つ拡張ガウス過程力学モデル

Enhanced Gaussian Process Dynamical Models with Knowledge Transfer for Long-term Battery Degradation Forecasting ( http://arxiv.org/abs/2212.01609v3 )

ライセンス: Link先を確認
Wei W. Xing, Ziyang Zhang, Akeel A. Shah(参考訳) 電気自動車のバッテリーの寿命や寿命の予測は重要かつ困難な問題であり、最近では機械学習を用いて繰り返しサイクリング中の健康状態の進化を予測するために主にアプローチしている。 特にバッテリ寿命の早い段階で、予測推定の精度を向上させるために、多くのアルゴリズムがバッテリ管理システムが収集したデータから利用できる機能を組み込んでいる。 複数のバッテリデータセットが、ボールパーク推定に有用な、寿命の終わりの直接予測に使われない限り、このようなアプローチは、将来のサイクルでは分かっていないため、実現不可能である。 本稿では,ガウス過程力学モデル(GPDM)を用いて,この制限を克服できる高精度な手法を開発する。 観測可能座標と潜在座標の間のより表現力のある共分散構造に対するGPDMのカーネル化版を導入する。 我々は、このアプローチとトランスファー学習を組み合わせることで、健康状態から終末期までを追跡する。 このメソッドは、データを利用できるまでの時間以上の値を必要とせずに、異なる物理オブザーバブルとして機能を組み込むことができる。 転送学習は、同様の電池のデータを用いてハイパーパラメータの学習を改善するために使用される。 ガウス過程モデルや深い畳み込みおよび再帰的ネットワークを含む現代のベンチマークアルゴリズムに対するアプローチの精度と優位性は、3つのデータセット、特にバッテリー寿命の初期段階で実証されている。

Predicting the end-of-life or remaining useful life of batteries in electric vehicles is a critical and challenging problem, predominantly approached in recent years using machine learning to predict the evolution of the state-of-health during repeated cycling. To improve the accuracy of predictive estimates, especially early in the battery lifetime, a number of algorithms have incorporated features that are available from data collected by battery management systems. Unless multiple battery data sets are used for a direct prediction of the end-of-life, which is useful for ball-park estimates, such an approach is infeasible since the features are not known for future cycles. In this paper, we develop a highly-accurate method that can overcome this limitation, by using a modified Gaussian process dynamical model (GPDM). We introduce a kernelised version of GPDM for a more expressive covariance structure between both the observable and latent coordinates. We combine the approach with transfer learning to track the future state-of-health up to end-of-life. The method can incorporate features as different physical observables, without requiring their values beyond the time up to which data is available. Transfer learning is used to improve learning of the hyperparameters using data from similar batteries. The accuracy and superiority of the approach over modern benchmarks algorithms including a Gaussian process model and deep convolutional and recurrent networks are demonstrated on three data sets, particularly at the early stages of the battery lifetime.
翻訳日:2023-06-05 20:27:02 公開日:2023-06-02
# 異なる量子エミッタからの2光子干渉の特異スペクトル解析

Singular Spectrum Analysis of Two Photon Interference from Distinct Quantum Emitters ( http://arxiv.org/abs/2212.00889v2 )

ライセンス: Link先を確認
Rocco Duquennoy, Maja Colautti, Pietro Lombardi, Vincenzo Berardi, Ilaria Gianani, Costanza Toninelli, and Marco Barbieri(参考訳) 2光子干渉は多くの量子フォトニクスデバイスの機能の下にある。 また、異なる光子の区別不能性をテストするための顕著なツールとしても機能する。 しかし、時間スペクトルプロファイルがより関与するにつれて、関連するパラメータ、特に中心周波数差の抽出は困難に陥る可能性がある。 パラメトリックなアプローチでは、これらは限定カウント統計と組み合わせた網羅的なモデルの必要性から生じる。 本稿では, 半パラメトリック法に基づく周波数分離評価におけるこれらの効果を短縮する解について述べる。 2つの独立固体エミッタからの2つの光子の量子干渉パターンの時間トレースは、スペクトル内容を検査する前に特異スペクトル分析によって前処理される。 このアプローチでは、エンベロープとノイズの両方から関連する振動を、フィッティングに頼ることなく取り出すことができる。 これにより、量子エミッタの堅牢で効率的なオンライン監視が可能になる。

Two-photon interference underlies the functioning of many quantum photonics devices. It also serves as the prominent tool for testing the indistinguishability of distinct photons. However, as their time-spectral profile becomes more involved, extracting relevant parameters, foremost the central frequency difference, may start suffering difficulties. In a parametric approach, these arise from the need for an exhaustive model combined with limited count statistics. Here we discuss a solution to curtail these effects on the evaluation of frequency separation relying on a semiparametric method. The time trace of the quantum interference pattern of two photons from two independent solid-state emitters is preprocessed by means of singular spectral analysis before inspecting its spectral content. This approach allows to single out the relevant oscillations from both the envelope and the noise, without resorting to fitting. This opens the way for robust and efficient on-line monitoring of quantum emitters.
翻訳日:2023-06-05 20:26:38 公開日:2023-06-02
# マルチンの高次元サンプリング:アクティブな場合、受動的にとどまるより効率が低い

Margin-based sampling in high dimensions: When being active is less efficient than staying passive ( http://arxiv.org/abs/2212.00772v2 )

ライセンス: Link先を確認
Alexandru Tifrea, Jacob Clarysse, Fanny Yang(参考訳) 同じラベル付け予算を考えると、マージンベースのアクティブラーニングのようなアクティブラーニング(al)アルゴリズムは、計算コストが高いにもかかわらず、パッシブラーニング(pl)よりも優れた予測性能を達成すると広く信じられている。 最近の実証的な証拠から、この付加的なコストは、マージンベースのalはplよりもさらに悪くなることがあるため、無駄である可能性が示唆されている。 既存の研究は低次元状態において異なる説明を提供するが、基礎となるメカニズムは高次元では全く異なることを示し、我々はPLがノイズのないデータやサンプリングのためのベイズ最適決定境界を用いても利得ベースALより優れていることをロジスティック回帰として証明する。 この証明からの洞察は、クラス間の分離が小さいと、この高次元現象が悪化することを示している。 この直感は、ファイナンスや組織学、化学、コンピュータビジョンなど、さまざまな応用にまたがる20の高次元データセットの実験と相関する。

It is widely believed that given the same labeling budget, active learning (AL) algorithms like margin-based active learning achieve better predictive performance than passive learning (PL), albeit at a higher computational cost. Recent empirical evidence suggests that this added cost might be in vain, as margin-based AL can sometimes perform even worse than PL. While existing works offer different explanations in the low-dimensional regime, this paper shows that the underlying mechanism is entirely different in high dimensions: we prove for logistic regression that PL outperforms margin-based AL even for noiseless data and when using the Bayes optimal decision boundary for sampling. Insights from our proof indicate that this high-dimensional phenomenon is exacerbated when the separation between the classes is small. We corroborate this intuition with experiments on 20 high-dimensional datasets spanning a diverse range of applications, from finance and histology to chemistry and computer vision.
翻訳日:2023-06-05 20:26:25 公開日:2023-06-02
# swl-adapt: クロスユーザウェアラブルヒューマンアクティビティ認識のためのサンプル重み学習を用いた教師なしドメイン適応モデル

SWL-Adapt: An Unsupervised Domain Adaptation Model with Sample Weight Learning for Cross-User Wearable Human Activity Recognition ( http://arxiv.org/abs/2212.00724v2 )

ライセンス: Link先を確認
Rong Hu, Ling Chen, Shenghuan Miao, Xing Tang(参考訳) 実際に、ウェアラブルヒューマンアクティビティ認識(WHAR)モデルは、通常、ユーザの分散により、新しいユーザのパフォーマンス劣化に直面します。 非教師なしドメイン適応(UDA)はアノテーション不足下でのユーザ間WHARの自然な解決策となる。 既存のUDAモデルは、通常、差別化のない領域にサンプルを並べるが、サンプルの違いを無視する。 本稿では、ユーザ間WHARのためのサンプル重み学習(SWL-Adapt)を用いた教師なしドメイン適応モデルを提案する。 swl-adaptは、パラメータ化されたネットワークで各サンプルの分類損失とドメイン識別損失に応じてサンプル重みを計算する。 このネットワークのエンドツーエンドを学習するために、メタ最適化に基づく更新ルールを導入し、選択した擬似ラベル対象サンプルのメタ分類損失を導出する。 したがって,本ネットワークは,ユーザ間WHARタスクに従って重み付け関数に適合し,特定のシナリオに固定された既存のサンプル識別規則よりも優れている。 3つの公開WHARデータセットに対する大規模な実験により、SWL-Adaptは、クロスユーザーWHARタスクにおける最先端のパフォーマンスを達成し、それぞれ平均3.1%と5.3%の精度で最高のベースラインを上回った。

In practice, Wearable Human Activity Recognition (WHAR) models usually face performance degradation on the new user due to user variance. Unsupervised domain adaptation (UDA) becomes the natural solution to cross-user WHAR under annotation scarcity. Existing UDA models usually align samples across domains without differentiation, which ignores the difference among samples. In this paper, we propose an unsupervised domain adaptation model with sample weight learning (SWL-Adapt) for cross-user WHAR. SWL-Adapt calculates sample weights according to the classification loss and domain discrimination loss of each sample with a parameterized network. We introduce the meta-optimization based update rule to learn this network end-to-end, which is guided by meta-classification loss on the selected pseudo-labeled target samples. Therefore, this network can fit a weighting function according to the cross-user WHAR task at hand, which is superior to existing sample differentiation rules fixed for special scenarios. Extensive experiments on three public WHAR datasets demonstrate that SWL-Adapt achieves the state-of-the-art performance on the cross-user WHAR task, outperforming the best baseline by an average of 3.1% and 5.3% in accuracy and macro F1 score, respectively.
翻訳日:2023-06-05 20:26:07 公開日:2023-06-02
# すべてを支配するリスク:リスク回避によるオフライン強化学習の分散的変化に対処する

One Risk to Rule Them All: Addressing Distributional Shift in Offline Reinforcement Learning via Risk-Aversion ( http://arxiv.org/abs/2212.00124v2 )

ライセンス: Link先を確認
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) オフライン強化学習(RL)は、オンライン探索が不可能な安全クリティカルドメインに適している。 このような領域では、意思決定は破滅的な結果のリスクを考慮すべきである。 言い換えれば、意思決定はリスク回避であるべきです。 オフラインRLのさらなる課題は、分散シフトを避けることであり、すなわち、ポリシーが訪れた状態-アクションペアがデータセットの近くにあることを保証することである。 オフラインRLのリスクに関する以前の研究は、オフラインRL技術(分散シフトを避けるために)とリスクに敏感なRLアルゴリズム(リスク回避を達成するために)を組み合わせる。 本研究では,これらの問題に共同で対処するメカニズムとしてリスク回避を提案する。 本稿では, モデルベースアプローチを提案するとともに, モデルアンサンブルを用いてててんかんの不確実性を推定する。 我々はリスク回避政策を訓練し、高い不確実性行動を避ける。 エピステマ性不確実性へのリスク回避は、データセットがカバーしていない領域がエピステマ性不確実性が高いため、分布シフトを妨げる。 相対的不確実性へのリスク回避は、環境確率性のために本質的に危険である行動を妨げる。 したがって, リスク回避を導入するだけで, リスク回避の達成に加えて, 分布シフトを回避できる。 我々のアルゴリズムである1R2Rは、決定論的ベンチマークにおいて高い性能を達成し、確率的領域におけるリスクに敏感な目標に対する既存のアプローチよりも優れている。

Offline reinforcement learning (RL) is suitable for safety-critical domains where online exploration is not feasible. In such domains, decision-making should take into consideration the risk of catastrophic outcomes. In other words, decision-making should be risk-averse. An additional challenge of offline RL is avoiding distributional shift, i.e. ensuring that state-action pairs visited by the policy remain near those in the dataset. Previous works on risk in offline RL combine offline RL techniques (to avoid distributional shift), with risk-sensitive RL algorithms (to achieve risk-aversion). In this work, we propose risk-aversion as a mechanism to jointly address both of these issues. We propose a model-based approach, and use an ensemble of models to estimate epistemic uncertainty, in addition to aleatoric uncertainty. We train a policy that is risk-averse, and avoids high uncertainty actions. Risk-aversion to epistemic uncertainty prevents distributional shift, as areas not covered by the dataset have high epistemic uncertainty. Risk-aversion to aleatoric uncertainty discourages actions that are inherently risky due to environment stochasticity. Thus, by only introducing risk-aversion, we avoid distributional shift in addition to achieving risk-aversion to aleatoric risk. Our algorithm, 1R2R, achieves strong performance on deterministic benchmarks, and outperforms existing approaches for risk-sensitive objectives in stochastic domains.
翻訳日:2023-06-05 20:25:44 公開日:2023-06-02
# 数学モデリングの失われた芸術

The Lost Art of Mathematical Modelling ( http://arxiv.org/abs/2301.08559v2 )

ライセンス: Link先を確認
Linn\'ea Gyllingberg, Abeba Birhane, and David J.T. Sumpter(参考訳) 現代の機械学習の急速な発展を踏まえた数学的生物学の批評を提供する。 我々は,(1)定式化モデル,(2)分析モデル,(3)数理生物学固有のモデルとデータとの適合性,比較という3つのモデリング活動の中で,現在,(1)のコストで活動に集中しすぎていることを論じる。 この傾向は、任意の生物学的現象が無限に異なる方法でモデル化できることに気付き、オープン/複数主義的アプローチを採用することで逆転することができる。 魚の移動をケーススタディとして使用したオープンアプローチを説明し、数学的生物学を妨げる落とし穴(普遍主義、モデルのモデルの作成など)を例示する。 そして、失われた芸術、すなわち創造的な数学的モデリングを再発見する方法を尋ねる。 この記事はエドマンド・クランプの思い出に捧げられている。

We provide a critique of mathematical biology in light of rapid developments in modern machine learning. We argue that out of the three modelling activities -- (1) formulating models; (2) analysing models; and (3) fitting or comparing models to data -- inherent to mathematical biology, researchers currently focus too much on activity (2) at the cost of (1). This trend, we propose, can be reversed by realising that any given biological phenomena can be modelled in an infinite number of different ways, through the adoption of an open/pluralistic approach. We explain the open approach using fish locomotion as a case study and illustrate some of the pitfalls -- universalism, creating models of models, etc. -- that hinder mathematical biology. We then ask how we might rediscover a lost art: that of creative mathematical modelling. This article is dedicated to the memory of Edmund Crampin.
翻訳日:2023-06-05 20:19:44 公開日:2023-06-02
# イテレーションの日陰:elgotからkleeneへ

Shades of Iteration: from Elgot to Kleene ( http://arxiv.org/abs/2301.06202v2 )

ライセンス: Link先を確認
Sergey Goncharov(参考訳) 反復の記法は、最も一般的なエルゴット反復から非常に特定のクリーネ反復まで様々である。 エルゴット反復の基本的な性質はブルームとesikによって反復論の形で広く研究され、一方クリーネ反復はオートマトン理論、正規表現、クリーネ代数のような(型なし)形式論の積分部分として非常に人気になった。 ここで、エルゴット反復とクリーネ反復の間にそれぞれエルゴットモナドとクリーネモナドの形で公式な接続を確立する。 我々はまた、クリーネモナドのように代数的な用語で比較的単純な記述を持つ新しい時間モナドのクラスも導入する。 エルゴット・モナド(elgot monads)と同様に、 while-monads は、有意義に while-loops をサポートするが kleene algebra law に失敗するかもしれない、あるいは kleen iteration operator を完全にサポートしないような、多種多様なモデルをカバーする。

Notions of iteration range from the arguably most general Elgot iteration to a very specific Kleene iteration. The fundamental nature of Elgot iteration has been extensively explored by Bloom and Esik in the form of iteration theories, while Kleene iteration became extremely popular as an integral part of (untyped) formalisms, such as automata theory, regular expressions and Kleene algebra. Here, we establish a formal connection between Elgot iteration and Kleene iteration in the form of Elgot monads and Kleene monads, respectively. We also introduce a novel class of while-monads, which like Kleene monads admit a relatively simple description in algebraic terms. Like Elgot monads, while-monads cover a large variety of models that meaningfully support while-loops, but may fail the Kleene algebra laws, or even fail to support a Kleen iteration operator altogether.
翻訳日:2023-06-05 20:19:28 公開日:2023-06-02
# 自己回帰変換器と条件付き正規化フローを用いた階層時系列のエンドツーエンドモデリング

End-to-End Modeling Hierarchical Time Series Using Autoregressive Transformer and Conditional Normalizing Flow based Reconciliation ( http://arxiv.org/abs/2212.13706v2 )

ライセンス: Link先を確認
Shiyu Wang, Fan Zhou, Yinbo Sun, Lintao Ma, James Zhang, Yangfei Zheng, Bo Zheng, Lei Lei, Yun Hu(参考訳) 階層構造を持つ多変量時系列予測は、実世界のアプリケーションで広く普及し、階層構造の各レベルを予測するだけでなく、すべての予測を調整して一貫性を確保すること、すなわち階層的階層性制約を満たすことを要求する。 さらに、レベル間の統計特性の差は大きく、非ガウス分布と非線形相関によって悪化する。 そこで本稿では,並列性を確保しつつ,複雑なデータ分布を表現するための条件付き正規化フローベース自己回帰トランスフォーマリコンシリエーションに基づく,エンド・ツー・エンドの階層的時系列予測モデルを提案する。 他の最先端手法とは異なり、明示的な後処理ステップを必要とせずに予測と和解を同時に達成する。 さらに、深層モデルのパワーを活用することで、偏りのない推定やガウス分布のような仮定に依存しない。 評価実験は, 異なる産業領域の4つの実世界の階層的データセット(Alipayのデータセンターのアプリケーションサーバからの3つのパブリックデータセットと1つのデータセット)を用いて実施し, 提案手法の有効性を実証した。

Multivariate time series forecasting with hierarchical structure is pervasive in real-world applications, demanding not only predicting each level of the hierarchy, but also reconciling all forecasts to ensure coherency, i.e., the forecasts should satisfy the hierarchical aggregation constraints. Moreover, the disparities of statistical characteristics between levels can be huge, worsened by non-Gaussian distributions and non-linear correlations. To this extent, we propose a novel end-to-end hierarchical time series forecasting model, based on conditioned normalizing flow-based autoregressive transformer reconciliation, to represent complex data distribution while simultaneously reconciling the forecasts to ensure coherency. Unlike other state-of-the-art methods, we achieve the forecasting and reconciliation simultaneously without requiring any explicit post-processing step. In addition, by harnessing the power of deep model, we do not rely on any assumption such as unbiased estimates or Gaussian distribution. Our evaluation experiments are conducted on four real-world hierarchical datasets from different industrial domains (three public ones and a dataset from the application servers of Alipay's data center) and the preliminary results demonstrate efficacy of our proposed method.
翻訳日:2023-06-05 20:19:09 公開日:2023-06-02
# フェデレーション学習が事前学習された言語モデルのパラメータ効率的なチューニング手法に出会ったとき

When Federated Learning Meets Pre-trained Language Models' Parameter-Efficient Tuning Methods ( http://arxiv.org/abs/2212.10025v2 )

ライセンス: Link先を確認
Zhuo Zhang, Yuanhang Yang, Yong Dai, Lizhen Qu, Zenglin Xu(参考訳) データに対するプライバシの懸念が高まる中、近年の研究は、プライバシに敏感な自然言語処理(nlp)タスクにフェデレーション学習(fl)を使用することで大きな進歩を遂げている。 多くの文献は、FLパラダイムにおける完全微調整事前訓練言語モデル(PLM)は、データの不均一性を緩和し、集中トレーニングによるパフォーマンスギャップを埋めることができることを示唆している。 しかし、大規模なPLMは、FLシステムの通信の禁止的オーバーヘッドと局所モデル適応コストの呪いをもたらす。 この目的のために,フェデレート学習に様々なパラメータ効率チューニング(PETuning)手法を導入する。 具体的には,FL における代表的 PLM チューニング手法の総合的研究について述べる。 実験結果は、データの不均一性レベル、データスケール、および異なるflシナリオの分析をカバーする。 様々なFL設定で許容性能を維持しつつ、局所的なチューニングと軽量モデルパラメータのグローバル集約により、全体的な通信オーバーヘッドを著しく低減することができる。 FLにおけるPETuningの研究を容易にするために,FedPETuningというフェデレート・チューニング・フレームワークを開発した。 ソースコードは \url{https://github.com/iezhuozhuo/fedetuning/tree/deltatuning} で入手できる。

With increasing privacy concerns on data, recent studies have made significant progress using federated learning (FL) on privacy-sensitive natural language processing (NLP) tasks. Much literature suggests fully fine-tuning pre-trained language models (PLMs) in the FL paradigm can mitigate the data heterogeneity problem and close the performance gap with centralized training. However, large PLMs bring the curse of prohibitive communication overhead and local model adaptation costs for the FL system. To this end, we introduce various parameter-efficient tuning (PETuning) methods into federated learning. Specifically, we provide a holistic empirical study of representative PLMs tuning methods in FL. The experimental results cover the analysis of data heterogeneity levels, data scales, and different FL scenarios. Overall communication overhead can be significantly reduced by locally tuning and globally aggregating lightweight model parameters while maintaining acceptable performance in various FL settings. To facilitate the research of PETuning in FL, we also develop a federated tuning framework FedPETuning, which allows practitioners to exploit different PETuning methods under the FL training paradigm conveniently. The source code is available at \url{https://github.com/iezhuozhuo/FedETuning/tree/deltaTuning}.
翻訳日:2023-06-05 20:18:33 公開日:2023-06-02
# ディープニューラルネットワークは2年生よりスマートか?

Are Deep Neural Networks SMARTer than Second Graders? ( http://arxiv.org/abs/2212.09993v4 )

ライセンス: Link先を確認
Anoop Cherian, Kuan-Chuan Peng, Suhas Lohit, Kevin A. Smith, Joshua B. Tenenbaum(参考訳) 最近では、高度な認知能力を必要とするタスク(例えば、囲い込み、アートの生成、チャットgptなど)を解決するためのディープニューラルネットワークの応用が増えている。 幅広いスキルを必要とする問題を解決する上で、ニューラルネットワークはどの程度一般化可能か? この質問に答えるために、ニューラルネットワークの抽象化、推論、一般化能力を評価するための、単純なマルチモーダルアルゴリズム推論タスクと関連するsmart-101データセットを提案する。 私たちのデータセットは101の独特なパズルで構成されており、それぞれのパズルは絵と質問で構成されており、それらの解には算術、代数、空間的推論などいくつかの基本的なスキルが必要です。 ディープニューラルネットワークのトレーニングに向けてデータセットをスケールするために、解アルゴリズムを維持しながら、パズルごとに完全に新しいインスタンスをプログラムで生成する。 SMART-101の性能をベンチマークするために,様々な最先端のバックボーンを用いた視覚・言語メタラーニングモデルを提案する。 実験の結果,強力な深層モデルでは教師付き環境下でのパズルに対して妥当な性能が得られたが,一般化のための解析ではランダムな精度に劣らないことがわかった。 また,最近のchatgptや他の大規模言語モデルをsmart-101の一部として評価し,説得力のある推論能力を示すが,回答はしばしば誤りであることを確認した。

Recent times have witnessed an increasing number of applications of deep neural networks towards solving tasks that require superior cognitive abilities, e.g., playing Go, generating art, ChatGPT, etc. Such a dramatic progress raises the question: how generalizable are neural networks in solving problems that demand broad skills? To answer this question, we propose SMART: a Simple Multimodal Algorithmic Reasoning Task and the associated SMART-101 dataset, for evaluating the abstraction, deduction, and generalization abilities of neural networks in solving visuo-linguistic puzzles designed specifically for children in the 6--8 age group. Our dataset consists of 101 unique puzzles; each puzzle comprises a picture and a question, and their solution needs a mix of several elementary skills, including arithmetic, algebra, and spatial reasoning, among others. To scale our dataset towards training deep neural networks, we programmatically generate entirely new instances for each puzzle, while retaining their solution algorithm. To benchmark performances on SMART-101, we propose a vision and language meta-learning model using varied state-of-the-art backbones. Our experiments reveal that while powerful deep models offer reasonable performances on puzzles in a supervised setting, they are not better than random accuracy when analyzed for generalization. We also evaluate the recent ChatGPT and other large language models on a part of SMART-101 and find that while these models show convincing reasoning abilities, the answers are often incorrect.
翻訳日:2023-06-05 20:18:13 公開日:2023-06-02
# MetaCLUE: 総合的なビジュアルメタファー研究を目指して

MetaCLUE: Towards Comprehensive Visual Metaphors Research ( http://arxiv.org/abs/2212.09898v3 )

ライセンス: Link先を確認
Arjun R. Akula, Brendan Driscoll, Pradyumna Narayana, Soravit Changpinyo, Zhiwei Jia, Suyash Damle, Garima Pruthi, Sugato Basu, Leonidas Guibas, William T. Freeman, Yuanzhen Li, Varun Jampani(参考訳) 創造性は人間の認知に欠かせない部分であり、世界を理解する方法の本質的な部分でもある。 メタフォリカル抽象は、感情のような抽象概念間のニュアンスな関係を通して創造的なアイデアを伝えるのに基本的である。 コンピュータビジョンのベンチマークとアプローチは画像のリテラル解釈の理解と生成に重点を置いているが、画像の比喩的理解はいまだに解明されていない。 この目的に向けて,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。 また、これらのタスクの評価を容易にするデータセットが存在しないため、高品質でリッチなメタファアノテーション(抽象オブジェクト、概念、関係、対応するオブジェクトボックス)も収集します。 我々は,視覚と言語における最先端モデルの総合的な分析を行い,視覚メタファ分類,局所化,理解(リトライバル,質問応答,キャプション),生成(テキスト対画像合成)タスクにおける現在のアプローチの強みと弱みを強調する。 この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。

Creativity is an indispensable part of human cognition and also an inherent part of how we make sense of the world. Metaphorical abstraction is fundamental in communicating creative ideas through nuanced relationships between abstract concepts such as feelings. While computer vision benchmarks and approaches predominantly focus on understanding and generating literal interpretations of images, metaphorical comprehension of images remains relatively unexplored. Towards this goal, we introduce MetaCLUE, a set of vision tasks on visual metaphor. We also collect high-quality and rich metaphor annotations (abstract objects, concepts, relationships along with their corresponding object boxes) as there do not exist any datasets that facilitate the evaluation of these tasks. We perform a comprehensive analysis of state-of-the-art models in vision and language based on our annotations, highlighting strengths and weaknesses of current approaches in visual metaphor Classification, Localization, Understanding (retrieval, question answering, captioning) and gEneration (text-to-image synthesis) tasks. We hope this work provides a concrete step towards developing AI systems with human-like creative capabilities.
翻訳日:2023-06-05 20:17:47 公開日:2023-06-02
# シェリントン・カークパトリック模型のダイアバティック量子および古典的熱処理

Diabatic quantum and classical annealing of the Sherrington-Kirkpatrick model ( http://arxiv.org/abs/2212.08634v2 )

ライセンス: Link先を確認
Artem Rakcheev and Andreas M. L\"auchli(参考訳) 量子アニールは、量子力学に基づく組合せ最適化問題の解法である。 ソリューションの品質と必要なランタイムを調査するために、かなりの努力がなされているが、量子アニーリングのダイナミクスとソリューションそのものに至るプロセスを理解することには、あまり注意が払われていない。 本研究では,様々な手法を用いて量子アニーリングダイナミクスの様々な側面について検討する。 シミュレーションにより,シェリントン・カークパトリックモデルの数百事例において,最大22スピンまでの中間系サイズを持つ量子アニール,シミュレートされた量子アニール,および古典アニールを行う。 我々は量子的手法と古典的手法の質的な差異を観察し、特に中間の時代には、硬い場合において、忠実度(ダイアバティックバンプとしても知られる)のピークが現れる。 さらに,中間時間における差を特徴とする2点相関関数についても検討した。 しかし、短時間では、この手法は再び類似しており、量子アニーリングの短時間の膨張を高温の膨張に関連付けることで説明できるため、原則として、制限的なサンプリングコストにもかかわらず、既に短時間で古典解を見つけることができる。

Quantum annealing is a contender to solve combinatorial optimization problems based on quantum dynamics. While significant efforts have been undertaken to investigate the quality of the solutions and the required runtimes, much less attention has been paid to understanding the dynamics of quantum annealing and the process leading to the solution during the sweep itself. In this comprehensive study, we investigate various aspects of the quantum annealing dynamics using different approaches. We perform quantum annealing, simulated quantum annealing, and classical annealing on several hundred instances of the Sherrington-Kirkpatrick model with intermediate system sizes up to 22 spins using numerical simulations. We observe qualitative differences between the quantum and classical methods, in particular at intermediate times, where a peak in the fidelity, also known as diabatic bump, appears for hard instances. Furthermore, we investigate the two-point correlation functions, which feature differences at intermediate times as well. At short times, however, the methods are similar again, which can be explained by relating the short-time expansion of quantum annealing to a high-temperature expansion, thus allowing in principle to find the classical solution already at short times, albeit at prohibitive sampling cost.
翻訳日:2023-06-05 20:17:02 公開日:2023-06-02
# BKinD-3D:マルチビュービデオからの自己監督型3Dキーポイント発見

BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos ( http://arxiv.org/abs/2212.07401v3 )

ライセンス: Link先を確認
Jennifer J. Sun, Lili Karashchuk, Amil Dravid, Serim Ryou, Sonia Fereidooni, John Tuthill, Aggelos Katsaggelos, Bingni W. Brunton, Georgia Gkioxari, Ann Kennedy, Yisong Yue, Pietro Perona(参考訳) 3Dでの動作の定量化は人間や他の動物の行動を研究する上で重要であるが、手動のポーズアノテーションは高価で入手に時間がかかる。 自己教師付きキーポイント発見はアノテーションなしで3Dポーズを推定するための有望な戦略である。 しかし、現在のキーポイント発見アプローチは一般的に単一の2Dビューを処理し、3D空間では動作しない。 2dまたは3dでキーポイントやバウンディングボックスの監督をすることなく、行動エージェントのマルチビュービデオから3dで自己教師付きキーポイント発見を行う新しい手法を提案する。 BKinD-3D法は,3次元熱マップを用いたエンコーダデコーダアーキテクチャを用いて,複数の視点における時空間差の再構成と,学習対象の3次元骨格の接合長の制約について検討した。 このようにして、人間やラットの動画を手動で監督することなくキーポイントを発見し、3次元キーポイント発見の可能性を示す。

Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method, BKinD-3D, uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
翻訳日:2023-06-05 20:16:39 公開日:2023-06-02
# 対称性および可換代数検出のための数値解法

Numerical Methods for Detecting Symmetries and Commutant Algebras ( http://arxiv.org/abs/2302.03028v2 )

ライセンス: Link先を確認
Sanjay Moudgalya, Olexei I. Motrunich(参考訳) 局所的な部分によって定義されるハミルトニアンの族に対して、対称性代数の最も一般的な定義は可換代数、すなわち各局所部分と可換な作用素の代数である。 可換代数として対称性代数を考えると、従来の対称性と非慣習対称性(例えば弱エルゴード性破れ現象の原因となるもの)を等しい代数的足場で扱うことができる。 本研究では,この可換代数をハミルトニアンの族から数値的に構築する2つの手法について考察する。 まず、この問題の等価性を、与えられた局所作用素の集合の同時ブロック対角化と同値とし、アーベルおよび非可換対称性あるいは可換代数の両方の確率 1 で作用する確率的手法について論じる。 第二に、この問題をハミルトンのフラストレーションのない基底状態を決定する問題にマッピングし、テンソルネットワークアルゴリズムのアイデアを用いてこの問題を1次元で効率的に解決する。 これらの数値法は、正規対称性、ヒルベルト空間の断片化、量子多体傷の例を含むハミルトニアンの族における標準および非標準保存量を検出するのに有用である。 加えて、これらの場合において可換代数の構造に関するいくつかの予想を検証するために必要である。 最後に, 局所作用素を与えられた対称性あるいは可換代数で決定する逆問題に対する類似の手法についても論じる。 この構成の特別な場合、与えられた状態が固有状態であるエルミート局所作用素を構築するためのよく知られた `Eigenstate to Hamiltonian" メソッドに還元される。

For families of Hamiltonians defined by parts that are local, the most general definition of a symmetry algebra is the commutant algebra, i.e., the algebra of operators that commute with each local part. Thinking about symmetry algebras as commutant algebras allows for the treatment of conventional symmetries and unconventional symmetries (e.g., those responsible for weak ergodicity breaking phenomena) on equal algebraic footing. In this work, we discuss two methods for numerically constructing this commutant algebra starting from a family of Hamiltonians. First, we use the equivalence of this problem to that of simultaneous block-diagonalization of a given set of local operators, and discuss a probabilistic method that has been found to work with probability 1 for both Abelian and non-Abelian symmetries or commutant algebras. Second, we map this problem onto the problem of determining frustration-free ground states of certain Hamiltonians, and we use ideas from tensor network algorithms to efficiently solve this problem in one dimension. These numerical methods are useful in detecting standard and non-standard conserved quantities in families of Hamiltonians, which includes examples of regular symmetries, Hilbert space fragmentation, and quantum many-body scars, and we show many such examples. In addition, they are necessary for verifying several conjectures on the structure of the commutant algebras in these cases, which we have put forward in earlier works. Finally, we also discuss similar methods for the inverse problem of determining local operators with a given symmetry or commutant algebra, which connects to existing methods in the literature. A special case of this construction reduces to well-known ``Eigenstate to Hamiltonian" methods for constructing Hermitian local operators that have a given state as an eigenstate.
翻訳日:2023-06-05 20:10:36 公開日:2023-06-02
# スーパーサンプルからの高次情報理論一般化境界

Tighter Information-Theoretic Generalization Bounds from Supersamples ( http://arxiv.org/abs/2302.02432v2 )

ライセンス: Link先を確認
Ziqiao Wang, Yongyi Mao(参考訳) 本研究では,Steinke & Zakynthinou (2020) のスーパーサンプル設定から「条件付き相互情報」フレームワークの設定まで,学習アルゴリズムのための情報理論の新たな一般化境界について述べる。 当社の開発では、損失ペア(トレーニングインスタンスとテストインスタンスから保持されている)を単一の数にプロジェクションし、損失値をrademacherシーケンス(とそのシフトされた変種)に関連付ける。 提示される境界には平方根境界、分散と鋭さに基づく境界を含む高速レート境界、補間アルゴリズムなどが含まれる。 理論的あるいは経験的に、これらの境界は、同じスーパーサンプル設定で知られているすべての情報理論境界よりも厳密であることを示す。

In this work, we present a variety of novel information-theoretic generalization bounds for learning algorithms, from the supersample setting of Steinke & Zakynthinou (2020)-the setting of the "conditional mutual information" framework. Our development exploits projecting the loss pair (obtained from a training instance and a testing instance) down to a single number and correlating loss values with a Rademacher sequence (and its shifted variants). The presented bounds include square-root bounds, fast-rate bounds, including those based on variance and sharpness, and bounds for interpolating algorithms etc. We show theoretically or empirically that these bounds are tighter than all information-theoretic bounds known to date on the same supersample setting.
翻訳日:2023-06-05 20:10:05 公開日:2023-06-02
# 事前訓練された機能を超えて:ノイズ画像モデリングは敵の防御を提供する

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense ( http://arxiv.org/abs/2302.01056v2 )

ライセンス: Link先を確認
Zunzhi You, Daochang Liu, Bohyung Han, Chang Xu(参考訳) マスク付き画像モデリング(MIM)の最近の進歩により、自己教師付き視覚表現学習のフレームワークとして普及している。 MIM事前訓練されたモデルは、ほとんどのディープニューラルネットワーク手法と同様に、まだ敵の攻撃に対して脆弱であり、実用的応用を制限している。 本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に逆方向の堅牢性をもたらすかを検討する。 調査中, ノイズ画像モデリング (NIM) は, 重度の汚職にもかかわらず, ノイズ画像の再構成が驚くほど良好であることがわかった。 そこで本研究では,プリトレーニングされたデコーダをデノージング用デコーダ(de^3)として活用し,nimがプリトレーニングされた特徴の提供を超越したアドバーサル・ロバスト性を高める手法を提案する。 さらに、簡単な修正を加え、ランダム分布からノイズスケールハイパーパラメータをサンプリングし、ディフェンスが精度とロバストさのトレードオフをより良く調整可能なものにする。 実験の結果, 対向性では, NIMがMIMよりも優れており, 有効デノナイジング能力が高いことがわかった。 さらに、NIMが提供する防御は、追加の調整性優位性を提供しながら、対人訓練と同等のパフォーマンスを達成する。 ソースコードとモデルは利用可能になる。

Recent advancements in masked image modeling (MIM) have made it a prevailing framework for self-supervised visual representation learning. The MIM pretrained models, like most deep neural network methods, are still vulnerable to adversarial attacks, limiting their practical application, and this issue has received little research attention. In this paper, we investigate how this powerful self-supervised learning paradigm can provide adversarial robustness to downstream classifiers. During the exploration, we find that noisy image modeling (NIM), a simple variant of MIM that adopts denoising as the pre-text task, reconstructs noisy images surprisingly well despite severe corruption. Motivated by this observation, we propose an adversarial defense method by exploiting the pretrained decoder for denoising, referred to as De^3, through which NIM is able to enhance adversarial robustness beyond providing pretrained features. Furthermore, we incorporate a simple modification, sampling the noise scale hyperparameter from random distributions, and enable the defense to achieve a better and tunable trade-off between accuracy and robustness. Experimental results demonstrate that, in terms of adversarial robustness, NIM is superior compared to MIM thanks to its effective denoising capability. Moreover, the defense provided by NIM achieves performance on par with adversarial training while offering the extra tunability advantage. Source code and models will be made available.
翻訳日:2023-06-05 20:09:50 公開日:2023-06-02
# おそらくいつでも安全な確率的組合せ半バンド

Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits ( http://arxiv.org/abs/2301.13393v2 )

ライセンス: Link先を確認
Yunlong Hou, Vincent Y. F. Tan and Zixin Zhong(参考訳) 本論文では,各段階におけるリスクの未発生に関するオンライン意思決定に関する懸念に乗じて,最も安全と思われる確率的半帯域問題を定式化する。 この問題では、エージェントは、$L$グラウンドアイテムのセットから、最大で$K$のサイズのサブセットを選択するオプションが与えられる。 各項目は、そのリスクを表すばらつきと同様に、ある平均報酬に関連付けられている。 エージェントが発生するリスクを軽減するために、少なくとも1〜\delta$という確率で、t$の全時間にわたって、エージェントが選択する各選択肢には、分散の合計が特定の分散予算を超えない項目を含むべきである。 これを、おそらくいつでも安全な制約と呼ぶ。 この制約の下で、時間の地平線上での後悔を最小限に抑えるアルゴリズム {\sc PASCombUCB} を設計し、分析する。 付随する情報理論下限を発達させることにより、問題依存と問題非依存の両方のパラダイムの下で、 {\sc pascombucb} はほぼ漸近的に最適であることを示す。 理論的知見を裏付ける実験を行った。 提案する問題設定, 提案アルゴリズム, 新規解析は, エージェントが一度に複数の項目を選択できるレコメンデーションシステムやトランスポーテーションなどのドメインに適用され, リスク全体を制御したいと考えている。

Motivated by concerns about making online decisions that incur undue amount of risk at each time step, in this paper, we formulate the probably anytime-safe stochastic combinatorial semi-bandits problem. In this problem, the agent is given the option to select a subset of size at most $K$ from a set of $L$ ground items. Each item is associated to a certain mean reward as well as a variance that represents its risk. To mitigate the risk that the agent incurs, we require that with probability at least $1-\delta$, over the entire horizon of time $T$, each of the choices that the agent makes should contain items whose sum of variances does not exceed a certain variance budget. We call this probably anytime-safe constraint. Under this constraint, we design and analyze an algorithm {\sc PASCombUCB} that minimizes the regret over the horizon of time $T$. By developing accompanying information-theoretic lower bounds, we show that under both the problem-dependent and problem-independent paradigms, {\sc PASCombUCB} is almost asymptotically optimal. Experiments are conducted to corroborate our theoretical findings. Our problem setup, the proposed {\sc PASCombUCB} algorithm, and novel analyses are applicable to domains such as recommendation systems and transportation in which an agent is allowed to choose multiple items at a single time step and wishes to control the risk over the whole time horizon.
翻訳日:2023-06-05 20:08:53 公開日:2023-06-02
# 深さのスケーリング - ImageNetによるロバストネス認証のアンロック

Scaling in Depth: Unlocking Robustness Certification on ImageNet ( http://arxiv.org/abs/2301.12549v2 )

ライセンス: Link先を確認
Kai Hu, Andy Zou, Zifan Wang, Klas Leino, Matt Fredrikson(参考訳) リプシッツに基づく決定論的保証による確固たるロバスト深層学習手法の約束にもかかわらず、現在の最先端の結果はcifar-10のような低次元データに対するフィードフォワード畳み込みネットワーク(convnets)に限定されている。 本稿では,より大規模でより深いモデルに頑健なトレーニングを拡大するための戦略を検討する。 ディープネットワークの認証における重要な課題は、ResNetやViTアーキテクチャに見られる残差ブロックに対するリプシッツ境界の効率的な計算である。 従来のresnetに対するリプシッツ定数のバウンド方法がゆるいことを示すとともに、新しい残差ブロックを設計することにより、これに対処する方法を示し、これを \emph{linear resnet} (liresnet) アーキテクチャへと導く。 次に,emph{ efficient margin maximization} (emma) を導入する。これは,emph{all}クラスから最悪の例を同時にペナルタライズすることで,堅牢なトレーニングを安定化するロス関数である。 これらの貢献により、CIFAR-10/100とTiny-ImageNetで$\ell_2$の摂動の下で、新しいemph{state-of-the-art}の堅牢な精度が得られる。 さらに、我々は初めて、高速決定論的ロバストネス保証をimagenetにスケールアップすることができ、このロバスト学習アプローチが現実世界のアプリケーションに適用可能であることを実証する。 私たちはコードをgithubでリリースしています。

Despite the promise of Lipschitz-based methods for provably-robust deep learning with deterministic guarantees, current state-of-the-art results are limited to feed-forward Convolutional Networks (ConvNets) on low-dimensional data, such as CIFAR-10. This paper investigates strategies for expanding certifiably robust training to larger, deeper models. A key challenge in certifying deep networks is efficient calculation of the Lipschitz bound for residual blocks found in ResNet and ViT architectures. We show that fast ways of bounding the Lipschitz constant for conventional ResNets are loose, and show how to address this by designing a new residual block, leading to the \emph{Linear ResNet} (LiResNet) architecture. We then introduce \emph{Efficient Margin MAximization} (EMMA), a loss function that stabilizes robust training by simultaneously penalizing worst-case adversarial examples from \emph{all} classes. Together, these contributions yield new \emph{state-of-the-art} robust accuracy on CIFAR-10/100 and Tiny-ImageNet under $\ell_2$ perturbations. Moreover, for the first time, we are able to scale up fast deterministic robustness guarantees to ImageNet, demonstrating that this approach to robust learning can be applied to real-world applications. We release our code on Github: \url{https://github.com/klasleino/gloro}.
翻訳日:2023-06-05 20:07:52 公開日:2023-06-02
# 2段階動的プログラミングによる高効率遅延対応cnn奥行き圧縮

Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic Programming ( http://arxiv.org/abs/2301.12187v2 )

ライセンス: Link先を確認
Jinuk Kim, Yeonwoo Jeong, Deokjae Lee, Hyun Oh Song(参考訳) ニューラルネットワークのプルーニングに関する最近の研究は、チャネルプルーニングによるネットワーク幅の削減よりも、ネットワークの深さの削減が実行時のメモリ使用量の削減と推論遅延の高速化に有効である、と提唱している。 この点に関して、近年の研究では畳み込み層をマージする深度圧縮アルゴリズムが提案されている。 しかし、既存のアルゴリズムは制限付き検索空間を持ち、人間工学的なヒューリスティックに依存している。 本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。 本稿では,非効率なアクティベーション層を同一関数に置き換え,連続畳み込み操作を最小等価畳み込み操作に最適にマージし,効率的なエンドツーエンド推論レイテンシを実現する部分集合選択問題を提案する。 提案したサブセット選択問題はNPハードであるため,数秒以内に2段階動的プログラミングによって正確に解くことができる代用最適化問題を定式化する。 提案手法とベースラインを TensorRT で評価し,推定遅延の比較を行った。 提案手法は,ImageNetデータセット上のMobileNetV2において,高精度かつ高速な推論速度でベースライン法より優れる。 具体的には、ImageNet上のMobileNetV2-1.0で0.11$\%pの精度で1.41\times$スピードアップを達成する。

Recent works on neural network pruning advocate that reducing the depth of the network is more effective in reducing run-time memory usage and accelerating inference latency than reducing the width of the network through channel pruning. In this regard, some recent works propose depth compression algorithms that merge convolution layers. However, the existing algorithms have a constricted search space and rely on human-engineered heuristics. In this paper, we propose a novel depth compression algorithm which targets general convolution operations. We propose a subset selection problem that replaces inefficient activation layers with identity functions and optimally merges consecutive convolution operations into shallow equivalent convolution operations for efficient end-to-end inference latency. Since the proposed subset selection problem is NP-hard, we formulate a surrogate optimization problem that can be solved exactly via two-stage dynamic programming within a few seconds. We evaluate our methods and baselines by TensorRT for a fair inference latency comparison. Our method outperforms the baseline method with higher accuracy and faster inference speed in MobileNetV2 on the ImageNet dataset. Specifically, we achieve $1.41\times$ speed-up with $0.11$\%p accuracy gain in MobileNetV2-1.0 on the ImageNet.
翻訳日:2023-06-05 20:07:22 公開日:2023-06-02
# Rieszカーネルを用いた最大平均誤差に対するニューラルワッサースタイン勾配流

Neural Wasserstein Gradient Flows for Maximum Mean Discrepancies with Riesz Kernels ( http://arxiv.org/abs/2301.11624v2 )

ライセンス: Link先を確認
Fabian Altekr\"uger, Johannes Hertrich, Gabriele Steidl(参考訳) 非スムースリース核を持つ最大平均差(mmd)汎函数のワッサーシュタイン勾配流は、特異測度が絶対連続となることができるのでリッチな構造を示す。 本稿では,このような流れの理解に寄与する。 本稿では、ワーサースタイン勾配流の計算と、ニューラルネットワーク(NN)によるワーサースタイン急降下流のフォワードスキームについて、ヨルダン、キンダーラー、オットーの逆向きスキームを近似することを提案する。 絶対連続的な測度に制限できないため、通常の輸送地図や速度場ではなく、輸送計画や速度計画に対処する必要がある。 実際、我々は、適切な損失関数に関して学習される生成nnによる両方の計画の崩壊を近似する。 両方のニューラルスキームの品質を評価するために、相互作用エネルギーに基づいてそれらをベンチマークする。 ここでは、ディラック測度から始まるwassersteinスキームの解析公式を提供し、時間ステップサイズがゼロになるにつれてそれらの収束を示す。 最後に,神経mmdの流れを数値的な例で示す。

Wasserstein gradient flows of maximum mean discrepancy (MMD) functionals with non-smooth Riesz kernels show a rich structure as singular measures can become absolutely continuous ones and conversely. In this paper we contribute to the understanding of such flows. We propose to approximate the backward scheme of Jordan, Kinderlehrer and Otto for computing such Wasserstein gradient flows as well as a forward scheme for so-called Wasserstein steepest descent flows by neural networks (NNs). Since we cannot restrict ourselves to absolutely continuous measures, we have to deal with transport plans and velocity plans instead of usual transport maps and velocity fields. Indeed, we approximate the disintegration of both plans by generative NNs which are learned with respect to appropriate loss functions. In order to evaluate the quality of both neural schemes, we benchmark them on the interaction energy. Here we provide analytic formulas for Wasserstein schemes starting at a Dirac measure and show their convergence as the time step size tends to zero. Finally, we illustrate our neural MMD flows by numerical examples.
翻訳日:2023-06-05 20:06:58 公開日:2023-06-02
# NFT推進とフィッシング詐欺

Demystifying NFT Promotion and Phishing Scams ( http://arxiv.org/abs/2301.09806v2 )

ライセンス: Link先を確認
Sayak Saha Roy, Dipanjan Das, Priyanka Bose, Christopher Kruegel, Giovanni Vigna, Shirin Nilizadeh(参考訳) アート、ビデオ、音楽などのデジタル資産をNFT(Non-fungible tokens)という形で購入することに対する人気と誇大広告は、2021年だけでNFTベースの売上が2500億ドルを超えたことで、急速に利益を生んでいる。 しかしながら、NFTのボラティリティと不足は、このエコシステムの技術的な側面に対する一般的な理解の欠如と相まって、いくつかの詐欺の拡散を促している。 NFTの成功は、そのオンラインバイラル性に大きな影響を受けている。 ソーシャルメディア上で不正なNFTプロジェクトを宣伝したり、他の人気のあるNFTプロジェクトを模倣したりすることで、このバイラルをエミュレートする詐欺の報告は少ない。 本稿では、439のユニークなTwitterアカウントを経時的に分析し、一貫した不正なNFT収集を促進する。 以上の結果から,これらのプロモーションと対話するほとんどのアカウントはボットであり,好き嫌いやフォロワー,リツイート数を膨らませることで,不正なNFTコレクションの人気を急速に高める可能性があることが示唆された。 これにより、実際のユーザーから大きな関心が寄せられ、詐欺に投資するようになる。 一方,nftフィッシング詐欺によって被害者の財布から資金やデジタル資産を盗むために利用される2つの攻撃ベクトルを同定した。 また,NFTフィッシング攻撃に対する一般的なフィッシング・ブロックリストやセキュリティツールの性能を評価することで,一般的なフィッシング・エコシステムのギャップを明らかにした。 そこで本研究では,nftフィッシング詐欺を自動的に検出する機械学習分類器を開発した。

The popularity and hype around purchasing digital assets such as art, video, and music in the form of Non-fungible tokens (NFTs) has rapidly made them a lucrative investment opportunity, with NFT-based sales surpassing $25B in 2021 alone. However, the volatility and scarcity of NFTs, combined with the general lack of familiarity with the technical aspects of this ecosystem, encourage the spread of several scams. The success of an NFT is majorly impacted by its online virality. There have been sparse reports about scammers emulating this virality by either promoting their fraudulent NFT projects on social media or imitating other popular NFT projects. This paper presents a longitudinal analysis of 439 unique Twitter accounts that consistently promote fraudulent NFT collections through giveaway competitions and 1,028 NFT phishing attacks. Our findings indicate that most accounts interacting with these promotions are bots, which can rapidly increase the popularity of the fraudulent NFT collections by inflating their likes, followers, and retweet counts. This leads to significant engagement from real users, who then proceed to invest in the scams. On the other hand, we identify two novel attack vectors which are utilized by NFT phishing scams to steal funds and digital assets from the victim's wallet. We also identify several gaps in the prevalent anti-phishing ecosystem by evaluating the performance of popular anti-phishing blocklists and security tools against NFT phishing attacks. We utilize our findings to develop a machine learning classifier that can automatically detect NFT phishing scams at scale.
翻訳日:2023-06-05 20:06:37 公開日:2023-06-02
# 流体トランスフォーマーと創造的アナロジー--言語モデルによるクロスドメイン類似創造の強化のための能力の検討

Fluid Transformers and Creative Analogies: Exploring Large Language Models' Capacity for Augmenting Cross-Domain Analogical Creativity ( http://arxiv.org/abs/2302.12832v2 )

ライセンス: Link先を確認
Zijian Ding, Arvind Srinivasan, Stephen MacNeil, Joel Chan(参考訳) クロスドメインのアナロジー推論は、人間にとって挑戦的なコアな創造的能力である。 最近の研究は、言語モデル(LLM)がドメイン間の類似を生成できるという概念の証明を示している。 しかし、この能力が人間の創造性を増強する上での信頼性と潜在的有用性は、体系的な調査をほとんど受けていない。 本稿では,LLMのキャパシティを体系的に探求し,ドメイン間類似推論を増強する。 3つの研究で明らかになったのは 1) LLM生成のクロスドメインアナログは, 問題修正作業の文脈で有用であると判断されることが多かった(5つ中4つ中4つ中4つ中4つ中4つ中4つ)。 2) 最大25%のアウトプットが潜在的に有害であると評価され, その大多数は偏りや有害な内容ではなく, 潜在的に動揺するコンテンツによるものであった。 これらの結果は、ドメイン間類似の創造性を高めるためのLLMの有用性とリスクを実証している。

Cross-domain analogical reasoning is a core creative ability that can be challenging for humans. Recent work has shown some proofs-of concept of Large language Models' (LLMs) ability to generate cross-domain analogies. However, the reliability and potential usefulness of this capacity for augmenting human creative work has received little systematic exploration. In this paper, we systematically explore LLMs capacity to augment cross-domain analogical reasoning. Across three studies, we found: 1) LLM-generated cross-domain analogies were frequently judged as helpful in the context of a problem reformulation task (median 4 out of 5 helpfulness rating), and frequently (~80% of cases) led to observable changes in problem formulations, and 2) there was an upper bound of 25% of outputs bring rated as potentially harmful, with a majority due to potentially upsetting content, rather than biased or toxic content. These results demonstrate the potential utility -- and risks -- of LLMs for augmenting cross-domain analogical creativity.
翻訳日:2023-06-05 20:00:49 公開日:2023-06-02
# ising結合量子ビットのグローバルトランスバース制御によるディッケ状態形成

Dicke-state preparation through global transverse control of Ising-coupled qubits ( http://arxiv.org/abs/2302.12483v2 )

ライセンス: Link先を確認
Vladimir M. Stojanovic, Julian K. Nauth(参考訳) 全対全イジング型量子ビット相互作用を持つ3量子ビット系において、2励起ディッケ状態 $|d^{3}_{2}\rangle$ を工学的に設計する問題を考える。 システムの初期状態として$|000\rangle$が採用される想定状態準備スキームの理論的基礎は、キュービットの置換に関して不変な初期状態と最終状態の任意の選択に対して、このシステムの状態対状態制御可能性を保証するリー代数的結果によって与えられる。 この方式は、大域量子ビット回転に相当する3つの瞬時制御パルスと、連続的な制御パルス間の有限期間の2つのIsing-Interactionパルスを含むパルスシーケンスの形で想定される。 このパルス列の設計(持続時間は$t\approx 0.95\:\hbar/j$であり、ここで$j$はイジング結合強度である)は3量子ヒルベルト空間の4次元置換不変部分空間である対称セクタの概念に大きく依存している。 そこで本研究では,体系的誤りに対するロバスト性,すなわち基礎となるパルスシーケンスを特徴付ける8つのパラメータの最適値からの逸脱を詳細に数値解析することにより,提案手法の実現可能性を示す。 最後に、提案するスキームが、n \ge 4$ qubitsのシステムにおける工学的ディッケ状態に対してどのように一般化できるかについて議論する。 図解のために、4量子系における二励起ディッケ状態 ||d^{4}_{2}\rangle$ の合成について述べる。

We consider the problem of engineering the two-excitation Dicke state $|D^{3}_{2}\rangle$ in a three-qubit system with all-to-all Ising-type qubit-qubit interaction, which is also subject to global transverse (Zeeman-type) control fields. The theoretical underpinning for our envisioned state-preparation scheme, in which $|000\rangle$ is adopted as the initial state of the system, is provided by a Lie-algebraic result that guarantees state-to-state controllability of this system for an arbitrary choice of initial- and final states that are invariant with respect to permutations of qubits. This scheme is envisaged in the form of a pulse sequence that involves three instantaneous control pulses, which are equivalent to global qubit rotations, and two Ising-interaction pulses of finite durations between consecutive control pulses. The design of this pulse sequence -- whose total duration is $T\approx 0.95\:\hbar/J$, where $J$ is the Ising-coupling strength -- leans heavily on the concept of the symmetric sector, a four-dimensional, permutationally-invariant subspace of the three-qubit Hilbert space. We demonstrate the feasibility of the proposed state-preparation scheme by carrying out a detailed numerical analysis of its robustness to systematic errors, i.e. deviations from the optimal values of the eight parameters that characterize the underlying pulse sequence. Finally, we discuss how our proposed scheme can be generalized for engineering Dicke states in systems with $N \ge 4$ qubits. For the sake of illustration, we describe the preparation of the two-excitation Dicke state $|D^{4}_{2}\rangle$ in a four-qubit system.
翻訳日:2023-06-05 20:00:31 公開日:2023-06-02
# Fair Diffusion: 公平性に基づくテキスト・画像生成モデルの指導

Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness ( http://arxiv.org/abs/2302.10893v2 )

ライセンス: Link先を確認
Felix Friedrich, Manuel Brack, Lukas Struppek, Dominik Hintersdorf, Patrick Schramowski, Sasha Luccioni, Kristian Kersting(参考訳) 生成AIモデルは、最近、品質の驚くべき結果を達成し、結果として急速に成長するアプリケーションに採用されている。 しかし、それらは高度にデータ駆動であり、インターネットからランダムに取り除かれた数十億規模のデータセットに依存しているため、私たちが示すように、劣化と偏りのある人間の行動にも悩まされている。 実際、彼らはそのような偏見を補強するかもしれない。 これらの望ましくない効果を解明するだけでなく、fair diffusionと呼ばれる新しい戦略を提案し、生成的テキストから画像へのモデルの展開後のバイアスを軽減する。 具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えばアイデンティティグループに対して任意に新しい比率を得ることを示す。 実験的な評価が示すように、この制御により、データフィルタリングや追加の訓練を必要とせず、公平に生成画像モデルを指示することができる。

Generative AI models have recently achieved astonishing results in quality and are consequently employed in a fast-growing number of applications. However, since they are highly data-driven, relying on billion-sized datasets randomly scraped from the internet, they also suffer from degenerated and biased human behavior, as we demonstrate. In fact, they may even reinforce such biases. To not only uncover but also combat these undesired effects, we present a novel strategy, called Fair Diffusion, to attenuate biases after the deployment of generative text-to-image models. Specifically, we demonstrate shifting a bias, based on human instructions, in any direction yielding arbitrarily new proportions for, e.g., identity groups. As our empirical evaluation demonstrates, this introduced control enables instructing generative image models on fairness, with no data filtering and additional training required.
翻訳日:2023-06-05 19:59:58 公開日:2023-06-02
# ChatGPT:すべての取引のジャック、何のマスターも

ChatGPT: Jack of all trades, master of none ( http://arxiv.org/abs/2302.10724v3 )

ライセンス: Link先を確認
Jan Koco\'n, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szyd{\l}o, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Koco\'n, Bart{\l}omiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Mi{\l}kowski, Marcin Oleksy, Maciej Piasecki, {\L}ukasz Radli\'nski, Konrad Wojtasik, Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko(参考訳) openaiはチャット生成型事前学習トランスフォーマー(chatgpt)をリリースし、人工知能のヒューマンモデルインタラクションへのアプローチに革命をもたらした。 chatgpt評価に関するいくつかの出版物は、よく知られた自然言語処理(nlp)タスクの有効性をテストする。 しかし、既存の研究はほとんど自動化されておらず、非常に限定的な規模でテストされている。 本研究では,感情分析,感情認識,不快感,姿勢検出など,人間に対しても主観的であった25の多様分析nlpタスクにおけるchatgptの能力について検討した。 対照的に、他のタスクは、言葉感覚の曖昧さ、言語的受容性、質問応答のようなより客観的な推論を必要とする。 NLPタスクの5つのサブセットに対してGPT-4モデルの評価を行った。 われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。 この結果とSOTA(State-of-the-Art)を比較したところ、ChatGPTモデルの平均損失はゼロショットおよび少数ショット評価で約25%であった。 GPT-4モデルでは、意味的タスクの損失はChatGPTよりも大幅に小さい。 その結果、タスク(より低いSOTA性能)が困難であるほど、ChatGPT損失が大きくなることがわかった。 特に感情認識のような現実的なNLP問題を指す。 また,ランダム・コンテクスト・フューショット・パーソナライゼーションにより,選択した主観的タスクに対するChatGPT応答をパーソナライズする機能についても検証した。 さらなる質的分析により、openaiによる人間のトレーナーに課された規則によって、chatgptバイアスが明らかにされた。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性や,そのようなシステムに対する学習・検証手順の確立に寄与するかどうか,基本的な議論の基盤となるものである。

OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. Several publications on ChatGPT evaluation test its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT's capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness, and stance detection. In contrast, the other tasks require more objective reasoning like word sense disambiguation, linguistic acceptability, and question answering. We also evaluated GPT-4 model on five selected subsets of NLP tasks. We automated ChatGPT and GPT-4 prompting process and analyzed more than 49k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. For GPT-4 model, a loss for semantic tasks is significantly lower than for ChatGPT. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability to personalize ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool's usefulness to society and how the learning and validation procedures for such systems should be established.
翻訳日:2023-06-05 19:59:43 公開日:2023-06-02
# 微分可能な多目的因果ベイズ実験設計

Differentiable Multi-Target Causal Bayesian Experimental Design ( http://arxiv.org/abs/2302.10607v2 )

ライセンス: Link先を確認
Yashas Annadani, Panagiotis Tigas, Desi R. Ivanova, Andrew Jesson, Yarin Gal, Adam Foster, Stefan Bauer(参考訳) 本稿では,ベイズ最適実験設計問題に対するグラデーションに基づくアプローチを導入し,バッチ環境で因果モデルを学習する。 既存の手法は、ブラックボックス法を用いて1対の目標状態ペアを最適化して介入しながら、一連の実験を構築するための欲求的な近似に依存している。 本研究では,ブラックボックス最適化手法とグリーディ・ヒューリスティックスを完全に廃止し,その代わりに概念的に単純なエンドツーエンドの勾配に基づく最適化手法を提案する。 このような手順により、設計空間のパラメータ化は、その複雑さのために探索されていない一連のマルチターゲット状態介入を効率的に最適化することができる。 提案手法は,複数の合成データセットにまたがる単一ターゲットおよび複数ターゲット設定において,ベースラインと既存の獲得戦略より優れていることを示す。

We introduce a gradient-based approach for the problem of Bayesian optimal experimental design to learn causal models in a batch setting -- a critical component for causal discovery from finite data where interventions can be costly or risky. Existing methods rely on greedy approximations to construct a batch of experiments while using black-box methods to optimize over a single target-state pair to intervene with. In this work, we completely dispose of the black-box optimization techniques and greedy heuristics and instead propose a conceptually simple end-to-end gradient-based optimization procedure to acquire a set of optimal intervention target-state pairs. Such a procedure enables parameterization of the design space to efficiently optimize over a batch of multi-target-state interventions, a setting which has hitherto not been explored due to its complexity. We demonstrate that our proposed method outperforms baselines and existing acquisition strategies in both single-target and multi-target settings across a number of synthetic datasets.
翻訳日:2023-06-05 19:59:12 公開日:2023-06-02
# byzsecagg: 符号化計算とベクトルコミットメントに基づく連合学習のためのビザンチン耐性セキュアアグリゲーションスキーム

ByzSecAgg: A Byzantine-Resistant Secure Aggregation Scheme for Federated Learning Based on Coded Computing and Vector Commitment ( http://arxiv.org/abs/2302.09913v3 )

ライセンス: Link先を確認
Tayyebeh Jahani-Nezhad and Mohammad Ali Maddah-Ali and Giuseppe Caire(参考訳) 本稿では,ビザンチン攻撃やプライバシ漏洩から保護されるフェデレート学習のための効率的なセキュアアグリゲーションスキームであるbyzsecaggを提案する。 個々の更新を処理して敵の行動を管理するには、データのプライバシをノードの結束に対して保ちながら、ある種のセキュアなシークレット共有が必要となる。 しかし、更新の長いベクターを秘密に共有するための通信負荷は非常に高い。 ByzSecAggは、ローカル更新を小さなサブベクタに分割し、ランプ秘密共有を使用して共有することで、この問題を解決する。 しかし、この共有法では、対距離計算など、外乱検出アルゴリズムが必要とする二線形計算は認めない。 この問題を解決するために、各ユーザは別のラウンドのランプ共有を実行し、共有多項式に異なるデータの埋め込みを行う。 この技術は、符号化コンピューティングのアイデアに動機付けられ、ペア距離の安全な計算を可能にする。 さらに、ローカル更新の完全性とプライバシを維持するために、ByzSecAggは、コミットサイズが一定(すなわち、ローカル更新の長さで増加しない)でありながら、同時に秘密共有プロセスの検証を可能にするベクトルコミットメントメソッドを使用する。 通信負荷の面では、ByzSecAggはBREAとして知られる最先端のスキームを著しく上回っている。

In this paper, we propose ByzSecAgg, an efficient secure aggregation scheme for federated learning that is protected against Byzantine attacks and privacy leakages. Processing individual updates to manage adversarial behavior, while preserving privacy of data against colluding nodes, requires some sort of secure secret sharing. However, the communication load for secret sharing of long vectors of updates can be very high. ByzSecAgg solves this problem by partitioning local updates into smaller sub-vectors and sharing them using ramp secret sharing. However, this sharing method does not admit bi-linear computations, such as pairwise distance calculations, needed by outlier-detection algorithms. To overcome this issue, each user runs another round of ramp sharing, with different embedding of data in the sharing polynomial. This technique, motivated by ideas from coded computing, enables secure computation of pairwise distance. In addition, to maintain the integrity and privacy of the local update, ByzSecAgg also uses a vector commitment method, in which the commitment size remains constant (i.e. does not increase with the length of the local update), while simultaneously allowing verification of the secret sharing process. In terms of communication loads, ByzSecAgg significantly outperforms the state-of-the-art scheme, known as BREA.
翻訳日:2023-06-05 19:58:57 公開日:2023-06-02
# コンテキスト帯域に対するオンライン連続ハイパーパラメータ最適化

Online Continuous Hyperparameter Optimization for Contextual Bandits ( http://arxiv.org/abs/2302.09440v2 )

ライセンス: Link先を確認
Yue Kang, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) 確率的文脈的バンディットにおいて、エージェントは、過去の経験に基づいた時間依存アクションセットから順次アクションを行い、累積的な後悔を最小限に抑える。 他の多くの機械学習アルゴリズムと同様に、バンディットのパフォーマンスは複数のハイパーパラメータに大きく依存しており、理論的に導出されたパラメータ値は実際に不満足な結果をもたらす可能性がある。 さらに、リアルタイムに決定を行う必要があるため、クロスバリデーションなどのオフラインチューニングメソッドを使用して、バンディット環境下でハイパーパラメータを選択することも不可能である。 そこで本研究では,コンテキストバンディットに対して,検索空間内の最適パラメータ構成を学習するためのオンライン連続ハイパーパラメータチューニングフレームワークを提案する。 具体的には、CDT(Continuous Dynamic Tuning)と呼ばれる2層バンドレートフレームワークを用いて、ハイパーパラメータ最適化を非定常連続武器バンディットとして定式化し、各アームがハイパーパラメータの組み合わせを表す。 上位層に対して,トンプソンサンプリング(TS)を探索に用いるZooming TSアルゴリズムと,スイッチング環境を回避するための再起動手法を提案する。 提案したCDTフレームワークは,ハイパーパラメータの候補セットを指定せずに,文脈的帯域幅アルゴリズムのチューニングに容易に利用できる。 さらに,理論上はサブリニアな後悔を達成でき,実際に合成データと実データの両方において一貫してよりよい結果が得られることを示した。

In stochastic contextual bandits, an agent sequentially makes actions from a time-dependent action set based on past experience to minimize the cumulative regret. Like many other machine learning algorithms, the performance of bandits heavily depends on their multiple hyperparameters, and theoretically derived parameter values may lead to unsatisfactory results in practice. Moreover, it is infeasible to use offline tuning methods like cross-validation to choose hyperparameters under the bandit environment, as the decisions should be made in real time. To address this challenge, we propose the first online continuous hyperparameter tuning framework for contextual bandits to learn the optimal parameter configuration within a search space on the fly. Specifically, we use a double-layer bandit framework named CDT (Continuous Dynamic Tuning) and formulate the hyperparameter optimization as a non-stationary continuum-armed bandit, where each arm represents a combination of hyperparameters, and the corresponding reward is the algorithmic result. For the top layer, we propose the Zooming TS algorithm that utilizes Thompson Sampling (TS) for exploration and a restart technique to get around the switching environment. The proposed CDT framework can be easily used to tune contextual bandit algorithms without any pre-specified candidate set for hyperparameters. We further show that it could achieve sublinear regret in theory and performs consistently better on both synthetic and real datasets in practice.
翻訳日:2023-06-05 19:58:35 公開日:2023-06-02
# 距離行列は幾何学的深層学習に十分か?

Is Distance Matrix Enough for Geometric Deep Learning? ( http://arxiv.org/abs/2302.05743v4 )

ライセンス: Link先を確認
Zian Li, Xiyuan Wang, Yinan Huang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)は、分子動力学シミュレーションなど、与えられたグラフの3次元幾何学を含むタスクによく使用される。 幾何学グラフの距離行列には完全な幾何学的情報が含まれているが、この幾何学を学ぶにはメッセージパッシングニューラルネットワーク(MPNN)が不十分であることが示されている。 本研究では,MPNNが距離行列と区別できない反例の族を拡張し,新しい幾何学グラフと対称幾何学グラフの族を構築し,MPNNの本質的限界をよりよく理解する。 次に,距離行列に含まれるリッチな幾何学を効果的に活用できる$k$-DisGNNを提案する。 3つの視点から、$k$-DisGNNの高表現力を示す。 1.MPNNでは捉えられない高次幾何学情報を学ぶことができる。 2. 既存のよく設計された幾何学モデルを統一することができる。 3.それらは幾何学グラフからスカラー($k\geq 2$)およびベクトル($k\geq 3$)への普遍関数近似である。 最も重要なことは、幾何学的深層学習(GDL)と従来のグラフ表現学習(GRL)の関連性を確立し、GRL用に設計されたこれらの高表現性GNNモデルも印象的な性能でGDLに適用可能であること、そして既存の複雑で同変なモデルが唯一の解決策ではないことを示すことである。 実験は我々の理論を検証する。

Graph Neural Networks (GNNs) are often used for tasks involving the 3D geometry of a given graph, such as molecular dynamics simulation. Although the distance matrix of a geometric graph contains complete geometric information, it has been demonstrated that Message Passing Neural Networks (MPNNs) are insufficient for learning this geometry. In this work, we expand on the families of counterexamples that MPNNs are unable to distinguish from their distance matrices, by constructing families of novel and symmetric geometric graphs, to better understand the inherent limitations of MPNNs. We then propose $k$-DisGNNs, which can effectively exploit the rich geometry contained in the distance matrix. We demonstrate the high expressive power of $k$-DisGNNs from three perspectives: 1. They can learn high-order geometric information that cannot be captured by MPNNs. 2. They can unify some existing well-designed geometric models. 3. They are universal function approximators from geometric graphs to scalars (when $k\geq 2$) and vectors (when $k\geq 3$). Most importantly, we establish a connection between geometric deep learning (GDL) and traditional graph representation learning (GRL), showing that those highly expressive GNN models originally designed for GRL can also be applied to GDL with impressive performance, and that existing complex, equivariant models are not the only solution. Experiments verify our theory.
翻訳日:2023-06-05 19:58:09 公開日:2023-06-02
# 複数センサを用いた強化学習のための共同表現

Joint Representations for Reinforcement Learning with Multiple Sensors ( http://arxiv.org/abs/2302.05342v2 )

ライセンス: Link先を確認
Philipp Becker, Sebastian Markgraf, Fabian Otto, Gerhard Neumann(参考訳) 強化学習(RL)において、複数のセンサモードからの入力を効果的に組み合わせることは、オープンな問題である。 多くの自己教師付き表現学習アプローチは、画像ベースのRLの性能とサンプルの複雑さを改善するために存在するが、ロボットの受容のような他の利用可能な情報を無視している。 しかし、表現学習にこの概念を用いることは、アルゴリズムが関連する側面に集中し、より良い表現を見つけるためのガイドとなる。 本研究では,連続状態空間モデルに基づいて複数のセンサからRLの表現学習を体系的に解析する。 本研究では,各センサのモダリティに最も適した手法を選択可能な再構成型とコントラスト型の組み合わせを提案する。 本稿では,複雑なタスクに対するモデルフリーおよびモデルベースrlのための,各モダリティの異なる損失関数を用いたジョイント表現の利点を示す。 これには、画像が邪魔や閉塞を含むタスクや、新しい移動スイートが含まれる。 共同表現学習における再構成ベースと対比的損失の組み合わせは,画像表現と固有概念のポストホックな組み合わせに比べて有意に性能が向上し,モデルベースrlの学習モデルの品質も向上することを示す。

Combining inputs from multiple sensor modalities effectively in reinforcement learning (RL) is an open problem. While many self-supervised representation learning approaches exist to improve performance and sample complexity for image-based RL, they usually neglect other available information, such as robot proprioception. However, using this proprioception for representation learning can help algorithms to focus on relevant aspects and guide them toward finding better representations. In this work, we systematically analyze representation learning for RL from multiple sensors by building on Recurrent State Space Models. We propose a combination of reconstruction-based and contrastive losses, which allows us to choose the most appropriate method for each sensor modality. We demonstrate the benefits of joint representations, particularly with distinct loss functions for each modality, for model-free and model-based RL on complex tasks. Those include tasks where the images contain distractions or occlusions and a new locomotion suite. We show that combining reconstruction-based and contrastive losses for joint representation learning improves performance significantly compared to a post hoc combination of image representations and proprioception and can also improve the quality of learned models for model-based RL.
翻訳日:2023-06-05 19:57:45 公開日:2023-06-02
# ランダム量子回路のモーメントとロバスト量子複雑性について

On the moments of random quantum circuits and robust quantum complexity ( http://arxiv.org/abs/2303.16944v2 )

ライセンス: Link先を確認
Jonas Haferkamp(参考訳) 我々は、ロバストな量子回路の複雑さの成長に関する新たな下限を証明している -- 作用素ノルム距離で$\delta$の誤差までユニタリのu$を近似する最小のゲート数$c_{\delta}(u)$。 より正確には、ローカルゲートが$su(4)$のサブグループから引き出されるランダム量子回路の2つの境界を示す。 まず、$\delta=\theta(2^{-n})$ に対して、次の線形成長速度が証明される: $c_{\delta}\geq d/\mathrm{poly}(n)$ $d\leq 2^{n/2}$gates を持つ n$ qubits 上のランダム量子回路に対して、$c_{\delta}\geq d/\mathrm{poly}(n)$。 第二に、$ \delta=\Omega(1)$ に対して、複雑性の平方根成長を証明する: $C_{\delta}\geq \sqrt{d}/\mathrm{poly}(n)$ for all $d\leq 2^{n/2}$。 最後に、任意の$\delta$ に対して線型成長を示唆するランダムに描画されたブール関数のフーリエサポートに関する単純な予想を提供する。 これらの結果はランダム量子回路のモーメントの境界から導かれるが、ユニタリな$t$-designsの生成には既存の結果を使用しない。 代わりに、位相状態に作用する対角ユニタリ上で補助ランダムウォークのモーメントを拘束する。 特に、我々の証明は短く、自己完結している。

We prove new lower bounds on the growth of robust quantum circuit complexity -- the minimal number of gates $C_{\delta}(U)$ to approximate a unitary $U$ up to an error of $\delta$ in operator norm distance. More precisely we show two bounds for random quantum circuits with local gates drawn from a subgroup of $SU(4)$. First, for $\delta=\Theta(2^{-n})$, we prove a linear growth rate: $C_{\delta}\geq d/\mathrm{poly}(n)$ for random quantum circuits on $n$ qubits with $d\leq 2^{n/2}$ gates. Second, for $ \delta=\Omega(1)$, we prove a square-root growth of complexity: $C_{\delta}\geq \sqrt{d}/\mathrm{poly}(n)$ for all $d\leq 2^{n/2}$. Finally, we provide a simple conjecture regarding the Fourier support of randomly drawn Boolean functions that would imply linear growth for constant $\delta$. While these results follow from bounds on the moments of random quantum circuits, we do not make use of existing results on the generation of unitary $t$-designs. Instead, we bound the moments of an auxiliary random walk on the diagonal unitaries acting on phase states. In particular, our proof is comparably short and self-contained.
翻訳日:2023-06-05 19:50:13 公開日:2023-06-02
# 知識誘導関係グラフに基づく中国の青銅器の多粒度考古学年代

Multi-Granularity Archaeological Dating of Chinese Bronze Dings Based on a Knowledge-Guided Relation Graph ( http://arxiv.org/abs/2303.15266v3 )

ライセンス: Link先を確認
Rixin Zhou, Jiafu Wei, Qian Zhang, Ruihua Qi, Xi Yang, Chuntao Li(参考訳) 青銅器の考古学的年代測定は、古代中国史研究において重要な役割を担っている。 現在の考古学は、青銅年代測定を行うための訓練された専門家に依存している。 そこで本研究では,高度な深層学習技術と考古学的知識を統合するための学習に基づくアプローチを提案する。 これを実現するために,我々はまず,既存のきめ細かなデータセットよりもリッチな属性情報を含む青銅板の大規模画像データセットを収集した。 第2に,マルチヘッド分類器と知識誘導関係グラフを導入し,属性とding時代との関係を推定する。 第3に, 既存手法との比較実験を行い, その結果から, デート方式が最先端の性能を達成できることを示す。 我々のデータと応用ネットワークは、他の学際的な専門分野に関連するきめ細かな分類研究を充実させることを望んでいる。 使用するデータセットとソースコードは補足資料に含まれており、匿名ポリシーにより提出後に公開されます。 ソースコードとデータは、https://github.com/zhourixin/bronze-dingで入手できる。

The archaeological dating of bronze dings has played a critical role in the study of ancient Chinese history. Current archaeology depends on trained experts to carry out bronze dating, which is time-consuming and labor-intensive. For such dating, in this study, we propose a learning-based approach to integrate advanced deep learning techniques and archaeological knowledge. To achieve this, we first collect a large-scale image dataset of bronze dings, which contains richer attribute information than other existing fine-grained datasets. Second, we introduce a multihead classifier and a knowledge-guided relation graph to mine the relationship between attributes and the ding era. Third, we conduct comparison experiments with various existing methods, the results of which show that our dating method achieves a state-of-the-art performance. We hope that our data and applied networks will enrich fine-grained classification research relevant to other interdisciplinary areas of expertise. The dataset and source code used are included in our supplementary materials, and will be open after submission owing to the anonymity policy. Source codes and data are available at: https://github.com/zhourixin/bronze-Ding.
翻訳日:2023-06-05 19:49:31 公開日:2023-06-02
# 中間特徴連立はブラックボックスモデルの説明可能性に役立つか?

Do intermediate feature coalitions aid explainability of black-box models? ( http://arxiv.org/abs/2303.11920v2 )

ライセンス: Link先を確認
Minal Suresh Patil and Kary Fr\"amling(参考訳) この研究は、ブラックボックスモデルの説明可能性を支援するためのレベル構造に基づく中間概念の概念を導入する。 レベル構造は、各レベルがデータセットの特徴に対応する階層構造(つまり、プレーヤセット分割)である。 粗さのレベルは、シングルトンのみからなる自明な集合から、大連立のみを含む集合へと増加する。 さらに、抽象レベルで説明を生成するために使用可能なドメインエキスパートを通じて、部分的関係、すなわち部分的関係を確立することが可能である。 実世界の自動車モデルとタイタニックデータセットにおいて、このアプローチのユーザビリティについて説明する。

This work introduces the notion of intermediate concepts based on levels structure to aid explainability for black-box models. The levels structure is a hierarchical structure in which each level corresponds to features of a dataset (i.e., a player-set partition). The level of coarseness increases from the trivial set, which only comprises singletons, to the set, which only contains the grand coalition. In addition, it is possible to establish meronomies, i.e., part-whole relationships, via a domain expert that can be utilised to generate explanations at an abstract level. We illustrate the usability of this approach in a real-world car model example and the Titanic dataset, where intermediate concepts aid in explainability at different levels of abstraction.
翻訳日:2023-06-05 19:49:15 公開日:2023-06-02
# マルチスケールシステムの閉包に対するマルチフィデリティディープ演算子ネットワークアプローチ

A Multifidelity deep operator network approach to closure for multiscale systems ( http://arxiv.org/abs/2303.08893v2 )

ライセンス: Link先を確認
Shady E. Ahmed, Panos Stinis(参考訳) 射影に基づく還元順序モデル(PROM)は、少数の一般化された(または潜在的な)変数を用いて、マルチスケールシステムの振る舞いを表現することを約束している。 これらの成功にもかかわらず、PROMは、マルチスケールシステムの解決されたスケールと未解決スケール(クロージャ問題として知られる)の間の相互作用の不正な説明のため、不正確さ、不安定性さえも受け入れることができない。 現在の研究では、クロージャを多忠実性問題として解釈し、それに対応するために多忠実深層演算ネットワーク(DeepONet)フレームワークを使用する。 さらに,多相性に基づく閉包の安定性と精度を高めるため,最近開発された「ループ内学習」アプローチを,結合物理学と機械学習モデルに関する文献から採用した。 その結果, 二次元navier-stokes方程式を用いて, 1次元粘性バーガース方程式と渦の融合に対する衝撃吸着実験を行った。 数値実験により, 補間法と外挿法の両方において, 閉鎖補正されたpromの予測能力が有意な向上を示した。

Projection-based reduced order models (PROMs) have shown promise in representing the behavior of multiscale systems using a small set of generalized (or latent) variables. Despite their success, PROMs can be susceptible to inaccuracies, even instabilities, due to the improper accounting of the interaction between the resolved and unresolved scales of the multiscale system (known as the closure problem). In the current work, we interpret closure as a multifidelity problem and use a multifidelity deep operator network (DeepONet) framework to address it. In addition, to enhance the stability and accuracy of the multifidelity-based closure, we employ the recently developed "in-the-loop" training approach from the literature on coupling physics and machine learning models. The resulting approach is tested on shock advection for the one-dimensional viscous Burgers equation and vortex merging using the two-dimensional Navier-Stokes equations. The numerical experiments show significant improvement of the predictive ability of the closure-corrected PROM over the un-corrected one both in the interpolative and the extrapolative regimes.
翻訳日:2023-06-05 19:49:04 公開日:2023-06-02
# 中心スピンモデルに対する累積展開の妥当性の決定

Determining the validity of cumulant expansions for central spin models ( http://arxiv.org/abs/2303.04410v2 )

ライセンス: Link先を確認
Piper Fowler-Wright and Krist\'in B. Arnard\'ottir and Peter Kirton and Brendon W. Lovett and Jonathan Keeling(参考訳) 多対一接続を持つモデルの場合、平均場理論は正確な多粒子$N\to\infty$極限を捉え、ハイゼンベルク方程式の高次累積展開はこの極限に収束し、有限$N$での近似の改善を与えると広く期待されている。 ここでは、これは必ずしもそうではないことを示す。 代わりに、平均場理論が大きな n$ 極限を正しく記述するかは、モデルパラメータが n$ とどのようにスケールするかに依存し、累積展開の収束は偶数次と奇数次にわたって非一様かを示す。 さらに、高次の累積展開が正しい極限を回復したとしても、誤差はN$で単調ではなく、平均場理論を超えうる。

For a model with many-to-one connectivity it is widely expected that mean-field theory captures the exact many-particle $N\to\infty$ limit, and that higher-order cumulant expansions of the Heisenberg equations converge to this same limit whilst providing improved approximations at finite $N$. Here we show that this is in fact not always the case. Instead, whether mean-field theory correctly describes the large-$N$ limit depends on how the model parameters scale with $N$, and we show that convergence of cumulant expansions may be non-uniform across even and odd orders. Further, even when a higher-order cumulant expansion does recover the correct limit, the error is not monotonic with $N$ and may exceed that of mean-field theory.
翻訳日:2023-06-05 19:48:45 公開日:2023-06-02
# CLIP-Layout:Semantic Furniture Embeddingを用いたスタイル一貫性のある室内シーン合成

CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding ( http://arxiv.org/abs/2303.03565v2 )

ライセンス: Link先を確認
Jingyu Liu, Wenhan Xiong, Ian Jones, Yixin Nie, Anchit Gupta, Barlas O\u{g}uz(参考訳) 室内シーンの合成は、家具をフロアプランに適切にピックして配置するので、シーンがリアルに見え、機能的にも妥当である。 このようなシーンは、没入的な3D体験のための家として機能したり、エンボディエージェントの訓練に使用することができる。 既存の手法では家具のラベル付きカテゴリ(ベッド、椅子、テーブルなど)に依存し、家具の文脈的関連の組み合わせを生成する。 ヒューリスティックでも学習でも、これらの手法はオブジェクトのインスタンスレベルの視覚的属性を無視し、結果として視覚的に一貫性の低いシーンを生み出す。 本稿では,CLIPに基づく汎用画像埋め込みを用いて,インスタンスレベルの予測を出力できる自動回帰シーンモデルを提案する。 これにより、色やスタイルの一致などの視覚的対応を学習し、より機能的に可視で美的な場面を作り出すことができる。 3d-frontデータセット上で評価し,シーン合成によるsoma結果を達成し,自動補完メトリクスを50%以上改善した。 さらに, 組込み方式により, ゼロショットテキスト誘導シーン合成と編集が可能となり, トレーニング中に見えない家具に容易に一般化できる。

Indoor scene synthesis involves automatically picking and placing furniture appropriately on a floor plan, so that the scene looks realistic and is functionally plausible. Such scenes can serve as homes for immersive 3D experiences, or be used to train embodied agents. Existing methods for this task rely on labeled categories of furniture, e.g. bed, chair or table, to generate contextually relevant combinations of furniture. Whether heuristic or learned, these methods ignore instance-level visual attributes of objects, and as a result may produce visually less coherent scenes. In this paper, we introduce an auto-regressive scene model which can output instance-level predictions, using general purpose image embedding based on CLIP. This allows us to learn visual correspondences such as matching color and style, and produce more functionally plausible and aesthetically pleasing scenes. Evaluated on the 3D-FRONT dataset, our model achieves SOTA results in scene synthesis and improves auto-completion metrics by over 50%. Moreover, our embedding-based approach enables zero-shot text-guided scene synthesis and editing, which easily generalizes to furniture not seen during training.
翻訳日:2023-06-05 19:48:29 公開日:2023-06-02
# 非定常環境におけるMNL-Bandit

MNL-Bandit in non-stationary environments ( http://arxiv.org/abs/2303.02504v2 )

ライセンス: Link先を確認
Ayoub Foussoul, Vineet Goyal, Varun Gupta(参考訳) 本稿では、非定常環境におけるMNL-Bandit問題について検討し、最悪の場合として、$\tilde{O}\left( \min \left\{ \sqrt{NTL}\;,,\; N^{\frac{1}{3}}(\Delta_{\infty}^{K})^{\frac{1}{3}} T^{\frac{2}{3}} + \sqrt{NT}\right\}\right)$を示す。 ここで、$N$は腕の数、$L$は変化の数、$\Delta_{\infty}^{K}$は未知のパラメータの変動測度である。 さらに,予測された後悔(対数因子による)の下限の一致を示し,アルゴリズムが最適であることを示唆する。 提案手法は,Agrawalらによる定常MNL-Banditのエポックアルゴリズムに基づく。 しかし、非定常性にはいくつかの課題があり、それに対処するために新しい技術とアイデアを導入します。 特に、非定常性による推定子に導入されたバイアスの厳密な特徴付けを行い、新しい濃度境界を導出する。

In this paper, we study the MNL-Bandit problem in a non-stationary environment and present an algorithm with a worst-case expected regret of $\tilde{O}\left( \min \left\{ \sqrt{NTL}\;,\; N^{\frac{1}{3}}(\Delta_{\infty}^{K})^{\frac{1}{3}} T^{\frac{2}{3}} + \sqrt{NT}\right\}\right)$. Here $N$ is the number of arms, $L$ is the number of changes and $\Delta_{\infty}^{K}$ is a variation measure of the unknown parameters. Furthermore, we show matching lower bounds on the expected regret (up to logarithmic factors), implying that our algorithm is optimal. Our approach builds upon the epoch-based algorithm for stationary MNL-Bandit in Agrawal et al. 2016. However, non-stationarity poses several challenges and we introduce new techniques and ideas to address these. In particular, we give a tight characterization for the bias introduced in the estimators due to non stationarity and derive new concentration bounds.
翻訳日:2023-06-05 19:48:08 公開日:2023-06-02
# 局所正規化神経微分方程式: いくつかのブラックボックスは閉じるつもりだった!

Locally Regularized Neural Differential Equations: Some Black Boxes Were Meant to Remain Closed! ( http://arxiv.org/abs/2303.02262v3 )

ライセンス: Link先を確認
Avik Pal, Alan Edelman, Chris Rackauckas(参考訳) ニューラル微分方程式のような暗黙的な層深層学習技術は、新しい問題に自動的に適応できるため、重要なモデリングフレームワークとなっている。 神経微分方程式の訓練は、効果的に可算力学系の空間上の探索である。 しかし、適応解法が行うステップの数に依存するため、これらのモデルに対する計算コストの制御は困難である。 従来のほとんどの研究では、予測タイミングの削減に高次手法を使用しており、トレーニング時間を大幅に増加させたり、特定のトレーニングアルゴリズムに依存することにより、トレーニング時間と予測タイミングの両方を削減したりしている。 本稿では,確率的時点における適応微分方程式解法の内部コストヒューリスティックスを用いて,より統合が容易な力学系の学習を指導する。 我々は「ブラックボックスを閉じる」ことで、微分方程式解の勾配計算に任意の随伴手法を用いることができる。 本手法を大域的正則化と比較し,通常の微分方程式 (odes) と確率微分方程式 (sdes) の実装の柔軟性を損なうことなく,同様の性能を得られることを示した。 パフォーマンスとトレーニング時間をトレードオフする2つのサンプリング戦略を開発します。 本手法は関数評価を0.556-0.733xに削減し,予測を1.3-2x高速化する。

Implicit layer deep learning techniques, like Neural Differential Equations, have become an important modeling framework due to their ability to adapt to new problems automatically. Training a neural differential equation is effectively a search over a space of plausible dynamical systems. However, controlling the computational cost for these models is difficult since it relies on the number of steps the adaptive solver takes. Most prior works have used higher-order methods to reduce prediction timings while greatly increasing training time or reducing both training and prediction timings by relying on specific training algorithms, which are harder to use as a drop-in replacement due to strict requirements on automatic differentiation. In this manuscript, we use internal cost heuristics of adaptive differential equation solvers at stochastic time points to guide the training toward learning a dynamical system that is easier to integrate. We "close the black-box" and allow the use of our method with any adjoint technique for gradient calculations of the differential equation solution. We perform experimental studies to compare our method to global regularization to show that we attain similar performance numbers without compromising the flexibility of implementation on ordinary differential equations (ODEs) and stochastic differential equations (SDEs). We develop two sampling strategies to trade off between performance and training time. Our method reduces the number of function evaluations to 0.556-0.733x and accelerates predictions by 1.3-2x.
翻訳日:2023-06-05 19:47:39 公開日:2023-06-02
# 量子ユーティリティ -- 実用的な量子優位性の定義と評価

Quantum utility -- definition and assessment of a practical quantum advantage ( http://arxiv.org/abs/2303.02138v2 )

ライセンス: Link先を確認
Nils Herrmann, Daanish Arya, Marcus W. Doherty, Angus Mingare, Jason C. Pillay, Florian Preis, Stefan Prestel(参考訳) 量子コンピューティングの性能を水平に測定するいくつかのベンチマークが提案されている。 エンドユーザの視点(例えばアプリケーション指向のベンチマーク)に注目する向きもあるが、量子プロセッサの物理的フットプリントを考慮した実際の産業価値は議論されていない。 異なるユースケースには、サイズ、重量、電力消費量、データプライバシの要求が異なるが、忠実性、速度、問題サイズ、正確性といった一定のしきい値を超える必要がある。 本稿では,これらの特性を量子ユーティリティの概念に取り入れることを目的としており,量子優位性 – より速く,より正確か,より少ないエネルギー要求 – が,同じ大きさ,重み,コストの古典的マシン上で実現される様々なアプリケーションにおいて,量子コンピュータの有効性と実用性を示す。 量子ユーティリティを次々に追求するために、アプリケーション即応レベル(arls)として構成されるレベルベースの分類スキームと、拡張された分類ラベルが導入される。 これらは、量子化学、量子シミュレーション、量子機械学習、データ分析といった分野の異なる量子応用に実証的に適用される。

Several benchmarks have been proposed to holistically measure quantum computing performance. While some have focused on the end user's perspective (e.g., in application-oriented benchmarks), the real industrial value taking into account the physical footprint of the quantum processor are not discussed. Different use-cases come with different requirements for size, weight, power consumption, or data privacy while demanding to surpass certain thresholds of fidelity, speed, problem size, or precision. This paper aims to incorporate these characteristics into a concept coined quantum utility, which demonstrates the effectiveness and practicality of quantum computers for various applications where quantum advantage -- defined as either being faster, more accurate, or demanding less energy -- is achieved over a classical machine of similar size, weight, and cost. To successively pursue quantum utility, a level-based classification scheme -- constituted as application readiness levels (ARLs) -- as well as extended classification labels are introduced. These are demonstratively applied to different quantum applications from the fields of quantum chemistry, quantum simulation, quantum machine learning, and data analysis followed by a brief discussion.
翻訳日:2023-06-05 19:47:14 公開日:2023-06-02
# 変圧器を用いた視覚セグメンテーション:調査

Transformer-Based Visual Segmentation: A Survey ( http://arxiv.org/abs/2304.09854v2 )

ライセンス: Link先を確認
Xiangtai Li, Henghui Ding, Wenwei Zhang, Haobo Yuan, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy(参考訳) ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。 この技術には、自動運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。 過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。 近年,自然言語処理用に設計された自己認識に基づくニューラルネットワークであるtransformersが,様々な視覚処理タスクにおける従来の畳み込みや再帰的アプローチを大きく上回っている。 具体的には、視覚トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。 本調査は、トランスフォーマティブに基づく視覚セグメンテーションの概観を提供し、最近の進歩を要約する。 まず、問題定義、データセット、および事前畳み込みメソッドを含む背景をレビューする。 次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。 このメタアーキテクチャに基づき、メタアーキテクチャおよび関連するアプリケーションの変更を含む様々なメソッド設計について検討する。 また、3dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、密接に関連する設定も提示する。 さらに、いくつかの確立されたデータセットでレビューされたメソッドをコンパイルし、再評価します。 最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。 プロジェクトのページはhttps://github.com/lxtGH/Awesome-Segmentation-With-Transformerにある。 この急速に発展する分野での開発も継続的に監視します。

Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmentation-With-Transformer. We will also continually monitor developments in this rapidly evolving field.
翻訳日:2023-06-05 19:42:02 公開日:2023-06-02
# 記号回帰の優先順位

Priors for symbolic regression ( http://arxiv.org/abs/2304.06333v2 )

ライセンス: Link先を確認
Deaglan J. Bartlett, Harry Desmond, Pedro G. Ferreira(参考訳) データセットの競合する記号モデルを選択する際、人間は自然に「単純」な表現を好むか、あるいは以前類似した文脈で見られた方程式によく似ているものを選ぶ。 これは、関数に先立って一様でないことが示唆されるが、シンボリック回帰(SR)フレームワークの中ではほとんど考慮されない。 本稿では,関数とそのパラメータに関する詳細な事前情報をsrに組み込む手法を開発した。 関数の構造に関する前述は、各演算子の発生頻度に加えて、互いに相対的な演算子の配置に敏感な$n$-gram言語モデルに基づいています。 また,分数ベイズ係数に基づく形式論を発達させ,モデルがベイズ的エビデンスと同等に比較できるように数値パラメータを前もって扱い,ベイズ的,最小記述長,ヒューリスティックなモデル選択法を明示的に比較する。 我々は、ベンチマークの文献基準や宇宙論の分野の現実世界のデータセットと比較して、先行研究のパフォーマンスを実証する。

When choosing between competing symbolic models for a data set, a human will naturally prefer the "simpler" expression or the one which more closely resembles equations previously seen in a similar context. This suggests a non-uniform prior on functions, which is, however, rarely considered within a symbolic regression (SR) framework. In this paper we develop methods to incorporate detailed prior information on both functions and their parameters into SR. Our prior on the structure of a function is based on a $n$-gram language model, which is sensitive to the arrangement of operators relative to one another in addition to the frequency of occurrence of each operator. We also develop a formalism based on the Fractional Bayes Factor to treat numerical parameter priors in such a way that models may be fairly compared though the Bayesian evidence, and explicitly compare Bayesian, Minimum Description Length and heuristic methods for model selection. We demonstrate the performance of our priors relative to literature standards on benchmarks and a real-world dataset from the field of cosmology.
翻訳日:2023-06-05 19:41:41 公開日:2023-06-02
# ディッケ状態の家族全体の重ね合わせのオンチップ生成と集合的コヒーレント制御

On-chip generation and collectively coherent control of the superposition of the whole family of Dicke states ( http://arxiv.org/abs/2304.03653v2 )

ライセンス: Link先を確認
Leizhen Chen, Liangliang Lu, Lijun Xia, Yanqing Lu, Shining Zhu, Xiao-song Ma(参考訳) 集積量子フォトニクスは最近、絡み合った光子の生成、操作、検出のための強力なプラットフォームとして登場した。 マルチパーティの絡み合った状態は量子物理学の中心にあり、スケーラブルな量子情報処理の鍵となるリソースである。 ディッケ状態は真に絡み合った状態の重要なクラスであり、光間相互作用、量子状態工学、量子論において体系的に研究されている。 ここでは、シリコンフォトニックチップを用いて、4光子ディック状態の族全体の生成と集合的コヒーレント制御、すなわち任意の励起を報告する。 2つのマイクロ共振子から4つの絡み合った光子を生成し、これを線形光学量子回路でコヒーレントに制御し、チップスケール装置で非線形および線形処理を行う。 生成された光子はテレコムバンドであり、マルチパーティネットワークとメトロロジーのための大規模フォトニック量子技術の基礎を成している。

Integrated quantum photonics has recently emerged as a powerful platform for generating, manipulating, and detecting entangled photons. Multipartite entangled states lie at the heart of the quantum physics and are the key enabling resources for scalable quantum information processing. Dicke state is an important class of genuinely entangled state, which has been systematically studied in the light-matter interactions, quantum state engineering and quantum metrology. Here, by using a silicon photonic chip, we report the generation and collectively coherent control of the entire family of four-photon Dicke states, i.e. with arbitrary excitations. We generate four entangled photons from two microresonators and coherently control them in a linear-optic quantum circuit, in which the nonlinear and linear processing are achieved in a chip-scale device. The generated photons are in telecom band, which lays the groundwork for large-scale photonic quantum technologies for multiparty networking and metrology.
翻訳日:2023-06-05 19:40:37 公開日:2023-06-02
# 早期地質探査油田における複雑な貯留層予測のための機械学習による井戸・地震データの逆校正による一般化

Generalization with Reverse-Calibration of Well and Seismic Data Using Machine Learning Methods for Complex Reservoirs Predicting During Early-Stage Geological Exploration Oil Field ( http://arxiv.org/abs/2304.03048v2 )

ライセンス: Link先を確認
Dmitry Ivlev(参考訳) 本研究の目的は, 研究領域に広がる炭化水素貯水池の確率を予測するための自律的アプローチを開発し, 適用することである。 この手法は, 2次分類問題において機械学習アルゴリズムを用いて, well loggingの解釈結果から同定されたクラスに属する空間要素の確率関数を復元する。 地震波場の特性は予測器として用いられる。 本研究は、訓練用データセットの作成、特徴の選択、データの逆分割、分類モデルの集団の作成、分類品質の評価、予測における特徴の寄与の評価、積み重ね法によるモデルの集団の感覚化といった一連のアクションを含む。 その結果, 鉱床のアキモフ複合体の貯水池の厚さ分布図の形で, 調査空間のキャリブレーションされた確率の3次元立方体を貯水池のクラスとその誘導体とした。 異なるデータセットの使用による予測品質の変化の評価を行った。 結論だ 本研究で提案するリバースキャリブレーション法は,これらのデータの事前誤差の所定の限界内において,物理データの不確実性を技術スタックのグローバルチューニングのハイパーパラメータとして利用する。 本手法は予測の質を向上させることを示す。 この研究で使用される機械学習アルゴリズムの技術スタックは、地質学的および地球物理学的データの専門家に依存しない一般化を可能にし、この一般化を使って仮説を検証し、貯水池の確率論的視点に基づいた地質モデルを作成する。

The aim of this study is to develop and apply an autonomous approach for predicting the probability of hydrocarbon reservoirs spreading in the studied area. The methodology uses machine learning algorithms in the problem of binary classification, which restore the probability function of the space element belonging to the classes identified by the results of interpretation of well logging. Attributes of seismic wavefield are used as predictors. The study includes the following sequence of actions: creation of data sets for training, selection of features, reverse-calibration of data, creation of a population of classification models, evaluation of classification quality, evaluation of the contribution of features in the prediction, ensembling the population of models by stacking method. As a result, a prediction was made - a three-dimensional cube of calibrated probabilities of belonging of the studied space to the class of reservoir and its derivative in the form of the map of reservoir thicknesses of the Achimov complex of deposits was obtained. Assessment of changes in the quality of the forecast depending on the use of different data sets was carried out. Conclusion. The reverse-calibration method proposed in this work uses the uncertainty of geophysical data as a hyperparameter of the global tuning of the technological stack, within the given limits of the a priori error of these data. It is shown that the method improves the quality of the forecast. The technological stack of machine learning algorithms used in this work allows expert-independent generalization of geological and geophysical data, and use this generalization to test hypotheses and create geological models based on a probabilistic view of the reservoir.
翻訳日:2023-06-05 19:40:20 公開日:2023-06-02
# 画像登録のための類似度指標のプリミティブ同時最適化

Primitive Simultaneous Optimization of Similarity Metrics for Image Registration ( http://arxiv.org/abs/2304.01601v2 )

ライセンス: Link先を確認
Diana Waldmannstetter, Benedikt Wiestler, Julian Schwarting, Ivan Ezhov, Marie Metz, Daniel Rueckert, Jan S. Kirschke, Marie Piraud, Florian Kofler, Bjoern H. Menze(参考訳) 類似度メトリクスの同時最適化はセマンティックセグメンテーションの分野で標準的な手順であるにもかかわらず、驚くべきことに、画像登録には当てはまらない。 文献における予期せぬギャップを解消するため,本論文では,画像登録のメリットを生かした登録メトリクスの同時最適化について,複雑なマルチモーダル3次元設定で検討する。 グリオーマの術前・術後および術中mri(pre-to intra-operative magnetic resonance imaging: mri)を含む2つの課題データセットを評価した。 提案手法を応用して,専門神経放射線学者のランドマークアノテーションに基づくTRE(Target Registration Error)による登録精度の向上を示す。

Even though simultaneous optimization of similarity metrics represents a standard procedure in the field of semantic segmentation, surprisingly, this does not hold true for image registration. To close this unexpected gap in the literature, we investigate in a complex multi-modal 3D setting whether simultaneous optimization of registration metrics, here implemented by means of primitive summation, can benefit image registration. We evaluate two challenging datasets containing collections of pre- to post-operative and pre- to intra-operative Magnetic Resonance Imaging (MRI) of glioma. Employing the proposed optimization we demonstrate improved registration accuracy in terms of Target Registration Error (TRE) on expert neuroradiologists' landmark annotations.
翻訳日:2023-06-05 19:39:51 公開日:2023-06-02
# radifusion:画像の注意と左右の非対称性を考慮した連続的マンモグラフィ画像を用いた乳癌リスク予測モデル

RADIFUSION: A multi-radiomics deep learning based breast cancer risk prediction model using sequential mammographic images with image attention and bilateral asymmetry refinement ( http://arxiv.org/abs/2304.00257v2 )

ライセンス: Link先を確認
Hong Hui Yeoh, Andrea Liew, Rapha\"el Phan, Fredrik Strand, Kartini Rahmat, Tuong Linh Nguyen, John L. Hopper, Maxine Tan(参考訳) 乳がんは公衆衛生上の重要な問題であり、早期発見は高リスク患者を治療するために重要である。 シークエンシャルスクリーニングマンモグラムは、経時的に乳房組織の変化について重要な時空間情報を提供する。 本研究では,シーケンシャルマンモグラムを活用し,線状画像注目機構,放射線特徴量,異なるマンモグラフィビューを結合する新たなゲーティング機構,乳がんリスク評価のための左右非対称性に基づく微調整機構を組み込んだ,radifusionと呼ばれるディープラーニングアーキテクチャを提案する。 我々は、CSAWデータセットと呼ばれるスクリーニングデータセットを用いて、モデルを評価した。 その結果,1,749名の女性を対象に,1年間のAUC,2年間のAUC,2年間のAUCの3つの指標において,受信機動作特性曲線(AUC) 0.905, 0.872, 0.866の領域を有する他の最先端モデルと比較して,優れた性能を示した。 本研究は, 乳がんリスク評価の精度を高めるために, 画像注意, 放射線学的特徴, ゲーティング機構, 左右非対称性に基づく微調整などの深層学習機構を取り入れることの重要性を強調した。 また, 逐次マンモグラムからの時空間情報を活用することで, モデルの性能が向上したことを示す。 乳がんリスク評価のための強力なツールとしてRADIFUSIONが有用であることが示唆された。

Breast cancer is a significant public health concern and early detection is critical for triaging high risk patients. Sequential screening mammograms can provide important spatiotemporal information about changes in breast tissue over time. In this study, we propose a deep learning architecture called RADIFUSION that utilizes sequential mammograms and incorporates a linear image attention mechanism, radiomic features, a new gating mechanism to combine different mammographic views, and bilateral asymmetry-based finetuning for breast cancer risk assessment. We evaluate our model on a screening dataset called Cohort of Screen-Aged Women (CSAW) dataset. Based on results obtained on the independent testing set consisting of 1,749 women, our approach achieved superior performance compared to other state-of-the-art models with area under the receiver operating characteristic curves (AUCs) of 0.905, 0.872 and 0.866 in the three respective metrics of 1-year AUC, 2-year AUC and > 2-year AUC. Our study highlights the importance of incorporating various deep learning mechanisms, such as image attention, radiomic features, gating mechanism, and bilateral asymmetry-based fine-tuning, to improve the accuracy of breast cancer risk assessment. We also demonstrate that our model's performance was enhanced by leveraging spatiotemporal information from sequential mammograms. Our findings suggest that RADIFUSION can provide clinicians with a powerful tool for breast cancer risk assessment.
翻訳日:2023-06-05 19:39:15 公開日:2023-06-02
# 徒弟学習による主題駆動テキストから画像への生成

Subject-driven Text-to-Image Generation via Apprenticeship Learning ( http://arxiv.org/abs/2304.00186v4 )

ライセンス: Link先を確認
Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William W. Cohen(参考訳) dreamboothのような最近のテキストから画像への生成モデルは、いくつかの例から与えられた主題に対して‘専門家モデル’を微調整することで、高度にカスタマイズされた対象のイメージを生成するという大きな進歩を遂げている。 しかし、このプロセスは高価であり、各主題について新しい専門家モデルを学ぶ必要がある。 本稿では,主題固有の微調整を文脈内学習に置き換える,主題駆動型テキスト対画像生成器sutiについて述べる。 新たな主題のデモがいくつかあると、SuTIは主題固有の最適化を使わずに、異なる場面で対象の新たな再帰を即座に生成できる。 SuTIは見習いの学習を利用しており、そこでは、多数の主題固有のエキスパートモデルによって生成されたデータから、単一の見習いモデルが学習される。 具体的には、インターネットから何百万ものイメージクラスタを発掘し、それぞれが特定のビジュアルテーマを中心にしています。 これらのクラスタを採用して、さまざまな分野を専門とする、多数のエキスパートモデルをトレーニングしています。 その後、見習いモデルのSuTIは、これらの細かい訓練を受けた専門家の行動を真似ることを学ぶ。 SuTIは最適化ベースのSoTA法よりも20倍高速で高品質でカスタマイズされた画像を生成することができる。 挑戦的なDreamBenchとDreamBench-v2では、SuTIが既存のモデルであるInstructPix2Pix、Textual Inversion、Imagic、Prompt2Prompt、Re-Imagen、DreamBoothを大きく上回っていることを示しています。

Recent text-to-image generation models like DreamBooth have made remarkable progress in generating highly customized images of a target subject, by fine-tuning an ``expert model'' for a given subject from a few examples. However, this process is expensive, since a new expert model must be learned for each subject. In this paper, we present SuTI, a Subject-driven Text-to-Image generator that replaces subject-specific fine tuning with in-context learning. Given a few demonstrations of a new subject, SuTI can instantly generate novel renditions of the subject in different scenes, without any subject-specific optimization. SuTI is powered by apprenticeship learning, where a single apprentice model is learned from data generated by a massive number of subject-specific expert models. Specifically, we mine millions of image clusters from the Internet, each centered around a specific visual subject. We adopt these clusters to train a massive number of expert models, each specializing in a different subject. The apprentice model SuTI then learns to imitate the behavior of these fine-tuned experts. SuTI can generate high-quality and customized subject-specific images 20x faster than optimization-based SoTA methods. On the challenging DreamBench and DreamBench-v2, our human evaluation shows that SuTI significantly outperforms existing models like InstructPix2Pix, Textual Inversion, Imagic, Prompt2Prompt, Re-Imagen and DreamBooth, especially on the subject and text alignment aspects.
翻訳日:2023-06-05 19:38:41 公開日:2023-06-02
# マルチラベル学習におけるマクロAUCの一般化の理解に向けて

Towards Understanding Generalization of Macro-AUC in Multi-label Learning ( http://arxiv.org/abs/2305.05248v2 )

ライセンス: Link先を確認
Guoqiang Wu, Chongxuan Li, Yilong Yin(参考訳) マクロAUCは、マルチラベル学習におけるクラスワイドAUCの算術平均であり、実際は一般的に使われている。 しかし、その理論的理解は極めて不足している。 そこで本研究では,マクロ・AUCのサロゲート損失に基づいて,様々な学習アルゴリズムの一般化特性を特徴付ける。 一般化境界に影響を与えるデータセットの臨界因子を理論的に同定する: \emph{the label-wise class imbalance}。 不均衡認識誤り境界に関する本研究の結果から,広く用いられている不平等損失に基づくアルゴリズムは,提案するペアワイズおよび再重み付け損失ベースアルゴリズムよりもラベルワイズクラス不均衡に敏感であることが判明した。 さらに, 様々なデータセットに対する実験結果は, 理論上の知見を裏付けるものである。 これを技術的に確立するために、我々は、独立した関心を持つ可能性のある、新しい(より一般的な)マクディアーミド型濃度不等式を提案する。

Macro-AUC is the arithmetic mean of the class-wise AUCs in multi-label learning and is commonly used in practice. However, its theoretical understanding is far lacking. Toward solving it, we characterize the generalization properties of various learning algorithms based on the corresponding surrogate losses w.r.t. Macro-AUC. We theoretically identify a critical factor of the dataset affecting the generalization bounds: \emph{the label-wise class imbalance}. Our results on the imbalance-aware error bounds show that the widely-used univariate loss-based algorithm is more sensitive to the label-wise class imbalance than the proposed pairwise and reweighted loss-based ones, which probably implies its worse performance. Moreover, empirical results on various datasets corroborate our theory findings. To establish it, technically, we propose a new (and more general) McDiarmid-type concentration inequality, which may be of independent interest.
翻訳日:2023-06-05 19:31:20 公開日:2023-06-02
# 共同CTC損失と自己教師付き事前学習音響エンコーダを用いたエンドツーエンド音声言語理解

End-to-end spoken language understanding using joint CTC loss and self-supervised, pretrained acoustic encoders ( http://arxiv.org/abs/2305.02937v2 )

ライセンス: Link先を確認
Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung(参考訳) 音声言語理解(SLU)における音声信号から直接意味を抽出することは,テキスト情報の欠如により困難である。 一般的なエンドツーエンド(E2E)SLUモデルは、シーケンス・ツー・シーケンスの自動音声認識(ASR)モデルを使用して、セマンティクスを推論するための入力としてテキスト埋め込みを抽出する。 本研究では,コネクショニスト時間分類(CTC)で微調整された自己教師型音響エンコーダを活用し,テキスト埋め込みを抽出し,発話レベルSLUタスクに共同CTCとSLU損失を用いる。 実験により,dstc2データセット上の最先端対話行動分類モデルよりも4%,slurpデータセットのsoma sluモデルに対して1.3%の絶対改善が得られた。

It is challenging to extract semantic meanings directly from audio signals in spoken language understanding (SLU), due to the lack of textual information. Popular end-to-end (E2E) SLU models utilize sequence-to-sequence automatic speech recognition (ASR) models to extract textual embeddings as input to infer semantics, which, however, require computationally expensive auto-regressive decoding. In this work, we leverage self-supervised acoustic encoders fine-tuned with Connectionist Temporal Classification (CTC) to extract textual embeddings and use joint CTC and SLU losses for utterance-level SLU tasks. Experiments show that our model achieves 4% absolute improvement over the the state-of-the-art (SOTA) dialogue act classification model on the DSTC2 dataset and 1.3% absolute improvement over the SOTA SLU model on the SLURP dataset.
翻訳日:2023-06-05 19:31:02 公開日:2023-06-02
# SATソルバーを用いたクリフォード回路の深さ最適合成

Depth-Optimal Synthesis of Clifford Circuits with SAT Solvers ( http://arxiv.org/abs/2305.01674v2 )

ライセンス: Link先を確認
Tom Peham, Nina Brandl, Richard Kueng, Robert Wille and Lukas Burgholzer(参考訳) 回路合成は、与えられた論理機能を基本ゲートの列に分解するタスクである。 さらに短い回路で所望の機能を達成することが不可能であれば(深く)最適である。 最適合成は量子および古典的ハードウェア設計において中心的な問題であるが、複雑性理論上の障害にも悩まされている。 フォールトトレラントな量子計算に動機づけられ、クリフォードユニタリのブロックを合成する特別な場合を考える。 入力刺激の絡み合いと安定化形式を利用することで、クリフォード合成問題を、対象回路の深さごとに1つずつのポリサイズ満足度(sat)問題に還元することができる。 概念レベルでは、クリフォード合成問題は多項式階層の第1レベル($Sigma_2^{\mathsf{P}}$)に含まれるが、論理回路の古典的合成問題は多項式階層の第2レベル($Sigma_2^{\mathsf{P}}$)に対して完備であることが知られている。 この理論的な還元に基づき、深さ最適クリフォード合成のためのsat符号化を定式化する。 次にSATソルバを用いて満足な代入を決定するか、そのような代入が存在しないことを証明する。 これにより、合成が可能な最短深度(最適)と実際の回路(合成)が得られる。 経験的評価により、最適合成手法はランダムクリフォード回路とグローバー探索のためのclifford+t回路の大幅な深さ改善をもたらすことが示された。

Circuit synthesis is the task of decomposing a given logical functionality into a sequence of elementary gates. It is (depth-)optimal if it is impossible to achieve the desired functionality with even shorter circuits. Optimal synthesis is a central problem in both quantum and classical hardware design, but also plagued by complexity-theoretic obstacles. Motivated by fault-tolerant quantum computation, we consider the special case of synthesizing blocks of Clifford unitaries. Leveraging entangling input stimuli and the stabilizer formalism allows us to reduce the Clifford synthesis problem to a family of poly-size satisfiability (SAT) problems -- one for each target circuit depth. On a conceptual level, our result showcases that the Clifford synthesis problem is contained in the first level of the polynomial hierarchy ($\mathsf{NP}$), while the classical synthesis problem for logical circuits is known to be complete for the second level of the polynomial hierarchy ($\Sigma_2^{\mathsf{P}}$). Based on this theoretical reduction, we formulate a SAT encoding for depth-optimal Clifford synthesis. We then employ SAT solvers to determine a satisfying assignment or to prove that no such assignment exists. From that, the shortest depth for which synthesis is still possible (optimality) as well as the actual circuit (synthesis) can be obtained. Empirical evaluations show that the optimal synthesis approach yields a substantial depth improvement for random Clifford circuits and Clifford+T circuits for Grover search.
翻訳日:2023-06-05 19:30:32 公開日:2023-06-02
# 実世界3次元バンドル問題のためのベンチマークデータセットとインスタンス生成

Benchmark dataset and instance generator for Real-World Three-Dimensional Bin Packing Problems ( http://arxiv.org/abs/2304.14712v3 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez and Sebasti\'an V. Romero(参考訳) 本稿では,実世界のビンパッキング問題のベンチマークを提案する。 このデータセットは、サイズ(38から53までのパッケージ数)とユーザ定義要件に関して、さまざまなレベルの複雑性を持つ12のインスタンスで構成されている。 実際、これらのインスタンスを構築するために、いくつかの実世界指向の制約が考慮されました。 一 アイテム及びビン寸法 二 重量制限 三 パッケージカテゴリー間の親和性 四 パッケージ注文の優先事項及び v) ロードバランシング。 データに加えて、Q4RealBPP-DataGenというデータセット生成用の独自のPythonスクリプトも提供しています。 このベンチマークは量子ソルバの性能を評価するために最初に提案された。 したがって、この一連のインスタンスの特性は、現在の量子デバイスの制限に従って設計されている。 さらに、データセットジェネレータは汎用ベンチマークの構築を可能にする。 この記事では、量子コンピューティング研究者が現実世界のビンパッキング問題に取り組むことを奨励するベースラインを提供する。

In this article, a benchmark for real-world bin packing problems is proposed. This dataset consists of 12 instances of varying levels of complexity regarding size (with the number of packages ranging from 38 to 53) and user-defined requirements. In fact, several real-world-oriented restrictions were taken into account to build these instances: i) item and bin dimensions, ii) weight restrictions, iii) affinities among package categories iv) preferences for package ordering and v) load balancing. Besides the data, we also offer an own developed Python script for the dataset generation, coined Q4RealBPP-DataGen. The benchmark was initially proposed to evaluate the performance of quantum solvers. Therefore, the characteristics of this set of instances were designed according to the current limitations of quantum devices. Additionally, the dataset generator is included to allow the construction of general-purpose benchmarks. The data introduced in this article provides a baseline that will encourage quantum computing researchers to work on real-world bin packing problems.
翻訳日:2023-06-05 19:30:02 公開日:2023-06-02
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v2 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton(参考訳) AIにおける哲学研究は、主にAIの倫理に焦点を当てている。 本稿では, 信念の倫理学者であり, 機械学習科学者である我々は, AIの認識論, 特にAIの信念の倫理において, 哲学研究の新たな領域を追求する必要があることを示唆する。 ここでは,様々な方法で定義されてきた信念の倫理を,認識論におけるサブフィールドと呼ぶ。 このサブフィールドは、道徳的、実践的、その他の非倫理的信念の研究に関係している。 本論では、特定の信念が真である、正当化される、保証される、知識を構成するなど、様々な評価基準を満たしているかどうかに関する記述的疑問よりも、人間と人工的に信じるべきエージェントについて、信念の倫理における規範的疑問を主に扱う。 我々は、AI信念の倫理に応用できる(人間)信念の倫理における現在研究における4つのトピックについて提案する:AI信念のドクサスティックな誤り、道徳的に義務づけられた信念、AI信念に対する実践的および道徳的エンクローメント、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この分野に該当する。

Philosophical research in AI has hitherto largely focused on the ethics of AI. In this paper we, an ethicist of belief and a machine learning scientist, suggest that we need to pursue a novel area of philosophical research in AI - the epistemology of AI, and in particular an ethics of belief for AI. Here we take the ethics of belief, a field that has been defined in various ways, to refer to a sub-field within epistemology. This subfield is concerned with the study of possible moral, practical, and other non-alethic dimensions of belief. And in this paper, we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with descriptive questions concerning whether certain beliefs meet various evaluative standards such as being true, being justified or warranted, constituting knowledge, and so on. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI; morally owed beliefs; pragmatic and moral encroachment on AI beliefs; and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2023-06-05 19:29:49 公開日:2023-06-02
# VGOS:スパース入力からのビュー合成のためのボクセルグリッド最適化

VGOS: Voxel Grid Optimization for View Synthesis from Sparse Inputs ( http://arxiv.org/abs/2304.13386v2 )

ライセンス: Link先を確認
Jiakai Sun, Zhanjie Zhang, Jiafu Chen, Guangyuan Li, Boyan Ji, Lei Zhao, Wei Xing, Huaizhong Lin(参考訳) NeRF(Neural Radiance Fields)は、最先端の品質と柔軟性のために、新しいビュー合成において大きな成功を収めている。 しかし、NeRFは高忠実度画像を生成するために、濃密な入力ビュー(数十から数百)と長い訓練時間(数時間から数日)を必要とする。 放射界を表すためにボクセル格子を用いると、最適化プロセスが大幅に加速するが、スパース入力の場合、ボクセル格子はトレーニングビューに過度に適合する傾向があり、穴やフローターを持ち、アーティファクトにつながることが観察される。 本稿では,これらの問題に対処するために,スパース入力(3-10ビュー)から高速(3-5分)の放射場再構成を行うVGOSを提案する。 スパース入力シナリオにおけるvoxelベースのラミアンスフィールドの性能向上のために,2つの手法を提案する。 a) 再建初期における周辺ボクセルの最適化を抑制することにより,過剰フィッティングを防止できる漸進的なボクセルトレーニング戦略を導入する。 b) いくつかの正則化手法を用いてボクセルを滑らかにし, 退化解を避ける。 超高速収束によるスパース入力に対して,VGOSが最先端の性能を達成することを示す実験を行った。 コードはhttps://github.com/SJoJoK/VGOSで入手できる。

Neural Radiance Fields (NeRF) has shown great success in novel view synthesis due to its state-of-the-art quality and flexibility. However, NeRF requires dense input views (tens to hundreds) and a long training time (hours to days) for a single scene to generate high-fidelity images. Although using the voxel grids to represent the radiance field can significantly accelerate the optimization process, we observe that for sparse inputs, the voxel grids are more prone to overfitting to the training views and will have holes and floaters, which leads to artifacts. In this paper, we propose VGOS, an approach for fast (3-5 minutes) radiance field reconstruction from sparse inputs (3-10 views) to address these issues. To improve the performance of voxel-based radiance field in sparse input scenarios, we propose two methods: (a) We introduce an incremental voxel training strategy, which prevents overfitting by suppressing the optimization of peripheral voxels in the early stage of reconstruction. (b) We use several regularization techniques to smooth the voxels, which avoids degenerate solutions. Experiments demonstrate that VGOS achieves state-of-the-art performance for sparse inputs with super-fast convergence. Code will be available at https://github.com/SJoJoK/VGOS.
翻訳日:2023-06-05 19:28:57 公開日:2023-06-02
# 生成モデルに対するマッチングに基づくデータ評価

Matching-based Data Valuation for Generative Model ( http://arxiv.org/abs/2304.10701v3 )

ライセンス: Link先を確認
Jiaxi Yang and Wenglong Deng and Benlin Liu and Yangsibo Huang and Xiaoxiao Li(参考訳) データバリュエーションは、モデルの透明性を高め、データプロパティを保護するため、機械学習において重要である。 既存のデータ評価手法は主に差別モデルに焦点を当てており、近年注目されている深層生成モデルを無視している。 識別モデルと同様に、深層生成モデルにおけるデータ寄与度の評価も緊急に必要である。 しかし、従来のデータ評価アプローチは、主に差別的なモデルパフォーマンスメトリクスと必要なモデル再トレーニングに依存していた。 その結果, 直接的かつ効率的に, 生成的対向ネットワークや拡散モデルといった最近の深層生成モデルに適用することはできない。 このギャップを埋めるために、類似性マッチングの観点から生成モデルにおけるデータ評価問題を定式化する。 具体的には、生成モデルに対する最初のモデルに依存しないアプローチである生成モデル評価器(GMValuator)を紹介する。 提案手法の有効性を実証するための広範な実験を行った。 彼らの知る限り、gmvaluatorは、深層生成モデルにトレーニングフリーでポストホックなデータバリュエーション戦略を提供する最初の作品だ。

Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.
翻訳日:2023-06-05 19:27:49 公開日:2023-06-02
# 視覚的質問応答:最近の文献における技術と共通動向に関する調査

Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature ( http://arxiv.org/abs/2305.11033v2 )

ライセンス: Link先を確認
Ana Cl\'audia Akemi Matsuki de Faria, Felype de Castro Bastos, Jos\'e Victor Nogueira Alves da Silva, Vitor Lopes Fabris, Valeska de Sousa Uchoa, D\'ecio Gon\c{c}alves de Aguiar Neto, Claudio Filipi Goncalves dos Santos(参考訳) 視覚質問応答(visual question answering, vqa)は、自然言語処理と画像予測における最近の問題である。 この領域では、アルゴリズムは特定の画像に関する質問に答える必要がある。 この調査の執筆時点で、25の最近の研究が分析された。 さらに、6つのデータセットが分析され、ダウンロードへのリンクが提供された。 本研究は,本分野における最近の研究成果を概説し,その結果,最先端の誤り,一般的な誤り,今後の研究者にとっての改善点など,より深い分析と比較を行った。

Visual Question Answering (VQA) is an emerging area of interest for researches, being a recent problem in natural language processing and image prediction. In this area, an algorithm needs to answer questions about certain images. As of the writing of this survey, 25 recent studies were analyzed. Besides, 6 datasets were analyzed and provided their link to download. In this work, several recent pieces of research in this area were investigated and a deeper analysis and comparison among them were provided, including results, the state-of-the-art, common errors, and possible points of improvement for future researchers.
翻訳日:2023-06-05 19:22:55 公開日:2023-06-02
# 深層学習は胸部x線上の異常パターンを確実に認識できるか? 日常放射線臨床における1ヶ月のAI実践に関するマルチリーダー研究

Can Deep Learning Reliably Recognize Abnormality Patterns on Chest X-rays? A Multi-Reader Study Examining One Month of AI Implementation in Everyday Radiology Clinical Practice ( http://arxiv.org/abs/2305.10116v2 )

ライセンス: Link先を確認
Daniel Kvak, Anna Chromcov\'a, Petra Ovesn\'a, Jakub Dand\'ar, Marek Biro\v{s}, Robert Hrub\'y, Daniel Dufek, Marija Pajdakovi\'c(参考訳) 本研究では,胸部x線上の7つの特定の放射線学的所見(atelectasis (ate), 圧密 (con), 胸水 (eff), 肺病変 (les), 皮下気腫 (sce),cardiomegaly (cmg), pneumothorax (pno)) を検出・局在化するための, ディープラーニングに基づく自動検出アルゴリズム (dlad, carebot ai cxr) を開発した。 956個のCXRを採取し, 当院で画像評価を行った6名の放射線科医とDLADの成績を比較した。 The proposed DLAD achieved high sensitivity (ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.905 (0.715-0.978), SCE 1.000 (0.366-1.000), CMG 0.837 (0.711-0.917), PNO 0.875 (0.538-0.986)), even when compared to the radiologists (LOWEST: ATE 0.000 (0.000-0.376), CON 0.182 (0.070-0.382), EFF 0.400 (0.302-0.506), LES 0.238 (0.103-0.448), SCE 0.000 (0.000-0.634), CMG 0.347 (0.228-0.486), PNO 0.375 (0.134-0.691), HIGHEST: ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.667 (0.456-0.830), SCE 1.000 (0.366-1.000), CMG 0.980 (0.896-0.999), PNO 0.875 (0.538-0.986)). 本研究の結果から,DLADは診断支援システムとして日常的な臨床実践に統合される可能性があり,中・中等放射線科医の偽陰性率を効果的に軽減することが示唆された。

In this study, we developed a deep-learning-based automatic detection algorithm (DLAD, Carebot AI CXR) to detect and localize seven specific radiological findings (atelectasis (ATE), consolidation (CON), pleural effusion (EFF), pulmonary lesion (LES), subcutaneous emphysema (SCE), cardiomegaly (CMG), pneumothorax (PNO)) on chest X-rays (CXR). We collected 956 CXRs and compared the performance of the DLAD with that of six individual radiologists who assessed the images in a hospital setting. The proposed DLAD achieved high sensitivity (ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.905 (0.715-0.978), SCE 1.000 (0.366-1.000), CMG 0.837 (0.711-0.917), PNO 0.875 (0.538-0.986)), even when compared to the radiologists (LOWEST: ATE 0.000 (0.000-0.376), CON 0.182 (0.070-0.382), EFF 0.400 (0.302-0.506), LES 0.238 (0.103-0.448), SCE 0.000 (0.000-0.634), CMG 0.347 (0.228-0.486), PNO 0.375 (0.134-0.691), HIGHEST: ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.667 (0.456-0.830), SCE 1.000 (0.366-1.000), CMG 0.980 (0.896-0.999), PNO 0.875 (0.538-0.986)). The findings of the study demonstrate that the suggested DLAD holds potential for integration into everyday clinical practice as a decision support system, effectively mitigating the false negative rate associated with junior and intermediate radiologists.
翻訳日:2023-06-05 19:22:46 公開日:2023-06-02
# 私のモデルをコピーしてるの? バックドア透かしによるeaas用大規模言語モデルの著作権保護

Are You Copying My Model? Protecting the Copyright of Large Language Models for EaaS via Backdoor Watermark ( http://arxiv.org/abs/2305.10036v3 )

ライセンス: Link先を確認
Wenjun Peng, Jingwei Yi, Fangzhao Wu, Shangxi Wu, Bin Zhu, Lingjuan Lyu, Binxing Jiao, Tong Xu, Guangzhong Sun, Xing Xie(参考訳) 大規模言語モデル(LLM)は、テキスト理解と生成の両方において強力な能力を示している。 企業はこれらのllmをベースにした組み込み・アズ・ア・サービス(eaas)を提供し始めており、様々な自然言語処理(nlp)タスクを顧客に提供することができる。 しかし、以前の研究では、EaaSはモデル抽出攻撃に弱いことが示されており、これらのモデルのトレーニングは非常に高価であるため、LLMの所有者に大きな損失をもたらす可能性がある。 EaaS のための LLM の著作権を保護するため,埋め込みにバックドアを埋め込む Embedding Watermark 法 EmbMarker を提案する。 提案手法は,一般的なテキストコーパスから中頻度単語群を選択してトリガーセットを作成し,そのターゲット埋め込みを透かしとして選択し,トリガーワードを含むテキストの埋め込みをバックドアとして挿入する。 挿入の重みは、テキストに含まれるトリガーワードの数に比例する。 これにより、ウォーターマークバックドアを著作権検証のためにeaas-stealerのモデルに効果的に転送でき、元の埋め込みのユーティリティに対する悪影響を最小限に抑えることができる。 各種データセットに対する広範な実験により,サービス品質を損なうことなく,EaaSモデルの著作権を効果的に保護できることを示す。

Large language models (LLMs) have demonstrated powerful capabilities in both text understanding and generation. Companies have begun to offer Embedding as a Service (EaaS) based on these LLMs, which can benefit various natural language processing (NLP) tasks for customers. However, previous studies have shown that EaaS is vulnerable to model extraction attacks, which can cause significant losses for the owners of LLMs, as training these models is extremely expensive. To protect the copyright of LLMs for EaaS, we propose an Embedding Watermark method called EmbMarker that implants backdoors on embeddings. Our method selects a group of moderate-frequency words from a general text corpus to form a trigger set, then selects a target embedding as the watermark, and inserts it into the embeddings of texts containing trigger words as the backdoor. The weight of insertion is proportional to the number of trigger words included in the text. This allows the watermark backdoor to be effectively transferred to EaaS-stealer's model for copyright verification while minimizing the adverse impact on the original embeddings' utility. Our extensive experiments on various datasets show that our method can effectively protect the copyright of EaaS models without compromising service quality.
翻訳日:2023-06-05 19:22:18 公開日:2023-06-02
# テキスト型財務予測モデルにおける一貫性の測定

Measuring Consistency in Text-based Financial Forecasting Models ( http://arxiv.org/abs/2305.08524v2 )

ライセンス: Link先を確認
Linyi Yang, Yingpeng Ma, Yue Zhang(参考訳) 金融予測は機械学習研究の重要かつ活発な領域であり、予測精度の最も控えめな優位性でさえも、大きな財政的利益に該当する可能性がある。 自然言語処理(NLP)の最近の進歩は、公開企業からの決算報告などのテキストデータを活用して資産の返却率を予測する機会をもたらす。 しかし、そのようなセンシティブなタスクを扱う場合、モデルの一貫性 -- 入力における意味保存的な交替の下での不変性 -- は、ユーザの信頼を構築する上で重要な特性である。 しかし、現在の財務予測手法では一貫性は考慮されていない。 この問題に対処するため,ファイナンシャルテキストにおける論理的一貫性を評価する評価ツールFinTrustを提案する。 FinTrustを用いて、金融予測のための最先端NLPモデルの一貫性が低いことを示す。 意味保存による性能劣化の分析は,現在のテキストベースの手法が市場情報の堅牢な予測に適していないことを示唆している。 すべてのリソースはhttps://github.com/yingpengma/fintrustで利用可能である。

Financial forecasting has been an important and active area of machine learning research, as even the most modest advantage in predictive accuracy can be parlayed into significant financial gains. Recent advances in natural language processing (NLP) bring the opportunity to leverage textual data, such as earnings reports of publicly traded companies, to predict the return rate for an asset. However, when dealing with such a sensitive task, the consistency of models -- their invariance under meaning-preserving alternations in input -- is a crucial property for building user trust. Despite this, current financial forecasting methods do not consider consistency. To address this problem, we propose FinTrust, an evaluation tool that assesses logical consistency in financial text. Using FinTrust, we show that the consistency of state-of-the-art NLP models for financial forecasting is poor. Our analysis of the performance degradation caused by meaning-preserving alternations suggests that current text-based methods are not suitable for robustly predicting market information. All resources are available at https://github.com/yingpengma/fintrust.
翻訳日:2023-06-05 19:21:16 公開日:2023-06-02
# 原始重力のデコヒーレンスについて

On the Decoherence of Primordial Gravitons ( http://arxiv.org/abs/2305.08071v2 )

ライセンス: Link先を確認
Sirui Ning, Chon Man Sou, Yi Wang(参考訳) 原始スカラー曲率とテンソル摂動の$\zeta$と$\gamma_{ij}$は、最小のインフレーションモデルにおける超水平スケールで保存されていることはよく知られている。 しかし、それらの波動関数は急速に振動する位相を持ち、宇宙論的摂動の境界(現在の微分)やホイーラー・デウィット方程式のWKB近似から見てもわかるように、緩やかに回転しない。 このような振動相は、スカラーとテンソルの摂動の間の重力非直線性を含む。 観測されていないモードの追跡により、発振相は、バルク相互作用によるよりも早く原始重力子の脱コヒーレンスを引き起こす。 以上の結果から, 収縮した原始重力場を探索する最近の提案に対して, 脱コヒーレンス効果はより低くなった。

It is well-known that the primordial scalar curvature and tensor perturbations, $\zeta$ and $\gamma_{ij}$, are conserved on super-horizon scales in minimal inflation models. However, their wave functional has a rapidly oscillating phase which is slow-roll unsuppressed, as can be seen either from boundary (total-derivative) terms of cosmological perturbations, or the WKB approximation of the Wheeler-DeWitt equation. Such an oscillatory phase involves gravitational non-linearity between scalar and tensor perturbations. By tracing out unobserved modes, the oscillatory phase causes faster decoherence of primordial gravitons compared to those by bulk interactions. Our results put a stronger lower bound of decoherence effect to the recent proposals probing squeezed primordial gravitons.
翻訳日:2023-06-05 19:20:59 公開日:2023-06-02
# ssd-monodetr:単眼3次元物体検出のための教師付きスケールアウェア変形トランス

SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2305.07270v2 )

ライセンス: Link先を確認
Xuan He, Fan Yang, Kailun Yang, Jiacheng Lin, Haolong Fu, Meng Wang, Jin Yuan, Zhiyong Li(参考訳) トランスベースの手法は,1つの2次元画像から3d属性を予測することを目的とした,単眼的3d物体検出に優れた性能を示している。 既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的表現と奥行き表現の両方を利用しており、学習したクエリポイントの品質は検出精度に大きな影響を与えている。 残念ながら、トランスフォーマーの既存の教師なしのアテンションメカニズムは、特にハードオブジェクトにおいて、不正確な受容フィールドのため、低品質のクエリ機能を生成する傾向がある。 そこで本研究では,モノクロ3次元物体検出のためのSSDA(Supervised Scale-aware Deformable Attention)を提案する。 具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を利用してオブジェクトクエリ拡張のためのスケール認識フィルタを適応的に学習する。 SSDAでは、オブジェクトクエリの正確な受容領域を予測して、堅牢なクエリ機能生成をサポートすることができる。 これとは別に、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、重み付きスケールマッチング(WSM)損失を割り当てる。 KITTIベンチマークの大規模な実験により、SSDAは検出精度、特に中等度および硬度オブジェクトにおいて著しく向上し、既存のアプローチと比較して最先端の性能が得られることが示された。 私たちのコードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開されます。

Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel Supervised Scale-aware Deformable Attention (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI benchmark demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.
翻訳日:2023-06-05 19:20:23 公開日:2023-06-02
# 離散変調CVQKDプロトコルの収束状態分布

Converging State Distributions for Discrete Modulated CVQKD Protocols ( http://arxiv.org/abs/2305.06484v2 )

ライセンス: Link先を確認
Micael Andrade Dias and Francisco Marcos de Assis(参考訳) 量子チャネル上で秘密鍵を分配するために有限個のコヒーレント状態を使う問題を考える。 このシナリオにおける正確な秘密鍵レートの計算はヒルベルト空間の無限次元性のため難解であり、通常、プロトコルの絡み合ったバージョンでガウス等価な二成分状態を用いて下限を計算することは、セキュリティのために秘密鍵を生成する実際のプロトコル能力の過小評価につながる。 ここで、qkdプロトコルの非ガウス性(non-gaussianity)を定義し、非ガウス変調を用いた場合のガウスモデルの仮定によって失われた秘密鍵レートの量を定量化する関数である。 awgnチャネル容量に近づく確率変数によってコヒーレント状態の集合が引き起こされると、プロトコルの非ガウス性は消滅し、秘密鍵レートに縛られるガウスモデルを用いて秘密鍵レートが失われることはない。 その結果,gauss-hermite形状を持つ256-qamを使用することで,秘密鍵レートの損失は,距離が大きくなるにつれて急速に10^{-5}$以下となることがわかった。

Consider the problem of using a finite set of coherent states to distribute secret keys over a quantum channel. It is known that computing the exact secret key rate in this scenario is intractable due to the infinite dimensionality of the Hilbert spaces and usually one computes a lower bound using a Gaussian equivalent bipartite state in the entangled based version of the protocol, which leads to underestimating the actual protocol capability of generating secret keys for the sake of security. Here, we define the QKD protocol's non-Gaussianity, a function quantifying the amount of secret key rate lost due to assuming a Gaussian model when a non-Gaussian modulation was used, and develop relevant properties for it. We show that if the set of coherent states is induced by a random variable approaching the AWGN channel capacity, then the protocol's non-Gaussianity vanishes, meaning that there is no loss of secret key rate due to the use of a Gaussian model for computing bound on the secret key rate. The numerical results show that by using a 256-QAM with Gauss-Hermite shaping, the loss of secret key rate quickly falls below $10^{-5}$ as the distance increases.
翻訳日:2023-06-05 19:19:32 公開日:2023-06-02
# InternGPT:ChatGPT以外の言語との相互作用による視覚中心課題の解決

InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language ( http://arxiv.org/abs/2305.05662v4 )

ライセンス: Link先を確認
Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Zeqiang Lai, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao(参考訳) InternGPT(iGPT)という対話型視覚フレームワークを提案する。 このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。 ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。 InternGPT は \textbf{inter}action, \textbf{n}onverbal, \textbf{chat}bots の略である。 純粋言語に依存している既存の対話システムとは違って,提案したiGPTでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。 さらに、iGPTでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89\% GPT-4品質で圧縮する)。 この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。 コードをhttps://github.com/opengvlab/interngptでご覧ください。

We present an interactive visual framework named InternGPT, or iGPT for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternGPT stands for \textbf{inter}action, \textbf{n}onverbal, and \textbf{chat}bots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iGPT significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iGPT, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89\% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternGPT.
翻訳日:2023-06-05 19:19:08 公開日:2023-06-02
# 厳密な非コヒーレント操作下でのコヒーレンス濾過

Coherence filtration under strictly incoherent operations ( http://arxiv.org/abs/2305.15741v2 )

ライセンス: Link先を確認
C. L. Liu and C. P. Sun(参考訳) 本稿では,厳密な協調動作下でのコヒーレンス濾過の課題について検討する。 このタスクの目的は、与えられた状態 $\rho$ を、確率的厳密な非コヒーレント演算を用いて最大にコヒーレントな状態との忠実性を持つ別の状態 $\rho^\prime$ に変換することである。 我々は、$\rho^\prime$と最大コヒーレント状態の間の最大忠実度が、$\Delta$コヒーレンス$R(\rho\|\Delta\rho):=\min\{\uplambda|\rho\leq\uplambda\Delta\rho\}$の複数で与えられることを発見した。 最後に,コヒーレンス濾過の課題に基づくコヒーレンス尺度を提案する。

We study the task of coherence filtration under strictly incoherent operations in this paper. The aim of this task is to transform a given state $\rho$ into another one $\rho^\prime$ whose fidelity with the maximally coherent state is maximal by using stochastic strictly incoherent operations. We find that the maximal fidelity between $\rho^\prime$ and the maximally coherent state is given by a multiple of the $\Delta$ robustness of coherence $R(\rho\|\Delta\rho):=\min\{\uplambda|\rho\leq\uplambda\Delta\rho\}$, which provides $R(\rho\|\Delta\rho)$ an operational interpretation. Finally, we provide a coherence measure based on the task of coherence filtration.
翻訳日:2023-06-05 19:11:16 公開日:2023-06-02
# 決定論的制御量子チューリングマシンにおける量子コルモゴロフ複雑性と量子相関

Quantum Kolmogorov complexity and quantum correlations in deterministic-control quantum Turing machines ( http://arxiv.org/abs/2305.14252v2 )

ライセンス: Link先を確認
Mariano Lemus, Ricardo Faleiro, Paulo Mateus, Nikola Paunkovi\'c, Andr\'e Souto(参考訳) 本研究は、決定論的制御量子チューリングマシン(dcq-tm)の観点から一般量子状態に対するコルモゴロフ複雑性の研究である。 我々は、dcq-tmモデルを拡張して、混合状態入力と出力を取り入れ、dcq-tmで近似できる状態としてdcq-computable stateを定義する。 Moreover, we introduce (conditional) Kolmogorov complexity of quantum states and use it to study three particular aspects of the algorithmic information contained in a quantum state: a comparison of the information in a quantum state with that of its classical representation as an array of real numbers, an exploration of the limits of quantum state copying in the context of algorithmic complexity, and study of the complexity of correlations in quantum systems, resulting in a correlation-aware definition for algorithmic mutual information that satisfies symmetry of information property.

This work presents a study of Kolmogorov complexity for general quantum states from the perspective of deterministic-control quantum Turing Machines (dcq-TM). We extend the dcq-TM model to incorporate mixed state inputs and outputs, and define dcq-computable states as those that can be approximated by a dcq-TM. Moreover, we introduce (conditional) Kolmogorov complexity of quantum states and use it to study three particular aspects of the algorithmic information contained in a quantum state: a comparison of the information in a quantum state with that of its classical representation as an array of real numbers, an exploration of the limits of quantum state copying in the context of algorithmic complexity, and study of the complexity of correlations in quantum systems, resulting in a correlation-aware definition for algorithmic mutual information that satisfies symmetry of information property.
翻訳日:2023-06-05 19:10:40 公開日:2023-06-02
# 猫量子ビット上の変分量子アルゴリズム

Variational quantum algorithms on cat qubits ( http://arxiv.org/abs/2305.14143v2 )

ライセンス: Link先を確認
Anne-Sol\`ene Bornens and Michel Nowak(参考訳) 変分量子アルゴリズム(VQA)は様々な用途に応用されている。 質問の1つは、それらを効率的に実装し、既存のアーキテクチャ上で実行することができるかである。 現在のハードウェアは、制御不能なノイズに悩まされ、1つの計算の期待結果を変更できる。 このノイズの性質は、ある技術と別の技術とは異なっている。 本研究では,本質的にビットフリップに耐性のある技術であるcat qubitsについて検討することを選んだ。 この目的のために,2つのノイズモデルを実装した。 ひとつはハードウェアに依存しない - 異なるハードウェアタイプをカバーするために文献で使用されるという意味で。 2つ目はcat qubitsに特有なものです。 vqas (quantum approximation optimization algorithm (qaoa) とvariatinoal quantum linear soler (vqls)) で定式化できる2種類の問題に対するシミュレーションを行い、コスト関数の進化に対するノイズの影響を調査し、ノイズ耐性のあるレジームを考慮できるノイズレベル閾値を抽出する。 コンパイル問題に対処することで,ハードウェアに依存しないノイズモデルの実装の必要性を論じる。

Variational Quantum Algorithms (VQA) have emerged with a wide variety of applications. One question to ask is either they can efficiently be implemented and executed on existing architectures. Current hardware suffers from uncontrolled noise that can alter the expected results of one calculation. The nature of this noise is different from one technology to another. In this work, we chose to investigate a technology that is intrinsically resilient to bit-flips: cat qubits. To this end, we implement two noise models. The first one is hardware-agnostic -- in the sense that it is used in the literature to cover different hardware types. The second one is specific to cat qubits. We perform simulations on two types of problems that can be formulated with VQAs (Quantum Approximate Optimization Algorithm (QAOA) and the Variatinoal Quantum Linear Soler (VQLS)), study the impact of noise on the evolution of the cost function and extract noise level thresholds from which a noise-resilient regime can be considered. By tackling compilation issues, we discuss the need of implementing hardware-specific noise models as hardware-agnostic ones can lead to misleading conclusions regarding the regime of noise that is acceptable for an algorithm to run.
翻訳日:2023-06-05 19:10:29 公開日:2023-06-02
# ガウス・シュタイン変分勾配のダイナミクス理解に向けて

Towards Understanding the Dynamics of Gaussian-Stein Variational Gradient Descent ( http://arxiv.org/abs/2305.14076v3 )

ライセンス: Link先を確認
Tianle Liu, Promit Ghosal, Krishnakumar Balasubramanian, Natesh S. Pillai(参考訳) Stein Variational Gradient Descent (SVGD) は非パラメトリック粒子に基づく決定論的サンプリングアルゴリズムである。 広く使われているにもかかわらず、SVGDの理論的性質の理解は依然として難しい問題である。 ガウス的対象からサンプリングする場合、二線型核を持つsvgdダイナミクスは初期化子がガウス的であればガウス的となる。 この事実に触発された我々は、ガウス-SVGDの詳細な理論的研究、すなわち、双線型核を通してガウス分布の族に投影されるSVGD、またはそれに相当するガウス変分推論(GVI)をSVGDで行う。 平均場PDEと離散粒子系の両方を考慮した完全な図形を示す。 ターゲットが強い対数対数の場合、平均場ガウス-SVGDダイナミクスはKL分散においてターゲットに最も近いガウス分布に線形に収束することが証明される。 有限粒子設定では、平均場極限への時間収束と、目標がガウス的である場合の平衡への時間収束の両方がある。 一般の場合、密度ベースおよび粒子ベースによるガウス-SVGDの実装を提案し、GVIの最近のアルゴリズムが、異なる視点から提案され、我々の統一フレームワークの特別なケースとして現れていることを示す。 興味深いことに、このフレームワークの新しい粒子ベースのインスタンスの1つは、既存のアプローチを経験的に上回っている。 その結果,SVGDとGVIの双方の理解を深める上で,具体的な貢献が得られた。

Stein Variational Gradient Descent (SVGD) is a nonparametric particle-based deterministic sampling algorithm. Despite its wide usage, understanding the theoretical properties of SVGD has remained a challenging problem. For sampling from a Gaussian target, the SVGD dynamics with a bilinear kernel will remain Gaussian as long as the initializer is Gaussian. Inspired by this fact, we undertake a detailed theoretical study of the Gaussian-SVGD, i.e., SVGD projected to the family of Gaussian distributions via the bilinear kernel, or equivalently Gaussian variational inference (GVI) with SVGD. We present a complete picture by considering both the mean-field PDE and discrete particle systems. When the target is strongly log-concave, the mean-field Gaussian-SVGD dynamics is proven to converge linearly to the Gaussian distribution closest to the target in KL divergence. In the finite-particle setting, there is both uniform in time convergence to the mean-field limit and linear convergence in time to the equilibrium if the target is Gaussian. In the general case, we propose a density-based and a particle-based implementation of the Gaussian-SVGD, and show that several recent algorithms for GVI, proposed from different perspectives, emerge as special cases of our unified framework. Interestingly, one of the new particle-based instance from this framework empirically outperforms existing approaches. Our results make concrete contributions towards obtaining a deeper understanding of both SVGD and GVI.
翻訳日:2023-06-05 19:10:06 公開日:2023-06-02
# コントラスト学習による非自己回帰変換器の最適化

Optimizing Non-Autoregressive Transformers with Contrastive Learning ( http://arxiv.org/abs/2305.13667v2 )

ライセンス: Link先を確認
Chenxin An, Jiangtao Feng, Fei Huang, Xipeng Qiu, Lingpeng Kong(参考訳) 非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。 彼らは機械翻訳や他の多くの応用において顕著な進歩を遂げた。 しかし、NATの長年にわたる課題は、NATとATのパフォーマンスギャップの主な原因であるマルチモーダリティデータ分散の学習である。 本稿では,データ分布ではなくモデル分布からサンプリングすることで,モダリティ学習の難易度を高めることを提案する。 我々は、トレーニングプロセスを安定させ、その結果の目的を最先端のNATアーキテクチャDA-Transformerと統合するために、対照的な制約を導出する。 提案手法は,5つのベンチマークを用いた機械翻訳,テキスト要約,パラフレージングの3つのタスクで検討した。 その結果,本手法は,従来の非自己回帰的ベースラインをかなりのマージンで上回り,すべてのベンチマークで非自己回帰的トランスフォーマーに対して新たな最先端結果が得られた。

Non-autoregressive Transformers (NATs) reduce the inference latency of Autoregressive Transformers (ATs) by predicting words all at once rather than in sequential order. They have achieved remarkable progress in machine translation as well as many other applications. However, a long-standing challenge for NATs is the learning of multi-modality data distribution, which is the main cause of the performance gap between NATs and ATs. In this paper, we propose to ease the difficulty of modality learning via sampling from the model distribution instead of the data distribution. We derive contrastive constraints to stabilize the training process and integrate this resulting objective with the state-of-the-art NAT architecture DA-Transformer. Our model \method is examined on 3 different tasks, including machine translation, text summarization, and paraphrasing with 5 benchmarks. Results show that our approach outperforms previous non-autoregressive baselines by a significant margin and establishes new state-of-the-art results for non-autoregressive transformers on all the benchmarks.
翻訳日:2023-06-05 19:09:38 公開日:2023-06-02
# 形状のViT:計算最適モデル設計のためのスケーリング法則

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design ( http://arxiv.org/abs/2305.13035v2 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Xiaohua Zhai, Alexander Kolesnikov, Lucas Beyer(参考訳) スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。 このような手法を改良して、幅や深さなどの計算最適モデル形状を推定し、視覚トランスフォーマーでこれをうまく実装した。 我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。 例えば、SoViT-400m/14はILSRCV2012で90.3%の微調整精度を達成し、はるかに大きなViT-g/14を超え、同じ設定でViT-G/14に近づく。 画像分類,キャプション,vqa,ゼロショット転送など,複数のタスクにわたって徹底的な評価を行い,幅広い領域にわたるモデルの有効性と限界の特定を実証した。 全体として、私たちの発見は視覚モデルを盲目的にスケールアップし、より詳細なスケーリングの道を開くという一般的なアプローチに挑戦しています。

Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.
翻訳日:2023-06-05 19:09:18 公開日:2023-06-02
# マルチモーダルフェデレーション型ヒューマンアクティビティ認識におけるプライバシ

Privacy in Multimodal Federated Human Activity Recognition ( http://arxiv.org/abs/2305.12134v2 )

ライセンス: Link先を確認
Alex Iacob, Pedro P. B. Gusm\~ao, Nicholas D. Lane, Armand K. Koupai, Mohammud J. Bocus, Ra\'ul Santos-Rodr\'iguez, Robert J. Piechocki, Ryan McConville(参考訳) HAR(Human Activity Recognition)トレーニングデータは、プライバシに敏感な場合が多い。 Federated Learning (FL)は、エッジクライアント上でMLモデルをトレーニングすることで、このような懸念に対処する。 本研究は,ユーザ,環境,センサレベルでのフェデレーションHARにおけるプライバシの影響について検討する。 HARにおけるFLの性能は、FLシステムの仮定されたプライバシレベルと、主に異なるセンサからのデータのコロケーションに依存する。 データの共有を避け、人間や環境レベルでのプライバシーを仮定することで、以前の作業と同様に精度は5~7%低下する。 しかし、これをモダリティレベルに拡張し、複数のクライアント間でセンサデータを厳密に分離することで、精度を19-42%削減することができる。 本研究では,HARにおける受動的センシング手法の倫理的活用には,このようなプライバシが不可欠であるため,一般FLモデルとグループレベルの手法を相互に訓練するシステムを実装する。 評価の結果,本手法は精度が7~13%低下し,多様なハードウェアでHARシステムを構築することができることがわかった。

Human Activity Recognition (HAR) training data is often privacy-sensitive or held by non-cooperative entities. Federated Learning (FL) addresses such concerns by training ML models on edge clients. This work studies the impact of privacy in federated HAR at a user, environment, and sensor level. We show that the performance of FL for HAR depends on the assumed privacy level of the FL system and primarily upon the colocation of data from different sensors. By avoiding data sharing and assuming privacy at the human or environment level, as prior works have done, the accuracy decreases by 5-7%. However, extending this to the modality level and strictly separating sensor data between multiple clients may decrease the accuracy by 19-42%. As this form of privacy is necessary for the ethical utilisation of passive sensing methods in HAR, we implement a system where clients mutually train both a general FL model and a group-level one per modality. Our evaluation shows that this method leads to only a 7-13% decrease in accuracy, making it possible to build HAR systems with diverse hardware.
翻訳日:2023-06-05 19:08:56 公開日:2023-06-02
# 最適輸送流と無限小密度比推定

Optimal transport flow and infinitesimal density ratio estimation ( http://arxiv.org/abs/2305.11857v2 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 連続正規化フローは生成的タスクで広く使われており、フローネットワークはデータ分散 $p$ から正規分布へ転送される。 P$から任意の$Q$へ輸送するフローモデルでは、P$と$Q$の両方が有限サンプルを通してアクセス可能であるが、特に近年開発されたテレスコープ密度比推定(DRE)において、この2つの密度を橋渡しするための中間密度の構築が求められている。 本研究では,経験的サンプルから学習したニューラル-ODEモデルを用いて,P$から$Q$(およびその逆)まで非可逆的に輸送し,輸送コストを最適に最小化するフローを提案する。 訓練されたフローモデルは、分類損失を用いて追加の連続時間ネットワークを訓練することで、時間パラメータ化された$\log$-densityに沿って無限小dreを実行できる。 画像データの高次元相互情報推定とエネルギーベース生成モデルにおいて,提案モデルの有効性を実証的に示す。

Continuous normalizing flows are widely used in generative tasks, where a flow network transports from a data distribution $P$ to a normal distribution. A flow model that transports from $P$ to an arbitrary $Q$, where both $P$ and $Q$ are accessible via finite samples, is of various application interests, particularly in the recently developed telescoping density ratio estimation (DRE) which calls for the construction of intermediate densities to bridge between the two densities. In this work, we propose such a flow by a neural-ODE model which is trained from empirical samples to transport invertibly from $P$ to $Q$ (and vice versa) and optimally by minimizing the transport cost. The trained flow model allows us to perform infinitesimal DRE along the time-parametrized $\log$-density by training an additional continuous-time network using classification loss, whose time integration provides a telescopic DRE. The effectiveness of the proposed model is empirically demonstrated on high-dimensional mutual information estimation and energy-based generative models of image data.
翻訳日:2023-06-05 19:08:38 公開日:2023-06-02
# sfp: 分散一般化のためのスプリアス機能目標プルーニング

SFP: Spurious Feature-targeted Pruning for Out-of-Distribution Generalization ( http://arxiv.org/abs/2305.11615v2 )

ライセンス: Link先を確認
Yingchun Wang, Jingcai Guo, Yi Liu, Song Guo, Weizhan Zhang, Xiangyong Cao, Qinghua Zheng(参考訳) モデルサブストラクチャ学習は、元の完全構造よりもより良いアウト・オブ・ディストリビューション(ood)一般化をもたらす不変ネットワークサブストラクチャを見つけることを目的としている。 既存の作業は通常、モジュラーリスク最小化(MRM)を使用して不変部分構造を、完全に露出したドメイン外データで探索する。 1) ドメイン外データの完全な露出の依存による不公平 2)データ分布全体における等しく特徴のないプルーニングのため,OODの準最適一般化を行う。 本稿では, 突発的特徴を持つ内分布(ID)データが, 経験リスクを低く抑えるという考え方に基づいて, SFPと呼ばれる新規なSpurious Feature-targeted Model Pruningフレームワークを提案し, 上記の欠点に言及することなく, 不変部分構造を自動探索する。 具体的には、SFPは、理論的に検証されたタスク損失を用いて、訓練中のIDインスタンス内の素早い特徴を特定し、それに基づいてモデル空間内の対応する特徴投影を減衰させ、いわゆる素早い特徴目標プルーニングを実現する。 これは典型的には、特定されたスプリアス機能に強い依存を持つネットワークブランチを削除することで実現されるため、SFPはモデル学習を不変機能へと押し上げ、スプリアス機能から抽出し、最適なOOD一般化を考案することができる。 さらに,モデル空間によるOOD構造の合理性保証と証明フレームワークを提供するための詳細な理論的解析を行い,モデル空間の偏りがOODの一般化にどのように影響するかを初めて明らかにした。 様々なOODデータセットの実験により、SFPは構造ベースと非構造ベースの両方のOOD一般化SOTAを著しく上回り、精度は4.72%と23.35%に向上した。

Model substructure learning aims to find an invariant network substructure that can have better out-of-distribution (OOD) generalization than the original full structure. Existing works usually search the invariant substructure using modular risk minimization (MRM) with fully exposed out-domain data, which may bring about two drawbacks: 1) Unfairness, due to the dependence of the full exposure of out-domain data; and 2) Sub-optimal OOD generalization, due to the equally feature-untargeted pruning on the whole data distribution. Based on the idea that in-distribution (ID) data with spurious features may have a lower experience risk, in this paper, we propose a novel Spurious Feature-targeted model Pruning framework, dubbed SFP, to automatically explore invariant substructures without referring to the above drawbacks. Specifically, SFP identifies spurious features within ID instances during training using our theoretically verified task loss, upon which, SFP attenuates the corresponding feature projections in model space to achieve the so-called spurious feature-targeted pruning. This is typically done by removing network branches with strong dependencies on identified spurious features, thus SFP can push the model learning toward invariant features and pull that out of spurious features and devise optimal OOD generalization. Moreover, we also conduct detailed theoretical analysis to provide the rationality guarantee and a proof framework for OOD structures via model sparsity, and for the first time, reveal how a highly biased data distribution affects the model's OOD generalization. Experiments on various OOD datasets show that SFP can significantly outperform both structure-based and non-structure-based OOD generalization SOTAs, with accuracy improvement up to 4.72% and 23.35%, respectively
翻訳日:2023-06-05 19:08:19 公開日:2023-06-02
# UMD: X2Xバックドア攻撃の教師なしモデル検出

UMD: Unsupervised Model Detection for X2X Backdoor Attacks ( http://arxiv.org/abs/2305.18651v2 )

ライセンス: Link先を確認
Zhen Xiang, Zidi Xiong, Bo Li(参考訳) バックドア(トロイの木馬)攻撃はディープニューラルネットワークに対する一般的な脅威であり、バックドアトリガーに埋め込まれた1つ以上のソースクラスからのサンプルは、敵のターゲットクラスに誤分類される。 既存の分類器がバックドア攻撃であるかどうかを検出する方法は、主に1対1攻撃(例えば全対1攻撃)で攻撃するために設計されている。 我々の知る限り、監督なしでは、任意のソースクラスでより一般的なX2X攻撃に効果的に対処する既存のメソッドは、いずれも任意のターゲットクラスとペアリングすることはできません。 本稿では,敵(ソース,ターゲット)クラスペアの合同推論により,x2xバックドア攻撃を効果的に検出する,初の教師なしモデル検出手法umdを提案する。 特に,提案するクラスタリングアプローチに基づき,提案するバックドアクラスペアのサブセットを計測・選択するための新しい転送可能性統計を最初に定義した。 次に,提案するロバストで教師なしの異常検出器を用いて,検出推定のためのリバースエンジニアリングトリガサイズの集約に基づいて,選択されたクラスペアを共同で評価する。 我々は, CIFAR-10, GTSRB, Imagenetteデータセットの総合的な評価を行い, 多様なX2X攻撃に対する検出精度の観点から, 教師なしUDDがSOTA検出器(監督下でも)を17%, 4%, 8%で上回っていることを示す。 また,いくつかの強適応攻撃に対するumdの強力な検出性能を示す。

Backdoor (Trojan) attack is a common threat to deep neural networks, where samples from one or more source classes embedded with a backdoor trigger will be misclassified to adversarial target classes. Existing methods for detecting whether a classifier is backdoor attacked are mostly designed for attacks with a single adversarial target (e.g., all-to-one attack). To the best of our knowledge, without supervision, no existing methods can effectively address the more general X2X attack with an arbitrary number of source classes, each paired with an arbitrary target class. In this paper, we propose UMD, the first Unsupervised Model Detection method that effectively detects X2X backdoor attacks via a joint inference of the adversarial (source, target) class pairs. In particular, we first define a novel transferability statistic to measure and select a subset of putative backdoor class pairs based on a proposed clustering approach. Then, these selected class pairs are jointly assessed based on an aggregation of their reverse-engineered trigger size for detection inference, using a robust and unsupervised anomaly detector we proposed. We conduct comprehensive evaluations on CIFAR-10, GTSRB, and Imagenette dataset, and show that our unsupervised UMD outperforms SOTA detectors (even with supervision) by 17%, 4%, and 8%, respectively, in terms of the detection accuracy against diverse X2X attacks. We also show the strong detection performance of UMD against several strong adaptive attacks.
翻訳日:2023-06-05 19:02:28 公開日:2023-06-02
# 機械学習を用いた知覚ストレステストの解析

Analysis of Perceived Stress Test using Machine Learning ( http://arxiv.org/abs/2305.18473v2 )

ライセンス: Link先を確認
Toygar Tanyel(参考訳) 本研究の目的は,150人の個人に対するストレスレベルを判定し,機械学習を用いてトルコの適応質問に対する回答を分析することである。 テストは14の質問で構成され、それぞれ0から4の尺度でスコアされ、合計スコアは0-56である。 これらの質問のうち、7は負の文脈で定式化され、それに応じてスコアされ、残りの7は正の文脈で定式化され、逆となる。 テストはまた、自己効力感とストレス/不快感の2つのサブファクターを識別するように設計されている。 この研究の主な目的は、テスト質問が人工知能技術で同等に重要でないこと、機械学習を用いて社会のバリエーションを示す質問を明らかにすること、そして最終的に心理的に観察される異なるパターンの存在を実証することである。 本研究は、機械学習によるテストを繰り返して、既存の心理学文献とは異なる視点を提供する。 また,ストレステストの結果を解釈するために用いられる尺度の正確性に疑問を呈し,テスト質問の優先順位付けにおける差異を考慮することの重要性を強調した。 本研究は,ストレスに対する対処戦略と治療的アプローチに関する新たな知見を提供するものである。 ソースコード: https://github.com/toygarr/ppl-r-stressed

The aim of this study is to determine the perceived stress levels of 150 individuals and analyze the responses given to adapted questions in Turkish using machine learning. The test consists of 14 questions, each scored on a scale of 0 to 4, resulting in a total score range of 0-56. Out of these questions, 7 are formulated in a negative context and scored accordingly, while the remaining 7 are formulated in a positive context and scored in reverse. The test is also designed to identify two sub-factors: perceived self-efficacy and stress/discomfort perception. The main objectives of this research are to demonstrate that test questions may not have equal importance using artificial intelligence techniques, reveal which questions exhibit variations in the society using machine learning, and ultimately demonstrate the existence of distinct patterns observed psychologically. This study provides a different perspective from the existing psychology literature by repeating the test through machine learning. Additionally, it questions the accuracy of the scale used to interpret the results of the perceived stress test and emphasizes the importance of considering differences in the prioritization of test questions. The findings of this study offer new insights into coping strategies and therapeutic approaches in dealing with stress. Source code: https://github.com/toygarr/ppl-r-stressed
翻訳日:2023-06-05 19:01:59 公開日:2023-06-02
# ai生成テキストのマルチスケール正ラベル検出

Multiscale Positive-Unlabeled Detection of AI-Generated Texts ( http://arxiv.org/abs/2305.18149v2 )

ライセンス: Link先を確認
Yuchuan Tian, Hanting Chen, Xutao Wang, Zheyuan Bai, Qinghua Zhang, Ruifeng Li, Chao Xu, Yunhe Wang(参考訳) 近年のLarge Language Models(LLM)、例えばChatGPT(英語版)は、人間のようなテキストを生成することに驚いているが、偽の学術的テキスト、偽ニュース、偽のツイートなどに誤用される可能性がある。 従来の研究では、単純なML分類器、事前訓練されたモデルに基づくトレーニング非依存の手法、微調整された言語分類モデルなど、これらのマルチスケールAI生成テキストを検出する方法が提案されている。 しかし、主流検出器はコーパス長の因子を考慮せずに定式化され、より短いコーパスは情報的特徴が不足しているため、より長いコーパスに比べて検出が困難である。 本稿では,マルチスケールテキスト検出の課題を解決するために,MPU(Multiscale Positive-Unlabeled)トレーニングフレームワークを提案する。 まず,ショートマシンテキストの人間的類似性を認め,これらの短いマシンテキストをトレーニング中に「ラベルなし」とマークすることで,肯定的ラベル付き(pu)問題としてテキスト分類を再現する。 このPUの文脈では、スケール不変コーパスの正の先行を推定するために、繰り返しモデルを抽象的に使用する、長さに敏感なマルチスケールPU損失を提案する。 さらに,トレーニングコーパスを充実させるためのテキストマルチスケーリングモジュールも導入する。 実験の結果,MPU法は長いAI生成テキストの検出性能を向上し,言語モデル検出器の短絡検出を大幅に改善することがわかった。 MPUで訓練された言語モデルは、マルチスケールのAI生成テキストに対して、既存の検出器を大きなマージンで上回る可能性がある。 コードはhttps://github.com/mindspore-lab/mindone/tree/examples/detect_chatgptとhttps://github.com/YuchuanTian/AIGC_text_detectorで入手できる。

Recent releases of Large Language Models (LLMs), e.g. ChatGPT, are astonishing at generating human-like texts, but they may get misused for fake scholarly texts, fake news, fake tweets, et cetera. Previous works have proposed methods to detect these multiscale AI-generated texts, including simple ML classifiers, pretrained-model-based training-agnostic methods, and finetuned language classification models. However, mainstream detectors are formulated without considering the factor of corpus length: shorter corpuses are harder to detect compared with longer ones for shortage of informative features. In this paper, a Multiscale Positive-Unlabeled (MPU) training framework is proposed to address the challenge of multiscale text detection. Firstly, we acknowledge the human-resemblance property of short machine texts, and rephrase text classification as a Positive-Unlabeled (PU) problem by marking these short machine texts as "unlabeled" during training. In this PU context, we propose the length-sensitive Multiscale PU Loss, where we use a recurrent model in abstraction to estimate positive priors of scale-variant corpuses. Additionally, we introduce a Text Multiscaling module to enrich training corpuses. Experiments show that our MPU method augments detection performance on long AI-generated text, and significantly improves short-corpus detection of language model detectors. Language Models trained with MPU could outcompete existing detectors by large margins on multiscale AI-generated texts. The codes are available at https://github.com/mindspore-lab/mindone/tree/master/examples/detect_chatgpt and https://github.com/YuchuanTian/AIGC_text_detector.
翻訳日:2023-06-05 19:01:39 公開日:2023-06-02
# 有限時間および弱過程の断熱性への普遍的ショートカット

Universal shortcuts to adiabaticity of finite-time and weak processes ( http://arxiv.org/abs/2305.17802v2 )

ライセンス: Link先を確認
Pierre Naz\'e(参考訳) 切替時間及び有限時間及び弱過程を実行する熱孤立系において、ショートカットから断熱までのショートカットの解析式を示す。 弱いプロセスの最適プロトコルの普遍解に基づいており、そこでは待ち時間の概念を用いて断熱的プロセスの拡張が行われた。 このような近道の有効性を検証するために,振動緩和関数の典型例と横場量子イジングチェーンの2つの例が解かれた。 最後に、量子アニーリングにおけるこれらのショートカットの適用可能性の限界に関する議論が行われる。

The analytical expression for shortcuts to adiabaticity for any switching time and any thermally isolated system performing a finite-time and weak process is presented. It is based on the universal solution of the optimal protocols of weak processes, where the extension to adiabatic processes was made by means of the concept of waiting time. Two examples are solved to verify the validity of such shortcuts: the typical case of oscillatory relaxation function and the transverse-field quantum Ising chain. In the end, a discussion about the limitations of the applicability of these shortcuts in quantum annealing is made.
翻訳日:2023-06-05 19:01:07 公開日:2023-06-02
# マルチモーダルコードブックによるより良いテキスト画像翻訳の探索

Exploring Better Text Image Translation with Multimodal Codebook ( http://arxiv.org/abs/2305.17415v2 )

ライセンス: Link先を確認
Zhibin Lan, Jiawei Yu, Xiang Li, Wen Zhang, Jian Luan, Bin Wang, Degen Huang, Jinsong Su(参考訳) テキスト画像翻訳(TIT)は、画像に埋め込まれたテキストをターゲット翻訳に変換することを目的としており、幅広い応用があり、重要な研究価値を持つ。 しかし、TITに関する最近の研究は2つの主要なボトルネックに直面している。 1) このタスクにはTITデータセットが公開されていない。 2) 支配的モデルはカスケード方式で構築され, 光文字認識(OCR)の誤差伝播に悩まされる傾向にある。 本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。 そこで本研究では,画像と関連するテキストを関連付け,翻訳に有用な補足情報を提供するマルチモーダルコードブックを用いたTITモデルを提案する。 さらに、テキスト機械翻訳、画像テキストアライメント、TITタスクを含む多段階トレーニングフレームワークを提案し、追加のバイリンガルテキスト、OCRデータセット、OCRMT30Kデータセットをフル活用してモデルをトレーニングします。 広範な実験と詳細な分析は,提案するモデルとトレーニングフレームワークの有効性を強く実証する。

Text image translation (TIT) aims to translate the source texts embedded in the image to target translations, which has a wide range of applications and thus has important research value. However, current studies on TIT are confronted with two main bottlenecks: 1) this task lacks a publicly available TIT dataset, 2) dominant models are constructed in a cascaded manner, which tends to suffer from the error propagation of optical character recognition (OCR). In this work, we first annotate a Chinese-English TIT dataset named OCRMT30K, providing convenience for subsequent studies. Then, we propose a TIT model with a multimodal codebook, which is able to associate the image with relevant texts, providing useful supplementary information for translation. Moreover, we present a multi-stage training framework involving text machine translation, image-text alignment, and TIT tasks, which fully exploits additional bilingual texts, OCR dataset and our OCRMT30K dataset to train our model. Extensive experiments and in-depth analyses strongly demonstrate the effectiveness of our proposed model and training framework.
翻訳日:2023-06-05 19:00:57 公開日:2023-06-02
# 曲率とねじりを用いた動きに基づく手話ビデオ要約

Motion-Based Sign Language Video Summarization using Curvature and Torsion ( http://arxiv.org/abs/2305.16801v2 )

ライセンス: Link先を確認
Evangelos G. Sartinas, Emmanouil Z. Psarakis, Dimitrios I. Kosmopoulos(参考訳) 多くのビデオベースアプリケーションにおいて興味深い問題は、最も情報性の高いフレームを選択することでショート・シナプスを生成することである。 手話のビデオでは、2d署名者の手首の軌跡の曲率のt$パラメータの対数を使ってキーフレームを識別する利点が最近文献に報告されている。 本稿では,ビデオの各フレームから抽出した3次元手の動きをモデル化することにより,これらのアイデアを拡張する。 そこで本研究では,3次元軌道の$t$-parameterized曲率とねじれに基づく新しい情報関数を提案する。 ビデオフレームをキーフレームとして特徴付ける方法は、動きが2次元空間か3次元空間かに依存する。 具体的には, 3次元運動の場合, 対象軌跡の曲率とねじれの高調波平均の最大値を求め, 平面運動の場合, 軌道の最大値を求める。 提案する3次元特徴は,(1)表裏キーフレームアノテーションを用いた客観的尺度,(2)理解の人間ベース評価,(3)言語分類とその結果について,手話映像の応用において実験的に評価されている。

An interesting problem in many video-based applications is the generation of short synopses by selecting the most informative frames, a procedure which is known as video summarization. For sign language videos the benefits of using the $t$-parameterized counterpart of the curvature of the 2-D signer's wrist trajectory to identify keyframes, have been recently reported in the literature. In this paper we extend these ideas by modeling the 3-D hand motion that is extracted from each frame of the video. To this end we propose a new informative function based on the $t$-parameterized curvature and torsion of the 3-D trajectory. The method to characterize video frames as keyframes depends on whether the motion occurs in 2-D or 3-D space. Specifically, in the case of 3-D motion we look for the maxima of the harmonic mean of the curvature and torsion of the target's trajectory; in the planar motion case we seek for the maxima of the trajectory's curvature. The proposed 3-D feature is experimentally evaluated in applications of sign language videos on (1) objective measures using ground-truth keyframe annotations, (2) human-based evaluation of understanding, and (3) gloss classification and the results obtained are promising.
翻訳日:2023-06-05 19:00:38 公開日:2023-06-02
# サイト対称性によるy$_2$o$_3$のエルビウムドープタントの識別:2つのスピン-光子界面の \textit{ ab initio} 理論

Distinguishing erbium dopants in Y$_2$O$_3$ by site symmetry: \textit{ ab initio} theory of two spin-photon interfaces ( http://arxiv.org/abs/2305.16231v2 )

ライセンス: Link先を確認
Churna Bhandari, C\"uneyt \c{S}ahin, Durga Paudyal, Michael E. Flatt\'e(参考訳) エルビウム(er)ドープイットリア(y$_2$o$_3$)の欠陥形成と電子構造に関する第一原理研究を行った。 これは量子情報科学におけるスピン-光子界面の新たな材料であり、標準的な通信波長でのerドープタントからの狭い線幅の光放射と量子記憶へのポテンシャルがある。 中性、負、正に荷電されたerドーパントの形成エネルギーを計算し、その構成を実験と整合した最も安定な構成と判断する。 y に対する er の置換点である $c_2$ と $c_{3i}$ のうち、前者(低い位置対称性を持つ)は最も低い形成エネルギーを持っていると同定する。 電子的性質は、Perdew-Burke-Ernzerhof (PBE)関数とHubbard $U$パラメータ {\color{black} と spin-orbit coupling (SOC)} を用いて計算され、これは$\sim$ 6 $\mu_B$軌道と$\sim$ 3 $\mu_B$スピン磁気モーメント、Er 4f$シェル内の11個の電子が生成され、電荷ニュートラル Er$^{3+} が形成される。 この標準密度汎関数理論(DFT)アプローチは、ホストのバンドギャップを過小評価し、$U$の第一原理の正当化を欠いている。 これらの問題を克服するために、私たちは4f$オービタルの負のu$を含むスクリーン付きハイブリッド機能計算(hse)を行い、ミキシング(\alpha$)とスクリーニング(w$)パラメータを使った。 これらは、バンドギャップのわずかな変更と、チューニングパラメータの選択に応じて4f$の分割を含むロバストな電子的特徴を生み出した。 また,多粒子電子励起エネルギーを計算し,発光実験値と比較した。

We present a first-principles study of defect formation and electronic structure of erbium (Er)-doped yttria (Y$_2$O$_3$). This is an emerging material for spin-photon interfaces in quantum information science due to the narrow linewidth optical emission from Er dopants at standard telecommunication wavelengths and their potential for quantum memories. We calculate formation energies of neutral, negatively, and positively charged Er dopants and find the configuration to be the most stable, consistent with experiment. Of the two substitutional sites of Er for Y, the $C_2$ and $C_{3i}$, we identify the former (with lower site symmetry) as possessing the lowest formation energy. The electronic properties are calculated using the Perdew-Burke-Ernzerhof (PBE) functional along with the Hubbard $U$ parameter {\color{black} and spin-orbit coupling (SOC)}, which yields a $\sim$ 6 $\mu_B$ orbital and a $\sim$ 3 $\mu_B$ spin magnetic moment, and 11 electrons in the Er $4f$ shell, confirming the formation of charge-neutral Er$^{3+}$. This standard density functional theory (DFT) approach underestimates the band gap of the host and lacks a first-principles justification for $U$. To overcome these issues we performed screened hybrid functional (HSE) calculations, including a negative $U$ for the $4f$ orbitals, with mixing ($\alpha$) and screening ($w$) parameters. These produced robust electronic features with slight modifications in the band gap and the $4f$ splittings depending on the choice of tuning parameters. We also computed the many-particle electronic excitation energies and compared them with experimental values from photoluminescence.
翻訳日:2023-06-05 19:00:17 公開日:2023-06-02
# 大規模における非自己回帰翻訳の再検討

Revisiting Non-Autoregressive Translation at Scale ( http://arxiv.org/abs/2305.16155v2 )

ライセンス: Link先を確認
Zhihao Wang, Longyue Wang, Jinsong Su, Junfeng Yao, Zhaopeng Tu(参考訳) 実世界のシステムでは、自動回帰翻訳(AT)の翻訳品質を向上させるためにスケーリングが重要であるが、非自己回帰翻訳(NAT)では十分に研究されていない。 本研究では,NATの挙動に及ぼすスケーリングの影響を系統的に研究することによって,ギャップを埋める。 2つの先進的なNATモデルに対する6つのWMTベンチマークの大規模な実験により、スケーリングはNATモデルの一般的に望まれる弱点を緩和し、翻訳性能が向上することが示された。 本研究では,デコード速度に対するスケーリングの副作用を軽減するために,NATエンコーダとデコーダが翻訳性能に与える影響を実証的に検討する。 大規模なWMT20 En-Deの実験結果から、非対称アーキテクチャ(例えばエンコーダの大型化やデコーダの小型化など)はスケーリングモデルと同等の性能を発揮しつつ、標準的なNATモデルとのデコード速度の優位性を維持した。 この目的のために、スケールしたNATモデルをスケールしたデータセット上で検証することで、新しいベンチマークを構築し、将来の作業の強力なベースラインとみなすことができる。 コードとシステム出力はhttps://github.com/DeepLearnXMU/Scaling4NATでリリースします。

In real-world systems, scaling has been critical for improving the translation quality in autoregressive translation (AT), which however has not been well studied for non-autoregressive translation (NAT). In this work, we bridge the gap by systematically studying the impact of scaling on NAT behaviors. Extensive experiments on six WMT benchmarks over two advanced NAT models show that scaling can alleviate the commonly-cited weaknesses of NAT models, resulting in better translation performance. To reduce the side-effect of scaling on decoding speed, we empirically investigate the impact of NAT encoder and decoder on the translation performance. Experimental results on the large-scale WMT20 En-De show that the asymmetric architecture (e.g. bigger encoder and smaller decoder) can achieve comparable performance with the scaling model, while maintaining the superiority of decoding speed with standard NAT models. To this end, we establish a new benchmark by validating scaled NAT models on the scaled dataset, which can be regarded as a strong baseline for future works. We release code and system outputs at https://github.com/DeepLearnXMU/Scaling4NAT.
翻訳日:2023-06-05 18:59:36 公開日:2023-06-02
# 真理応答の言語学的特性

Linguistic Properties of Truthful Response ( http://arxiv.org/abs/2305.15875v2 )

ライセンス: Link先を確認
Bruce W. Lee, Benedict Florance Arockiaraj, Helen Jin(参考訳) 220個の手作り言語的特徴を用いたLLMの非現実的応答の現象について検討した。 我々は GPT-3 モデルに注目し,応答の言語的プロファイルがモデルサイズ全体で類似していることを見出した。 すなわち、与えられたプロンプトに対する様々な大きさのLLMの反応は、言語特性レベルに類似している。 我々は、文の真理を分類するためにモデル応答の様式的成分のみに依存するサポートベクターマシンを訓練することで、この発見を拡大する。 データセットのサイズは現在の結果に制限があるが、コンテンツ自体を評価することなく真理を検出できる可能性を示す。 しかし同時に,実験の範囲は限定的であり,結果の解釈に留まらなければならない。

We investigate the phenomenon of an LLM's untruthful response using a large set of 220 handcrafted linguistic features. We focus on GPT-3 models and find that the linguistic profiles of responses are similar across model sizes. That is, how varying-sized LLMs respond to given prompts stays similar on the linguistic properties level. We expand upon this finding by training support vector machines that rely only upon the stylistic components of model responses to classify the truthfulness of statements. Though the dataset size limits our current findings, we show the possibility that truthfulness detection is possible without evaluating the content itself. But at the same time, the limited scope of our experiments must be taken into account in interpreting the results.
翻訳日:2023-06-05 18:59:14 公開日:2023-06-02
# Trncated Affinity Maximization: グラフ異常検出のための一級ホモフィリモデリング

Truncated Affinity Maximization: One-class Homophily Modeling for Graph Anomaly Detection ( http://arxiv.org/abs/2306.00006v2 )

ライセンス: Link先を確認
Hezhe Qiao and Guansong Pang(参考訳) 実世界のグラフ異常検出(GAD)データセットで経験的に見られる1つの一般的な特性は、通常のノードは互いに強い接続/親和性を持つ傾向にあり、一方異常ノードのホモフィリは通常のノードよりも著しく弱い。 しかし、この異常識別特性は、データ再構成のような従来の異常検出目的を用いて構築される既存のGAD法では無視される。 本研究では,GAD の非教師付き異常評価尺度 (ローカルノード親和性) を導入し,ノード属性/表現の類似性として定義される親和性を用いて,隣接ノードの関連性が低いノードにより大きな異常スコアを割り当てる。 さらに, 隣接ノードの局所親和性を最大化することにより, 異常測度に適したノード表現を学習するTruncated Affinity Maximization (TAM)を提案する。 元のグラフ構造に最適化することは、非ホモフィリーエッジ(つまり正常ノードと異常ノードを接続するエッジ)によってバイアスされる。 したがって、tamはこのバイアスを緩和するために非ホモフィリーエッジを反復的に削除する切断グラフに最適化される。 学習された表現は、正常なノードに対して異常なノードよりもはるかに強い局所親和性をもたらす。 6つの実世界のGADデータセットに対する大規模な実験結果によると、TAMは7つの競合モデルを大幅に上回り、AUROC/AUPRCの10%以上を達成している。 私たちのコードはhttps: //github.com/mala-lab/TAM-master/で利用可能になります。

One prevalent property we find empirically in real-world graph anomaly detection (GAD) datasets is a one-class homophily, i.e., normal nodes tend to have strong connection/affinity with each other, while the homophily in abnormal nodes is significantly weaker than normal nodes. However, this anomaly-discriminative property is ignored by existing GAD methods that are typically built using a conventional anomaly detection objective, such as data reconstruction. In this work, we explore this property to introduce a novel unsupervised anomaly scoring measure for GAD -- local node affinity -- that assigns a larger anomaly score to nodes that are less affiliated with their neighbors, with the affinity defined as similarity on node attributes/representations. We further propose Truncated Affinity Maximization (TAM) that learns tailored node representations for our anomaly measure by maximizing the local affinity of nodes to their neighbors. Optimizing on the original graph structure can be biased by non-homophily edges (i.e., edges connecting normal and abnormal nodes). Thus, TAM is instead optimized on truncated graphs where non-homophily edges are removed iteratively to mitigate this bias. The learned representations result in significantly stronger local affinity for normal nodes than abnormal nodes. Extensive empirical results on six real-world GAD datasets show that TAM substantially outperforms seven competing models, achieving over 10% increase in AUROC/AUPRC compared to the best contenders on challenging datasets. Our code will be made available at https: //github.com/mala-lab/TAM-master/.
翻訳日:2023-06-05 18:50:30 公開日:2023-06-02
# オフライン目標条件rlの無意識目標一般化に不可欠なものは何か?

What is Essential for Unseen Goal Generalization of Offline Goal-conditioned RL? ( http://arxiv.org/abs/2305.18882v2 )

ライセンス: Link先を確認
Rui Yang, Yong Lin, Xiaoteng Ma, Hao Hu, Chongjie Zhang, Tong Zhang(参考訳) オフラインの目標条件付きrl(gcrl)は、完全なオフラインデータセットから汎用エージェントをトレーニングする方法を提供する。 データセット内で保守的であることに加えて、目に見えない目標を達成するための一般化能力は、オフラインGCRLのもう一つの根本的な課題である。 しかし、我々の知る限りでは、この問題はまだよく研究されていない。 本稿では,オフラインGCRLのアウト・オブ・ディストリビューション(OOD)一般化を理論的および実験的に検討し,重要な要因を同定する。 多くの実験において,重み付き模倣学習はペシミズムに基づくオフラインrl法よりも優れた一般化を享受している。 この知見に基づいて、我々はOOD一般化の理論を導出し、いくつかの重要な設計選択を特徴付ける。 そこで我々は,実験および理論的研究から得られた知見を組み合わせて,新しいオフラインGCRL法であるGeneralizable Offline goAl-condiTioned RL (GOAT)を提案する。 9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。

Offline goal-conditioned RL (GCRL) offers a way to train general-purpose agents from fully offline datasets. In addition to being conservative within the dataset, the generalization ability to achieve unseen goals is another fundamental challenge for offline GCRL. However, to the best of our knowledge, this problem has not been well studied yet. In this paper, we study out-of-distribution (OOD) generalization of offline GCRL both theoretically and empirically to identify factors that are important. In a number of experiments, we observe that weighted imitation learning enjoys better generalization than pessimism-based offline RL method. Based on this insight, we derive a theory for OOD generalization, which characterizes several important design choices. We then propose a new offline GCRL method, Generalizable Offline goAl-condiTioned RL (GOAT), by combining the findings from our theoretical and empirical studies. On a new benchmark containing 9 independent identically distributed (IID) tasks and 17 OOD tasks, GOAT outperforms current state-of-the-art methods by a large margin.
翻訳日:2023-06-05 18:49:57 公開日:2023-06-02
# 双曲空間における弱教師付き視聴覚暴力検出の学習

Learning Weakly Supervised Audio-Visual Violence Detection in Hyperbolic Space ( http://arxiv.org/abs/2305.18797v2 )

ライセンス: Link先を確認
Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Yigang Wang, Zizhao Wu(参考訳) 近年,音声・視覚的暴力検出の弱さが注目されている。 このタスクの目的は、ビデオレベルのラベルに基づいて、マルチモーダルデータ内の暴力的セグメントを特定することである。 この分野の進歩にもかかわらず、以前の研究で使われた伝統的なユークリッドニューラルネットワークは、特徴空間の制限のために、高度に差別的な表現を捉えるのが困難である。 そこで我々は,双曲空間におけるスニペット埋め込みを学習し,モデル識別を改善する新しいフレームワークhypervdを提案する。 本フレームワークはマルチモーダル融合のためのdetour fusionモジュールから成り,オーディオ信号と視覚信号間の不整合を効果的に緩和する。 さらに,双曲空間におけるスニペット間の特徴的類似性と時間的関係を推定する,完全双曲グラフ畳み込みネットワークの2つの分枝を寄与する。 この空間でスニペット表現を学習することで、このフレームワークは暴力的な出来事と通常の出来事のセマンティックな差異を効果的に学習する。 XD-Violenceベンチマークの大規模な実験により,本手法は最先端の手法よりも大きなマージンで優れていることが示された。

In recent years, the task of weakly supervised audio-visual violence detection has gained considerable attention. The goal of this task is to identify violent segments within multimodal data based on video-level labels. Despite advances in this field, traditional Euclidean neural networks, which have been used in prior research, encounter difficulties in capturing highly discriminative representations due to limitations of the feature space. To overcome this, we propose HyperVD, a novel framework that learns snippet embeddings in hyperbolic space to improve model discrimination. Our framework comprises a detour fusion module for multimodal fusion, effectively alleviating modality inconsistency between audio and visual signals. Additionally, we contribute two branches of fully hyperbolic graph convolutional networks that excavate feature similarities and temporal relationships among snippets in hyperbolic space. By learning snippet representations in this space, the framework effectively learns semantic discrepancies between violent and normal events. Extensive experiments on the XD-Violence benchmark demonstrate that our method outperforms state-of-the-art methods by a sizable margin.
翻訳日:2023-06-05 18:49:38 公開日:2023-06-02
# マルチクロックバイレベル最適化のための並列高速化を用いたブロックワイズ確率分散法

Blockwise Stochastic Variance-Reduced Methods with Parallel Speedup for Multi-Block Bilevel Optimization ( http://arxiv.org/abs/2305.18730v2 )

ライセンス: Link先を確認
Quanqi Hu, Zi-Hao Qiu, Zhishuai Guo, Lijun Zhang, Tianbao Yang(参考訳) 本稿では,m\gg 1$低レベル問題を含む非凸型マルチブロック2レベル最適化(mbbo)問題について考察する。 確率的勾配の設計と分散の制御は、ブロックやデータの階層的サンプリングと、超勾配を推定するユニークな課題のためにより複雑である。 アルゴリズムの3つの優れた特性を 達成することを目指しています (a)標準bo問題の最先端の複雑さと単一ブロックとのマッチング (b)$i$ブロックをサンプリングし、各イテレーション毎に$b$サンプルをサンプリングして並列スピードアップを達成すること。 (c)高次元ヘッセン行列推定器の逆計算を避けること。 しかし、既存の作品がこれらの性質の1つまたは2つしか達成できないことを観察することで、これらすべてを達成することは非自明である。 a,b)を達成するための課題に対処する c) ヘッセン行列 (低次元問題) やヘッセンベクトル積 (高次元問題) の追跡に先進的ブロックワイド分散還元法を用いて2つの確率的アルゴリズムを提案し、適切な条件下での$O(\frac{m\epsilon^{-3}\mathbb{I}(I<m)}{I\sqrt{I}} + \frac{m\epsilon^{-3}}{I\sqrt{B}})$の反復複雑性を証明した。 また,既存のMBBOアルゴリズムと比較して提案アルゴリズムの有効性を検証する実験を行った。

In this paper, we consider non-convex multi-block bilevel optimization (MBBO) problems, which involve $m\gg 1$ lower level problems and have important applications in machine learning. Designing a stochastic gradient and controlling its variance is more intricate due to the hierarchical sampling of blocks and data and the unique challenge of estimating hyper-gradient. We aim to achieve three nice properties for our algorithm: (a) matching the state-of-the-art complexity of standard BO problems with a single block; (b) achieving parallel speedup by sampling $I$ blocks and sampling $B$ samples for each sampled block per-iteration; (c) avoiding the computation of the inverse of a high-dimensional Hessian matrix estimator. However, it is non-trivial to achieve all of these by observing that existing works only achieve one or two of these properties. To address the involved challenges for achieving (a, b, c), we propose two stochastic algorithms by using advanced blockwise variance-reduction techniques for tracking the Hessian matrices (for low-dimensional problems) or the Hessian-vector products (for high-dimensional problems), and prove an iteration complexity of $O(\frac{m\epsilon^{-3}\mathbb{I}(I<m)}{I\sqrt{I}} + \frac{m\epsilon^{-3}}{I\sqrt{B}})$ for finding an $\epsilon$-stationary point under appropriate conditions. We also conduct experiments to verify the effectiveness of the proposed algorithms comparing with existing MBBO algorithms.
翻訳日:2023-06-05 18:49:19 公開日:2023-06-02
# 大規模言語モデルのためのKEYword based Smpling (KEYS)

KEYword based Sampling (KEYS) for Large Language Models ( http://arxiv.org/abs/2305.18679v2 )

ライセンス: Link先を確認
Jyothir S V, Zuhaib Akhtar(参考訳) 質問応答 (Q/A) は生成タスク (Mitra, 2017) として定式化することができ、質問とパス(可能であれば知識)を与えられた回答を生成する。 qaタスクの最近の進歩は、言語モデルの進歩に重点を置いており、サンプリング(krishna et al., 2021), (nakano et al., 2021) といった他の領域よりも少ない。 キーワードは、言語生成において人間にとって非常に重要な役割を果たす。 (Humansはキーワードを定式化し、文法を使ってこれらのキーワードと作業を結ぶ)。 研究コミュニティでは、人間が質問に対する回答をどのように生成し、この振る舞いを言語モデルに組み込むかにはほとんど焦点が当てられません。 本稿では,これら2つの領域の組み合わせ,すなわち,ヒトに近い行動と事実的正しい回答を,サンプリングでどのように生成するかを考察する。 したがって、q/aタスクに使用するべきデコーディングアルゴリズムの種類は、キーワードにも依存すべきである。 これらのキーワードは、質問、通過、インターネットの結果から得ることができる。 知識蒸留技術を用いて,バニラ復号アルゴリズム上に抽出したキーワードとサンプルを抽出し,その解を定式化して人間的な解を生成する。 本稿では,本手法がq/aタスクでよく使われる復号法よりも優れていることを示す。

Question answering (Q/A) can be formulated as a generative task (Mitra, 2017) where the task is to generate an answer given the question and the passage (knowledge, if available). Recent advances in QA task is focused a lot on language model advancements and less on other areas such as sampling(Krishna et al., 2021), (Nakano et al., 2021). Keywords play very important role for humans in language generation. (Humans formulate keywords and use grammar to connect those keywords and work). In the research community, very little focus is on how humans generate answers to a question and how this behavior can be incorporated in a language model. In this paper, we want to explore these two areas combined, i.e., how sampling can be to used generate answers which are close to human-like behavior and factually correct. Hence, the type of decoding algorithm we think should be used for Q/A tasks should also depend on the keywords. These keywords can be obtained from the question, passage or internet results. We use knowledge distillation techniques to extract keywords and sample using these extracted keywords on top of vanilla decoding algorithms when formulating the answer to generate a human-like answer. In this paper, we show that our decoding method outperforms most commonly used decoding methods for Q/A task
翻訳日:2023-06-05 18:48:45 公開日:2023-06-02
# 制約なしデータによる半教師付き学習のスケールアップ

Scaling Up Semi-supervised Learning with Unconstrained Unlabelled Data ( http://arxiv.org/abs/2306.01222v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 本研究では,UnMixMatchを提案する。UnMixMatchは,制約のないデータから効率的な表現を学習し,性能を向上する。 既存の半教師付き手法の多くは、ラベル付きサンプルとラベルなしサンプルが同じ分布から引き出されるという仮定に依存しており、自由なラベル付きデータを使用することによる改善の可能性を制限する。 したがって、半教師付き学習の一般化性とスケーラビリティは、この仮定によってしばしば妨げられる。 本手法は,これらの制約を克服し,半教師付き学習において非制約データを有効に活用することを目的としている。 UnMixMatchは、強力な正規化を提供する教師付き学習者、非ラベルデータから基礎となる表現を学習するコントラスト整合正規化者、非ラベルデータから学習される表現を強化する自己教師付き損失の3つの主要コンポーネントから構成される。 4つの一般的なデータセットに対して広範な実験を行い、4.79%の性能向上を伴う既存の半教師付き手法よりも優れた性能を示した。 広汎なアブレーションおよび感度研究は,提案手法のそれぞれの成分の有効性と影響を示す。

We propose UnMixMatch, a semi-supervised learning framework which can learn effective representations from unconstrained unlabelled data in order to scale up performance. Most existing semi-supervised methods rely on the assumption that labelled and unlabelled samples are drawn from the same distribution, which limits the potential for improvement through the use of free-living unlabeled data. Consequently, the generalizability and scalability of semi-supervised learning are often hindered by this assumption. Our method aims to overcome these constraints and effectively utilize unconstrained unlabelled data in semi-supervised learning. UnMixMatch consists of three main components: a supervised learner with hard augmentations that provides strong regularization, a contrastive consistency regularizer to learn underlying representations from the unlabelled data, and a self-supervised loss to enhance the representations that are learnt from the unlabelled data. We perform extensive experiments on 4 commonly used datasets and demonstrate superior performance over existing semi-supervised methods with a performance boost of 4.79%. Extensive ablation and sensitivity studies show the effectiveness and impact of each of the proposed components of our method.
翻訳日:2023-06-05 17:13:32 公開日:2023-06-02
# モデル注意は人間の注意に相応しいか? コード生成のための大規模言語モデルに関する実証的研究

Is Model Attention Aligned with Human Attention? An Empirical Study on Large Language Models for Code Generation ( http://arxiv.org/abs/2306.01220v1 )

ライセンス: Link先を確認
Bonan Kou, Shengmai Chen, Zhijie Wang, Lei Ma, Tianyi Zhang(参考訳) 大規模言語モデル(LLM)はコード生成に有効であることが証明されている。 LLMの複雑さと不透明さのため、これらのモデルがどのようにコードを生成するかについてはほとんど分かっていない。 我々の理解を深めるために,LLM がコード生成中に人間のプログラマと同じ言語記述に参加するかどうかを検討する。 人気のあるベンチマークであるHumanEvalで5つのLLMの分析を行った結果、LLMとプログラマの注意が一貫した不一致が明らかになった。 さらに,LLMのコード生成精度と人間のプログラマとの整合性には相関性がないことがわかった。 定量的実験とユーザスタディにより,12種類の注意計算手法のうち,摂動法で計算した注意が人間の注意に最も適しており,常に人間のプログラマに好まれていることが確認された。 この結果から,人間によるLLMの理解性向上とプログラマの信頼度向上の必要性が示唆された。

Large Language Models (LLMs) have been demonstrated effective for code generation. Due to the complexity and opacity of LLMs, little is known about how these models generate code. To deepen our understanding, we investigate whether LLMs attend to the same parts of a natural language description as human programmers during code generation. An analysis of five LLMs on a popular benchmark, HumanEval, revealed a consistent misalignment between LLMs' and programmers' attention. Furthermore, we found that there is no correlation between the code generation accuracy of LLMs and their alignment with human programmers. Through a quantitative experiment and a user study, we confirmed that, among twelve different attention computation methods, attention computed by the perturbation-based method is most aligned with human attention and is constantly favored by human programmers. Our findings highlight the need for human-aligned LLMs for better interpretability and programmer trust.
翻訳日:2023-06-05 17:13:15 公開日:2023-06-02
# 姓ネットワークにおける親和関係の予測

Predicting affinity ties in a surname network ( http://arxiv.org/abs/2306.01218v1 )

ライセンス: Link先を確認
Marcelo Mendoza and Naim Bro(参考訳) チリのサンティアゴにおける姓の行政登録から,社会経済データをエンコードする姓親和性ネットワークを構築した。 このネットワークは、姓を表すノードと、社会経済的なデシレイルによる姓間の交流の頻度を表すエッジを持つ多元関係グラフである。 リンクの予測を知識ベース補完問題としてモデル化し,新しいリンクの形成に対して隣人同士の共有が極めて予測的であることを見出した。 重要なことに、私たちは埋め込み空間の接地した隣人と隣人を区別し、後者の方がタイ形成をより予測できると判断する。 本稿は,サンティアゴにおけるエリート・エンドゲーミズムの高水準を説明する上で,この発見の意義について述べる。

From administrative registers of last names in Santiago, Chile, we create a surname affinity network that encodes socioeconomic data. This network is a multi-relational graph with nodes representing surnames and edges representing the prevalence of interactions between surnames by socioeconomic decile. We model the prediction of links as a knowledge base completion problem, and find that sharing neighbors is highly predictive of the formation of new links. Importantly, We distinguish between grounded neighbors and neighbors in the embedding space, and find that the latter is more predictive of tie formation. The paper discusses the implications of this finding in explaining the high levels of elite endogamy in Santiago.
翻訳日:2023-06-05 17:13:01 公開日:2023-06-02
# 円錐制約付き非単調変分不等式問題に対する拡張ラグランジアンアプローチ

An Augmented Lagrangian Approach to Conically Constrained Non-monotone Variational Inequality Problems ( http://arxiv.org/abs/2306.01214v1 )

ライセンス: Link先を確認
Lei Zhao, Daoli Zhu, Shuzhong Zhang(参考訳) 本稿では、(非線形)凸凸錐制約を持つ非単調(混合)変分不等式モデルを考える。 問題となるviモデルに対して等価なラグランジアン関数様原始双対サドルポイント系を開発することにより,本論文ではalaviと呼ばれる拡張ラグランジ的原始双対法を導入し,一般制約付きviモデルを解く。 ALAVI の収束性を証明する前提条件として,本論文では主対二変量コヒーレンス条件(primal-dual variational coherence condition)と呼ぶ。 次に、上述したコヒーレンス条件を暗示するためには、既存の一般化単調性の性質が(必ずしも必要ではないが)十分であることを示し、したがって ALAVI の収束を保証するのに十分である。 この仮定の下では、ALAVI が実際に $o(1/\sqrt{k})$大域収束率を持ち、$k$ は反復数であることを示す。 新しいギャップ関数を導入することにより、写像が単調であれば、このレートはさらに$O(1/k)$になる。 最後に、計量準正則性条件の下では、VI モデルが非単調であっても、ALAVI の局所収束速度は線形になることを示す。 ランダムに生成した高非線形および非単調な VI 問題の数値実験により,提案手法の有効性が示された。

In this paper we consider a non-monotone (mixed) variational inequality model with (nonlinear) convex conic constraints. Through developing an equivalent Lagrangian function-like primal-dual saddle-point system for the VI model in question, we introduce an augmented Lagrangian primal-dual method, to be called ALAVI in the current paper, for solving a general constrained VI model. Under an assumption, to be called the primal-dual variational coherence condition in the paper, we prove the convergence of ALAVI. Next, we show that many existing generalized monotonicity properties are sufficient -- though by no means necessary -- to imply the above mentioned coherence condition, thus are sufficient to ensure convergence of ALAVI. Under that assumption, we further show that ALAVI has in fact an $o(1/\sqrt{k})$ global rate of convergence where $k$ is the iteration count. By introducing a new gap function, this rate further improves to be $O(1/k)$ if the mapping is monotone. Finally, we show that under a metric subregularity condition, even if the VI model may be non-monotone the local convergence rate of ALAVI improves to be linear. Numerical experiments on some randomly generated highly nonlinear and non-monotone VI problems show practical efficacy of the newly proposed method.
翻訳日:2023-06-05 17:12:51 公開日:2023-06-02
# 独立因果メカニズムの原理による因果解離表現の学習

Learning Causally Disentangled Representations via the Principle of Independent Causal Mechanisms ( http://arxiv.org/abs/2306.01213v1 )

ライセンス: Link先を確認
Aneesh Komanduri, Yongkai Wu, Feng Chen, Xintao Wu(参考訳) 分散因果表現の学習は、下流タスクに意味のある情報を抽出することの意味から、近年大きな注目を集めている課題である。 本研究は, 独立因果機構の観点から, 因果不連続の新しい概念を定義する。 icm-vaeは因果関係の観測ラベルによって管理される因果的不等角表現を学習するためのフレームワークである。 学習可能なフローベース微分型関数を用いて因果メカニズムをモデル化し、雑音変数を潜在因果変数にマッピングする。 さらに,因果的要因の分散を促進するために,因果的要因の因果的分布の学習を促進するために,既知の因果的構造を利用した因果的絡み合いを事前に提案する。 比較的穏やかな条件下では,因果因子の同定可能性と置換および要素別再パラメータ化までのメカニズムを理論的に示す。 我々は経験的に,このフレームワークが高度に不連続な因果要因を誘発し,介入的ロバスト性を改善し,反事実生成と互換性があることを実証する。

Learning disentangled causal representations is a challenging problem that has gained significant attention recently due to its implications for extracting meaningful information for downstream tasks. In this work, we define a new notion of causal disentanglement from the perspective of independent causal mechanisms. We propose ICM-VAE, a framework for learning causally disentangled representations supervised by causally related observed labels. We model causal mechanisms using learnable flow-based diffeomorphic functions to map noise variables to latent causal variables. Further, to promote the disentanglement of causal factors, we propose a causal disentanglement prior that utilizes the known causal structure to encourage learning a causally factorized distribution in the latent space. Under relatively mild conditions, we provide theoretical results showing the identifiability of causal factors and mechanisms up to permutation and elementwise reparameterization. We empirically demonstrate that our framework induces highly disentangled causal factors, improves interventional robustness, and is compatible with counterfactual generation.
翻訳日:2023-06-05 17:12:27 公開日:2023-06-02
# モデルネットワークのためのlinked deep gaussian process emulation

Linked Deep Gaussian Process Emulation for Model Networks ( http://arxiv.org/abs/2306.01212v1 )

ライセンス: Link先を確認
Deyu Ming and Daniel Williamson(参考訳) 現代の科学的な問題はしばしば学際的であり、異なる分野のコンピュータモデルの統合を必要とし、それぞれ異なる機能的複雑性、プログラミング環境、計算時間を持つ。 Linked Gaussian Process (LGP) エミュレーション(英語版)は、ネットワーク内の個々のコンピュータモデルのガウス的プロセスエミュレータを統合する分割・コンキュータ戦略を通じてこの問題に取り組む。 しかし、lgpフレームワーク内のコンポーネントgaussianプロセスエミュレータに必要な定常性は、多くの実世界のアプリケーションでその適用性を制限する。 本研究では,コンピュータモデルのネットワークを,隠れた層の部分的露出を伴う深いガウス過程として概念化する。 本稿では,LGP フレームワークの重要な強度を保持する部分露光深層ネットワークの推論手法を開発し,DGP を用いて各モデルを個別にエミュレートし,それらを結合する手法を提案する。 本稿では, ガウスプロセスエミュレータが標準LGPエミュレータよりも精度と不確かさの点で有意に優れた予測性能を示すことを示す。 また、部分的に隠された層から情報を統合できるため、ネットワーク全体に適合する単一のDGPよりも優れています。 私たちのメソッドはRパッケージ$\texttt{dgpsi}$で実装されています。

Modern scientific problems are often multi-disciplinary and require integration of computer models from different disciplines, each with distinct functional complexities, programming environments, and computation times. Linked Gaussian process (LGP) emulation tackles this challenge through a divide-and-conquer strategy that integrates Gaussian process emulators of the individual computer models in a network. However, the required stationarity of the component Gaussian process emulators within the LGP framework limits its applicability in many real-world applications. In this work, we conceptualize a network of computer models as a deep Gaussian process with partial exposure of its hidden layers. We develop a method for inference for these partially exposed deep networks that retains a key strength of the LGP framework, whereby each model can be emulated separately using a DGP and then linked together. We show in both synthetic and empirical examples that our linked deep Gaussian process emulators exhibit significantly better predictive performance than standard LGP emulators in terms of accuracy and uncertainty quantification. They also outperform single DGPs fitted to the network as a whole because they are able to integrate information from the partially exposed hidden layers. Our methods are implemented in an R package $\texttt{dgpsi}$ that is freely available on CRAN.
翻訳日:2023-06-05 17:12:07 公開日:2023-06-02
# 心電図の深部伝達学習を用いた心再同期療法の反応予測法

A new method using deep transfer learning on ECG to predict the response to cardiac resynchronization therapy ( http://arxiv.org/abs/2306.01210v1 )

ライセンス: Link先を確認
Zhuo He, Hongjin Si, Xinwei Zhang, Qing-Hui Chen, Jiangang Zou, Weihua Zhou(参考訳) 背景:心再同期療法(CRT)は心不全患者に対する電気的不整脈治療として有効である。 しかし、どの患者がCRTに反応するかを正確に予測することは依然として困難である。 本研究では,CRT応答の予測モデルを学習するための深層伝達学習手法の適用について検討する。 方法: 本研究では, 短時間フーリエ変換(STFT)技術を用いてECG信号を二次元画像に変換する。 その後、MIT-BIT ECGデータベースに転送学習アプローチを適用し、畳み込みニューラルネットワーク(CNN)モデルを事前訓練した。 このモデルは心電図画像から関連する特徴を抽出するために微調整され、CRT患者のデータセットを用いてその反応を予測する。 結果:crt患者は79例であった。 転送学習モデルは、ローカルデータセットの応答者と非応答者との区別において72%の精度を達成した。 さらに,CRT応答因子の同定には感度 (0.78) と特異性 (0.79) が良好であった。 モデルのパフォーマンスは、クリニックガイドラインや従来の機械学習アプローチよりも優れています。 結論:ECGイメージを入力として利用し,転送学習のパワーを活用することにより,CRT応答者を特定する精度が向上する。 このアプローチは、crtの患者選択と予後を改善する可能性を秘めている。

Background: Cardiac resynchronization therapy (CRT) has emerged as an effective treatment for heart failure patients with electrical dyssynchrony. However, accurately predicting which patients will respond to CRT remains a challenge. This study explores the application of deep transfer learning techniques to train a predictive model for CRT response. Methods: In this study, the short-time Fourier transform (STFT) technique was employed to transform ECG signals into two-dimensional images. A transfer learning approach was then applied on the MIT-BIT ECG database to pre-train a convolutional neural network (CNN) model. The model was fine-tuned to extract relevant features from the ECG images, and then tested on our dataset of CRT patients to predict their response. Results: Seventy-one CRT patients were enrolled in this study. The transfer learning model achieved an accuracy of 72% in distinguishing responders from non-responders in the local dataset. Furthermore, the model showed good sensitivity (0.78) and specificity (0.79) in identifying CRT responders. The performance of our model outperformed clinic guidelines and traditional machine learning approaches. Conclusion: The utilization of ECG images as input and leveraging the power of transfer learning allows for improved accuracy in identifying CRT responders. This approach offers potential for enhancing patient selection and improving outcomes of CRT.
翻訳日:2023-06-05 17:11:48 公開日:2023-06-02
# 悪天候で群衆を数える

Counting Crowds in Bad Weather ( http://arxiv.org/abs/2306.01209v1 )

ライセンス: Link先を確認
Zhi-Kai Huang, Wei-Ting Chen, Yuan-Chun Chiang, Sy-Yen Kuo, Ming-Hsuan Yang(参考訳) 近年、画像理解への幅広い応用により、コンピュータビジョンの分野において、群衆カウントが注目されている。 多くの方法が提案され、実世界のタスクで最先端のパフォーマンスを達成している。 しかし、こうしたシーンの観客の視覚的な外観は、典型的なデータセットの晴れた天気のイメージとは大きく異なるため、既存のアプローチは、ヘイズ、雨、雪などの悪天候下ではうまく機能しない。 本稿では,悪天候シナリオにおけるロバストな群衆カウント手法を提案する。 画像復元と群集カウントモジュールを含む2段階のアプローチの代わりに、我々のモデルは、大きな外観変化を考慮した効果的な特徴と適応的なクエリを学習する。 これらの気象情報を用いて,提案モデルでは,入力画像の劣化に応じて天気情報を学習し,群集カウントモジュールを同時に最適化することができる。 実験の結果,提案アルゴリズムは,ベンチマークデータセット上で異なる気象条件下での群集のカウントに有効であることがわかった。 ソースコードとトレーニングされたモデルが一般公開される予定だ。

Crowd counting has recently attracted significant attention in the field of computer vision due to its wide applications to image understanding. Numerous methods have been proposed and achieved state-of-the-art performance for real-world tasks. However, existing approaches do not perform well under adverse weather such as haze, rain, and snow since the visual appearances of crowds in such scenes are drastically different from those images in clear weather of typical datasets. In this paper, we propose a method for robust crowd counting in adverse weather scenarios. Instead of using a two-stage approach that involves image restoration and crowd counting modules, our model learns effective features and adaptive queries to account for large appearance variations. With these weather queries, the proposed model can learn the weather information according to the degradation of the input image and optimize with the crowd counting module simultaneously. Experimental results show that the proposed algorithm is effective in counting crowds under different weather types on benchmark datasets. The source code and trained models will be made available to the public.
翻訳日:2023-06-05 17:11:31 公開日:2023-06-02
# 可観測性を損なう効率的なrl:遅延状態および欠如状態観察で行動する学習

Efficient RL with Impaired Observability: Learning to Act with Delayed and Missing State Observations ( http://arxiv.org/abs/2306.01243v1 )

ライセンス: Link先を確認
Minshuo Chen, Yu Bai, H. Vincent Poor, Mengdi Wang(参考訳) 実世界の強化学習(RL)システムでは、様々な障害のある可観測性は問題を複雑にすることができる。 これらの状況は、エージェントが待ち時間やチャネルの損失のためにシステムの最新の状態を監視できない場合に発生するが、エージェントはリアルタイムな判断をしなければならない。 本稿では,エージェントが遅延状態の観察を行なわなければならない制御系における効率的なRLに関する理論的研究を紹介する。 遅延および欠落した観測条件の両方において、RL に対して $\tilde{\mathcal{O}}(\sqrt{{\rm poly}(H) SAK})$ という形のほぼ最適後悔境界を確立する。 方針クラスや計画に重大な課題をもたらす可観測性を損なうにもかかわらず、本研究は学習が効率的であり、後悔は元のシステムの状態行動サイズに応じて最適に束縛されていることを実証する。 さらに, 可観測性に障害のある最適政策の性能を, 完全な可観測性を持つ最適値と比較して評価する。

In real-world reinforcement learning (RL) systems, various forms of impaired observability can complicate matters. These situations arise when an agent is unable to observe the most recent state of the system due to latency or lossy channels, yet the agent must still make real-time decisions. This paper introduces a theoretical investigation into efficient RL in control systems where agents must act with delayed and missing state observations. We establish near-optimal regret bounds, of the form $\tilde{\mathcal{O}}(\sqrt{{\rm poly}(H) SAK})$, for RL in both the delayed and missing observation settings. Despite impaired observability posing significant challenges to the policy class and planning, our results demonstrate that learning remains efficient, with the regret bound optimally depending on the state-action size of the original system. Additionally, we provide a characterization of the performance of the optimal policy under impaired observability, comparing it to the optimal value obtained with full observability.
翻訳日:2023-06-05 17:05:26 公開日:2023-06-02
# 責任のあるタスク自動化:責任のあるタスク自動化として大きな言語モデルを活用する

Responsible Task Automation: Empowering Large Language Models as Responsible Task Automators ( http://arxiv.org/abs/2306.01242v1 )

ライセンス: Link先を確認
Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yan Lu(参考訳) 最近のLarge Language Models(LLMs)の成功は、人工知能への印象的な一歩である。 彼らは、ユーザーの指示に従って自動的にタスクを完了し、脳のようなコーディネーターとして機能する有望な可能性を示した。 自動化された完了のために、より多くのタスクをマシンに委譲すると、関連するリスクが明らかになる。 大きな疑問が浮かび上がってくる。人間がタスクを自動化するのを助けるとき、機械はどうやって責任を持って振る舞うのか? 本稿では,実現可能性,完全性,セキュリティの観点から,この問題を深く考察する。 具体的には、llmベースのコーディネータとタスク自動化のエグゼキュータ間の責任あるコラボレーションを促進するための基本的なフレームワークとして、責任あるタスク自動化(responsibleta)を提示します。 1) 執行人に対する命令の実現可能性の予測 2 執行人の完全性を検証すること。 3) セキュリティの強化(ユーザのプライバシ保護など)。 我々はさらに,最初の2つの機能を実装するための2つのパラダイムを提案し,比較する。 ひとつはプロンプトエンジニアリングを通じてllms自体の一般的な知識を活用すること、もうひとつはドメイン固有の学習可能なモデルを採用することだ。 さらに,第3の能力を実現するためのローカルメモリ機構を導入する。 提案するuiタスクの自動化に関する責任を評価し、多様なシナリオにおいてllmがより責任を負うようになることを願っています。 研究プロジェクトのホームページはhttps://task-automation-research.github.io/responsible_task_automationにある。

The recent success of Large Language Models (LLMs) signifies an impressive stride towards artificial general intelligence. They have shown a promising prospect in automatically completing tasks upon user instructions, functioning as brain-like coordinators. The associated risks will be revealed as we delegate an increasing number of tasks to machines for automated completion. A big question emerges: how can we make machines behave responsibly when helping humans automate tasks as personal copilots? In this paper, we explore this question in depth from the perspectives of feasibility, completeness and security. In specific, we present Responsible Task Automation (ResponsibleTA) as a fundamental framework to facilitate responsible collaboration between LLM-based coordinators and executors for task automation with three empowered capabilities: 1) predicting the feasibility of the commands for executors; 2) verifying the completeness of executors; 3) enhancing the security (e.g., the protection of users' privacy). We further propose and compare two paradigms for implementing the first two capabilities. One is to leverage the generic knowledge of LLMs themselves via prompt engineering while the other is to adopt domain-specific learnable models. Moreover, we introduce a local memory mechanism for achieving the third capability. We evaluate our proposed ResponsibleTA on UI task automation and hope it could bring more attentions to ensuring LLMs more responsible in diverse scenarios. The research project homepage is at https://task-automation-research.github.io/responsible_task_automation.
翻訳日:2023-06-05 17:05:06 公開日:2023-06-02
# コンセンサスグラフを用いた異なる特徴に基づく事前学習モデルのフェデレーション学習

Federated Learning of Models Pre-Trained on Different Features with Consensus Graphs ( http://arxiv.org/abs/2306.01240v1 )

ライセンス: Link先を確認
Tengfei Ma, Trong Nghia Hoang, Jie Chen(参考訳) プライベートデータセットと分散データセットで効果的なグローバルモデルを学ぶことは、実際に適用される機械学習において、ますます重要な課題となっている。 フェデレーション学習などの既存の分散学習パラダイムでは、モデル集約によってこれを実現している。 しかし、これは多くの実用的なシナリオには適していない。 例えば、分散センシングでは、同じ現象の異なるビューからデータを読み取る異種センサは、異なるデータモダリティのために異なるモデルを使用する必要がある。 したがって、ローカル学習は独立して行われるが、推論はコンセンサスを達成するためにローカルモデルをマージする必要がある。 局所モデル間のコンセンサスを実現するために,局所モデルから局所表現を抽出し,予測性能を向上させるグローバル表現に組み込む特徴融合手法を提案する。 これを達成するには、2つの非自明な問題に対処する必要がある。 まず、表現集約を可能にするために、クライアント間で任意に配置される類似の機能コンポーネント間の整合性を学ぶ必要がある。 次に、局所的な特徴空間間の高次相互作用を捉えるコンセンサスグラフと、それらを組み合わせてより良い予測を実現する方法を学ぶ必要がある。 本稿では,電力グリッドやトラヒックネットワークなどの時系列データを用いた実世界のアプリケーションにおいて,これらの問題に対する解決策を示す。

Learning an effective global model on private and decentralized datasets has become an increasingly important challenge of machine learning when applied in practice. Existing distributed learning paradigms, such as Federated Learning, enable this via model aggregation which enforces a strong form of modeling homogeneity and synchronicity across clients. This is however not suitable to many practical scenarios. For example, in distributed sensing, heterogeneous sensors reading data from different views of the same phenomenon would need to use different models for different data modalities. Local learning therefore happens in isolation but inference requires merging the local models to achieve consensus. To enable consensus among local models, we propose a feature fusion approach that extracts local representations from local models and incorporates them into a global representation that improves the prediction performance. Achieving this requires addressing two non-trivial problems. First, we need to learn an alignment between similar feature components which are arbitrarily arranged across clients to enable representation aggregation. Second, we need to learn a consensus graph that captures the high-order interactions between local feature spaces and how to combine them to achieve a better prediction. This paper presents solutions to these problems and demonstrates them in real-world applications on time series data such as power grids and traffic networks.
翻訳日:2023-06-05 17:04:42 公開日:2023-06-02
# 行列ウィグナー関数とsu(1,1)

Matrix Wigner Function and SU(1,1) ( http://arxiv.org/abs/2306.01238v1 )

ライセンス: Link先を確認
P. G. Morrison(参考訳) 本稿では,多くのシステムにおいて Wigner 関数の取得に使用できるいくつかの手法の簡単なスケッチを含む。 一次元の拡散問題に関連するいくつかの単純な微分系に適用された手法の概要を示す。 我々は、高調波発振器、$xp$相互作用、双曲発振器のウィグナー関数を計算する。 これらの系はウィテカー函数とラゲール多項式の様々な公式に共通するいくつかの性質を持つ。 連続状態を含む問題に適用可能な手法とは対照的に、解空間を双曲平面に拡張し、行列計算からいくつかの結果を利用することにより、SU(1,1) と擬球面に対する多くの興味深い同一性を取り戻すことができることを示す。 我々は、ウィグナー函数の理論におけるより先進的なトピックの議論に近づいた。

This paper contains a brief sketch of some methods that can be used to obtain the Wigner function for a number of systems. We give an overview of the technique as it is applied to some simple differential systems related to diffusion problems in one dimension. We compute the Wigner function for the harmonic oscillator, the $xp$ interaction, and a hyperbolic oscillator. These systems are shown to share several properties in common related to the Whittaker function and various formulae for the Laguerre polynomials. To contrast with the techniques that are applicable to problems involving continuous states, we then show that by expanding the solution space to the hyperbolic plane and utilising some results from matrix calculus, we are able to recover a number of interesting identities for SU(1,1) and the pseudosphere. We close with a discussion of some more advanced topics in the theory of the Wigner function.
翻訳日:2023-06-05 17:04:21 公開日:2023-06-02
# オフラインバンディットにおけるベイズ後悔最小化に対する凸緩和法

A Convex Relaxation Approach to Bayesian Regret Minimization in Offline Bandits ( http://arxiv.org/abs/2306.01237v1 )

ライセンス: Link先を確認
Mohammad Ghavamzadeh, Marek Petrik, Guy Tennenholtz(参考訳) オフラインバンディットのためのアルゴリズムは、オフラインデータのみを使用して不確実な環境での決定を最適化する必要がある。 オフラインの盗賊の説得力があり、ますます人気が高まっている目的は、ベイズ人の後悔を高い信頼で減らす政策を学ぶことである。 最近のオフライン強化学習の結果に触発されたこの問題に対する魅力的なアプローチは、低信頼境界(LCB)の形式を最大化することである。 本稿では,効率的な円錐最適化解法を用いてベイズ後悔の上限を最小化する新しい手法を提案する。 我々の限界は、ベイジアン後悔、バリュー・アット・リスク(VaR)、そしてチャンス制約付き最適化のつながりに基づいている。 先行研究と比較して,本アルゴリズムは,理論上優れたオフライン後悔限界と数値シミュレーションにおけるより良い結果が得られる。 最後に、一般的なLCBスタイルのアルゴリズムは、オフラインの盗賊に対するベイズ的後悔を最小限に抑えるには不適当であることを示す。

Algorithms for offline bandits must optimize decisions in uncertain environments using only offline data. A compelling and increasingly popular objective in offline bandits is to learn a policy which achieves low Bayesian regret with high confidence. An appealing approach to this problem, inspired by recent offline reinforcement learning results, is to maximize a form of lower confidence bound (LCB). This paper proposes a new approach that directly minimizes upper bounds on Bayesian regret using efficient conic optimization solvers. Our bounds build on connections among Bayesian regret, Value-at-Risk (VaR), and chance-constrained optimization. Compared to prior work, our algorithm attains superior theoretical offline regret bounds and better results in numerical simulations. Finally, we provide some evidence that popular LCB-style algorithms may be unsuitable for minimizing Bayesian regret in offline bandits.
翻訳日:2023-06-05 17:04:06 公開日:2023-06-02
# 絡み合いとコミュニケーションのトレードオフ

Trade-offs between Entanglement and Communication ( http://arxiv.org/abs/2306.01233v1 )

ライセンス: Link先を確認
Srinivasan Arunachalam and Uma Girish(参考訳) 本研究では, 量子通信モデルにおいて, 絡み合いの少ない古典的通信モデルに対して, 量子通信モデルの利点について検討する。 この方向では、n$bit 上で明示的な部分関数を与え、エンタングルメントの低減は古典的コミュニケーションの複雑さを指数関数的に増加させる。 私たちの分離は以下の通りです。 すべての$k\ge 1$: $q\|^*$ vs $r2^*$: $\tilde{\theta}(k^5 \log^3 n)$ qubits of entanglement の量子同時プロトコルは、$o(k)$ qubits of entanglement の双方向ランダム化プロトコルを指数関数的に上回る。 これは[gav08]から開放的な問題を解消し、絡み合いを持つ量子同時プロトコルと絡み合いのない双方向ランダムプロトコル間の最先端の分離を改善する [gav19, grt22]。 r\|^*$ vs$q\|^*$:$\tilde{\theta}(k \log n)$ qubits of entanglementは$o(k)$ qubits of entanglementの量子同時プロトコルを指数関数的に上回ることができ、[gkrw06, gav19]から解くことができる。 作業前の最良の結果は、絡み合いのないプロトコルに対するリレーショナル分離でした [gkrw06]。 r\|^*$ vs $r1^*$:$\tilde{\theta}(k\log n)$ qubits of entanglement の古典的な同時プロトコルは、$o(k)$ qubits of entanglement のランダム化された一方向プロトコルを指数関数的に上回る。 私たちの研究の前は、リレーショナルな分離しか知られていなかった [gav08]。

We study the advantages of quantum communication models over classical communication models that are equipped with a limited number of qubits of entanglement. In this direction, we give explicit partial functions on $n$ bits for which reducing the entanglement increases the classical communication complexity exponentially. Our separations are as follows. For every $k\ge 1$: $Q\|^*$ versus $R2^*$: We show that quantum simultaneous protocols with $\tilde{\Theta}(k^5 \log^3 n)$ qubits of entanglement can exponentially outperform two-way randomized protocols with $O(k)$ qubits of entanglement. This resolves an open problem from [Gav08] and improves the state-of-the-art separations between quantum simultaneous protocols with entanglement and two-way randomized protocols without entanglement [Gav19, GRT22]. $R\|^*$ versus $Q\|^*$: We show that classical simultaneous protocols with $\tilde{\Theta}(k \log n)$ qubits of entanglement can exponentially outperform quantum simultaneous protocols with $O(k)$ qubits of entanglement, resolving an open question from [GKRW06, Gav19]. The best result prior to our work was a relational separation against protocols without entanglement [GKRW06]. $R\|^*$ versus $R1^*$: We show that classical simultaneous protocols with $\tilde{\Theta}(k\log n)$ qubits of entanglement can exponentially outperform randomized one-way protocols with $O(k)$ qubits of entanglement. Prior to our work, only a relational separation was known [Gav08].
翻訳日:2023-06-05 17:03:50 公開日:2023-06-02
# 知識指導による胸部疾患分類のための深層強化学習フレームワーク

Deep Reinforcement Learning Framework for Thoracic Diseases Classification via Prior Knowledge Guidance ( http://arxiv.org/abs/2306.01232v1 )

ライセンス: Link先を確認
Weizhi Nie, Chen Zhang, Dan Song, Lina Zhao, Yunpeng Bai, Keliang Xie, Anan Liu(参考訳) 胸部X線は一般的な胸部疾患の診断にしばしば用いられる。 近年,胸部x線による自動診断の問題に対処するための手法が数多く提案されている。 しかし、関連疾患のラベル付きデータの不足は、正確な診断には依然として大きな課題である。 本稿では,胸部疾患診断問題に焦点をあて,診断エージェントの学習を指示するための事前知識を導入し,学習プロセスのようにデータの増大に伴ってモデルパラメータを継続的に更新することのできる,新しい深層学習フレームワークを提案する。 特に 1)事前の知識は,旧データや他のドメインの類似データに基づいて事前学習したモデルから学ぶことができ,対象領域データへの依存性を効果的に低減することができる。 2) 強化学習の枠組みは, 診断剤を人間として探索し, 継続的な探索により診断精度を向上させることができる。 また,少数ショットデータの場合のモデル学習問題を効果的に解き,モデルの一般化能力を向上させることができる。 最後に、よく知られたNIH ChestX-ray 14とCheXpertデータセットを用いて、我々のアプローチのパフォーマンスを実証し、競争結果を得た。 ソースコードは以下のとおりである。

The chest X-ray is often utilized for diagnosing common thoracic diseases. In recent years, many approaches have been proposed to handle the problem of automatic diagnosis based on chest X-rays. However, the scarcity of labeled data for related diseases still poses a huge challenge to an accurate diagnosis. In this paper, we focus on the thorax disease diagnostic problem and propose a novel deep reinforcement learning framework, which introduces prior knowledge to direct the learning of diagnostic agents and the model parameters can also be continuously updated as the data increases, like a person's learning process. Especially, 1) prior knowledge can be learned from the pre-trained model based on old data or other domains' similar data, which can effectively reduce the dependence on target domain data, and 2) the framework of reinforcement learning can make the diagnostic agent as exploratory as a human being and improve the accuracy of diagnosis through continuous exploration. The method can also effectively solve the model learning problem in the case of few-shot data and improve the generalization ability of the model. Finally, our approach's performance was demonstrated using the well-known NIH ChestX-ray 14 and CheXpert datasets, and we achieved competitive results. The source code can be found here: \url{https://github.com/NeaseZ/MARL}.
翻訳日:2023-06-05 17:03:14 公開日:2023-06-02
# 半教師付き表情認識の境界を探る : 分布内,分布外,非拘束データから学ぶ

Exploring the Boundaries of Semi-Supervised Facial Expression Recognition: Learning from In-Distribution, Out-of-Distribution, and Unconstrained Data ( http://arxiv.org/abs/2306.01229v1 )

ライセンス: Link先を確認
Shuvendu Roy, Ali Etemad(参考訳) 深層学習に基づく手法が、近年の顔表情認識(FER)システムの成功の鍵となった。 しかし、大量のラベル付きデータの必要性は依然として課題である。 半教師付き学習は、この制限を克服する手段を提供し、小さなラベル付きデータと大きなラベルなしデータセットからモデルを学ぶことができる。 半教師付き学習はferに有望であるが、一般的なコンピュータビジョン文学の手法のほとんどはferの文脈では研究されていない。 そこで本研究では,Pseudo-label, Mean Teacher, VAT, UDA, MixMatch, ReMixMatch, FlexMatch, CoMatch, CCSSLのコンテキストにおいて,最新の半教師付き手法の11つについて概説する。 本研究は,非流通,アウト・オブ・ディストリビューション,制約のない,非常に小さなデータからの半教師付き学習を対象とする。 評価対象は、FERデータセット5つと、制約なし学習のための大きな顔データセット1つである。 以上の結果から,FixMatchは非分散データに対して常に優れたパフォーマンスを実現していることを示す一方,ReMixMatchは非分散データ,非制約データ,希少データシナリオにおいて,すべてのメソッドにおいて際立っている。 もう1つの重要な観察は、半教師付き学習が教師付き学習よりも合理的な改善をもたらすことである。 また,各設定の最適な2つの手法について,臨界ハイパーパラメータの感度解析を行う。

Deep learning-based methods have been the key driving force behind much of the recent success of facial expression recognition (FER) systems. However, the need for large amounts of labelled data remains a challenge. Semi-supervised learning offers a way to overcome this limitation, allowing models to learn from a small amount of labelled data along with a large unlabelled dataset. While semi-supervised learning has shown promise in FER, most current methods from general computer vision literature have not been explored in the context of FER. In this work, we present a comprehensive study on 11 of the most recent semi-supervised methods, in the context of FER, namely Pi-model, Pseudo-label, Mean Teacher, VAT, UDA, MixMatch, ReMixMatch, FlexMatch, CoMatch, and CCSSL. Our investigation covers semi-supervised learning from in-distribution, out-of-distribution, unconstrained, and very small unlabelled data. Our evaluation includes five FER datasets plus one large face dataset for unconstrained learning. Our results demonstrate that FixMatch consistently achieves better performance on in-distribution unlabelled data, while ReMixMatch stands out among all methods for out-of-distribution, unconstrained, and scarce unlabelled data scenarios. Another significant observation is that semi-supervised learning produces a reasonable improvement over supervised learning, regardless of whether in-distribution, out-of-distribution, or unconstrained data is utilized as the unlabelled set. We also conduct sensitivity analyses on critical hyper-parameters for the two best methods of each setting.
翻訳日:2023-06-05 17:02:54 公開日:2023-06-02
# モジュール性に基づく神経進化の連鎖モデル

Modularity based linkage model for neuroevolution ( http://arxiv.org/abs/2306.01227v1 )

ライセンス: Link先を確認
Yukai Qiao and Marcus Gallagher(参考訳) ニューラルネットワーク間の交差は、接続重み間の強い機能的依存のために破壊的であると考えられている。 本稿では,ニューラルネットワークの混合時の機能的依存コミュニティ(ビルディングブロック)を維持するために,重みレベルでモジュール性に基づくリンクモデルを提案する。 重みの間の依存性を推定して近接行列を構築し、その行列によって記述されたグラフ上でモジュラリティを最大化するコミュニティ検出アルゴリズムを実行する。 得られたパラメータのコミュニティ/グループは相互独立であり、最適な混合eaにおいてクロスオーバーマスクとして使用される。 変種は、ニューラルネットワークの置換問題をある程度中和するオペレータによってテストされる。 8ビットと10ビットのパリティ問題に対して実験を行った。 その結果,アルゴリズムはより良く機能的に依存するリンクが得られ,クロスオーバーと性能が向上することがわかった。

Crossover between neural networks is considered disruptive due to the strong functional dependency between connection weights. We propose a modularity-based linkage model at the weight level to preserve functionally dependent communities (building blocks) in neural networks during mixing. A proximity matrix is built by estimating the dependency between weights, then a community detection algorithm maximizing modularity is run on the graph described by such matrix. The resulting communities/groups of parameters are considered to be mutually independent and used as crossover masks in an optimal mixing EA. A variant is tested with an operator that neutralizes the permutation problem of neural networks to a degree. Experiments were performed on 8 and 10-bit parity problems as the intrinsic hierarchical nature of the dependencies in these problems are challenging to learn. The results show that our algorithm finds better, more functionally dependent linkage which leads to more successful crossover and better performance.
翻訳日:2023-06-05 17:02:26 公開日:2023-06-02
# 時間最適量子コンピュータ

Time Optimal Qubit Computer ( http://arxiv.org/abs/2306.01223v1 )

ライセンス: Link先を確認
Peter Morrison(参考訳) 我々は時間依存変換の手法を用いて対処できる新しい物理システムをいくつか提示する。 特に交流スターク効果に重点を置き、2状態システムで利用可能な結果のまとめを行う。 我々は、任意の方向の静的電場における2状態系の完全な解を含む、よく知られていないいくつかの結果を与える。 時間的最適量子制御における確立された定理との接続が与えられ、完全な議論が行列計算の先進的な結果を概説している。 特に、時間最適ユニタリ演算子を用いた量子情報理論と計算に関連する行列ゲートの集合を導出し、量子ブラキストロン問題の双曲的等価性を定義する。

We present a number of new physical systems that may be addressed using methods of time dependent transformation. A recap of results available for two-state systems is given, with particular emphasis on the AC stark effect. We give some results that are not well known, including the full solution for a two state system in a static electric field with arbitrary direction. Connection with established theorems in time optimal quantum control is given, and a full discussion outlines some advanced results in matrix calculus. In particular, we derive a set of matrix gates relevant to quantum information theory and computation using time optimal unitary operators, and define the hyperbolic equivalent of the quantum brachistochrone problem.
翻訳日:2023-06-05 17:02:09 公開日:2023-06-02
# セッションベースレコメンデーションのための自己コントラスト学習

Self Contrastive Learning for Session-based Recommendation ( http://arxiv.org/abs/2306.01266v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Xi Wang, Aldo Lipani(参考訳) セッションベースレコメンデーションは,既存の項目のシーケンス間相互作用に従って,ユーザの関心の次の項目を予測することを目的として,ユーザと項目表現の改善を伴うコントラッシブラーニング(CL)の応用が増加している。 しかし、これらの対照的な目的は、(1)アイテム表現空間の最適化を無視しながら、クロスエントロピー損失としての役割を果たすこと、(2)複雑な正負のサンプル構成や追加のデータ拡張を含む複雑なモデリングを必要とすることである。 本研究では,CLの応用を簡略化し,最先端のCLベースレコメンデーション技術の性能を向上させるセルフコントラシブラーニング(SCL)を提案する。 具体的には、SCLは、アイテム表現間の一様分布を直接促進し、最先端モデルの既存のコントラスト的対象成分を効率的に置き換える目的関数として定式化される。 以前の研究とは異なり、SCLは正・負のサンプル構築やデータ拡張の必要性を排除し、アイテム表現空間の解釈性を高め、既存の推奨システムへの拡張を容易にする。 3つのベンチマークデータセットの実験を通して、SCLは統計的に有意な最先端モデルの性能を一貫して改善することを示した。 特に,SCLはP@10で8.2%,P@10で9.5%,MRR@10で9.9%,MRR@10で11.2%,それぞれ異なるベンチマークで平均8.2%向上した。 また,本解析により,表現のアライメントや一様性,計算コストの低さによるsclの有効性について検討した。

Session-based recommendation, which aims to predict the next item of users' interest as per an existing sequence interaction of items, has attracted growing applications of Contrastive Learning (CL) with improved user and item representations. However, these contrastive objectives: (1) serve a similar role as the cross-entropy loss while ignoring the item representation space optimisation; and (2) commonly require complicated modelling, including complex positive/negative sample constructions and extra data augmentation. In this work, we introduce Self-Contrastive Learning (SCL), which simplifies the application of CL and enhances the performance of state-of-the-art CL-based recommendation techniques. Specifically, SCL is formulated as an objective function that directly promotes a uniform distribution among item representations and efficiently replaces all the existing contrastive objective components of state-of-the-art models. Unlike previous works, SCL eliminates the need for any positive/negative sample construction or data augmentation, leading to enhanced interpretability of the item representation space and facilitating its extensibility to existing recommender systems. Through experiments on three benchmark datasets, we demonstrate that SCL consistently improves the performance of state-of-the-art models with statistical significance. Notably, our experiments show that SCL improves the performance of two best-performing models by 8.2% and 9.5% in P@10 (Precision) and 9.9% and 11.2% in MRR@10 (Mean Reciprocal Rank) on average across different benchmarks. Additionally, our analysis elucidates the improvement in terms of alignment and uniformity of representations, as well as the effectiveness of SCL with a low computational cost.
翻訳日:2023-06-05 16:54:54 公開日:2023-06-02
# マルチモーダル学習の校正

Calibrating Multimodal Learning ( http://arxiv.org/abs/2306.01265v1 )

ライセンス: Link先を確認
Huan Ma. Qingyang Zhang, Changqing Zhang, Bingzhe Wu, Huazhu Fu, Joey Tianyi Zhou, Qinghua Hu(参考訳) マルチモーダル機械学習は、幅広いシナリオにおいて顕著な進歩を遂げた。 しかし、マルチモーダル学習の信頼性はほとんど未解明のままである。 本稿では,従来のマルチモーダル分類法では信頼度を推定するときに部分的モダリティに依存するような信頼できない予測的信頼感に苦しむことを明らかにする。 具体的には、現在のモデルで推定される信頼度は、いくつかのモダリティが崩壊した場合に増加する可能性がある。 この問題に対処するために,マルチモーダル学習のための直感的な原則,すなわち,一つのモダリティが取り除かれたときに自信が高まるべきではないことを提案する。 そこで本研究では,従来の手法の予測信頼度を校正するために,マルチモーダル学習(cml)を校正する新しい正則化手法を提案する。 この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルの堅牢性の観点から性能を向上させることができる。

Multimodal machine learning has achieved remarkable progress in a wide range of scenarios. However, the reliability of multimodal learning remains largely unexplored. In this paper, through extensive empirical studies, we identify current multimodal classification methods suffer from unreliable predictive confidence that tend to rely on partial modalities when estimating confidence. Specifically, we find that the confidence estimated by current models could even increase when some modalities are corrupted. To address the issue, we introduce an intuitive principle for multimodal learning, i.e., the confidence should not increase when one modality is removed. Accordingly, we propose a novel regularization technique, i.e., Calibrating Multimodal Learning (CML) regularization, to calibrate the predictive confidence of previous methods. This technique could be flexibly equipped by existing models and improve the performance in terms of confidence calibration, classification accuracy, and model robustness.
翻訳日:2023-06-05 16:54:22 公開日:2023-06-02
# 一般化平滑性下における凸および非凸最適化

Convex and Non-Convex Optimization under Generalized Smoothness ( http://arxiv.org/abs/2306.01264v1 )

ライセンス: Link先を確認
Haochuan Li, Jian Qian, Yi Tian, Alexander Rakhlin, Ali Jadbabaie(参考訳) 凸および非凸最適化手法の古典的な解析は、しばしば勾配のリプシッツ性を必要とし、これは解析を二次函数で有界な関数に制限する。 最近の研究は、勾配ノルムのアフィン関数で有界なヘッセンノルムを持つ非一様滑らか性条件にこの条件を緩和し、有界雑音を仮定して勾配クリッピングによる非凸設定において収束を証明した。 本稿では、この不均一な滑らかさ条件をさらに一般化し、軌道に沿った勾配を束縛する単純かつ強力な解析手法を開発し、凸と非凸の最適化問題に対してより強力な結果をもたらす。 特に、この一般的な滑らか性条件下での凸および/または非凸設定における(確率的)勾配降下の古典収束率とネステロフの加速勾配法を求める。 新しい分析手法では勾配クリッピングは必要とせず、確率的な設定において境界分散を伴う重尾のノイズを許容する。

Classical analysis of convex and non-convex optimization methods often requires the Lipshitzness of the gradient, which limits the analysis to functions bounded by quadratics. Recent work relaxed this requirement to a non-uniform smoothness condition with the Hessian norm bounded by an affine function of the gradient norm, and proved convergence in the non-convex setting via gradient clipping, assuming bounded noise. In this paper, we further generalize this non-uniform smoothness condition and develop a simple, yet powerful analysis technique that bounds the gradients along the trajectory, thereby leading to stronger results for both convex and non-convex optimization problems. In particular, we obtain the classical convergence rates for (stochastic) gradient descent and Nesterov's accelerated gradient method in the convex and/or non-convex setting under this general smoothness condition. The new analysis approach does not require gradient clipping and allows heavy-tailed noise with bounded variance in the stochastic setting.
翻訳日:2023-06-05 16:54:06 公開日:2023-06-02
# ソーシャルメディアテキストにおけるヘイトスピーチからヘイトスピーチへの自動翻訳

Automatic Translation of Hate Speech to Non-hate Speech in Social Media Texts ( http://arxiv.org/abs/2306.01261v1 )

ライセンス: Link先を確認
Yevhen Kostiuk and Atnafu Lambebo Tonja and Grigori Sidorov and Olga Kolesnikova(参考訳) 本稿では,ヘイトスピーチの意味を保ちながら,ヘイトスピーチを非ヘイトスピーチテキストに翻訳する新しいタスクを提示することにより,ヘイトスピーチの問題を検討する。 ケーススタディでは、スペイン語のテキストを使用します。 タスクのさらなる研究の出発点として、データセットといくつかのベースラインを提供します。 BLEUスコアを含む複数の指標を用いてベースライン評価を行った。 本研究の目的は,オンラインコミュニティにおけるヘイトスピーチの拡散を減らすための,より効果的な方法の開発に寄与することである。

In this paper, we investigate the issue of hate speech by presenting a novel task of translating hate speech into non-hate speech text while preserving its meaning. As a case study, we use Spanish texts. We provide a dataset and several baselines as a starting point for further research in the task. We evaluated our baseline results using multiple metrics, including BLEU scores. The aim of this study is to contribute to the development of more effective methods for reducing the spread of hate speech in online communities.
翻訳日:2023-06-05 16:53:48 公開日:2023-06-02
# 3次元点雲解析のための集配変圧器

Collect-and-Distribute Transformer for 3D Point Cloud Analysis ( http://arxiv.org/abs/2306.01257v1 )

ライセンス: Link先を確認
Haibo Qiu, Baosheng Yu, Dacheng Tao(参考訳) 変圧器アーキテクチャの探索を通じて、最近ポイントクラウド解析において顕著な進歩がなされているが、ポイントクラウド内のローカルおよびグローバル構造を効果的に学ぶことは依然として困難である。 本稿では,ポイント・クラウドの短距離および長距離のコンテキストを通信するための収集・配信機構を備えた,cdformerと呼ばれる新しいトランスフォーマティブ・アーキテクチャを提案する。 具体的には、まず最初に自己注意を利用して各ローカルパッチ内の短距離インタラクションをキャプチャし、更新されたローカル特徴を一連のプロキシ参照ポイントに収集し、長距離コンテキストを抽出する。 その後、学習した長距離コンテキストをクロスアテンションを通じてローカルポイントに分散する。 短距離および長距離の文脈における位置手がかりに対処するために,ポイント間の位置認識通信を容易にするために,文脈認識位置符号化を導入する。 分類とセグメンテーションのために,ModelNet40,ScanObjectNN,S3DIS,ShapeNetPartの4つの人気ポイントクラウドデータセットで実験を行った。 その結果,提案するcdformerの有効性が示され,ポイントクラウド分類とセグメンテーションタスクにおいて最新の性能がいくつか提供されている。 コードは \url{https://github.com/haibo-qiu/cdformer} で入手できる。

Although remarkable advancements have been made recently in point cloud analysis through the exploration of transformer architecture, it remains challenging to effectively learn local and global structures within point clouds. In this paper, we propose a new transformer architecture equipped with a collect-and-distribute mechanism to communicate short- and long-range contexts of point clouds, which we refer to as CDFormer. Specifically, we first utilize self-attention to capture short-range interactions within each local patch, and the updated local features are then collected into a set of proxy reference points from which we can extract long-range contexts. Afterward, we distribute the learned long-range contexts back to local points via cross-attention. To address the position clues for short- and long-range contexts, we also introduce context-aware position encoding to facilitate position-aware communications between points. We perform experiments on four popular point cloud datasets, namely ModelNet40, ScanObjectNN, S3DIS, and ShapeNetPart, for classification and segmentation. Results show the effectiveness of the proposed CDFormer, delivering several new state-of-the-art performances on point cloud classification and segmentation tasks. The code is available at \url{https://github.com/haibo-qiu/CDFormer}.
翻訳日:2023-06-05 16:53:39 公開日:2023-06-02
# 再現性を超えた混合確率推定

Mixture Proportion Estimation Beyond Irreducibility ( http://arxiv.org/abs/2306.01253v1 )

ライセンス: Link先を確認
Yilun Zhu, Aaron Fjeldsted, Darren Holland, George Landon, Azaree Lintereur, and Clayton Scott(参考訳) 混合比推定 (mixed proportion estimation, mpe) のタスクは、成分と混合物の両方からの観測から、混合物中の成分分布の重みを推定することである。 MPEに関するこれまでの研究は、混合比の同一性を保証する既約性仮定を採用していた。 本稿では,既約性が持たないいくつかの関心条件を満たす,より一般的な条件を提案する。 我々はさらに,既存のmpeアルゴリズムを既約条件下で動作させ,より一般的な条件下で動作させるために適用する,サンプルベースのメタアゴリタムを提案する。 提案手法は,ベースライン法や最近提案された再グループ化アルゴリズムに対して,評価性能の向上を実証的に示す。

The task of mixture proportion estimation (MPE) is to estimate the weight of a component distribution in a mixture, given observations from both the component and mixture. Previous work on MPE adopts the irreducibility assumption, which ensures identifiablity of the mixture proportion. In this paper, we propose a more general sufficient condition that accommodates several settings of interest where irreducibility does not hold. We further present a resampling-based meta-algorithm that takes any existing MPE algorithm designed to work under irreducibility and adapts it to work under our more general condition. Our approach empirically exhibits improved estimation performance relative to baseline methods and to a recently proposed regrouping-based algorithm.
翻訳日:2023-06-05 16:53:18 公開日:2023-06-02
# 心電図の変換診断:心血管疾患診断におけるトランスフォーマーを用いたDeepLearningモデルの検討

Transforming ECG Diagnosis:An In-depth Review of Transformer-based DeepLearning Models in Cardiovascular Disease Detection ( http://arxiv.org/abs/2306.01249v1 )

ライセンス: Link先を確認
Zibin Zhao(参考訳) 深層学習の出現は心電図(ECG)の分析を著しく強化した。 ECG解釈の複雑さにもかかわらず、高度なディープラーニングモデルは従来の手法より優れている。 しかし、ECGデータの複雑さの増加とリアルタイムかつ正確な診断の必要性は、トランスフォーマーのようなより堅牢なアーキテクチャを探求する必要がある。 本稿では,ECG分類に適用されるトランスフォーマーアーキテクチャの詳細なレビューを紹介する。 もともと自然言語処理のために開発されたこれらのモデルは、他のモデルが見落としうるecg信号の複雑な時間的関係を捉えている。 我々は,最新の変圧器モデルについて広範囲に調査を行い,その進歩と課題を議論し,今後の改善を示唆する。 このレビューは、研究者や実践者にとって貴重なリソースであり、ECG解釈におけるこの革新的な応用に光を当てることを目指している。

The emergence of deep learning has significantly enhanced the analysis of electrocardiograms (ECGs), a non-invasive method that is essential for assessing heart health. Despite the complexity of ECG interpretation, advanced deep learning models outperform traditional methods. However, the increasing complexity of ECG data and the need for real-time and accurate diagnosis necessitate exploring more robust architectures, such as transformers. Here, we present an in-depth review of transformer architectures that are applied to ECG classification. Originally developed for natural language processing, these models capture complex temporal relationships in ECG signals that other models might overlook. We conducted an extensive search of the latest transformer-based models and summarize them to discuss the advances and challenges in their application and suggest potential future improvements. This review serves as a valuable resource for researchers and practitioners and aims to shed light on this innovative application in ECG interpretation.
翻訳日:2023-06-05 16:53:06 公開日:2023-06-02
# 判例要約のための事前学習された抽象モデルとllmは、どの程度準備ができているか?

How Ready are Pre-trained Abstractive Models and LLMs for Legal Case Judgement Summarization? ( http://arxiv.org/abs/2306.01248v1 )

ライセンス: Link先を確認
Aniket Deroy, Kripabandhu Ghosh, Saptarshi Ghosh(参考訳) 判例判断の自動要約は伝統的に抽出的要約法を用いて試みられている。 しかし近年では,より自然で一貫性のある要約を生成できるため,抽象要約モデルが普及している。 法的なドメイン固有の事前学習された抽象要約モデルが利用可能である。 さらに、ChatGPTのような汎用ドメイン事前訓練された大規模言語モデル(LLM)は高品質なテキストを生成することで知られており、テキスト要約の能力を持っている。 したがって、これらのモデルが、ケース判断のための抽象的な要約を自動生成するオフザシェルフアプリケーションの準備が整っているかどうかを問うのは自然である。 そこで本研究では,インドの裁判所判決に対して,最先端のドメイン固有抽象要約モデルと一般ドメインLLMを適用し,生成した要約の質を確認する。 要約品質の標準指標に加えて、要約における矛盾や幻覚も確認する。 抽象的な要約モデルでは,ROUGEやBLEUなどの標準要約評価指標を用いて,抽出モデルよりも若干高いスコアが得られる。 しかし、生成した抽象要約には矛盾する情報や幻覚的な情報がしばしば見出される。 全体として,事前学習した抽象要約モデルとLLMは,ケース判断要約のための完全自動展開にはまだ準備が整っていないことが示唆されている。

Automatic summarization of legal case judgements has traditionally been attempted by using extractive summarization methods. However, in recent years, abstractive summarization models are gaining popularity since they can generate more natural and coherent summaries. Legal domain-specific pre-trained abstractive summarization models are now available. Moreover, general-domain pre-trained Large Language Models (LLMs), such as ChatGPT, are known to generate high-quality text and have the capacity for text summarization. Hence it is natural to ask if these models are ready for off-the-shelf application to automatically generate abstractive summaries for case judgements. To explore this question, we apply several state-of-the-art domain-specific abstractive summarization models and general-domain LLMs on Indian court case judgements, and check the quality of the generated summaries. In addition to standard metrics for summary quality, we check for inconsistencies and hallucinations in the summaries. We see that abstractive summarization models generally achieve slightly higher scores than extractive models in terms of standard summary evaluation metrics such as ROUGE and BLEU. However, we often find inconsistent or hallucinated information in the generated abstractive summaries. Overall, our investigation indicates that the pre-trained abstractive summarization models and LLMs are not yet ready for fully automatic deployment for case judgement summarization; rather a human-in-the-loop approach including manual checks for inconsistencies is more suitable at present.
翻訳日:2023-06-05 16:52:51 公開日:2023-06-02
# SemEval-2023 Task 7におけるTHiFLY研究:CTRに基づくテキストエンタテインメントとエビデンス検索のための多粒度システム

THiFLY Research at SemEval-2023 Task 7: A Multi-granularity System for CTR-based Textual Entailment and Evidence Retrieval ( http://arxiv.org/abs/2306.01245v1 )

ライセンス: Link先を確認
Yuxuan Zhou, Ziyu Jin, Meiwei Li, Miao Li, Xien Liu, Xinxin You, Ji Wu(参考訳) NLI4CTタスクは、臨床トライアル報告(CTR)に基づいて仮説を導き、正当化を支持する証拠を回収することを目的としている。 このタスクは、NLI4CTタスクの仮説を検証するには、1つか2つのCTRから複数のエビデンスを統合し、テキストと数値を含む様々なレベルの推論を適用する必要があるため、大きな課題となる。 これらの問題に対処するため,本論文では,CTRに基づくテキストの検索とエビデンス検索のためのマルチグラニュラリティシステムを提案する。 具体的には、文レベルとトークンレベルのエンコーディングを利用して、テキストエンタテインメントとエビデンス検索タスクの両方を処理する多粒性推論ネットワーク(MGNet)を構築する。 さらに,T5ベースモデルであるSciFiveを医療用コーパス上で事前学習することで,システムの数値推論能力を向上させる。 モデルアンサンブルとジョイント推論法がシステムでさらに活用され、推論の安定性と一貫性が向上する。 本システムは,テキストの挿入や証拠検索作業において,0.856と0.853のf1スコアを達成する。 実験結果は,提案手法の有効性を裏付けるものである。 私たちのコードはhttps://github.com/THUMLP/NLI4CTで公開されています。

The NLI4CT task aims to entail hypotheses based on Clinical Trial Reports (CTRs) and retrieve the corresponding evidence supporting the justification. This task poses a significant challenge, as verifying hypotheses in the NLI4CT task requires the integration of multiple pieces of evidence from one or two CTR(s) and the application of diverse levels of reasoning, including textual and numerical. To address these problems, we present a multi-granularity system for CTR-based textual entailment and evidence retrieval in this paper. Specifically, we construct a Multi-granularity Inference Network (MGNet) that exploits sentence-level and token-level encoding to handle both textual entailment and evidence retrieval tasks. Moreover, we enhance the numerical inference capability of the system by leveraging a T5-based model, SciFive, which is pre-trained on the medical corpus. Model ensembling and a joint inference method are further utilized in the system to increase the stability and consistency of inference. The system achieves f1-scores of 0.856 and 0.853 on textual entailment and evidence retrieval tasks, resulting in the best performance on both subtasks. The experimental results corroborate the effectiveness of our proposed method. Our code is publicly available at https://github.com/THUMLP/NLI4CT.
翻訳日:2023-06-05 16:52:28 公開日:2023-06-02
# 持続可能な学習を目指して - データ効率の深い学習のためのコアセット

Towards Sustainable Learning: Coresets for Data-efficient Deep Learning ( http://arxiv.org/abs/2306.01244v1 )

ライセンス: Link先を確認
Yu Yang, Hao Kang, Baharan Mirzasoleiman(参考訳) 深層モデル学習の効率と持続性を改善するため,我々は,非凸モデル,特に深層ネットワークのトレーニングに最も有用な例を特定するための厳密な理論保証を備えた,最初のスケーラブルなフレームワークである crest を提案する。 非凸関数の定常点への収束を保証するため、CRESTは非凸損失を一連の二次関数としてモデル化し、各二次部分領域のコアセットを抽出する。 さらに、(ミニバッチ)SGDのような確率勾配法を高速に収束させるため、CRESTは、トレーニングデータのより大きなランダム部分集合から複数のミニバッチコアセットを反復的に抽出し、小さな分散を伴うほぼ不偏勾配を確保する。 最後に,スケーラビリティと効率性をさらに向上するために,氏は,coreset選択パイプラインから学んだ例を特定し,除外する。 CIFAR-10、CIFAR-100、TinyImageNet、SNLIなど、視覚とNLPデータセットでトレーニングされたいくつかのディープネットワークに関する広範な実験では、CRESTが、非常に大きなデータセット上でディープネットワークのトレーニングを、パフォーマンスを最小で1.7倍から2.5倍高速化することを確認した。 crestが選択したサブセットの学習難易度を解析することにより,難易度レベルが増加する部分集合から学習することで,深層モデルが最も有益であることを示す。

To improve the efficiency and sustainability of learning deep models, we propose CREST, the first scalable framework with rigorous theoretical guarantees to identify the most valuable examples for training non-convex models, particularly deep networks. To guarantee convergence to a stationary point of a non-convex function, CREST models the non-convex loss as a series of quadratic functions and extracts a coreset for each quadratic sub-region. In addition, to ensure faster convergence of stochastic gradient methods such as (mini-batch) SGD, CREST iteratively extracts multiple mini-batch coresets from larger random subsets of training data, to ensure nearly-unbiased gradients with small variances. Finally, to further improve scalability and efficiency, CREST identifies and excludes the examples that are learned from the coreset selection pipeline. Our extensive experiments on several deep networks trained on vision and NLP datasets, including CIFAR-10, CIFAR-100, TinyImageNet, and SNLI, confirm that CREST speeds up training deep networks on very large datasets, by 1.7x to 2.5x with minimum loss in the performance. By analyzing the learning difficulty of the subsets selected by CREST, we show that deep models benefit the most by learning from subsets of increasing difficulty levels.
翻訳日:2023-06-05 16:51:46 公開日:2023-06-02
# 局所SYKモデルとその三重スケーリング限界

The local SYK model and its triple scaling limit ( http://arxiv.org/abs/2306.01285v1 )

ライセンス: Link先を確認
Takanori Anegawa, Norihiro Iizuka, Sunil Kumar Sake(参考訳) 従来のSYKに類似したランダムカップリングを持つフェルミオンのモデルと、フェルミオンのフレーバー数$N$、大まかに$N$について検討する。 オール・ツー・オール・カップリングを持つ従来のsykモデルとは異なり、我々が研究しているモデルは、ローカルsykと呼ばれ、非常に少ない数のランダムカップリングを持ち、わずか$n$であり、局所的な相互作用しか持たない。 従来のSYKの倍スケール限界に類似したコードダイアグラム手法を用いて局所的なSYKモデルを解くことができる限界が存在することを示す。 この制限は、フェルミオンカップリング項である$q$のサイズを、直線的に$n$でスケールすることに対応する。 さらに3倍のスケーリング限界を用いて低エネルギー限界を解析し, OTOCがカオス境界を飽和させ, 従来のSYKを並列に解析することを示した。

We study a model of fermions with random couplings similar to conventional SYK with $N$ number of flavours of fermions, at large $N$. Unlike the conventional SYK model, which has all-to-all couplings, the model we study, which we call local SYK, has a much less number of random couplings, just $N$ in number and with only local interactions. It is shown that there exists a limit in which the local SYK model can be solved using the chord diagram techniques, analogous to the double-scaled limit of conventional SYK. This limit corresponds to taking the size of the fermion coupling terms, $q$, to scale linearly with $N$. A further triple scaling limit is taken to analyze the low energy limit and it is shown that the OTOCs saturate the chaos bound, paralleling the analysis in the conventional SYK.
翻訳日:2023-06-05 16:45:58 公開日:2023-06-02
# スマート都市交通システムにおけるグラフベース機械学習の最近の進歩

Recent Advances in Graph-based Machine Learning for Applications in Smart Urban Transportation Systems ( http://arxiv.org/abs/2306.01282v1 )

ライセンス: Link先を確認
Hongde Wu, Sen Yan, Mingming Liu(参考訳) インテリジェント・トランスポーテーション・システム(its)は現代の交通インフラの重要な部分であり、通信技術と情報処理と制御システムを組み合わせて輸送ネットワークを管理する。 道路、車両、通信システムなどの様々なコンポーネントの統合は、より良い情報、サービス、輸送モードの調整を提供することで、効率と安全性を向上させることが期待されている。 近年、グラフベースの機械学習は、様々なITS関連の課題に対処する複雑なデータ駆動型ソリューションの開発を目指すITS分野において、ますます重要な研究対象となっている。 本章では,ITS設計における重要な技術的課題の背景と,古典的な統計的アプローチから現代的な機械学習,ディープラーニングに基づくアプローチまで,研究手法の見直しについて述べる。 具体的には、グラフの基本概念、グラフデータ表現、グラフニューラルネットワークアーキテクチャおよびそれらのITSアプリケーションとの関係を含む、グラフベースの機械学習手法の詳細なレビューを提供する。 さらに、最近の研究で提案されているグラフベースITSアプリケーションの2つのケーススタディを詳述し、ITS領域におけるグラフベース機械学習の可能性を示す。

The Intelligent Transportation System (ITS) is an important part of modern transportation infrastructure, employing a combination of communication technology, information processing and control systems to manage transportation networks. This integration of various components such as roads, vehicles, and communication systems, is expected to improve efficiency and safety by providing better information, services, and coordination of transportation modes. In recent years, graph-based machine learning has become an increasingly important research focus in the field of ITS aiming at the development of complex, data-driven solutions to address various ITS-related challenges. This chapter presents background information on the key technical challenges for ITS design, along with a review of research methods ranging from classic statistical approaches to modern machine learning and deep learning-based approaches. Specifically, we provide an in-depth review of graph-based machine learning methods, including basic concepts of graphs, graph data representation, graph neural network architectures and their relation to ITS applications. Additionally, two case studies of graph-based ITS applications proposed in our recent work are presented in detail to demonstrate the potential of graph-based machine learning in the ITS domain.
翻訳日:2023-06-05 16:45:40 公開日:2023-06-02
# 音響散乱におけるカシミールエネルギー計算の数値解析

Numerical aspects of Casimir energy computation in acoustic scattering ( http://arxiv.org/abs/2306.01280v1 )

ライセンス: Link先を確認
Xiaoshu Sun, Timo Betcke and Alexander Strohmaier(参考訳) カシミール力と物体間のエネルギーの計算は、1940年代まで遡る量子理論の古典的な問題である。 文学におけるいくつかの異なるアプローチは、しばしば異なる物理原理に基づいている。 最も注目すべきは、境界層作用素の行列式によるカシミールエネルギーの表現は、数値的アプローチにアクセス可能であることである。 本稿ではまず,様々な手法の概要を述べるとともに,Krein-spectral shift関数と計算面との関係について考察する。 大規模問題に対するカシミールエネルギー計算のためのクリロフ部分空間法の変種を提案し、いくつかの複雑な構成に対するカシミール計算を実証する。 これにより、大規模な実用問題に対するカシミールエネルギー計算が可能となり、その場合の計算を大幅に高速化することができる。

Computing the Casimir force and energy between objects is a classical problem of quantum theory going back to the 1940s. Several different approaches have been developed in the literature often based on different physical principles. Most notably a representation of the Casimir energy in terms of determinants of boundary layer operators makes it accessible to a numerical approach. In this paper, we first give an overview of the various methods and discuss the connection to the Krein-spectral shift function and computational aspects. We propose variants of Krylov subspace methods for the computation of the Casimir energy for large-scale problems and demonstrate Casimir computations for several complex configurations. This allows for Casimir energy calculation for large-scale practical problems and significantly speeds up the computations in that case.
翻訳日:2023-06-05 16:45:21 公開日:2023-06-02
# アクティブラーニングを超えて: オートラベリング、人間補正、人間検証によるヒューマンインタラクションの完全な可能性を活用する

Beyond Active Learning: Leveraging the Full Potential of Human Interaction via Auto-Labeling, Human Correction, and Human Verification ( http://arxiv.org/abs/2306.01277v1 )

ライセンス: Link先を確認
Nathan Beck, Krishnateja Killamsetty, Suraj Kothawade, Rishabh Iyer(参考訳) Active Learning(AL)は、データインスタンスを対話的かつ適応的にラベル付けするヒューマン・イン・ザ・ループ・フレームワークである。 alはラベル付けする最も難しいインスタンスを選択することで機能し、しばしば多様性と不確実性の概念に依存する。 しかし、alの現在のパラダイムは、自動ラベル提案によって与えられる人間のインタラクションの可能性を最大限に活用していないと信じている。 実際、多くの分類タスクやデータセットにおいて、自動的に提案されたラベルが正しいかどうかを検証しているほとんどの人は、正しいラベルに間違った提案を変更する(あるいは提案なしにゼロからラベルを付ける)よりも、$3\times$から$4\times$を下げる。 この結果を利用して,検証コストの低減を活かし,より効果的にヒューマンインタラクションを活用できる対話型学習フレームワークであるclarifier (active learning from tiered hardness)を提案する。 By targeting the hard (uncertain) instances with existing AL methods, the intermediate instances with a novel label suggestion scheme using submodular mutual information functions on a per-class basis, and the easy (confident) instances with highest-confidence auto-labeling, CLARIFIER can improve over the performance of existing AL approaches on multiple datasets -- particularly on those that have a large number of classes -- by almost 1.5$\times$ to 2$\times$ in terms of relative labeling cost.

Active Learning (AL) is a human-in-the-loop framework to interactively and adaptively label data instances, thereby enabling significant gains in model performance compared to random sampling. AL approaches function by selecting the hardest instances to label, often relying on notions of diversity and uncertainty. However, we believe that these current paradigms of AL do not leverage the full potential of human interaction granted by automated label suggestions. Indeed, we show that for many classification tasks and datasets, most people verifying if an automatically suggested label is correct take $3\times$ to $4\times$ less time than they do changing an incorrect suggestion to the correct label (or labeling from scratch without any suggestion). Utilizing this result, we propose CLARIFIER (aCtive LeARnIng From tIEred haRdness), an Interactive Learning framework that admits more effective use of human interaction by leveraging the reduced cost of verification. By targeting the hard (uncertain) instances with existing AL methods, the intermediate instances with a novel label suggestion scheme using submodular mutual information functions on a per-class basis, and the easy (confident) instances with highest-confidence auto-labeling, CLARIFIER can improve over the performance of existing AL approaches on multiple datasets -- particularly on those that have a large number of classes -- by almost 1.5$\times$ to 2$\times$ in terms of relative labeling cost.
翻訳日:2023-06-05 16:45:10 公開日:2023-06-02
# 組合せ最適化における対称探索は無料です!

Symmetric Exploration in Combinatorial Optimization is Free! ( http://arxiv.org/abs/2306.01276v1 )

ライセンス: Link先を確認
Hyeonah Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park(参考訳) 近年,深い強化学習 (DRL) は組合せ最適化 (CO) 問題を解く上で有望であることが示されている。 しかし、それらはしばしば、現実のシナリオで時間を要する、客観的関数に関する多くの評価を必要とする。 この問題に対処するため、我々は、追加の目的関数評価を必要とせずに対称性を活用することにより、深い強化学習(DRL)解決器の性能を高める「自由」手法を提案する。 我々のキーとなる考え方は、報酬保存変換によるDRLに基づく組合せ最適化のトレーニングを強化することである。 提案手法は単純で,既存の解法と容易に統合でき,多種多様な組合せ最適化タスクに適用できるため,影響が大きいと考えられる。 NP-hardルーティング最適化、スケジューリング最適化、de novo分子最適化に関する大規模な実験により、我々の手法は最先端DRLアルゴリズムのサンプル効率を著しく改善することを確認した。 ソースコードはhttps://github.com/kaist-silab/sym-rdで入手できます。

Recently, deep reinforcement learning (DRL) has shown promise in solving combinatorial optimization (CO) problems. However, they often require a large number of evaluations on the objective function, which can be time-consuming in real-world scenarios. To address this issue, we propose a "free" technique to enhance the performance of any deep reinforcement learning (DRL) solver by exploiting symmetry without requiring additional objective function evaluations. Our key idea is to augment the training of DRL-based combinatorial optimization solvers by reward-preserving transformations. The proposed algorithm is likely to be impactful since it is simple, easy to integrate with existing solvers, and applicable to a wide range of combinatorial optimization tasks. Extensive empirical evaluations on NP-hard routing optimization, scheduling optimization, and de novo molecular optimization confirm that our method effortlessly improves the sample efficiency of state-of-the-art DRL algorithms. Our source code is available at https://github.com/kaist-silab/sym-rd.
翻訳日:2023-06-05 16:44:43 公開日:2023-06-02
# VoteTRANS: 変換のハードラベルに対する投票による学習無しの逆テキストの検出

VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard Labels of Transformations ( http://arxiv.org/abs/2306.01273v1 )

ライセンス: Link先を確認
Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto and Isao Echizen(参考訳) 敵対的攻撃はディープラーニングモデルに深刻な欠陥を露呈する。 より危険なことに、これらの攻撃は本来の意味を守り、人間の認識から逃れる。 これらの攻撃を検出する既存の方法は、オリジナル/adversarialデータを使用してトレーニングする必要がある。 本稿では,VoteTRANS(VoteTRANS)という変換の予測からハードラベルに投票することで,学習を伴わない検出を提案する。 具体的には、入力テキストのハードラベルと変換を比較して、逆テキストを検出する。 この評価は、VoteTRANSが様々な最先端攻撃、モデル、データセットにわたる敵テキストを効果的に検出していることを示している。

Adversarial attacks reveal serious flaws in deep learning models. More dangerously, these attacks preserve the original meaning and escape human recognition. Existing methods for detecting these attacks need to be trained using original/adversarial data. In this paper, we propose detection without training by voting on hard labels from predictions of transformations, namely, VoteTRANS. Specifically, VoteTRANS detects adversarial text by comparing the hard labels of input text and its transformation. The evaluation demonstrates that VoteTRANS effectively detects adversarial text across various state-of-the-art attacks, models, and datasets.
翻訳日:2023-06-05 16:44:25 公開日:2023-06-02
# DeepfakeArt Challenge: 生成AIアート偽造とデータ中毒検出のためのベンチマークデータセット

DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection ( http://arxiv.org/abs/2306.01272v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Daniel Mao, Carol Xu, Alexander Wong(参考訳) 最近の生成型人工知能技術の飛躍的な進歩は、会話エージェントからテキストコンテンツ生成、音声合成、視覚合成まで幅広い応用において、大きな成功と期待をもたらした。 生成AIの台頭と広く採用されている中、悪意のある目的のために生成AIを使用することに対する懸念が高まっている。 生成AIを用いた視覚コンテンツ合成の領域において、重要な関心事は画像偽造(著作権コンテンツを含む画像の生成など)とデータ中毒(敵に汚染された画像の生成)である。 DeepfakeArt Challengeは、生成AIアートの偽造とデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。 様々な生成的偽造およびデータ中毒技術にわたる32,000以上の記録からなり、それぞれのエントリは偽造または逆汚染のどちらかのイメージから成り立っている。 deepfakeart challengeベンチマークデータセットで生成された各イメージは、総合的に品質チェックされている。 deepfakeart challengeは、genai4goodの中核部分であり、機械学習を加速し、生成aiの責任ある作成と展開を促進する、グローバルなオープンソースイニシアチブである。

The tremendous recent advances in generative artificial intelligence techniques have led to significant successes and promise in a wide range of different applications ranging from conversational agents and textual content generation to voice and visual synthesis. Amid the rise in generative AI and its increasing widespread adoption, there has been significant growing concern over the use of generative AI for malicious purposes. In the realm of visual content synthesis using generative AI, key areas of significant concern has been image forgery (e.g., generation of images containing or derived from copyright content), and data poisoning (i.e., generation of adversarially contaminated images). Motivated to address these key concerns to encourage responsible generative AI, we introduce the DeepfakeArt Challenge, a large-scale challenge benchmark dataset designed specifically to aid in the building of machine learning algorithms for generative AI art forgery and data poisoning detection. Comprising of over 32,000 records across a variety of generative forgery and data poisoning techniques, each entry consists of a pair of images that are either forgeries / adversarially contaminated or not. Each of the generated images in the DeepfakeArt Challenge benchmark dataset has been quality checked in a comprehensive manner. The DeepfakeArt Challenge is a core part of GenAI4Good, a global open source initiative for accelerating machine learning for promoting responsible creation and deployment of generative AI for good.
翻訳日:2023-06-05 16:44:16 公開日:2023-06-02
# 対人訓練におけるクリーンな一般化とロバストオーバーフィッティングの理由

Why Clean Generalization and Robust Overfitting Both Happen in Adversarial Training ( http://arxiv.org/abs/2306.01271v1 )

ライセンス: Link先を確認
Binghui Li, Yuanzhi Li(参考訳) 敵意トレーニング(adversarial training)は、敵意の摂動にロバストな深層ニューラルネットワークを訓練する標準的な方法である。 通常のディープラーニング環境での驚くべき$\textit{clean generalization}$能力と同様に、敵のトレーニングによって訓練されたニューラルネットワークも$\textit{unseen clean data}$で一般化している。 しかし、クリーンな一般化と対比して、逆トレーニング法が低い$\textit{robust training error}$を達成できる一方で、学習プロセス中に、どのようなメカニズムが$\textit{clean generalizationとロバストオーバーフィッティング(CGRO)の両方に繋がるかを探るための重要な$\textit{robust generalization gap}$が存在する。 本稿では,このCGRO現象の理論的理解について述べる。 まず,adversarial trainingの理論的枠組みを提案する。ここでは$\textit{feature learning process}$を分析し,ネットワーク学習者をcgroレジームへと導く方法を説明する。 具体的には、パッチ構造データセットの下では、CNNモデルは真の特徴を部分的に学習するが、トレーニング・アドバイザリの例から突発的な特徴を正確に記憶するので、明確な一般化と堅牢なオーバーフィッティングをもたらすことを証明している。 より一般的なデータ仮定については、$\textit{representation complexity}$の観点からCGRO分類器の効率を示す。 実世界の視覚データセットにおける理論的解析を実証的に検証するために, 学習中は$\textit{dynamics of Los landscape}$について検討する。 さらに、我々の実験から着想を得た結果、$\textit{global flatness}$ of loss landscape に基づいた堅牢な一般化が証明された。

Adversarial training is a standard method to train deep neural networks to be robust to adversarial perturbation. Similar to surprising $\textit{clean generalization}$ ability in the standard deep learning setting, neural networks trained by adversarial training also generalize well for $\textit{unseen clean data}$. However, in constrast with clean generalization, while adversarial training method is able to achieve low $\textit{robust training error}$, there still exists a significant $\textit{robust generalization gap}$, which promotes us exploring what mechanism leads to both $\textit{clean generalization and robust overfitting (CGRO)}$ during learning process. In this paper, we provide a theoretical understanding of this CGRO phenomenon in adversarial training. First, we propose a theoretical framework of adversarial training, where we analyze $\textit{feature learning process}$ to explain how adversarial training leads network learner to CGRO regime. Specifically, we prove that, under our patch-structured dataset, the CNN model provably partially learns the true feature but exactly memorizes the spurious features from training-adversarial examples, which thus results in clean generalization and robust overfitting. For more general data assumption, we then show the efficiency of CGRO classifier from the perspective of $\textit{representation complexity}$. On the empirical side, to verify our theoretical analysis in real-world vision dataset, we investigate the $\textit{dynamics of loss landscape}$ during training. Moreover, inspired by our experiments, we prove a robust generalization bound based on $\textit{global flatness}$ of loss landscape, which may be an independent interest.
翻訳日:2023-06-05 16:43:53 公開日:2023-06-02
# ヒューリスティックとマルチエージェント強化学習を組み合わせたマルチロボット経路計画

Multi-Robot Path Planning Combining Heuristics and Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.01270v1 )

ライセンス: Link先を確認
Shaoming Peng(参考訳) 動的環境におけるマルチロボットパス探索は、非常に難しい古典的な問題である。 移動の過程において、ロボットは移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。 この問題の既往の方法は、衝突を避けるためにヒューリスティック探索法を用いて経路を継続的に再構築するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。 前者は頻繁な再計画により長距離旅行が可能であり、後者はサンプル探索と利用の低さにより学習効率が低下し、モデルに対する高いトレーニングコストが生じる可能性がある。 これらの課題に対処するために,ヒューリスティック検索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。 本手法は,マルチエージェント強化学習アルゴリズムに基づくリアルタイムプランナと,アクション出力層と報酬関数に経験則を組み込んだMAPPOと,グローバルなガイドパスを作成するためのヒューリスティックな探索プランナの2層から構成される。 移動中、ヒューリスティックな探索プランナーは、リアルタイムプランナーの指示に基づいて新しい経路を計画する。 我々は10の異なるコンフリクトシナリオでこの手法をテストした。 実験の結果,MAPPOHRの計画性能は既存の学習方法やヒューリスティック手法よりも優れていることがわかった。 経験的知識とヒューリスティック検索の活用により、MAPPOHRの学習効率は既存の学習方法よりも高い。

Multi-robot path finding in dynamic environments is a highly challenging classic problem. In the movement process, robots need to avoid collisions with other moving robots while minimizing their travel distance. Previous methods for this problem either continuously replan paths using heuristic search methods to avoid conflicts or choose appropriate collision avoidance strategies based on learning approaches. The former may result in long travel distances due to frequent replanning, while the latter may have low learning efficiency due to low sample exploration and utilization, and causing high training costs for the model. To address these issues, we propose a path planning method, MAPPOHR, which combines heuristic search, empirical rules, and multi-agent reinforcement learning. The method consists of two layers: a real-time planner based on the multi-agent reinforcement learning algorithm, MAPPO, which embeds empirical rules in the action output layer and reward functions, and a heuristic search planner used to create a global guiding path. During movement, the heuristic search planner replans new paths based on the instructions of the real-time planner. We tested our method in 10 different conflict scenarios. The experiments show that the planning performance of MAPPOHR is better than that of existing learning and heuristic methods. Due to the utilization of empirical knowledge and heuristic search, the learning efficiency of MAPPOHR is higher than that of existing learning methods.
翻訳日:2023-06-05 16:43:18 公開日:2023-06-02
# deepscribe: deep learning による elamite cuneiform sign の局在と分類

DeepScribe: Localization and Classification of Elamite Cuneiform Signs Via Deep Learning ( http://arxiv.org/abs/2306.01268v1 )

ライセンス: Link先を確認
Edward C. Williams, Grace Su, Sandra R. Schloen, Miller C. Prosser, Susanne Paulus, Sanjay Krishnan(参考訳) 25万年前、アケメニド帝国の文書が粘土板に記録された。 1933年、シカゴ大学東洋研究所(OI)の考古学者たちは、ペルセポリスの発掘中に数万の錠剤と破片を発見した。 これらのタブレットの多くは、専門家のキュニフォーム主義者によって痛々しく撮影され、注釈付けされた5000枚以上のアノテートされたタブレットイメージと、10万枚以上のキュニフォームのサインバウンディングボックスからなるリッチなデータセットを提供している。 我々はこのデータセットを活用して、各符号の同一性に関する提案を提供するモジュール型コンピュータビジョンパイプラインであるDeepScribeを開発した。 地中構造データからタブレットの文字起こしに関連するサブタスクを学習することの難しさについて検討し,RetinaNetオブジェクト検出器が0.78の局所化mAPを達成でき,ResNet分類器が0.89の上位5の符号分類精度を達成できることを確認した。 エンドツーエンドパイプラインは、トップ5の分類精度0.80を達成する。 分類モジュールの一部として、DeepScribe 群はcuneiform sign をモルフォロジークラスタに分類する。 この自動クラスタリングアプローチが、標準の印刷されたサインリストの組織とどのように異なるのか、そこから何を学ぶことができるのかを考える。 個別に訓練されたこれらのコンポーネントは、アケメニド時代のキュニフォームタブレットの写真を分析し、研究者に有用な翻訳提案を提供するシステムを作るのに十分である。 本研究では,記号の同定と分類におけるモデルのエンドツーエンド性能を評価し,言語的に認識された音訳システムへのロードマップを提供し,そのモデルの潜在的有用性を検討する。

Twenty-five hundred years ago, the paperwork of the Achaemenid Empire was recorded on clay tablets. In 1933, archaeologists from the University of Chicago's Oriental Institute (OI) found tens of thousands of these tablets and fragments during the excavation of Persepolis. Many of these tablets have been painstakingly photographed and annotated by expert cuneiformists, and now provide a rich dataset consisting of over 5,000 annotated tablet images and 100,000 cuneiform sign bounding boxes. We leverage this dataset to develop DeepScribe, a modular computer vision pipeline capable of localizing cuneiform signs and providing suggestions for the identity of each sign. We investigate the difficulty of learning subtasks relevant to cuneiform tablet transcription on ground-truth data, finding that a RetinaNet object detector can achieve a localization mAP of 0.78 and a ResNet classifier can achieve a top-5 sign classification accuracy of 0.89. The end-to-end pipeline achieves a top-5 classification accuracy of 0.80. As part of the classification module, DeepScribe groups cuneiform signs into morphological clusters. We consider how this automatic clustering approach differs from the organization of standard, printed sign lists and what we may learn from it. These components, trained individually, are sufficient to produce a system that can analyze photos of cuneiform tablets from the Achaemenid period and provide useful transliteration suggestions to researchers. We evaluate the model's end-to-end performance on locating and classifying signs, providing a roadmap to a linguistically-aware transliteration system, then consider the model's potential utility when applied to other periods of cuneiform writing.
翻訳日:2023-06-05 16:42:55 公開日:2023-06-02
# EPIC:学習コストによる編集パス補間によるグラフ拡張

EPIC: Graph Augmentation with Edit Path Interpolation via Learnable Cost ( http://arxiv.org/abs/2306.01310v1 )

ライセンス: Link先を確認
Jaeseung Heo, Seungbeom Lee, Sungsoo Ahn, Dongwoo Kim(参考訳) グラフベースのモデルは、さまざまな領域においてますます重要になっているが、既存のグラフデータセットのサイズと多様性が制限されることがしばしばある。 そこで本研究では,グラフデータセットの拡張のための新しい補間法であるepic(edit path interpolation via learnable cost)を提案する。 本手法では, グラフ編集距離を利用して, 元のグラフと類似するが, その構造に若干のバリエーションを示す新しいグラフを生成する。 これを実現するために,ラベル付きグラフの比較によりグラフ編集距離を学習し,この知識を用いて元のグラフのペア間のグラフ編集パスを生成する。 グラフ編集パスからランダムにサンプリングされたグラフにより、トレーニングセットが強化され、分類モデルの一般化能力が向上する。 提案手法の有効性をいくつかのベンチマークデータセットに示すとともに,グラフ分類タスクにおける既存の拡張手法よりも優れていることを示す。

Graph-based models have become increasingly important in various domains, but the limited size and diversity of existing graph datasets often limit their performance. To address this issue, we propose EPIC (Edit Path Interpolation via learnable Cost), a novel interpolation-based method for augmenting graph datasets. Our approach leverages graph edit distance to generate new graphs that are similar to the original ones but exhibit some variation in their structures. To achieve this, we learn the graph edit distance through a comparison of labeled graphs and utilize this knowledge to create graph edit paths between pairs of original graphs. With randomly sampled graphs from a graph edit path, we enrich the training set to enhance the generalization capability of classification models. We demonstrate the effectiveness of our approach on several benchmark datasets and show that it outperforms existing augmentation methods in graph classification tasks.
翻訳日:2023-06-05 16:34:33 公開日:2023-06-02
# 原子イオン量子ビット用音響光学偏向器を用いた低クロストークダブルサイドアドレッシングシステム

A low-crosstalk double-side addressing system using acousto-optic deflectors for atomic ion qubits ( http://arxiv.org/abs/2306.01307v1 )

ライセンス: Link先を確認
Rui-Rui Li and Yi-Long Chen and Ran He and Shu-Qian Chen and Wen-Hao Qi and Jin-Ming Cui and Yun-Feng Huang and Chuan-Feng Li and Guang-Can Guo(参考訳) 量子ビットを個別かつアジャイルに操作できる能力は、スケーラブルなトラップイオン量子情報処理に不可欠である。 単一イオンが個々のレーザービームによってのみ取り扱われる光アドレスシステムの利用によって、多くの挑戦的な提案がなされている。 しかし、光アドレスシステムにおけるクロストーク誤差はゲートの忠実度を制限し、量子コンピューティング、特に量子エラー補正の障害となる。 本研究では, acousto-optic deflector (aods) 対に基づく低クロストーク方式のダブルサイドアドレッシングシステムを提案する。 AODsアドレッシング法は、チェーン内の距離が変動する任意のイオンに柔軟かつ並列に対処することができる。 2つの0.4~NA対物レンズをラマンレーザーの両腕に採用し、ビームウエストが 0.95~$\mu\mathrm{m}$ となり、隣り合うイオン分離が約 5.5~$\mu\mathrm{m}$ となると、ラビ速度クロストークが 6.32\times10^{-4}$ となる。 このアジャイルで低クロストークなダブルサイドアドレッシングシステムは、高忠実度ゲートと量子誤差補正の実用的応用に有望である。

The ability to individually and agilely manipulate qubits is crucial for the scalable trapped-ion quantum information processing. A plethora of challenging proposals have been demonstrated with the utilization of optical addressing systems, in which single ions is addressed exclusively by individual laser beam. However, crosstalk error in optical addressing systems limits the gate fidelity, becoming an obstacle to quantum computing, especially quantum error correction. In this work, we demonstrate a low-crosstalk double-side addressing system based on a pair of acousto-optic deflectors (AODs). The AODs addressing method can flexibly and parallelly address arbitrary ions between which the distance is variable in a chain. We employ two 0.4~NA objective lenses in both arms of the Raman laser and obtain a beam waist of 0.95~$\mu\mathrm{m}$, resulting in a Rabi rate crosstalk as low as $6.32\times10^{-4}$ when the neighboring ion separation is about 5.5~$\mu\mathrm{m}$. This agile and low-crosstalk double-side addressing system is promising for higher-fidelity gates and the practical application of the quantum error correction.
翻訳日:2023-06-05 16:34:18 公開日:2023-06-02
# 因果表現による再構成可能なインテリジェント表面のフェデレーション学習ゲーム

Federated Learning Games for Reconfigurable Intelligent Surfaces via Causal Representations ( http://arxiv.org/abs/2306.01306v1 )

ライセンス: Link先を確認
Charbel Bou Chaaya, Sumudu Samarakoon, Mehdi Bennis(参考訳) 本稿では,ヘテロジニアス通信環境におけるロバスト再構成可能なインテリジェントサーフェス(ris)位相シフト構成の問題点について検討する。 この問題は、フェデレーション学習(fl)設定において、異なる環境上の分散学習問題として定式化されている。 同様に、これは異種環境において学習エージェントとして複数のRIS間でプレイされるゲームに対応する。 Invariant Risk Minimization (IRM) と FL と等価な FL Games を用いて,複数の環境にまたがる不変因果表現を学習し,その位相を予測することによりRIS 構成問題を解く。 この解は、FLゲームのナッシュ平衡を生成するBest Response Dynamics (BRD) に対応する。 表現学習器と位相予測器は2つのニューラルネットワークでモデル化され、その性能は文献の他のベンチマークに対してシミュレーションによって検証される。 その結果、因果関係に基づく学習は、未発見の分散(ood)環境において15%精度の高い予測子が得られることがわかった。

In this paper, we investigate the problem of robust Reconfigurable Intelligent Surface (RIS) phase-shifts configuration over heterogeneous communication environments. The problem is formulated as a distributed learning problem over different environments in a Federated Learning (FL) setting. Equivalently, this corresponds to a game played between multiple RISs, as learning agents, in heterogeneous environments. Using Invariant Risk Minimization (IRM) and its FL equivalent, dubbed FL Games, we solve the RIS configuration problem by learning invariant causal representations across multiple environments and then predicting the phases. The solution corresponds to playing according to Best Response Dynamics (BRD) which yields the Nash Equilibrium of the FL game. The representation learner and the phase predictor are modeled by two neural networks, and their performance is validated via simulations against other benchmarks from the literature. Our results show that causality-based learning yields a predictor that is 15% more accurate in unseen Out-of-Distribution (OoD) environments.
翻訳日:2023-06-05 16:33:53 公開日:2023-06-02
# DistilXLSR:軽量クロスプラットフォーム音声表現モデル

DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model ( http://arxiv.org/abs/2306.01303v1 )

ライセンス: Link先を確認
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Jinfeng Bai(参考訳) マルチリンガル自己教師型音声表現モデルは低リソース言語における音声認識性能を大幅に向上させ,これらの巨大モデルの圧縮も産業的応用にとって重要な前提となっている。 本稿では,蒸留型言語間表現モデルである distilxlsr を提案する。 既存の音声の音素をランダムにシャッフルすることにより、言語情報を減らし、英語データのみを用いて言語間モデルを蒸留する。 また,教師の事前学習重みを十分に活用するための層跳躍初期化手法を設計する。 2種類の教師モデルと15の低リソース言語を用いた実験により,言語間表現能力を維持しながらパラメータを50%削減できることがわかった。 本手法は様々な言語/教師モデルに一般化できることが証明されており、英語事前学習モデルの言語間性能を向上させる可能性を秘めている。

Multilingual self-supervised speech representation models have greatly enhanced the speech recognition performance for low-resource languages, and the compression of these huge models has also become a crucial prerequisite for their industrial application. In this paper, we propose DistilXLSR, a distilled cross-lingual speech representation model. By randomly shuffling the phonemes of existing speech, we reduce the linguistic information and distill cross-lingual models using only English data. We also design a layer-jumping initialization method to fully leverage the teacher's pre-trained weights. Experiments on 2 kinds of teacher models and 15 low-resource languages show that our method can reduce the parameters by 50% while maintaining cross-lingual representation ability. Our method is proven to be generalizable to various languages/teacher models and has the potential to improve the cross-lingual performance of the English pre-trained models.
翻訳日:2023-06-05 16:33:35 公開日:2023-06-02
# 句読点付きエンド・ツー・エンド自動音声認識モデルの訓練改善

Improved Training for End-to-End Streaming Automatic Speech Recognition Model with Punctuation ( http://arxiv.org/abs/2306.01296v1 )

ライセンス: Link先を確認
Hanbyul Kim, Seunghyun Seo, Lukas Lee, Seolki Baek(参考訳) テキストの句読化は,可読性の向上と下流自然言語処理に影響を及ぼすため,音声認識に不可欠である。 ストリーミングシナリオでは、リアルタイムに句読点を予測する能力が特に望ましいが、難しい技術的課題が提示される。 本研究では,コネクショニスト時相分類(ctc)を訓練したチャンクベーストランスコーダを用いて,入力音声からの句読上げテキストの予測手法を提案する。 入力シーケンスとターゲットシーケンスを連結することにより、長いシーケンスで訓練された音響モデルは、文の末尾に取り付けられた句読点をより効果的に学習することができる。 さらに,チャンクと発話のCTC損失を組み合わせ,句読点予測のF1スコアと単語誤り率(WER)を改良した。

Punctuated text prediction is crucial for automatic speech recognition as it enhances readability and impacts downstream natural language processing tasks. In streaming scenarios, the ability to predict punctuation in real-time is particularly desirable but presents a difficult technical challenge. In this work, we propose a method for predicting punctuated text from input speech using a chunk-based Transformer encoder trained with Connectionist Temporal Classification (CTC) loss. The acoustic model trained with long sequences by concatenating the input and target sequences can learn punctuation marks attached to the end of sentences more effectively. Additionally, by combining CTC losses on the chunks and utterances, we achieved both the improved F1 score of punctuation prediction and Word Error Rate (WER).
翻訳日:2023-06-05 16:33:22 公開日:2023-06-02
# スケーラブルな具体化タスク達成のためのエゴセントリックプランニング

Egocentric Planning for Scalable Embodied Task Achievement ( http://arxiv.org/abs/2306.01295v1 )

ライセンス: Link先を確認
Xiaotian Liu, Hector Palacios, Christian Muise(参考訳) エージェントは、様々な環境でのアクションの実行、特に、オブジェクトタイプをまたいだ一般化、タスクを達成するための適切なアクションの実行において、重要な課題に直面します。 さらに、エージェントはロバスト性を示し、違法なアクションの実行を最小化すべきである。 本研究では,記号的計画とオブジェクト指向のPOMDPを組み合わせて複雑な環境下でのタスクを解決し,視覚知覚と自然言語処理のための既存のモデルを活用する革新的な手法であるEgocentric Planningを提案する。 我々は、国内タスク用に設計されたシミュレーション環境であるALFREDにおける我々のアプローチを評価し、その高いスケーラビリティを実証し、ALFREDベンチマークで目立たない成功率36.07%を達成し、CVPR Embodied AIワークショップでALFREDに挑戦した。 本手法は,信頼度の高い知覚と,エージェントの行動の前提条件と効果の象徴的記述の仕様や学習,および他者に関する情報を提示するオブジェクトタイプを必要とする。 利用可能なスキルを使って解決できる限り、アルフレッドを超えて新しいタスクを自然にスケーリングして解決することができる。 この研究は、LLMに依存する最近のアプローチを含む、新しいタスクへの一般化を目的としたエンドツーエンドとハイブリッドの手法を研究するための確かなベースラインを提供するが、多くの場合、長い一連のアクションにスケールしたり、新しいタスクの堅牢な計画を作成するのに苦労する。

Embodied agents face significant challenges when tasked with performing actions in diverse environments, particularly in generalizing across object types and executing suitable actions to accomplish tasks. Furthermore, agents should exhibit robustness, minimizing the execution of illegal actions. In this work, we present Egocentric Planning, an innovative approach that combines symbolic planning and Object-oriented POMDPs to solve tasks in complex environments, harnessing existing models for visual perception and natural language processing. We evaluated our approach in ALFRED, a simulated environment designed for domestic tasks, and demonstrated its high scalability, achieving an impressive 36.07% unseen success rate in the ALFRED benchmark and winning the ALFRED challenge at CVPR Embodied AI workshop. Our method requires reliable perception and the specification or learning of a symbolic description of the preconditions and effects of the agent's actions, as well as what object types reveal information about others. It is capable of naturally scaling to solve new tasks beyond ALFRED, as long as they can be solved using the available skills. This work offers a solid baseline for studying end-to-end and hybrid methods that aim to generalize to new tasks, including recent approaches relying on LLMs, but often struggle to scale to long sequences of actions or produce robust plans for novel tasks.
翻訳日:2023-06-05 16:33:11 公開日:2023-06-02
# LoCoOp: プロンプト学習による分布検出

LoCoOp: Few-Shot Out-of-Distribution Detection via Prompt Learning ( http://arxiv.org/abs/2306.01293v1 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Go Irie, Kiyoharu Aizawa(参考訳) 本稿では,数発のアウト・オブ・ディストリビューション(OOD)検出のための新しい視覚言語プロンプト学習手法を提案する。 OOD検出は、トレーニング中に見つからないクラスから、少数のラベル付きIDイメージを使用してOOD画像を検出することを目的としている。 CoOpのような素早い学習手法は、数発のID分類において有効性と効率性を示しているが、テキスト埋め込みにおけるID関連情報の存在の可能性から、OOD検出の制限に直面している。 この問題に対処するために、トレーニング中のOOD機能としてCLIPローカル機能の一部を活用したOOD正規化を行う、‘textbf{Lo}cal regularized \textbf{Co}ntext \textbf{Op}timization(LoCoOp)’という新しいアプローチを導入する。 CLIPのローカル機能は、ID非関連なニュアンス(例えば、バックグラウンド)が多く、IDクラステキストの埋め込みからそれらを押し離すことで、IDクラステキストの埋め込みにあるニュアンスを取り除き、IDとOODの分離を強化することができる。 大規模なImageNet OOD検出ベンチマークの実験では、ゼロショットで完全に教師付き検出方法と迅速な学習方法よりも、LoCoOpの方が優れていることが示された。 特に、クラス毎に1つのラベルしか持たないワンショット設定でも、LoCoOpは既存のゼロショットと完全に教師付き検出メソッドよりも優れています。 コードは \url{https://github.com/AtsuMiyai/LoCoOp} から入手できる。

We present a novel vision-language prompt learning approach for few-shot out-of-distribution (OOD) detection. Few-shot OOD detection aims to detect OOD images from classes that are unseen during training using only a few labeled in-distribution (ID) images. While prompt learning methods such as CoOp have shown effectiveness and efficiency in few-shot ID classification, they still face limitations in OOD detection due to the potential presence of ID-irrelevant information in text embeddings. To address this issue, we introduce a new approach called \textbf{Lo}cal regularized \textbf{Co}ntext \textbf{Op}timization (LoCoOp), which performs OOD regularization that utilizes the portions of CLIP local features as OOD features during training. CLIP's local features have a lot of ID-irrelevant nuisances (e.g., backgrounds), and by learning to push them away from the ID class text embeddings, we can remove the nuisances in the ID class text embeddings and enhance the separation between ID and OOD. Experiments on the large-scale ImageNet OOD detection benchmarks demonstrate the superiority of our LoCoOp over zero-shot, fully supervised detection methods and prompt learning methods. Notably, even in a one-shot setting -- just one label per class, LoCoOp outperforms existing zero-shot and fully supervised detection methods. The code will be available via \url{https://github.com/AtsuMiyai/LoCoOp}.
翻訳日:2023-06-05 16:32:46 公開日:2023-06-02
# 圧縮浴と相互作用する1および2量子ビット量子冷蔵庫の熱力学 : 比較研究

Thermodynamics of one and two-qubit quantum refrigerators interacting with squeezed baths: a comparative study ( http://arxiv.org/abs/2306.01290v1 )

ライセンス: Link先を確認
Ashutosh Kumar and Sourabh Lahiri(参考訳) 圧縮熱浴中における1および2ビット系の非平衡冷却について検討した。 本研究では,1キュービットと2キュービットの冷凍機の性能を,その性能係数,冷却速度,メリット数の観点から特徴付ける。 その結果, 冷凍機の性能は, スクイーズパラメータとキュービット数の影響を強く受けていることがわかった。 2キュービット冷凍機の性能は、同じ操作条件下で1キュービット冷凍機よりも優れていることが判明した。 以上の結果から, 圧縮熱浴は非平衡状態における効率的な量子冷凍機の設計に有望な資源であることが示唆された。

We investigate the nonequilibrium refrigeration of one and two-qubit systems in a squeezed thermal bath. We characterize the performance of one and two-qubit refrigerators in the presence of squeezed heat baths, in terms of their coefficients of performance, cooling rates, and figures of merit. Our results show that the performance of the refrigerators is strongly influenced by the squeezing parameter and the number of qubits. The performance of the two-qubit refrigerator is found to be better than that of the one-qubit refrigerator under the same operating conditions. Our findings suggest that a squeezed thermal bath can be a promising resource for the design of efficient quantum refrigerators in the non-equilibrium regime.
翻訳日:2023-06-05 16:32:19 公開日:2023-06-02
# nnmobile-net: 深層学習型網膜症研究のためのcnn設計再考

NNMobile-Net: Rethinking CNN Design for Deep Learning-Based Retinopathy Research ( http://arxiv.org/abs/2306.01289v1 )

ライセンス: Link先を確認
Wenhui Zhu, Peijie Qiu, Natasha Lepore, Oana M. Dumitrascu, and Yalin Wang(参考訳) 網膜疾患(rd)は重度の視力喪失や盲目の主な原因である。 ディープラーニングに基づく自動化ツールは、現代医学におけるRDの診断とモニタリングにおいて、臨床医を支援する上で不可欠である。 近年では,畳み込みニューラルネットワーク(cnns)と比較して,パラメータやモデルの複雑さが高まり,最先端のパフォーマンスを実現するために視覚トランスフォーマ(vision transformer)を利用した研究が増えている。 しかし、そのような高度でタスク固有のモデル設計は、過度に適合し、その一般化性を阻害する傾向がある。 本稿では,チャネル認識とcnnモデルがこれらの問題を克服する可能性について論じる。 そこで我々はCNNのマクロ・マイクロデザインとそのトレーニング戦略を実証的に研究した。 本研究は,網膜疾患に対する新しいNon-MobileNet (Non-MobileNet) を提案する。 実験では, 糖尿病網膜症評価, 眼底多病症検出, 糖尿病黄斑浮腫分類の4つの課題に対して, 最新の4つの公開データセットで, 汎用的, 簡便で効率的なモデルを構築した。 我々の研究は、深層学習アーキテクチャ設計と先行網膜症研究に新たな洞察を与えるかもしれない。

Retinal diseases (RD) are the leading cause of severe vision loss or blindness. Deep learning-based automated tools play an indispensable role in assisting clinicians in diagnosing and monitoring RD in modern medicine. Recently, an increasing number of works in this field have taken advantage of Vision Transformer to achieve state-of-the-art performance with more parameters and higher model complexity compared to Convolutional Neural Networks (CNNs). Such sophisticated and task-specific model designs, however, are prone to be overfitting and hinder their generalizability. In this work, we argue that a channel-aware and well-calibrated CNN model may overcome these problems. To this end, we empirically studied CNN's macro and micro designs and its training strategies. Based on the investigation, we proposed a no-new-MobleNet (nn-MobileNet) developed for retinal diseases. In our experiments, our generic, simple and efficient model superseded most current state-of-the-art methods on four public datasets for multiple tasks, including diabetic retinopathy grading, fundus multi-disease detection, and diabetic macular edema classification. Our work may provide novel insights into deep learning architecture design and advance retinopathy research.
翻訳日:2023-06-05 16:32:08 公開日:2023-06-02
# KL拡散誘導温度サンプリング

KL-Divergence Guided Temperature Sampling ( http://arxiv.org/abs/2306.01286v1 )

ライセンス: Link先を確認
Chung-Ching Chang, David Reitter, Renat Aksitov, Yun-Hsuan Sung(参考訳) 温度サンプリングは、大規模言語モデルの予測を多様化するための従来の手法である。 温度が上昇すると、予測は多様化するが幻覚にも弱い。 幻覚を緩和するための一般的なアプローチは、ソース/接地文書を提供することであり、モデルは、提供されたソースに結合し、帰属する予測を生成するように訓練される。 多様性と帰属の間にはトレードオフがあるようだ。 このようなトレードオフを緩和するために、復号ステップよりも温度が一定であることの制約を緩和し、KL偏差によるソースへの関係に応じて動的温度を誘導する機構を提案する。 提案手法は,従来のtop-kアルゴリズムやtop-pアルゴリズムよりも,対話型質問処理や要約タスクにおいて優れていることを示す。

Temperature sampling is a conventional approach to diversify large language model predictions. As temperature increases, the prediction becomes diverse but also vulnerable to hallucinations -- generating tokens that are sensible but not factual. One common approach to mitigate hallucinations is to provide source/grounding documents and the model is trained to produce predictions that bind to and are attributable to the provided source. It appears that there is a trade-off between diversity and attribution. To mitigate any such trade-off, we propose to relax the constraint of having a fixed temperature over decoding steps, and a mechanism to guide the dynamic temperature according to its relevance to the source through KL-divergence. Our experiments justifies the trade-off, and shows that our sampling algorithm outperforms the conventional top-k and top-p algorithms in conversational question-answering and summarization tasks.
翻訳日:2023-06-05 16:31:48 公開日:2023-06-02
# フレームベーススペクトル処理による位相効果の微分可能なグレイボックスモデリング

Differentiable Grey-box Modelling of Phaser Effects using Frame-based Spectral Processing ( http://arxiv.org/abs/2306.01332v1 )

ライセンス: Link先を確認
Alistair Carson, Cassia Valentini-Botinhao, Simon King, Stefan Bilbao(参考訳) アナログオーディオ効果をモデル化する機械学習のアプローチは近年、特にギターアンプのような非線形時間不変効果の文脈で集中的に研究されている。 しかし、位相器のような変調効果については、その効果のゆっくりとした時間変化の性質を制御する低周波発振器の存在により、新たな課題が生じる。 既存のアプローチでは、この制御信号の事前確認が必要か、あるいは実装において非因果的であった。 本研究は,基礎となる制御信号と時間変化スペクトル応答を共同で学習する位相効果をモデル化する,微分可能なディジタル信号処理手法を提案する。 提案するモデルでは,周波数領域に時間変化フィルタを実装し,典型的なアナログ位相回路トポロジに基づく転送関数を持つ短いフレームで音声を処理する。 モデルは,解釈可能なパラメータと調整可能なパラメータを保持しながら,アナログ参照装置をエミュレートするように訓練できることを示す。 フレーム長は,提案モデルの重要なハイパーパラメータであり,モデル精度への影響について検討した。 最適フレーム長は目標効果の速度と過渡減衰時間の両方に依存するが、フレーム長は精度の大幅な変化を伴わずに推算時に変更できる。

Machine learning approaches to modelling analog audio effects have seen intensive investigation in recent years, particularly in the context of non-linear time-invariant effects such as guitar amplifiers. For modulation effects such as phasers, however, new challenges emerge due to the presence of the low-frequency oscillator which controls the slowly time-varying nature of the effect. Existing approaches have either required foreknowledge of this control signal, or have been non-causal in implementation. This work presents a differentiable digital signal processing approach to modelling phaser effects in which the underlying control signal and time-varying spectral response of the effect are jointly learned. The proposed model processes audio in short frames to implement a time-varying filter in the frequency domain, with a transfer function based on typical analog phaser circuit topology. We show that the model can be trained to emulate an analog reference device, while retaining interpretable and adjustable parameters. The frame duration is an important hyper-parameter of the proposed model, so an investigation was carried out into its effect on model accuracy. The optimal frame length depends on both the rate and transient decay-time of the target effect, but the frame length can be altered at inference time without a significant change in accuracy.
翻訳日:2023-06-05 16:25:53 公開日:2023-06-02
# 基礎モデルによる音声翻訳と最適輸送: IWSLT23におけるUPC

Speech Translation with Foundation Models and Optimal Transport: UPC at IWSLT23 ( http://arxiv.org/abs/2306.01327v1 )

ライセンス: Link先を確認
Ioannis Tsiamas, Gerard I. G\'allego, Jos\'e A. R. Fonollosa, Marta R. Costa-juss\`a(参考訳) 本稿では,UPC 機械翻訳グループの IWSLT 2023 オフライン音声翻訳タスクへの提出について述べる。 音声翻訳システムは,音声の基礎モデル(wav2vec 2.0)とテキストモデル(mbart50)を用いる。 我々は,CTC と Optimal Transport を用いた音声とテキストエンコーダのシームズ事前学習ステップを導入し,テキストモデルの空間に音声表現を適応させることにより,MT からの伝達学習を最大化する。 利用可能なSTコーパスとは別に、SegAugmentを使って合成データを作成し、IWSLTテストセットのカスタムセグメンテーションにモデルを適応させる。 ベストシングルモデルは MuST-C tst-COMMON で 31.2 BLEU 点, IWLST.tst 2020 で 29.8 点, IWSLT.ACLdev2023 で 33.4 点を得る。

This paper describes the submission of the UPC Machine Translation group to the IWSLT 2023 Offline Speech Translation task. Our Speech Translation systems utilize foundation models for speech (wav2vec 2.0) and text (mBART50). We incorporate a Siamese pretraining step of the speech and text encoders with CTC and Optimal Transport, to adapt the speech representations to the space of the text model, thus maximizing transfer learning from MT. After this pretraining, we fine-tune our system end-to-end on ST, with Cross Entropy and Knowledge Distillation. Apart from the available ST corpora, we create synthetic data with SegAugment to better adapt our models to the custom segmentations of the IWSLT test sets. Our best single model obtains 31.2 BLEU points on MuST-C tst-COMMON, 29.8 points on IWLST.tst2020 and 33.4 points on the newly released IWSLT.ACLdev2023.
翻訳日:2023-06-05 16:25:32 公開日:2023-06-02
# LyricSIM: スペイン語歌詞の類似度検出のための新しいデータセットとベンチマーク

LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS ( http://arxiv.org/abs/2306.01325v1 )

ライセンス: Link先を確認
Alejandro Benito-Santos, Adri\'an Ghajari, Pedro Hern\'andez, V\'ictor Fresno, Salvador Ros, Elena Gonz\'alez-Blanco(参考訳) 本稿では,歌の歌詞における意味的類似性に合わせた新しいデータセットとベンチマークを提案する。 このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。 高いコンセンサスとデータの完全性を確保するためにデータの収集と精錬を行った後、様々な最先端のモノリンガルおよび多言語言語モデルの性能を評価するために、676の高品質の注釈付きペアを得た。 その結果,この文脈で実施される将来的な学術・産業分野のあらゆる分野において,コミュニティにとって有用な基盤となる成果が得られた。

In this paper, we present a new dataset and benchmark tailored to the task of semantic similarity in song lyrics. Our dataset, originally consisting of 2775 pairs of Spanish songs, was annotated in a collective annotation experiment by 63 native annotators. After collecting and refining the data to ensure a high degree of consensus and data integrity, we obtained 676 high-quality annotated pairs that were used to evaluate the performance of various state-of-the-art monolingual and multilingual language models. Consequently, we established baseline results that we hope will be useful to the community in all future academic and industrial applications conducted in this context.
翻訳日:2023-06-05 16:25:12 公開日:2023-06-02
# 強化学習におけるハイパーパラメータとチューニング方法

Hyperparameters in Reinforcement Learning and How To Tune Them ( http://arxiv.org/abs/2306.01324v1 )

ライセンス: Link先を確認
Theresa Eimer, Marius Lindauer, Roberta Raileanu(参考訳) 再現性を向上させるため, 深層強化学習(RL)は, 標準化された評価指標や報告などの科学的実践を取り入れている。 しかし、ハイパーパラメータ最適化のプロセスは論文によって大きく異なるため、RLアルゴリズムを公平に比較することは困難である。 本稿では、RLにおけるハイパーパラメータ選択がエージェントの最終的な性能とサンプル効率に大きく影響し、ハイパーパラメータのランドスケープが過度に適合する可能性のあるチューニングシードに強く依存できることを示す。 そこで本研究では,種子のチューニングとテストの分離やhpo(principald hyperparameter optimization)といった,automlから確立されたベストプラクティスを採用することを提案する。 我々は、様々なRLアルゴリズムや環境上の複数の最先端HPOツールと手動で調整したツールを比較し、HPOアプローチが高パフォーマンスで計算オーバーヘッドが低いことを示す。 その結果, 計算コストの低減, 再現性の向上, 進行速度の向上などにより, より強力な実験結果が得られることが示唆された。 これらのプラクティスの採用を促進するため,本稿で使用されるチューニングアルゴリズムのプラグイン・アンド・プレイ実装について,https://github.com/facebookresearch/how-to-autorlで紹介する。

In order to improve reproducibility, deep reinforcement learning (RL) has been adopting better scientific practices such as standardized evaluation metrics and reporting. However, the process of hyperparameter optimization still varies widely across papers, which makes it challenging to compare RL algorithms fairly. In this paper, we show that hyperparameter choices in RL can significantly affect the agent's final performance and sample efficiency, and that the hyperparameter landscape can strongly depend on the tuning seed which may lead to overfitting. We therefore propose adopting established best practices from AutoML, such as the separation of tuning and testing seeds, as well as principled hyperparameter optimization (HPO) across a broad search space. We support this by comparing multiple state-of-the-art HPO tools on a range of RL algorithms and environments to their hand-tuned counterparts, demonstrating that HPO approaches often have higher performance and lower compute overhead. As a result of our findings, we recommend a set of best practices for the RL community, which should result in stronger empirical results with fewer computational costs, better reproducibility, and thus faster progress. In order to encourage the adoption of these practices, we provide plug-and-play implementations of the tuning algorithms used in this paper at https://github.com/facebookresearch/how-to-autorl.
翻訳日:2023-06-05 16:24:59 公開日:2023-06-02
# グラフニューラルネットにおける構造格差のデミスティフィケーション:全てのサイズが満たせるか?

Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All? ( http://arxiv.org/abs/2306.01323v1 )

ライセンス: Link先を確認
Haitao Mao, Zhikai Chen, Wei Jin, Haoyu Han, Yao Ma, Tong Zhao, Neil Shah, Jiliang Tang(参考訳) グラフニューラルネットワーク(gnns)に関する最近の研究は、ホモ親和性グラフと特定の親和性グラフの両方で構造パターンを捉えることの有効性を実証的および理論的に証明している。 特に、ほとんどの実世界のホモフィルグラフとヘテロフィルグラフは、ホモフィルグラフとヘテロフィルグラフの両方の構造パターンの混合ノードで構成され、構造的な相違を示す。 しかし、GNNの性能解析は、例えば、ヘテロ親和性グラフにおけるホモ親和性ノードのような異なる構造パターンを示すノードに対して、かなり限定的である。 本研究では, ノード分類上のグラフニューラルネットワーク(GNN)が, 異種グラフ内のホモ親和性ノードや異種グラフ内のヘテロ親和性ノードに対して, 反対のノード集合上で苦労しながら良好に動作し, 性能の相違を示すことを示す。 我々はGNNが異なる構造パターンを示す試験ノードに与える影響を理論的および経験的に同定した。 次に,GNN に対する厳密で非I.d PAC-Bayesian 一般化法を提案する。 さらに,(1)深層gnnの有効性を解明し,(2)グラフアウトオブ・ディストリビューション問題に対する過剰な分布シフト因子を明らかにし,それに応じて新しいシナリオを提案することにより,新たな知見の実用的意義を示す。

Recent studies on Graph Neural Networks(GNNs) provide both empirical and theoretical evidence supporting their effectiveness in capturing structural patterns on both homophilic and certain heterophilic graphs. Notably, most real-world homophilic and heterophilic graphs are comprised of a mixture of nodes in both homophilic and heterophilic structural patterns, exhibiting a structural disparity. However, the analysis of GNN performance with respect to nodes exhibiting different structural patterns, e.g., homophilic nodes in heterophilic graphs, remains rather limited. In the present study, we provide evidence that Graph Neural Networks(GNNs) on node classification typically perform admirably on homophilic nodes within homophilic graphs and heterophilic nodes within heterophilic graphs while struggling on the opposite node set, exhibiting a performance disparity. We theoretically and empirically identify effects of GNNs on testing nodes exhibiting distinct structural patterns. We then propose a rigorous, non-i.i.d PAC-Bayesian generalization bound for GNNs, revealing reasons for the performance disparity, namely the aggregated feature distance and homophily ratio difference between training and testing nodes. Furthermore, we demonstrate the practical implications of our new findings via (1) elucidating the effectiveness of deeper GNNs; and (2) revealing an over-looked distribution shift factor on graph out-of-distribution problem and proposing a new scenario accordingly.
翻訳日:2023-06-05 16:24:35 公開日:2023-06-02
# プライバシ蒸留:マルチモーダル拡散モデルの再同定リスクの低減

Privacy Distillation: Reducing Re-identification Risk of Multimodal Diffusion Models ( http://arxiv.org/abs/2306.01322v1 )

ライセンス: Link先を確認
Virginia Fernandez, Pedro Sanchez, Walter Hugo Lopez Pinaya, Grzegorz Jacenk\'ow, Sotirios A. Tsaftaris, Jorge Cardoso(参考訳) ニューラルネットワークにおける知識蒸留とは、大きなモデルやデータセットをより小さなバージョンに圧縮することを指す。 我々は,テキストから画像への生成モデルが識別可能なデータに露出することなく,別のモデルを教えることを可能にするフレームワークであるprivacy distillationを紹介する。 ここで私たちは、マルチモーダル生成モデルを通じてデータを共有したいデータプロバイダが直面するプライバシー問題に興味を持っています。 データプロバイダは、生成モデルが患者に関する識別可能な情報を漏洩していないことをどうやって保証できるのか? 本手法は,(1)実データ上で第1拡散モデルをトレーニングし,(2)本モデルを用いて合成データセットを生成し,(3)再構成された合成データに対して第2拡散モデルをトレーニングする。 プライバシ蒸留で訓練されたモデルから抽出したデータセットは、下流の性能を維持しながら、再識別リスクを効果的に低減できることを示す。

Knowledge distillation in neural networks refers to compressing a large model or dataset into a smaller version of itself. We introduce Privacy Distillation, a framework that allows a text-to-image generative model to teach another model without exposing it to identifiable data. Here, we are interested in the privacy issue faced by a data provider who wishes to share their data via a multimodal generative model. A question that immediately arises is ``How can a data provider ensure that the generative model is not leaking identifiable information about a patient?''. Our solution consists of (1) training a first diffusion model on real data (2) generating a synthetic dataset using this model and filtering it to exclude images with a re-identifiability risk (3) training a second diffusion model on the filtered synthetic data only. We showcase that datasets sampled from models trained with privacy distillation can effectively reduce re-identification risk whilst maintaining downstream performance.
翻訳日:2023-06-05 16:24:04 公開日:2023-06-02
# テキストスタイル転送バックトランスレーション

Text Style Transfer Back-Translation ( http://arxiv.org/abs/2306.01318v1 )

ライセンス: Link先を確認
Daimeng Wei, Zhanglin Wu, Hengchao Shang, Zongyao Li, Minghan Wang, Jiaxin Guo, Xiaoyu Chen, Zhengzhe Yu, Hao Yang(参考訳) Back Translation (BT) は機械翻訳の分野で広く使われており、翻訳品質の向上に有効であることが証明されている。 しかしBTは、BTデータのソース側が機械翻訳であるため、類似したスタイル(より具体的には、翻訳のような入力)を共有する入力の翻訳を主に改善する。 自然入力の場合、btはわずかな改善と時には悪影響だけをもたらす。 この問題に対処するため,BTデータのソース側を変更するためにスタイル転送モデルを用いたテキストスタイル転送バックトランスフォーメーション(TST BT)を提案する。 ソースサイドテキストのスタイルをより自然にすることで、自然入力の翻訳を改善することを目指している。 高リソースと低リソースの両方を含む様々な言語対の実験により、TST BTは一般的なBTベンチマークに対する翻訳性能を大幅に改善することを示した。 さらに、TST BTはドメイン適応に有効であることが証明され、この戦略は一般的なデータ拡張方法とみなすことができる。 トレーニングコードとテキストスタイルの転送モデルはオープンソースです。

Back Translation (BT) is widely used in the field of machine translation, as it has been proved effective for enhancing translation quality. However, BT mainly improves the translation of inputs that share a similar style (to be more specific, translation-like inputs), since the source side of BT data is machine-translated. For natural inputs, BT brings only slight improvements and sometimes even adverse effects. To address this issue, we propose Text Style Transfer Back Translation (TST BT), which uses a style transfer model to modify the source side of BT data. By making the style of source-side text more natural, we aim to improve the translation of natural inputs. Our experiments on various language pairs, including both high-resource and low-resource ones, demonstrate that TST BT significantly improves translation performance against popular BT benchmarks. In addition, TST BT is proved to be effective in domain adaptation so this strategy can be regarded as a general data augmentation method. Our training code and text style transfer model are open-sourced.
翻訳日:2023-06-05 16:23:48 公開日:2023-06-02
# 独立モジュールネットワーク

Independent Modular Networks ( http://arxiv.org/abs/2306.01316v1 )

ライセンス: Link先を確認
Hamed Damirchi, Forest Agostinelli and Pooyan Jamshidi(参考訳) ダウンストリームタスクの有用な表現を学ぶために単一の重みセットを使用するモノリシックニューラルネットワークは、データ生成プロセスの構成的性質を明示的に無視する。 この特性は、すべてのインスタンスがオブジェクトの形状のようなアイデンティティ概念と、向き、色、サイズといった変更概念の組み合わせと見なすことができるデータに存在する。 構成性の廃止は特にロボット工学において有害であり、状態推定は相互作用をモデル化するために物理的メカニズム(例えば回転や変換)の組成的性質に大きく依存する。 このデータ特性に対応するため、モジュラーネットワークが提案されている。 しかし、各モジュールの役割の構造が欠如しており、モジュールの崩壊のようなモジュールネットワーク固有の問題はユーザビリティを制限している。 本稿では,モジュールを所定の役割に分割するユニークな構造を提案することで,上記の分解概念に対応するモジュールネットワークアーキテクチャを提案する。 さらに,モジュール崩壊問題に対するモジュールネットワークのレジリエンスを向上し,モデルの分解精度を向上させた正規化も提供する。

Monolithic neural networks that make use of a single set of weights to learn useful representations for downstream tasks explicitly dismiss the compositional nature of data generation processes. This characteristic exists in data where every instance can be regarded as the combination of an identity concept, such as the shape of an object, combined with modifying concepts, such as orientation, color, and size. The dismissal of compositionality is especially detrimental in robotics, where state estimation relies heavily on the compositional nature of physical mechanisms (e.g., rotations and transformations) to model interactions. To accommodate this data characteristic, modular networks have been proposed. However, a lack of structure in each module's role, and modular network-specific issues such as module collapse have restricted their usability. We propose a modular network architecture that accommodates the mentioned decompositional concept by proposing a unique structure that splits the modules into predetermined roles. Additionally, we provide regularizations that improve the resiliency of the modular network to the problem of module collapse while improving the decomposition accuracy of the model.
翻訳日:2023-06-05 16:23:30 公開日:2023-06-02
# ファウショットマルチモーダル感情分析のための構文対応ハイブリッドプロンプトモデル

Syntax-aware Hybrid prompt model for Few-shot multi-modal sentiment analysis ( http://arxiv.org/abs/2306.01312v1 )

ライセンス: Link先を確認
Zikai Zhou(参考訳) マルチモーダル・センティメント・アナリティクス(MSA)は,近年,文・アスペクトレベルでの自然言語処理において,一般的な話題となっている。 しかし、既存のアプローチは、ほとんど大きなラベル付きデータセットを必要とするため、時間とリソースを大量に消費する。 したがって,クロスモダリティにおける少数ショット感情分析の手法を検討することは現実的である。 従来の作品では、主に手作りのプロンプトと学習可能なプロンプトという2つのタイプのプロンプトベースメソッドを使用して、テキストによるモダリティを実行している。 マルチモーダリティ感情分析タスクにおける既存のアプローチは、どちらの方法も別々に活用している。 さらに,1つ以上の固定された手作りプロンプトと学習可能なプロンプトを組み合わせたハイブリッドパターンを設計し,注意機構を利用してプロンプトエンコーダを最適化する。 文レベルのデータセットとアスペクトレベルのデータセットの両方の実験により、大きなパフォーマンス向上が証明された。

Multimodal Sentiment Analysis (MSA) has been a popular topic in natural language processing nowadays, at both sentence and aspect level. However, the existing approaches almost require large-size labeled datasets, which bring about large consumption of time and resources. Therefore, it is practical to explore the method for few-shot sentiment analysis in cross-modalities. Previous works generally execute on textual modality, using the prompt-based methods, mainly two types: hand-crafted prompts and learnable prompts. The existing approach in few-shot multi-modality sentiment analysis task has utilized both methods, separately. We further design a hybrid pattern that can combine one or more fixed hand-crafted prompts and learnable prompts and utilize the attention mechanisms to optimize the prompt encoder. The experiments on both sentence-level and aspect-level datasets prove that we get a significant outperformance.
翻訳日:2023-06-05 16:23:16 公開日:2023-06-02
# metavl: 言語モデルから視覚言語モデルへのコンテキスト内学習能力の移行

MetaVL: Transferring In-Context Learning Ability From Language Models to Vision-Language Models ( http://arxiv.org/abs/2306.01311v1 )

ライセンス: Link先を確認
Masoud Monajatipoor, Liunian Harold Li, Mozhdeh Rouhsedaghat, Lin F. Yang, Kai-Wei Chang(参考訳) 大規模言語モデルは、いくつかのデモ(インコンテキスト学習)を条件付けすることで、新しいタスクに適応する能力を示している。 しかし、視覚言語領域では、ほとんどの大規模事前学習型視覚言語(VL)モデルは、文脈内学習を行う能力を持っていない。 VLモデルのコンテキスト内学習をどのように可能か? 本稿では,言語領域からVL領域へ文脈内学習能力を移行できるのか,という興味深い仮説を考察する。 具体的には、まず言語モデルをメタトレーニングし、(MetaICLのように)NLPタスク上でコンテキスト内学習を行い、次に視覚エンコーダをアタッチしてVLタスクを実行する。 我々のモデルは、VLタスクにおける文脈内学習能力を大幅に改善し、モデルのサイズを著しく補うことができる。 VQA,OK-VQA,GQAでは,パラメータが20倍少なく,ベースラインモデルよりも優れていた。

Large-scale language models have shown the ability to adapt to a new task via conditioning on a few demonstrations (i.e., in-context learning). However, in the vision-language domain, most large-scale pre-trained vision-language (VL) models do not possess the ability to conduct in-context learning. How can we enable in-context learning for VL models? In this paper, we study an interesting hypothesis: can we transfer the in-context learning ability from the language domain to VL domain? Specifically, we first meta-trains a language model to perform in-context learning on NLP tasks (as in MetaICL); then we transfer this model to perform VL tasks by attaching a visual encoder. Our experiments suggest that indeed in-context learning ability can be transferred cross modalities: our model considerably improves the in-context learning capability on VL tasks and can even compensate for the size of the model significantly. On VQA, OK-VQA, and GQA, our method could outperform the baseline model while having 20 times fewer parameters.
翻訳日:2023-06-05 16:23:02 公開日:2023-06-02
# TSPによるソリューション空間削減によるエネルギー効率のよいUAV支援IoTデータ収集

Energy-Efficient UAV-Assisted IoT Data Collection via TSP-Based Solution Space Reduction ( http://arxiv.org/abs/2306.01355v1 )

ライセンス: Link先を確認
Sivaram Krishnan, Mahyar Nemati, Seng W. Loke, Jihong Park, and Jinho Choi(参考訳) 本稿では、無人航空機(UAV)を用いて、大規模に展開された分散IoTセンサから効率的にデータを収集する無線データ収集フレームワークを提案する。 提案手法では,UAVの飛行経路を最適化するために,センサの非ゼロ通信範囲を考慮し,トラベリングセールスマン問題(TSP)の変動をもたらす。 我々は,このTSP不変問題に対する最適経路がセンサ通信範囲の境界に制限されていることを数学的に証明し,解空間を大幅に削減する。 この結果をもとに,UAVの移動距離とセンサの通信範囲を最適化することにより,UAVとセンサの総エネルギー消費を最小化する,低複雑さなUAV支援センサデータ収集アルゴリズムを開発し,その有効性を示した。

This paper presents a wireless data collection framework that employs an unmanned aerial vehicle (UAV) to efficiently gather data from distributed IoT sensors deployed in a large area. Our approach takes into account the non-zero communication ranges of the sensors to optimize the flight path of the UAV, resulting in a variation of the Traveling Salesman Problem (TSP). We prove mathematically that the optimal waypoints for this TSP-variant problem are restricted to the boundaries of the sensor communication ranges, greatly reducing the solution space. Building on this finding, we develop a low-complexity UAV-assisted sensor data collection algorithm, and demonstrate its effectiveness in a selected use case where we minimize the total energy consumption of the UAV and sensors by jointly optimizing the UAV's travel distance and the sensors' communication ranges.
翻訳日:2023-06-05 16:15:23 公開日:2023-06-02
# 映画刺激下での視覚野の静的および動的表現を捉えたディープリカレントスパイキングニューラルネットワーク

Deep recurrent spiking neural networks capture both static and dynamic representations of the visual cortex under movie stimuli ( http://arxiv.org/abs/2306.01354v1 )

ライセンス: Link先を確認
Liwei Huang, ZhengYu Ma, Huihui Zhou, Yonghong Tian(参考訳) 実世界では、生物学的視覚系が受ける視覚刺激は主に静的ではなく動的である。 視覚野が映画の刺激をどのように表現しているかをよりよく理解すれば、視覚システムの情報処理メカニズムに関する深い洞察が得られるだろう。 深層ニューラルネットワークを用いた自然映画に対するニューラルレスポンスのモデル化にはいくつかの進歩があるが、そのような時系列視覚刺激下での静的および動的情報の視覚的表現は、さらに研究されている。 本研究では,マウス視覚系における多数のリカレント接続を考慮し,マウス大脳皮質の階層構造に基づくリカレントモジュールを設計し,より説得力のある視覚野の計算モデルであるディープスパイキングニューラルネットワークに追加する。 時系列表現類似性解析を用いて,自然映画刺激下でのネットワークとマウス皮質領域の表現類似性を測定する。 その後、リカレント/フィードフォワードネットワークと画像/ビデオトレーニングタスク間の表現的類似性の比較を行う。 ビデオ行動認識タスクでトレーニングされた繰り返しSNNは、表現の類似度が最も高く、同じタスクでトレーニングしたフィードフォワードSNNを15%、イメージ分類タスクでトレーニングしたリカレントSNNを8%上回る。 本稿では,SNNの静的および動的表現が類似性にどのように影響するかを,これらの2種類の表現の重要性を説明する方法として検討する。 本研究は,マウスの視覚野を映画刺激下でモデル化するための深部反復SNNを初めて適用し,静的および動的表現の両方を捕捉し,視覚野の映像情報処理機構の理解に寄与することを示すものである。

In the real world, visual stimuli received by the biological visual system are predominantly dynamic rather than static. A better understanding of how the visual cortex represents movie stimuli could provide deeper insight into the information processing mechanisms of the visual system. Although some progress has been made in modeling neural responses to natural movies with deep neural networks, the visual representations of static and dynamic information under such time-series visual stimuli remain to be further explored. In this work, considering abundant recurrent connections in the mouse visual system, we design a recurrent module based on the hierarchy of the mouse cortex and add it into Deep Spiking Neural Networks, which have been demonstrated to be a more compelling computational model for the visual cortex. Using Time-Series Representational Similarity Analysis, we measure the representational similarity between networks and mouse cortical regions under natural movie stimuli. Subsequently, we conduct a comparison of the representational similarity across recurrent/feedforward networks and image/video training tasks. Trained on the video action recognition task, recurrent SNN achieves the highest representational similarity and significantly outperforms feedforward SNN trained on the same task by 15% and the recurrent SNN trained on the image classification task by 8%. We investigate how static and dynamic representations of SNNs influence the similarity, as a way to explain the importance of these two forms of representations in biological neural coding. Taken together, our work is the first to apply deep recurrent SNNs to model the mouse visual cortex under movie stimuli and we establish that these networks are competent to capture both static and dynamic representations and make contributions to understanding the movie information processing mechanisms of the visual cortex.
翻訳日:2023-06-05 16:15:07 公開日:2023-06-02
# 一般化可能な新しい視点合成のための調整可能な視覚外観

Adjustable Visual Appearance for Generalizable Novel View Synthesis ( http://arxiv.org/abs/2306.01344v1 )

ライセンス: Link先を確認
Josef Bengtson, David Nilsson, Che-Tsung Lin, Marcel B\"usching and Fredrik Kahl(参考訳) 対象の天気や照明条件に合わせてレンダリングされたビューの視覚的外観を変更することが可能な、汎用的な新規ビュー合成手法を提案する。 本手法は,異なる外観条件下で合成シーンを訓練した一般化可能なトランスフォーマーアーキテクチャに基づく。 これにより、トレーニングセットに含まれていない3dシーンの一貫性のある方法で、新しいビューをレンダリングすることができる。 (i)その外観を目標条件に合わせるように変更し、 (ii)異なる条件間をスムーズに補間する。 実シーンと合成シーンの両方の実験は質的および定量的な評価を含む。 ビデオの結果については、プロジェクトページを参照してください。

We present a generalizable novel view synthesis method where it is possible to modify the visual appearance of rendered views to match a target weather or lighting condition. Our method is based on a generalizable transformer architecture, trained on synthetically generated scenes under different appearance conditions. This allows for rendering novel views in a consistent manner of 3D scenes that were not included in the training set, along with the ability to (i) modify their appearance to match the target condition and (ii) smoothly interpolate between different conditions. Experiments on both real and synthetic scenes are provided including both qualitative and quantitative evaluations. Please refer to our project page for video results: https://ava-nvs.github.io/
翻訳日:2023-06-05 16:14:35 公開日:2023-06-02
# 低光度画像強調のための2レベル高速シーン適応

Bilevel Fast Scene Adaptation for Low-Light Image Enhancement ( http://arxiv.org/abs/2306.01343v1 )

ライセンス: Link先を確認
Long Ma, Dian Jin, Nan An, Jinyuan Liu, Xin Fan, Risheng Liu(参考訳) 低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが広く懸念されている課題である。 メインストリームの学習ベース手法は,特定の場面からデータ分布を学習することで,これまで遭遇したことのない現実のシナリオに対処できない適応性(失敗であっても)を低下させることによって,拡張モデルを主に獲得する。 主な障害は、異なるシーンにまたがる分布の不一致によるモデリングの混乱にある。 そこで,我々はまず,異なるデータ分布で訓練されたエンコーダのネットワークパラメータが近い統計解析に基づいて,多様な低照度シーン間の関係を探索する。 超パラメータ最適化の観点から、上記の潜在対応をモデル化するための双レベルパラダイムを導入する。 エンコーダのシーン非関連な一般化を多様なシーン(すなわち、適応およびテストフェーズにおけるエンコーダの凍結)にもたらすために、バイレベル学習フレームワークを構築する。 さらに,シーン固有のデコーダのメタ初期化を提供し,さらに視覚品質を改善するために,強化された2レベル学習フレームワークを定義した。 さらに,実用性を向上させるために,適応的推論によるretinex誘導アーキテクチャを確立し,教師付きと教師なしの2つの学習損失を用いて,構築した学習フレームワークをパラメータ獲得に適用する。 複数のデータセットに対する大規模な実験的評価は、既存の最先端の作業に対する適応性と競争性能を検証する。 コードとデータセットはhttps://github.com/vis-opt-group/BLで入手できる。

Enhancing images in low-light scenes is a challenging but widely concerned task in the computer vision. The mainstream learning-based methods mainly acquire the enhanced model by learning the data distribution from the specific scenes, causing poor adaptability (even failure) when meeting real-world scenarios that have never been encountered before. The main obstacle lies in the modeling conundrum from distribution discrepancy across different scenes. To remedy this, we first explore relationships between diverse low-light scenes based on statistical analysis, i.e., the network parameters of the encoder trained in different data distributions are close. We introduce the bilevel paradigm to model the above latent correspondence from the perspective of hyperparameter optimization. A bilevel learning framework is constructed to endow the scene-irrelevant generality of the encoder towards diverse scenes (i.e., freezing the encoder in the adaptation and testing phases). Further, we define a reinforced bilevel learning framework to provide a meta-initialization for scene-specific decoder to further ameliorate visual quality. Moreover, to improve the practicability, we establish a Retinex-induced architecture with adaptive denoising and apply our built learning framework to acquire its parameters by using two training losses including supervised and unsupervised forms. Extensive experimental evaluations on multiple datasets verify our adaptability and competitive performance against existing state-of-the-art works. The code and datasets will be available at https://github.com/vis-opt-group/BL.
翻訳日:2023-06-05 16:14:26 公開日:2023-06-02
# フェデレーション学習における中毒攻撃に基づく隠れコミュニケーション

Covert Communication Based on the Poisoning Attack in Federated Learning ( http://arxiv.org/abs/2306.01342v1 )

ライセンス: Link先を確認
Junchuan Liang and Rong Wang(参考訳) 隠密通信はコンピュータセキュリティにおける重要な研究分野となっている。 メッセージ送信のためにキャリアに特定の情報を隠すことを含み、プライベートデータ、軍事機密、さらにはマルウェアの送信によく使用される。 ディープラーニングでは、隠密なコミュニケーションを実現するために、モデルに情報を隠す多くの方法が開発されている。 しかし、これらの手法は、モデル集約がモデルに埋め込まれた正確な情報をクライアントが無効にするフェデレーション学習には適用できない。 そこで本研究では,共学学習における毒殺攻撃に基づく隠密コミュニケーションの新しい手法を提案する。 提案手法は,2つのクライアント間の隠密メッセージ伝送において100%の精度を実現し,広範囲な実験によりステルス性,堅牢性を示す。 しかし,既存の防御手法は攻撃方式に対する有効性に限界があり,新たな防御手法の開発が急務であることを示している。 本研究は,包括的コミュニケーションにおける研究の必要性を強調し,連合的学習攻撃・防衛研究の基盤となる。

Covert communication has become an important area of research in computer security. It involves hiding specific information on a carrier for message transmission and is often used to transmit private data, military secrets, and even malware. In deep learning, many methods have been developed for hiding information in models to achieve covert communication. However, these methods are not applicable to federated learning, where model aggregation invalidates the exact information embedded in the model by the client. To address this problem, we propose a novel method for covert communication in federated learning based on the poisoning attack. Our approach achieves 100% accuracy in covert message transmission between two clients and is shown to be both stealthy and robust through extensive experiments. However, existing defense methods are limited in their effectiveness against our attack scheme, highlighting the urgent need for new protection methods to be developed. Our study emphasizes the necessity of research in covert communication and serves as a foundation for future research in federated learning attacks and defenses.
翻訳日:2023-06-05 16:13:59 公開日:2023-06-02
# 変圧器を用いたアノテーションバイアスを考慮した医用画像分割

Transformer-based Annotation Bias-aware Medical Image Segmentation ( http://arxiv.org/abs/2306.01340v1 )

ライセンス: Link先を確認
Zehui Liao, Yutong Xie, Shishuai Hu, Yong Xia(参考訳) 手動画像分割は主観的であり、アノテータ関連バイアスに悩まされ、深層学習法によって模倣または増幅される。 近年、このバイアスはアノテータの好みと確率的誤差の組合せであり、それぞれデコーダと画素単位の独立なガウス分布の後にある畳み込みブロックによってモデル化されている。 畳み込みブロックは、全解像度レベルで様々な好みの度合いを効果的にモデル化することは不可能である。 さらに、独立画素ワイドガウス分布は画素相関を無視し、不連続境界をもたらす。 本稿では,アノテーションの嗜好と確率的誤りをモデル化することにより,アノテーション関連バイアスに取り組むトランスフォーマタ型アノテーション・バイアス・アウェア(tab)医療画像分割モデルを提案する。 TABはTransformerと学習可能なクエリを使って、好みに重点を置くさまざまな特徴を抽出する。 これにより、TABは単一のセグメンテーションヘッドを使用して、様々な好みのセグメンテーションを同時に生成できる。 さらに、TABは画素相関をモデル化する多変正規分布を仮定し、アノテーション分布を学習して確率誤差を解消する。 6つのアノテーションを付加したOD/OCセグメンテーションベンチマークでTABを評価した。 以上の結果から,TABはアノテータ関連バイアスを考慮した既存の医用画像セグメンテーションモデルより優れていることが示唆された。

Manual medical image segmentation is subjective and suffers from annotator-related bias, which can be mimicked or amplified by deep learning methods. Recently, researchers have suggested that such bias is the combination of the annotator preference and stochastic error, which are modeled by convolution blocks located after decoder and pixel-wise independent Gaussian distribution, respectively. It is unlikely that convolution blocks can effectively model the varying degrees of preference at the full resolution level. Additionally, the independent pixel-wise Gaussian distribution disregards pixel correlations, leading to a discontinuous boundary. This paper proposes a Transformer-based Annotation Bias-aware (TAB) medical image segmentation model, which tackles the annotator-related bias via modeling annotator preference and stochastic errors. TAB employs the Transformer with learnable queries to extract the different preference-focused features. This enables TAB to produce segmentation with various preferences simultaneously using a single segmentation head. Moreover, TAB takes the multivariant normal distribution assumption that models pixel correlations, and learns the annotation distribution to disentangle the stochastic error. We evaluated our TAB on an OD/OC segmentation benchmark annotated by six annotators. Our results suggest that TAB outperforms existing medical image segmentation models which take into account the annotator-related bias.
翻訳日:2023-06-05 16:13:45 公開日:2023-06-02
# 資源効率の高いフェデレーション超次元計算

Resource-Efficient Federated Hyperdimensional Computing ( http://arxiv.org/abs/2306.01339v1 )

ライセンス: Link先を確認
Nikita Zeulin, Olga Galinina, Nageen Himayat, Sergey Andreev(参考訳) 従来の連合超次元コンピューティング(hdc)では、より大きなモデルのトレーニングは予測性能の向上をもたらすが、計算、通信、エネルギーリソースも必要となる。 システムリソースが限られている場合は、hdcモデルのサイズを小さくすることで予測性能を犠牲にする必要がある。 提案フレームワークは,複数の独立したHDCサブモデルをトレーニングし,提案したドロップアウトインスパイアされた手順を用いて連結HDCモデルを精査することにより,そのような制約を緩和する。 提案手法は,ベースラインフェデレーションhdc実装よりも少ない計算資源と無線資源を消費しながら,同等あるいは高い予測性能を実現していることを示す。

In conventional federated hyperdimensional computing (HDC), training larger models usually results in higher predictive performance but also requires more computational, communication, and energy resources. If the system resources are limited, one may have to sacrifice the predictive performance by reducing the size of the HDC model. The proposed resource-efficient federated hyperdimensional computing (RE-FHDC) framework alleviates such constraints by training multiple smaller independent HDC sub-models and refining the concatenated HDC model using the proposed dropout-inspired procedure. Our numerical comparison demonstrates that the proposed framework achieves a comparable or higher predictive performance while consuming less computational and wireless resources than the baseline federated HDC implementation.
翻訳日:2023-06-05 16:13:19 公開日:2023-06-02
# GPT-4を用いた数学問題の解法に関する実証的研究

An Empirical Study on Challenging Math Problem Solving with GPT-4 ( http://arxiv.org/abs/2306.01337v1 )

ライセンス: Link先を確認
Yiran Wu, Feiran Jia, Shaokun Zhang, Qingyun Wu, Hangyu Li, Erkang Zhu, Yue Wang, Yin Tat Lee, Richard Peng, and Chi Wang(参考訳) 数学の問題に対処するために大規模言語モデル(llm)を採用することは興味深い研究であり、多くの科学や工学分野にわたる自然言語で表現される数学問題の豊富さを考慮する。 LLMを用いた基礎数学の解法について、いくつかの先行研究が検討されているが、より複雑で難解な数学問題の解法として GPT-4 を用いることのフロンティアについて検討している。 我々はgpt-4の使用方法を評価する。 いくつかは既存の作業から適応したもので、ひとつは、新しく提案されている会話型問題解決フレームワークである \mathchatである。 提案手法の利点を示すMATHデータセットを用いて,難解な高校競争問題の評価を行う。

Employing Large Language Models (LLMs) to address mathematical problems is an intriguing research endeavor, considering the abundance of math problems expressed in natural language across numerous science and engineering fields. While several prior works have investigated solving elementary mathematics using LLMs, this work explores the frontier of using GPT-4 for solving more complex and challenging math problems. We evaluate various ways of using GPT-4. Some of them are adapted from existing work, and one is \MathChat, a conversational problem-solving framework newly proposed in this work. We perform the evaluation on difficult high school competition problems from the MATH dataset, which shows the advantage of the proposed conversational approach.
翻訳日:2023-06-05 16:13:04 公開日:2023-06-02
# Federated Domain Generalization: 調査

Federated Domain Generalization: A Survey ( http://arxiv.org/abs/2306.01334v1 )

ライセンス: Link先を確認
Ying Li, Xingwei Wang, Rongfei Zeng, Praveen Kumar Donta, Ilir Murturi, Min Huang, and Schahram Dustdar(参考訳) 機械学習は通常、トレーニングとテストは同一であり、データはトレーニングとテストのために中央に保存されているという仮定に依存している。 しかし、現実のシナリオでは、分布は著しく異なり、データは異なるデバイス、組織、エッジノードに分散されることが多い。 したがって、データが異なるドメインに分散する非知覚分布に効果的に一般化できるモデルを開発することが不可欠である。 この課題に対応するため、近年、フェデレーションドメイン一般化(fdg)への関心が高まっている。 FDGは、フェデレートラーニング(FL)とドメイン一般化(DG)の長所を組み合わせることで、複数のソースドメインがデータプライバシを保持しながら、目に見えないドメインに直接一般化できるモデルを協調的に学習できるようにする。 しかし、ドメインシフトの下でのフェデレーションモデルを一般化することは技術的に難しい問題であり、これまで研究領域で注目されてきた。 本稿では,この領域における最近の進歩に関する最初の調査を行う。 まず、従来の機械学習からドメイン適応やドメイン一般化までの開発プロセスについて議論し、fdgやそれに対応する形式的定義も提供する。 次に,最近の手法を,フェデレートされたドメインアライメント,データ操作,学習戦略,集約最適化の4つのクラスに分類し,各カテゴリに適したアルゴリズムを提案する。 次に、一般的に使用されるデータセット、アプリケーション、評価、ベンチマークを紹介する。 最後に,今後の研究課題について述べることで,この調査を締めくくっている。

Machine learning typically relies on the assumption that training and testing distributions are identical and that data is centrally stored for training and testing. However, in real-world scenarios, distributions may differ significantly and data is often distributed across different devices, organizations, or edge nodes. Consequently, it is imperative to develop models that can effectively generalize to unseen distributions where data is distributed across different domains. In response to this challenge, there has been a surge of interest in federated domain generalization (FDG) in recent years. FDG combines the strengths of federated learning (FL) and domain generalization (DG) techniques to enable multiple source domains to collaboratively learn a model capable of directly generalizing to unseen domains while preserving data privacy. However, generalizing the federated model under domain shifts is a technically challenging problem that has received scant attention in the research area so far. This paper presents the first survey of recent advances in this area. Initially, we discuss the development process from traditional machine learning to domain adaptation and domain generalization, leading to FDG as well as provide the corresponding formal definition. Then, we categorize recent methodologies into four classes: federated domain alignment, data manipulation, learning strategies, and aggregation optimization, and present suitable algorithms in detail for each category. Next, we introduce commonly used datasets, applications, evaluations, and benchmarks. Finally, we conclude this survey by providing some potential research topics for the future.
翻訳日:2023-06-05 16:12:51 公開日:2023-06-02
# 放射線医学aiにおける公平をナビゲートする:概念、結果、そして重要な考察

Navigating Fairness in Radiology AI: Concepts, Consequences,and Crucial Considerations ( http://arxiv.org/abs/2306.01333v1 )

ライセンス: Link先を確認
Vasantha Kumar Venugopal, Abhishek Gupta, Rohit Takhar, Charlene Liew Jin Yee, Catherine Jones, Gilberto Szarf(参考訳) 人工知能(AI)は放射線学に大きな革命をもたらし、患者の成果とプロセスの合理化を約束している。 しかし、ステルスバイアスや格差が不平等な結果につながるのを防ぐために、AIモデルの公平性を確保することが重要です。 本稿では,aiにおける公平性の概念について論じ,aequitasツールキットを用いたバイアス監査と,その放射線学的意義,特に疾患スクリーニングシナリオに焦点をあてた。 オープンソースのバイアス監査ツールキットであるaequitasは、aiモデルの判断を精査し、異なる人口統計グループとイメージング機器ブランド間で異なる結果をもたらす隠れたバイアスを特定する。 このツールキットは統計理論に基づいており、大きなデータセットを分析してモデルの公平性を明らかにする。 様々な変数を同時に扱う汎用性、特に放射線学と同じくらい多様な分野において優れている。 このレビューは、等しく比例するパリティ、偽陽性率パリティ、偽発見率パリティ、偽陰性率パリティ、偽陰性率パリティといった、本質的な公平性指標を解説している。 各計量は独自の目的を持ち、異なる洞察を提供する。 本研究は, 疾患スクリーニング設定におけるそれらの関連性を示す仮説的シナリオと, 相違が現実世界の重大な影響をいかに引き起こすかを示す。

Artificial Intelligence (AI) has significantly revolutionized radiology, promising improved patient outcomes and streamlined processes. However, it's critical to ensure the fairness of AI models to prevent stealthy bias and disparities from leading to unequal outcomes. This review discusses the concept of fairness in AI, focusing on bias auditing using the Aequitas toolkit, and its real-world implications in radiology, particularly in disease screening scenarios. Aequitas, an open-source bias audit toolkit, scrutinizes AI models' decisions, identifying hidden biases that may result in disparities across different demographic groups and imaging equipment brands. This toolkit operates on statistical theories, analyzing a large dataset to reveal a model's fairness. It excels in its versatility to handle various variables simultaneously, especially in a field as diverse as radiology. The review explicates essential fairness metrics: Equal and Proportional Parity, False Positive Rate Parity, False Discovery Rate Parity, False Negative Rate Parity, and False Omission Rate Parity. Each metric serves unique purposes and offers different insights. We present hypothetical scenarios to demonstrate their relevance in disease screening settings, and how disparities can lead to significant real-world impacts.
翻訳日:2023-06-05 16:12:28 公開日:2023-06-02
# 置換二元ニューラルネットワークの解析とFPGAによる実装

Analysis and FPGA based Implementation of Permutation Binary Neural Networks ( http://arxiv.org/abs/2306.01383v1 )

ライセンス: Link先を確認
Mikito Onuki, Kento Saka, Toshimichi Saito(参考訳) 本稿では,局所二元接続,大域的置換接続,およびシグネム活性化関数を特徴とする順列二元ニューラルネットワークについて述べる。 置換接続によって、ネットワークはバイナリベクトルの様々な周期軌道を生成することができる。 特に、ほぼすべての初期点が軌道に落下するように、地球規模の安定周期軌道に焦点を当てる。 周期軌道を探索するために、簡単な進化的アルゴリズムを提案する。 このアルゴリズムをPBNNの典型的な例に適用すると、様々な周期軌道の存在が明らかになる。 FPGAベースのハードウェアプロトタイプとして、典型的な周期軌道が実験的に確認される。 ハードウェアは、スイッチング回路の安定制御信号や時系列の安定近似信号など、様々なエンジニアリングアプリケーションに開発される予定である。

This paper studies a permutation binary neural network characterized by local binary connections, global permutation connections, and the signum activation function. Depending on the permutation connections, the network can generate various periodic orbits of binary vectors. Especially, we focus on globally stable periodic orbits such that almost all initial points fall into the orbits. In order to explore the periodic orbits, we present a simple evolutionary algorithm. Applying the algorithm to typical examples of PBNNs, existence of a variety of periodic orbits is clarified. Presenting an FPGA based hardware prototype, typical periodic orbits are confirmed experimentally. The hardware will be developed into various engineering applications such that stable control signals of switching circuits and stable approximation signals of time-series.
翻訳日:2023-06-05 16:06:47 公開日:2023-06-02
# 低リソース翻訳のための中間タスク微調整における補助領域並列データの利用

Leveraging Auxiliary Domain Parallel Data in Intermediate Task Fine-tuning for Low-resource Translation ( http://arxiv.org/abs/2306.01382v1 )

ライセンス: Link先を確認
Shravan Nayak, Surangika Ranathunga, Sarubi Thillainathan, Rikki Hung, Anthony Rinaldi, Yining Wang, Jonah Mackey, Andrew Ho, En-Shiun Annie Lee(参考訳) 事前訓練されたマルチリンガルシーケンスシーケンス(PMSS)モデルに基づいて訓練されたNMTシステムは、微調整に十分な量の並列データが利用できない場合に浮かび上がる。 これは特に、これらのモデルに欠落/欠落している言語に当てはまる。 データは異なるドメインから来ると、問題は悪化する。 本稿では,PMSSモデルの中間タスク微調整(ITFT)がドメイン固有NMTにとって極めて有益であることを示す。 ドメイン分割テストを用いて、ドメイン固有の結果の変動を定量化し、ITFTがドメイン分散の影響をある程度軽減できることを示す。

NMT systems trained on Pre-trained Multilingual Sequence-Sequence (PMSS) models flounder when sufficient amounts of parallel data is not available for fine-tuning. This specifically holds for languages missing/under-represented in these models. The problem gets aggravated when the data comes from different domains. In this paper, we show that intermediate-task fine-tuning (ITFT) of PMSS models is extremely beneficial for domain-specific NMT, especially when target domain data is limited/unavailable and the considered languages are missing or under-represented in the PMSS model. We quantify the domain-specific results variations using a domain-divergence test, and show that ITFT can mitigate the impact of domain divergence to some extent.
翻訳日:2023-06-05 16:06:36 公開日:2023-06-02
# 分散フルグラフGNN訓練における適応的メッセージ量子化と並列化

Adaptive Message Quantization and Parallelization for Distributed Full-graph GNN Training ( http://arxiv.org/abs/2306.01381v1 )

ライセンス: Link先を確認
Borui Wan, Juntao Zhao, Chuan Wu(参考訳) 大きなグラフ上のグラフニューラルネットワーク(GNN)の分散フルグラフトレーニングは、帯域幅の要求と時間を要する。 デバイス間でのノード機能、埋め込み、埋め込み勾配(すべてメッセージと呼ばれる)の頻繁な交換は、他のデバイス(マージナルノード)上のリモート隣人とのノードの通信オーバーヘッドと、トレーニンググラフにリモート隣人(中央ノード)がいないノードの不要な待ち時間をもたらす。 本稿では,分散フルグラフGNNトレーニングを高速化する効率的なGNNトレーニングシステムであるAdaQPを提案する。 通信トラヒック低減と限界ノードと中央ノード間の通信計算並列化を推奨するために,デバイス間で転送されるメッセージを確率的に計算する。 我々は,T が訓練エポックの総数である O(T^{-1} の速度で) の高速な訓練収束を証明し,解析に基づいて各メッセージに対する適応量子化ビット幅割り当てスキームを設計し,訓練収束と効率の良好なトレードオフを目標とする理論解析を行う。 主流グラフデータセットに関する広範囲な実験により、adaqpは分散フルグラフトレーニングのスループット(最大3.01 x)を大幅に向上し、精度の低下(最大0.2%)や精度の向上(最大0.19%)さえも達成している。

Distributed full-graph training of Graph Neural Networks (GNNs) over large graphs is bandwidth-demanding and time-consuming. Frequent exchanges of node features, embeddings and embedding gradients (all referred to as messages) across devices bring significant communication overhead for nodes with remote neighbors on other devices (marginal nodes) and unnecessary waiting time for nodes without remote neighbors (central nodes) in the training graph. This paper proposes an efficient GNN training system, AdaQP, to expedite distributed full-graph GNN training. We stochastically quantize messages transferred across devices to lower-precision integers for communication traffic reduction and advocate communication-computation parallelization between marginal nodes and central nodes. We provide theoretical analysis to prove fast training convergence (at the rate of O(T^{-1}) with T being the total number of training epochs) and design an adaptive quantization bit-width assignment scheme for each message based on the analysis, targeting a good trade-off between training convergence and efficiency. Extensive experiments on mainstream graph datasets show that AdaQP substantially improves distributed full-graph training's throughput (up to 3.01 X) with negligible accuracy drop (at most 0.30%) or even accuracy improvement (up to 0.19%) in most cases, showing significant advantages over the state-of-the-art works.
翻訳日:2023-06-05 16:06:21 公開日:2023-06-02
# コード臭いのデータセットと検証メカニズムに関する体系的文献レビュー

A systematic literature review on the code smells datasets and validation mechanisms ( http://arxiv.org/abs/2306.01377v1 )

ライセンス: Link先を確認
Morteza Zakeri-Nasrabadi and Saeed Parsa and Ehsan Esmaili and Fabio Palomba(参考訳) コード臭い検出ツールで報告される精度は、ツールの評価に使用されるデータセットによって異なる。 既存の45個のデータセットを調査したところ, 臭気検出用データセットの精度は, 大きさ, 重度レベル, プロジェクトタイプ, 臭気の種類, 臭気数, および非臭気サンプルに対する臭気の比率など, 関連する特性に大きく依存していることが判明した。 多くの既存のデータセットは、God Class、Long Method、Feature Envyをサポートし、FowlerとBeckのカタログの6つの匂いは、いかなるデータセットもサポートしていない。 既存のデータセットには、不均衡なサンプル、重大性レベルのサポートの欠如、java言語への制限などがあります。

The accuracy reported for code smell-detecting tools varies depending on the dataset used to evaluate the tools. Our survey of 45 existing datasets reveals that the adequacy of a dataset for detecting smells highly depends on relevant properties such as the size, severity level, project types, number of each type of smell, number of smells, and the ratio of smelly to non-smelly samples in the dataset. Most existing datasets support God Class, Long Method, and Feature Envy while six smells in Fowler and Beck's catalog are not supported by any datasets. We conclude that existing datasets suffer from imbalanced samples, lack of supporting severity level, and restriction to Java language.
翻訳日:2023-06-05 16:05:55 公開日:2023-06-02
# DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- ソフトウェア脆弱性検出のための異種グラフ学習の先駆的研究

DSHGT: Dual-Supervisors Heterogeneous Graph Transformer -- A pioneer study of using heterogeneous graph learning for detecting software vulnerabilities ( http://arxiv.org/abs/2306.01376v1 )

ライセンス: Link先を確認
Tiehua Zhang, Rui Xu, Jianping Zhang, Yuzhe Tian, Xin Chen, Xiaowei Huang, Jun Yin, Xi Zheng(参考訳) 脆弱性検出はソフトウェアセキュリティにおける重要な問題であり、学界と業界の両方から注目を集めている。 伝統的に、ソフトウェアセキュリティは、経験的な専門知識に大きく依存する、指定されたルールベースの検出器によって保護されている。 ディープラーニング、特にグラフニューラルネットワーク(GNN)の最近の進歩は、幅広いソフトウェア脆弱性の自動検出の可能性を明らかにしている。 しかしながら、事前学習に基づく作業は、コードの文脈的特徴を抽出するためにプログラムを単語トークンのシーケンスに分割するか、あるいはgnnを基礎となるプログラムエンティティ(例えばメソッド、変数)の複雑なタイプを識別せずに、均質なグラフ表現(例えばast)に主に適用するだけである。 本研究では、コードプロパティグラフの形で異種グラフ表現を初めて探求し、対応するグラフ学習タスクのための二重スーパーバイザ構造を持つよく知られた異種グラフネットワークを適用する。 構築したプロトタイプを用いて,人工データセットと実世界のプロジェクトの両方について広範な実験を行った。 最先端のベースラインと比較すると、脆弱性検出性能(実世界のプロジェクトでは平均10\%以上のf1改善)やc/c++から他のプログラミング言語への移植性(平均11%以上のf1改善)といった点で、この研究の方向性において有望な効果を示している。

Vulnerability detection is a critical problem in software security and attracts growing attention both from academia and industry. Traditionally, software security is safeguarded by designated rule-based detectors that heavily rely on empirical expertise, requiring tremendous effort from software experts to generate rule repositories for large code corpus. Recent advances in deep learning, especially Graph Neural Networks (GNN), have uncovered the feasibility of automatic detection of a wide range of software vulnerabilities. However, prior learning-based works only break programs down into a sequence of word tokens for extracting contextual features of codes, or apply GNN largely on homogeneous graph representation (e.g., AST) without discerning complex types of underlying program entities (e.g., methods, variables). In this work, we are one of the first to explore heterogeneous graph representation in the form of Code Property Graph and adapt a well-known heterogeneous graph network with a dual-supervisor structure for the corresponding graph learning task. Using the prototype built, we have conducted extensive experiments on both synthetic datasets and real-world projects. Compared with the state-of-the-art baselines, the results demonstrate promising effectiveness in this research direction in terms of vulnerability detection performance (average F1 improvements over 10\% in real-world projects) and transferability from C/C++ to other programming languages (average F1 improvements over 11%).
翻訳日:2023-06-05 16:05:42 公開日:2023-06-02
# 部分てんかん性病変のロバストおよび包括的切除 : グラフ畳み込みアプローチ

Robust and Generalisable Segmentation of Subtle Epilepsy-causing Lesions: a Graph Convolutional Approach ( http://arxiv.org/abs/2306.01375v1 )

ライセンス: Link先を確認
Hannah Spitzer, Mathilde Ripart, Abdulah Fawaz, Logan Z. J. Williams, MELD project, Emma Robinson, Juan Eugenio Iglesias, Sophie Adler, Konrad Wagstyl(参考訳) focal cortical dysplasia (fcd) は薬剤耐性の焦点てんかんの主要な原因であり、手術によって治療することができる。 これらの病変は極めて微妙であり、専門の神経放射線学者にも見逃されることが多い。 そのため、手動の傷口マスクは高価で、限定的であり、器間変動が大きい。 既存のFCD検出方法は、主に全脳コンテキストを欠いた頂点またはパッチベースのアプローチによって、多数の偽陽性予測によって制限される。 本稿では,脳領域間の空間関係を学習できるグラフ畳み込みネットワーク(gcn)を用いた意味セグメンテーションとしてこの問題にアプローチする。 FCD識別の具体的な課題に対処するため,提案モデルでは,偽陽性を減少させるために病変からの距離を予測する補助的損失と,不確実な病変マスクからの学習を容易にするための監督的分類損失を含む。 構造的mriデータから, 表面的特徴と手動病変を有する1015名からなるマルチセンタデータセットにおいて, 提案するgcnは0.74のaucを達成し, 従来使用されていた多層パーセプトロン (mlp) 分類器 (auc 0.64) に対して有意な改善が得られた。 感度は67%であり, mlp使用時の49%に比べ, gcnの特異度は71%であった。 この特異性の改善は、ai放射線補助薬の使用に対する臨床信頼を高め、専門家レビューを必要とする領域の数を減らすことによって、病変検出ツールの放射線ワークフローへの臨床統合に不可欠である。

Focal cortical dysplasia (FCD) is a leading cause of drug-resistant focal epilepsy, which can be cured by surgery. These lesions are extremely subtle and often missed even by expert neuroradiologists. "Ground truth" manual lesion masks are therefore expensive, limited and have large inter-rater variability. Existing FCD detection methods are limited by high numbers of false positive predictions, primarily due to vertex- or patch-based approaches that lack whole-brain context. Here, we propose to approach the problem as semantic segmentation using graph convolutional networks (GCN), which allows our model to learn spatial relationships between brain regions. To address the specific challenges of FCD identification, our proposed model includes an auxiliary loss to predict distance from the lesion to reduce false positives and a weak supervision classification loss to facilitate learning from uncertain lesion masks. On a multi-centre dataset of 1015 participants with surface-based features and manual lesion masks from structural MRI data, the proposed GCN achieved an AUC of 0.74, a significant improvement against a previously used vertex-wise multi-layer perceptron (MLP) classifier (AUC 0.64). With sensitivity thresholded at 67%, the GCN had a specificity of 71% in comparison to 49% when using the MLP. This improvement in specificity is vital for clinical integration of lesion-detection tools into the radiological workflow, through increasing clinical confidence in the use of AI radiological adjuncts and reducing the number of areas requiring expert review.
翻訳日:2023-06-05 16:05:11 公開日:2023-06-02
# シリアスゲームのための確率的合成データの生成:サイバーいじめを事例として

Generation of Probabilistic Synthetic Data for Serious Games: A Case Study on Cyberbullying ( http://arxiv.org/abs/2306.01365v1 )

ライセンス: Link先を確認
Jaime P\'erez, Mario Castro, Gregorio L\'opez(参考訳) 合成データ生成は近年、研究の領域として成長している。 しかし、本格的ゲームに応用される可能性はまだ十分に検討されていない。 この分野の進歩は、データモデリングと分析を予測し、開発プロセスをスピードアップする可能性がある。 新型コロナウイルス(covid-19)のパンデミックはこのような現象を拡大し、文献にこのギャップを埋めようと、対話的な物語に基づいたシリアスゲームのための確率的合成データを生成するシミュレーターアーキテクチャを提案する。 このアーキテクチャは、他の研究者が同様の問題を解決するために、汎用的でモジュール化された設計である。 質問に対する合成プレイヤーのインタラクションをシミュレートするために,項目応答理論フレームワークに基づく認知的テストモデルを用いる。 また,確率的グラフィカルモデル(特にベイズネットワーク)を用いて,シミュレーションに専門家の知識と外部データを導入する方法を示す。 最後に,サイバーいじめに焦点を当てた本格的ゲームにおいて,提案するアーキテクチャと手法を適用した。 階層モデルを用いてベイズ推定実験を行い、生成したデータの識別性と堅牢性を示す。

Synthetic data generation has been a growing area of research in recent years. However, its potential applications in serious games have not been thoroughly explored. Advances in this field could anticipate data modelling and analysis, as well as speed up the development process. The COVID-19 pandemic has enlarged such a phenomenon, To try to fill this gap in the literature, we propose a simulator architecture for generating probabilistic synthetic data for serious games based on interactive narratives. This architecture is designed to be generic and modular so that it can be used by other researchers on similar problems. To simulate the interaction of synthetic players with questions, we use a cognitive testing model based on the Item Response Theory framework. We also show how probabilistic graphical models (in particular Bayesian networks) can be used to introduce expert knowledge and external data into the simulation. Finally, we apply the proposed architecture and methods in a use case of a serious game focused on cyberbullying. We perform Bayesian inference experiments using a hierarchical model to demonstrate the identifiability and robustness of the generated data.
翻訳日:2023-06-05 16:04:41 公開日:2023-06-02
# ロバストGAN生成画像検出に向けて:多視点補完表現

Towards Robust GAN-generated Image Detection: a Multi-view Completion Representation ( http://arxiv.org/abs/2306.01364v1 )

ライセンス: Link先を確認
Chi Liu, Tianqing Zhu, Sheng Shen, Wanlei Zhou(参考訳) GAN生成画像検出は、ディープフェイクのようなマシン合成画像操作の悪意ある使用に対する最初の防御線となっている。 既存の検出器はクリーンで既知のGANサンプルを検出するのにうまく機能するが、その成功は主に周波数アーティファクトのような不安定な特徴の過度な適合に起因する。 そこで本研究では,新しい多視点画像補完表現に基づくロバスト検出フレームワークを提案する。 このフレームワークはまず、さまざまなビューからイメージへのタスクを学習し、本物のイメージの多様な分布をモデル化する。 周波数非関連の特徴は、未知の偽パターンを検出するための安定で一般化され、堅牢な完了モデルによって特徴づけられる分布的不一致から表現することができる。 次に、ビュー固有の特徴表現とクロスビュー特徴集約を強化するために、ビュー内およびビュー間学習戦略を具体化した多視点分類を考案した。 我々は,6つのGANに対して異なる解像度でフレームワークの一般化能力と幅広い摂動攻撃に対する堅牢性を評価した。 その結果, 本手法の有効性, 一般化, 各種ベースラインに対する堅牢性を検証した。

GAN-generated image detection now becomes the first line of defense against the malicious uses of machine-synthesized image manipulations such as deepfakes. Although some existing detectors work well in detecting clean, known GAN samples, their success is largely attributable to overfitting unstable features such as frequency artifacts, which will cause failures when facing unknown GANs or perturbation attacks. To overcome the issue, we propose a robust detection framework based on a novel multi-view image completion representation. The framework first learns various view-to-image tasks to model the diverse distributions of genuine images. Frequency-irrelevant features can be represented from the distributional discrepancies characterized by the completion models, which are stable, generalized, and robust for detecting unknown fake patterns. Then, a multi-view classification is devised with elaborated intra- and inter-view learning strategies to enhance view-specific feature representation and cross-view feature aggregation, respectively. We evaluated the generalization ability of our framework across six popular GANs at different resolutions and its robustness against a broad range of perturbation attacks. The results confirm our method's improved effectiveness, generalization, and robustness over various baselines.
翻訳日:2023-06-05 16:04:24 公開日:2023-06-02
# 逆フィンガープリントを用いたスコアベース生成モデルにおけるサンプル匿名性の定量化

Quantifying Sample Anonymity in Score-Based Generative Models with Adversarial Fingerprinting ( http://arxiv.org/abs/2306.01363v1 )

ライセンス: Link先を確認
Mischa Dombrowski and Bernhard Kainz(参考訳) 近年のスコアベース生成モデルの発展により、画像やビデオ生成によるデータ増大から異常検出に至るまで、データ生成モデルを用いた下流アプリケーションの開発が急増している。 公開されているトレーニングモデルにもかかわらず、プライバシ保護データ共有に使用される可能性はまだ十分に検討されていない。 個人データでの拡散モデルのトレーニングと、生のデータセットではなくモデルと重み付けの分散は、患者の個人的健康情報を最重要視する医療において、革新的な大規模データ共有戦略への道を開く。 しかし、データを取得した患者の同意なく、そのようなモデルを公開するためには、特定可能なトレーニングサンプルが決して再生されないことを保証し、個人の健康データを保護し、政策立案者や規制機関の要求を満たす必要がある。 本稿では,サンプリング過程において,識別可能な訓練画像の再生確率の上限を推定する手法を提案する。 これは、医療機器や皮膚アートなどの解剖学的指紋を検索し、トレーニング画像の再識別に使用できるような、逆向きのアプローチを設計することによって達成される。 本手法は,学習したスコアベースモデルを用いて,トレーニングサンプルの1対1再生に使用できるスコア関数のサブスペース全体の確率を推定する。 推定値を検証するため,指紋を含む異常を生成し,トレーニングされた生成モデルから生成されたサンプルを元のトレーニングサンプルに一意にマッピングできるかどうかを調べる。 その結果,モデルが注意なくトレーニングされた場合,プライバシブリーチング画像はサンプリング時に再生されることがわかった。

Recent advances in score-based generative models have led to a huge spike in the development of downstream applications using generative models ranging from data augmentation over image and video generation to anomaly detection. Despite publicly available trained models, their potential to be used for privacy preserving data sharing has not been fully explored yet. Training diffusion models on private data and disseminating the models and weights rather than the raw dataset paves the way for innovative large-scale data-sharing strategies, particularly in healthcare, where safeguarding patients' personal health information is paramount. However, publishing such models without individual consent of, e.g., the patients from whom the data was acquired, necessitates guarantees that identifiable training samples will never be reproduced, thus protecting personal health data and satisfying the requirements of policymakers and regulatory bodies. This paper introduces a method for estimating the upper bound of the probability of reproducing identifiable training images during the sampling process. This is achieved by designing an adversarial approach that searches for anatomic fingerprints, such as medical devices or dermal art, which could potentially be employed to re-identify training images. Our method harnesses the learned score-based model to estimate the probability of the entire subspace of the score function that may be utilized for one-to-one reproduction of training samples. To validate our estimates, we generate anomalies containing a fingerprint and investigate whether generated samples from trained generative models can be uniquely mapped to the original training samples. Overall our results show that privacy-breaching images are reproduced at sampling time if the models were trained without care.
翻訳日:2023-06-05 16:04:04 公開日:2023-06-02
# DWT-CompCNN:高スループットJPEG 2000圧縮文書のためのディープイメージ分類ネットワーク

DWT-CompCNN: Deep Image Classification Network for High Throughput JPEG 2000 Compressed Documents ( http://arxiv.org/abs/2306.01359v1 )

ライセンス: Link先を確認
Tejasvee Bisen, Mohammed Javed, Shashank Kirtania, P. Nagabhushan(参考訳) 検索などの文書画像を持つデジタルアプリケーションの場合、文書画像の分類は必須の段階となる。 典型的には、圧縮されていない文書画像である文書のフルバージョンが入力データセットを作成し、ドキュメントのフルバージョンに対応するのに必要な膨大なボリュームが脅威となる。 したがって、プロセス全体を計算効率良くするために、文書の圧縮表現で、同じ分類タスクを(部分的な除圧縮で)直接(一部で)達成できることは、新しいことである。 本研究では,ハイスループットJPEG 2000(HTJ2K)アルゴリズムを用いて圧縮された文書の分類のために,新しいディープラーニングモデルDWT CompCNNを提案する。 提案したDWT-CompCNNは,フィルタサイズ16,32,64,128,256の5つの畳み込み層から構成され,圧縮画像から抽出したウェーブレット係数からの学習を改善する。 Tobacco-3482 と RVL-CDIP の2つのベンチマークデータセットで実験を行い、提案モデルが時間と空間効率であり、圧縮領域の分類精度も向上することを示した。

For any digital application with document images such as retrieval, the classification of document images becomes an essential stage. Conventionally for the purpose, the full versions of the documents, that is the uncompressed document images make the input dataset, which poses a threat due to the big volume required to accommodate the full versions of the documents. Therefore, it would be novel, if the same classification task could be accomplished directly (with some partial decompression) with the compressed representation of documents in order to make the whole process computationally more efficient. In this research work, a novel deep learning model, DWT CompCNN is proposed for classification of documents that are compressed using High Throughput JPEG 2000 (HTJ2K) algorithm. The proposed DWT-CompCNN comprises of five convolutional layers with filter sizes of 16, 32, 64, 128, and 256 consecutively for each increasing layer to improve learning from the wavelet coefficients extracted from the compressed images. Experiments are performed on two benchmark datasets- Tobacco-3482 and RVL-CDIP, which demonstrate that the proposed model is time and space efficient, and also achieves a better classification accuracy in compressed domain.
翻訳日:2023-06-05 16:03:37 公開日:2023-06-02
# ノイズ・ノイズマッピングによるノイズ3次元点雲からの符号付き距離関数の学習

Learning Signed Distance Functions from Noisy 3D Point Clouds via Noise to Noise Mapping ( http://arxiv.org/abs/2306.01405v1 )

ライセンス: Link先を確認
Baorui Ma, Yu-Shen Liu, Zhizhong Han(参考訳) 3Dポイントクラウドから署名付き距離関数(SDF)を学習することは、3Dコンピュータビジョンにおいて重要な課題である。 しかし、地上の真理に署名された距離、点正規あるいはクリーンな点雲がなければ、現在の手法はノイズの多い点雲からSDFを学ぶのに苦戦している。 この課題を克服するため,我々は,クリーンポイントクラウドや基礎的真理管理を必要としないノイズからノイズマッピングまで,sdfsを学ぶことを提案する。 我々の新しい特徴はノイズ・ト・ノイズマッピングにあり、1つの物体やシーンの高精度なSDFを、その多重または単一ノイズの点雲観測から推測することができる。 我々の新しい学習方法は、毎秒複数のノイズを観測する現代のライダーシステムによって支えられている。 点雲は不規則であり,無秩序であり,ノイズ観測では点対応しないが,点雲の統計的推論を可能にし,幾何学的一貫性を維持できる新たな損失を実現した。 広く使われているベンチマークによる評価は,表面再構成,ポイントクラウドのデノイジング,アップサンプリングにおける最先端手法よりも優れています。 私たちのコード、データ、事前訓練済みモデルはhttps://github.com/mabaorui/Noise2NoiseMapping/で利用可能です。

Learning signed distance functions (SDFs) from 3D point clouds is an important task in 3D computer vision. However, without ground truth signed distances, point normals or clean point clouds, current methods still struggle from learning SDFs from noisy point clouds. To overcome this challenge, we propose to learn SDFs via a noise to noise mapping, which does not require any clean point cloud or ground truth supervision for training. Our novelty lies in the noise to noise mapping which can infer a highly accurate SDF of a single object or scene from its multiple or even single noisy point cloud observations. Our novel learning manner is supported by modern Lidar systems which capture multiple noisy observations per second. We achieve this by a novel loss which enables statistical reasoning on point clouds and maintains geometric consistency although point clouds are irregular, unordered and have no point correspondence among noisy observations. Our evaluation under the widely used benchmarks demonstrates our superiority over the state-of-the-art methods in surface reconstruction, point cloud denoising and upsampling. Our code, data, and pre-trained models are available at https://github.com/mabaorui/Noise2NoiseMapping/
翻訳日:2023-06-05 15:56:02 公開日:2023-06-02
# Adaptive Attractors: ML敵の衝突攻撃に対する防御戦略

Adaptive Attractors: A Defense Strategy against ML Adversarial Collusion Attacks ( http://arxiv.org/abs/2306.01400v1 )

ライセンス: Link先を確認
Jiyi Zhang, Han Fang, Ee-Chien Chang(参考訳) 機械学習モデルに基づく売り手購入設定では、売り手は元のモデルに基づいて異なるコピーを生成し、それを別の購入者に配布する。 既知のアプローチでは、異なるアトラクタを異なるコピーに注入するアトラクタベースの書き換え器を使用してこれを実現している。 これは異なるコピーで異なる敵領域を誘導し、あるコピーで生成された敵のサンプルは他のコピーでは複製できない。 本稿では,複数の悪意のある買い手が衝突するシナリオに注目した。 まず、まず2つの定式化を行い、攻撃者の能力と誘引者の特性に異なる仮定で衝突攻撃の有効性を解析するための実証的研究を行った。 我々は,既存のアトラクタに基づく手法が,コローダの数が増加するにつれて,アトラクタではなく,元のモデルから見出されたサンプルの方が影響を受けやすいという意味で,コローダを効果的に誤解させるものではないことを観察した。 そこで本研究では,U字曲線で重みを導出するアダプティブアトラクタを用いて,不足点をカバーすることを提案する。 実験の結果,共謀攻撃の攻撃成功率は,多数のコピーを共謀に適用しても約15%に収束することがわかった。 対照的に、既存のアトラクタベースのリライターを固定重量で使用する場合、衝突に使用するコピー数に応じて攻撃成功率は直線的に増加する。

In the seller-buyer setting on machine learning models, the seller generates different copies based on the original model and distributes them to different buyers, such that adversarial samples generated on one buyer's copy would likely not work on other copies. A known approach achieves this using attractor-based rewriter which injects different attractors to different copies. This induces different adversarial regions in different copies, making adversarial samples generated on one copy not replicable on others. In this paper, we focus on a scenario where multiple malicious buyers collude to attack. We first give two formulations and conduct empirical studies to analyze effectiveness of collusion attack under different assumptions on the attacker's capabilities and properties of the attractors. We observe that existing attractor-based methods do not effectively mislead the colluders in the sense that adversarial samples found are influenced more by the original model instead of the attractors as number of colluders increases. Based on this observation, we propose using adaptive attractors whose weight is guided by a U-shape curve to cover the shortfalls. Experimentation results show that when using our approach, the attack success rate of a collusion attack converges to around 15% even when lots of copies are applied for collusion. In contrast, when using the existing attractor-based rewriter with fixed weight, the attack success rate increases linearly with the number of copies used for collusion.
翻訳日:2023-06-05 15:55:44 公開日:2023-06-02
# エンティティと数値に関する知識グラフ推論

Knowledge Graph Reasoning over Entities and Numerical Values ( http://arxiv.org/abs/2306.01399v1 )

ライセンス: Link先を確認
Jiaxin Bai, Chen Luo, Zheng Li, Qingyu Yin, Bing Yin, Yangqiu Song(参考訳) ナレッジグラフにおける複雑な論理クエリは、カナダチューリング賞の受賞者がどこから卒業したかなど、複雑な意味を伝える論理形式で表現されたクエリを指す。 対話システムや対話型検索エンジンのような知識グラフ推論に基づくアプリケーションは、基本的なタスクとして複雑な論理クエリに答える能力に依存している。 ほとんどの知識グラフでは、エッジは通常、エンティティ間の関係や関連する属性値を記述するために使われる。 属性値は、日付、年月、サイズなど、カテゴリー的または数値的なフォーマットでもよい。 しかし、既存のcomplex query answering(cqa)メソッドは、エンティティを扱うのと同じように数値を単純に扱う。 オーストラリア・ピューリッツァー賞受賞者が1927年以前に生まれ、どの薬が鎮痛剤であり、パラセタモールよりも副作用が少ないかなど、特定の問合せに答えるのは難しい可能性がある。 本研究では,近年の数値エンコーディングと知識グラフ推論の進歩に触発されて,数値複雑クエリ応答を提案する。 本稿では,数値属性値を含むクエリを記述するために,新しい数値変数と演算を導入する。 また、エンティティと数値の差に対処するために、代わりにエンティティと数値を別のエンコード構造に符号化するNRN(Number Reasoning Network)の枠組みを提案する。 数値符号化の過程で、NRNはパラメータ化密度関数を用いて数値の分布を符号化する。 エンティティエンコーディングプロセスの間、NRNは元のCQA問題に対して確立されたクエリエンコーディング手法を使用する。 実験の結果,NRNは3つの知識グラフ上の様々なクエリエンコーディング法を一貫して改善し,最先端の結果が得られた。

A complex logic query in a knowledge graph refers to a query expressed in logic form that conveys a complex meaning, such as where did the Canadian Turing award winner graduate from? Knowledge graph reasoning-based applications, such as dialogue systems and interactive search engines, rely on the ability to answer complex logic queries as a fundamental task. In most knowledge graphs, edges are typically used to either describe the relationships between entities or their associated attribute values. An attribute value can be in categorical or numerical format, such as dates, years, sizes, etc. However, existing complex query answering (CQA) methods simply treat numerical values in the same way as they treat entities. This can lead to difficulties in answering certain queries, such as which Australian Pulitzer award winner is born before 1927, and which drug is a pain reliever and has fewer side effects than Paracetamol. In this work, inspired by the recent advances in numerical encoding and knowledge graph reasoning, we propose numerical complex query answering. In this task, we introduce new numerical variables and operations to describe queries involving numerical attribute values. To address the difference between entities and numerical values, we also propose the framework of Number Reasoning Network (NRN) for alternatively encoding entities and numerical values into separate encoding structures. During the numerical encoding process, NRN employs a parameterized density function to encode the distribution of numerical values. During the entity encoding process, NRN uses established query encoding methods for the original CQA problem. Experimental results show that NRN consistently improves various query encoding methods on three different knowledge graphs and achieves state-of-the-art results.
翻訳日:2023-06-05 15:55:18 公開日:2023-06-02
# バックグラウンド・フォアグラウンド除去に対する自己監督表現のロバスト性の評価

Evaluating The Robustness of Self-Supervised Representations to Background/Foreground Removal ( http://arxiv.org/abs/2306.01398v1 )

ライセンス: Link先を確認
Xavier F. Cadet, Ranya Aloufi, Alain Miranville, Sara Ahmadi-Abhari, Hamed Haddadi(参考訳) さまざまなタスクの解決におけるSSLの顕著な進歩にもかかわらず、入力データから学習したSSL表現の理解と特徴化の問題は、いまだに未解決のままである。 入力の一部をマスキングする際にSSLモデルで生成された表現がどのように異なるかの比較分析を行う。 具体的には, dinov2, mae, swavなどの最先端sslプリトレーニングモデルを検討し, 4つの画像分類データセットにおける表現レベルの変化を分析した。 まず、前景と背景セグメンテーションを適用してデータセットのバリエーションを生成する。 次に,CCA(Canonical correlation Analysis)とCKA(Centered Kernel Alignment)を用いて統計解析を行い,SSLモデルで学習した表現の堅牢性を評価する。 経験的に、すべてのモデルが前景、背景、および完全なイメージを分離する表現につながるわけではない。 さらに,前景や背景が難しい場合に対処するために,画像の中心領域を疎外することにより,異なるマスキング戦略を試す。 例えば、特定のオブジェクトよりもテクスチャに焦点を当てたDTDデータセット。

Despite impressive empirical advances of SSL in solving various tasks, the problem of understanding and characterizing SSL representations learned from input data remains relatively under-explored. We provide a comparative analysis of how the representations produced by SSL models differ when masking parts of the input. Specifically, we considered state-of-the-art SSL pretrained models, such as DINOv2, MAE, and SwaV, and analyzed changes at the representation levels across 4 Image Classification datasets. First, we generate variations of the datasets by applying foreground and background segmentation. Then, we conduct statistical analysis using Canonical Correlation Analysis (CCA) and Centered Kernel Alignment (CKA) to evaluate the robustness of the representations learned in SSL models. Empirically, we show that not all models lead to representations that separate foreground, background, and complete images. Furthermore, we test different masking strategies by occluding the center regions of the images to address cases where foreground and background are difficult. For example, the DTD dataset that focuses on texture rather specific objects.
翻訳日:2023-06-05 15:54:50 公開日:2023-06-02
# 教師なしビデオ要約のためのマスク付きオートエンコーダ

Masked Autoencoder for Unsupervised Video Summarization ( http://arxiv.org/abs/2306.01395v1 )

ライセンス: Link先を確認
Minho Shim, Taeoh Kim, Jinhyung Kim, Dongyoon Wee(参考訳) ビデオの要約には、シーンの認識から、各フレームが要約として選択できるほど必要不可欠であるかの評価まで、さまざまな理解が必要となる。 自己教師付き学習(SSL)は、複数の下流タスクに対する堅牢性と柔軟性が認められているが、ビデオSSLは、ビデオ要約のような深い理解タスクには価値を示していない。 自己教師なし学習を持つ教師なしオートエンコーダは,ビデオ要約モデルとして活用するための下流アーキテクチャ設計や微調整重みは不要である。 提案手法は,オートエンコーダの復号器の復号化スコアを利用して,各フレームの重要度を評価する。 本手法は,非教師なしビデオ要約ベンチマークで評価し,様々な実験環境での有効性を示す。

Summarizing a video requires a diverse understanding of the video, ranging from recognizing scenes to evaluating how much each frame is essential enough to be selected as a summary. Self-supervised learning (SSL) is acknowledged for its robustness and flexibility to multiple downstream tasks, but the video SSL has not shown its value for dense understanding tasks like video summarization. We claim an unsupervised autoencoder with sufficient self-supervised learning does not need any extra downstream architecture design or fine-tuning weights to be utilized as a video summarization model. The proposed method to evaluate the importance score of each frame takes advantage of the reconstruction score of the autoencoder's decoder. We evaluate the method in major unsupervised video summarization benchmarks to show its effectiveness under various experimental settings.
翻訳日:2023-06-05 15:54:31 公開日:2023-06-02
# NMTにおけるサブワードベーストークン化における周波数と構成性の重要性の評価

Assessing the Importance of Frequency versus Compositionality for Subword-based Tokenization in NMT ( http://arxiv.org/abs/2306.01393v1 )

ライセンス: Link先を確認
Benoist Wolleb, Romain Silvestri, Giorgos Vernikos, Ljiljana Dolamic Andrei Popescu-Belis(参考訳) サブワードトークン化は、ニューラルネットワークモデルと機械翻訳システムにおけるトークン化のデファクトスタンダードである。 サブワードには、頻繁なトークンの短いエンコーディング、サブワードの構成性、未知語を扱う能力という3つの利点がある。 相対的な重要性は明らかになっていないため、コンポジション性から周波数(第一の利点)を分離できるトークン化手法を提案する。 このアプローチでは、Huffmanコーディングを使用して、一定量のシンボルを使用して、単語を周波数順にトークン化する。 CS-DE, EN-FR, EN-DE NMTによる実験では、BPEが到達したスコアの90%-95%は周波数だけで占めることがわかった。

Subword tokenization is the de facto standard for tokenization in neural language models and machine translation systems. Three advantages are frequently cited in favor of subwords: shorter encoding of frequent tokens, compositionality of subwords, and ability to deal with unknown words. As their relative importance is not entirely clear yet, we propose a tokenization approach that enables us to separate frequency (the first advantage) from compositionality. The approach uses Huffman coding to tokenize words, by order of frequency, using a fixed amount of symbols. Experiments with CS-DE, EN-FR and EN-DE NMT show that frequency alone accounts for 90%-95% of the scores reached by BPE, hence compositionality has less importance than previously thought.
翻訳日:2023-06-05 15:54:17 公開日:2023-06-02
# 非正規性による弱値の再検討

Revisiting weak values through non-normality ( http://arxiv.org/abs/2306.01392v1 )

ライセンス: Link先を確認
Lorena Ballesteros Ferraz, Riccardo Muolo, Yves Caudano, Timoteo Carletti(参考訳) 量子測定は、測定行動のシステムと結果として生じる解釈問題の影響により、量子物理学で最も興味深く議論された現象の1つである。 研究者らは、弱い値と呼ばれる量を利用して測定信号を増幅する弱い測定を提案したが、測定プロセスによって引き起こされるシステムの摂動に関する哲学的な困難を克服した。 この手法は多くの応用があり、特に観察の適切な解釈に関して多くの哲学的疑問を提起する。 本稿では,任意の弱値を適切な非正規作用素の期待値として表現できることを示す。 本稿では,非正規行列の理論と非正規性との関係に基づいて,それらの異常と増幅挙動の予備的説明を行う。 本研究は、測定現象をより深く理解し、実験の設計を支援する方法であり、非正規性によって引き起こされる新しい量子現象を解明するために、両分野の研究者の協力を求めるものである。

Quantum measurement is one of the most fascinating and discussed phenomena in quantum physics, due to the impact on the system of the measurement action and the resulting interpretation issues. Scholars proposed weak measurements to amplify measured signals by exploiting a quantity called a weak value, but also to overcome philosophical difficulties related to the system perturbation induced by the measurement process. The method finds many applications and raises many philosophical questions as well, especially about the proper interpretation of the observations. In this paper, we show that any weak value can be expressed as the expectation value of a suitable non-normal operator. We propose a preliminary explanation of their anomalous and amplification behavior based on the theory of non-normal matrices and their link with non-normality: the weak value is different from an eigenvalue when the operator involved in the expectation value is non-normal. Our study paves the way for a deeper understanding of the measurement phenomenon, helps the design of experiments, and it is a call for collaboration to researchers in both fields to unravel new quantum phenomena induced by non-normality.
翻訳日:2023-06-05 15:54:01 公開日:2023-06-02
# 化学特性誘導ニューラルネットワークによるナフサ組成予測

Chemical Property-Guided Neural Networks for Naphtha Composition Prediction ( http://arxiv.org/abs/2306.01391v1 )

ライセンス: Link先を確認
Chonghyo Joo, Jeongdong Kim, Hyungtae Cho, Jaewon Lee, Sungho Suh, Junghwan Kim(参考訳) ナフサ分解過程は、異なる炭化水素の複雑な混合物であるナフサの組成に大きく依存している。 クラック工程を効率よく制御し、最大性能を達成するためには、正確にナフサ組成を予測することが重要である。 ガスクロマトグラフィーや真の沸騰曲線のような従来の方法は、パイロット・プラント規模の実験やコスト制約を必要とするため実現不可能である。 本稿では,化学特性情報を利用してナフサ合成予測の性能を向上させるニューラルネットワークフレームワークを提案する。 提案フレームワークは,Watson K因子推定ネットワークとNanahtha合成予測ネットワークの2つの部分から構成される。 両方のネットワークは畳み込みニューラルネットワーク(cnn)アーキテクチャに基づく特徴抽出ネットワークを共有し、出力層は多層パーセプトロン(mlp)ベースのネットワークを使用して2つの異なる出力(ワトソンk因子とナフサ合成)を生成する。 ナフタ組成はパーセンテージで表され、その和は100%である。 ナフサ組成の予測を強化するために, 蒸留シミュレータを用いてその化学的性質に依存するナフサ組成から蒸留曲線を得る。 推定およびシミュレーションされたWatson K因子間の損失関数を設計することにより、Watson K推定とNanahtha合成予測の両方の性能を向上させる。 実験の結果,本フレームワークは実際のナフサ化学特性を反映しながら,ナフサ組成を正確に予測できることがわかった。

The naphtha cracking process heavily relies on the composition of naphtha, which is a complex blend of different hydrocarbons. Predicting the naphtha composition accurately is crucial for efficiently controlling the cracking process and achieving maximum performance. Traditional methods, such as gas chromatography and true boiling curve, are not feasible due to the need for pilot-plant-scale experiments or cost constraints. In this paper, we propose a neural network framework that utilizes chemical property information to improve the performance of naphtha composition prediction. Our proposed framework comprises two parts: a Watson K factor estimation network and a naphtha composition prediction network. Both networks share a feature extraction network based on Convolutional Neural Network (CNN) architecture, while the output layers use Multi-Layer Perceptron (MLP) based networks to generate two different outputs - Watson K factor and naphtha composition. The naphtha composition is expressed in percentages, and its sum should be 100%. To enhance the naphtha composition prediction, we utilize a distillation simulator to obtain the distillation curve from the naphtha composition, which is dependent on its chemical properties. By designing a loss function between the estimated and simulated Watson K factors, we improve the performance of both Watson K estimation and naphtha composition prediction. The experimental results show that our proposed framework can predict the naphtha composition accurately while reflecting real naphtha chemical properties.
翻訳日:2023-06-05 15:53:45 公開日:2023-06-02
# ゼロショット対話状態追跡のためのChatGPT:解決策か機会か?

ChatGPT for Zero-shot Dialogue State Tracking: A Solution or an Opportunity? ( http://arxiv.org/abs/2306.01386v1 )

ライセンス: Link先を確認
Michael Heck, Nurul Lubis, Benjamin Ruppik, Renato Vukovic, Shutong Feng, Christian Geishauser, Hsien-Chin Lin, Carel van Niekerk, Milica Ga\v{s}i\'c(参考訳) 対話状態追跡(DST)に関する最近の研究は、新しいドメインやスキーマへの少数およびゼロショット転送を可能にする方法に焦点を当てている。 しかしながら、パフォーマンスの向上は、より大規模な言語モデルベースのアーキテクチャの積極的なデータ拡張と微調整に大きく依存する。 対照的に、多種多様なデータに基づいて訓練された汎用言語モデルは、タスク固有のトレーニングなしでどんなタスクでも解決するという約束を守る。 本研究は,ChatGPTがゼロショットDSTにおける最先端性能を達成することを示す。 我々の発見にもかかわらず、汎用モデルに固有の性質は、特殊システムを置き換える能力を制限すると論じている。 さらに、このようなモデルのコンテキスト内学習能力は、専用および動的対話状態トラッカーの開発を支援する強力なツールになりそうである。

Recent research on dialogue state tracking (DST) focuses on methods that allow few- and zero-shot transfer to new domains or schemas. However, performance gains heavily depend on aggressive data augmentation and fine-tuning of ever larger language model based architectures. In contrast, general purpose language models, trained on large amounts of diverse data, hold the promise of solving any kind of task without task-specific training. We present preliminary experimental results on the ChatGPT research preview, showing that ChatGPT achieves state-of-the-art performance in zero-shot DST. Despite our findings, we argue that properties inherent to general purpose models limit their ability to replace specialized systems. We further theorize that the in-context learning capabilities of such models will likely become powerful tools to support the development of dedicated and dynamic dialogue state trackers.
翻訳日:2023-06-05 15:53:19 公開日:2023-06-02
# 音声表現モデルのタスク非依存的構造化プルーニング

Task-Agnostic Structured Pruning of Speech Representation Models ( http://arxiv.org/abs/2306.01385v1 )

ライセンス: Link先を確認
Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan(参考訳) Wav2vec2, Hubert, WavLMなどの自己教師付き事前訓練モデルでは、多くの音声タスクを大幅に改善することが示されている。 しかし、その大きなメモリと強力な計算要求が産業応用を妨げている。 構造化プルーニングはハードウェアフレンドリーなモデル圧縮技術であるが、通常は精度が低下する。 本稿では,性能劣化を補償するための細粒度注意ヘッドプルーニング法を提案する。 さらに,L0正則化に直線スルー推定器を導入し,プルーンドモデルをさらに高速化する。 superbベンチマークの実験では、複数のタスクで密度の高いモデルと同等の性能を達成でき、平均でwav2vec 2.0ベースモデルよりも72%少ないパラメータと2倍速い推論速度を持つ。

Self-supervised pre-trained models such as Wav2vec2, Hubert, and WavLM have been shown to significantly improve many speech tasks. However, their large memory and strong computational requirements hinder their industrial applicability. Structured pruning is a hardware-friendly model compression technique but usually results in a larger loss of accuracy. In this paper, we propose a fine-grained attention head pruning method to compensate for the performance degradation. In addition, we also introduce the straight through estimator into the L0 regularization to further accelerate the pruned model. Experiments on the SUPERB benchmark show that our model can achieve comparable performance to the dense model in multiple tasks and outperforms the Wav2vec 2.0 base model on average, with 72% fewer parameters and 2 times faster inference speed.
翻訳日:2023-06-05 15:53:04 公開日:2023-06-02
# 連合学習における知識編集について : 展望,課題,今後の方向性

On Knowledge Editing in Federated Learning: Perspectives, Challenges, and Future Directions ( http://arxiv.org/abs/2306.01431v1 )

ライセンス: Link先を確認
Leijie Wu, Song Guo, Junxiao Wang, Zicong Hong, Jie Zhang, Jingren Zhou(参考訳) フェデレーション学習(fl)の注目が高まる中、タスクのシーケンスを学習する際にフレームワーク全体に確率的勾配降下(sgd)を適用すると「破滅的忘れ」と呼ばれる現象が発生することが容易に認識されるようになった。 その結果、FLの多くの研究は、知識を増強しながら忘れを軽減し、学習方法の向上に重点を置いている。 一方、忘れることは常に有害であるとは限らない。 特定の知識の排除を伴う「フェデレーションド・アンラーニング(Federated unlearning)」とも呼ばれる選択的なアムネシアは、プライバシー上の懸念に対処し、新たな知識を得るために「スペース」を追加することができる。 しかし、近年の進展を包含し、この問題を徹底的に検討する広範な調査が不足している。 本論文では,本書における知識編集(強化・削除)の課題について,最先端の研究を要約し,諸分野の視点を広げることを目的として,広範な調査を行う。 まず,flのライフサイクル全体を再評価することにより,federated editable learning(fel)と呼ばれる統合パラダイムを導入する。 第2に,既存手法の包括的概要を提供し,提案するパラダイムにおけるその立場を評価し,現在直面する課題を強調する。 最後に、今後の研究への潜在的な道を探り、未解決の問題を特定する。

As Federated Learning (FL) has gained increasing attention, it has become widely acknowledged that straightforwardly applying stochastic gradient descent (SGD) on the overall framework when learning over a sequence of tasks results in the phenomenon known as ``catastrophic forgetting''. Consequently, much FL research has centered on devising federated increasing learning methods to alleviate forgetting while augmenting knowledge. On the other hand, forgetting is not always detrimental. The selective amnesia, also known as federated unlearning, which entails the elimination of specific knowledge, can address privacy concerns and create additional ``space'' for acquiring new knowledge. However, there is a scarcity of extensive surveys that encompass recent advancements and provide a thorough examination of this issue. In this manuscript, we present an extensive survey on the topic of knowledge editing (augmentation/removal) in Federated Learning, with the goal of summarizing the state-of-the-art research and expanding the perspective for various domains. Initially, we introduce an integrated paradigm, referred to as Federated Editable Learning (FEL), by reevaluating the entire lifecycle of FL. Secondly, we provide a comprehensive overview of existing methods, evaluate their position within the proposed paradigm, and emphasize the current challenges they face. Lastly, we explore potential avenues for future research and identify unresolved issues.
翻訳日:2023-06-05 15:47:33 公開日:2023-06-02
# 深部平衡モデルの逆ロバスト性について

A Closer Look at the Adversarial Robustness of Deep Equilibrium Models ( http://arxiv.org/abs/2306.01429v1 )

ライセンス: Link先を確認
Zonghan Yang, Tianyu Pang, Yang Liu(参考訳) 深層平衡モデル(deqs)は従来の層重ねパラダイムを避け、単一の層の不動点を見つける。 DEQは、メモリ効率を特徴とする様々なアプリケーションで有望なパフォーマンスを達成した。 同時に、deqsの敵対的脆弱性が懸念を呼んでいる。 いくつかの研究はモノトンDQの堅牢性を証明することを提案する。 しかしながら、一般的なDECに対する経験的堅牢性の研究に限定的な努力が費やされている。 この目的のために、敵に訓練されたDECは、平衡状態に到達するためにより多くの前進ステップを必要とするか、あるいはその固定点構造に違反する。 さらに、deqの前方および後方のトラックはブラックボックスソルバによってミスアライメントされる。 これらの事実は、DECを評価または敵対的に訓練するために準備された攻撃を適用する際に、勾配難読化を引き起こす。 これを踏まえて,deqの中間勾配を推定し,攻撃パイプラインに統合する手法を開発した。 我々のアプローチは、完全なホワイトボックス評価を促進し、deqの効果的な敵防御につながる。 CIFAR-10の広範囲な実験は、類似サイズのディープネットワークと競合するDECの対角的堅牢性を検証する。

Deep equilibrium models (DEQs) refrain from the traditional layer-stacking paradigm and turn to find the fixed point of a single layer. DEQs have achieved promising performance on different applications with featured memory efficiency. At the same time, the adversarial vulnerability of DEQs raises concerns. Several works propose to certify robustness for monotone DEQs. However, limited efforts are devoted to studying empirical robustness for general DEQs. To this end, we observe that an adversarially trained DEQ requires more forward steps to arrive at the equilibrium state, or even violates its fixed-point structure. Besides, the forward and backward tracks of DEQs are misaligned due to the black-box solvers. These facts cause gradient obfuscation when applying the ready-made attacks to evaluate or adversarially train DEQs. Given this, we develop approaches to estimate the intermediate gradients of DEQs and integrate them into the attacking pipelines. Our approaches facilitate fully white-box evaluations and lead to effective adversarial defense for DEQs. Extensive experiments on CIFAR-10 validate the adversarial robustness of DEQs competitive with deep networks of similar sizes.
翻訳日:2023-06-05 15:47:08 公開日:2023-06-02
# ささやき機能を用いたディープフェイク検出の改善

Improved DeepFake Detection Using Whisper Features ( http://arxiv.org/abs/2306.01428v1 )

ライセンス: Link先を確認
Piotr Kawa, Marcin Plata, Micha{\l} Czuba, Piotr Szyma\'nski, Piotr Syga(参考訳) 近年の音声生成手法の普及により、オーディオのDeepFake(DF)による脅威はますます増大している。 対策として,様々な検出方法が提案されている。 多くの方法は、いわゆるフロントエンドに基づいており、生のオーディオを変換することで、オーディオサンプルの真正性を評価する上で重要な特徴を強調している。 我々の貢献は、DF検出フロントエンドとしての最先端のWhisper自動音声認識モデルの影響の調査を含む。 我々は、広く使われているASVspoof 2021 DFデータセットで3つの検出モデル(LCNN、SpecRNet、MesoNet)をトレーニングし、その後DF In-The-Wildデータセットで評価することで、Whisperと十分に確立されたフロントエンドの組み合わせを比較した。 そこで本研究では,whisper-based機能を利用することで,各モデルの検出精度が向上し,従来型データセットにおける最近の結果を21%削減した。

With a recent influx of voice generation methods, the threat introduced by audio DeepFake (DF) is ever-increasing. Several different detection methods have been presented as a countermeasure. Many methods are based on so-called front-ends, which, by transforming the raw audio, emphasize features crucial for assessing the genuineness of the audio sample. Our contribution contains investigating the influence of the state-of-the-art Whisper automatic speech recognition model as a DF detection front-end. We compare various combinations of Whisper and well-established front-ends by training 3 detection models (LCNN, SpecRNet, and MesoNet) on a widely used ASVspoof 2021 DF dataset and later evaluating them on the DF In-The-Wild dataset. We show that using Whisper-based features improves the detection for each model and outperforms recent results on the In-The-Wild dataset by reducing Equal Error Rate by 21%.
翻訳日:2023-06-05 15:46:51 公開日:2023-06-02
# 曲率感度モデルによる連続結果の部分的反事実同定

Partial Counterfactual Identification of Continuous Outcomes with a Curvature Sensitivity Model ( http://arxiv.org/abs/2306.01424v1 )

ライセンス: Link先を確認
Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel(参考訳) 反事実推論はレトロスペクティブの'what if'の質問に答えることを目的としており、パールの因果関係のはしごで最もきめ細かい推論のタイプに属する。 連続的な結果に対する反実的推論の既存の方法は、点同定を目標とし、基礎となる構造因果モデルについて強く不自然な仮定を行う。 本稿では,これらの仮定を緩和し,反事実クエリが有意な境界を持つ無知区間に存在する場合,連続的な結果の部分的反事実識別を目指す。 我々は,構造的因果モデルの関数が連続的に微分可能である場合,反事実的問合せの無知区間が非帰納的境界を持つことを一般に証明する。 治療として, 曲率感度モデルという新しい感度モデルを提案する。 これにより、関数のレベル集合の曲率を有界にすることで、情報的境界を得ることができる。 さらに, 曲率の限界がゼロに設定された場合, 既存の点反事実同定手法が曲率感度モデルの特別な場合であることを示す。 そこで我々は,Augmented Pseudo-Invertible Decoderと呼ばれる新しい深層生成モデルの形で,曲率感性モデルの実装を提案する。 我々の実施は (i)残差正規化流 (ii)変分増補。 拡張擬似可逆デコーダの有効性を実証的に示す。 我々の知る限りでは、マルコフ構造因果モデルに連続的な結果を持つ最初の部分的同定モデルである。

Counterfactual inference aims to answer retrospective ''what if'' questions and thus belongs to the most fine-grained type of inference in Pearl's causality ladder. Existing methods for counterfactual inference with continuous outcomes aim at point identification and thus make strong and unnatural assumptions about the underlying structural causal model. In this paper, we relax these assumptions and aim at partial counterfactual identification of continuous outcomes, i.e., when the counterfactual query resides in an ignorance interval with informative bounds. We prove that, in general, the ignorance interval of the counterfactual queries has non-informative bounds, already when functions of structural causal models are continuously differentiable. As a remedy, we propose a novel sensitivity model called Curvature Sensitivity Model. This allows us to obtain informative bounds by bounding the curvature of level sets of the functions. We further show that existing point counterfactual identification methods are special cases of our Curvature Sensitivity Model when the bound of the curvature is set to zero. We then propose an implementation of our Curvature Sensitivity Model in the form of a novel deep generative model, which we call Augmented Pseudo-Invertible Decoder. Our implementation employs (i) residual normalizing flows with (ii) variational augmentations. We empirically demonstrate the effectiveness of our Augmented Pseudo-Invertible Decoder. To the best of our knowledge, ours is the first partial identification model for Markovian structural causal models with continuous outcomes.
翻訳日:2023-06-05 15:46:19 公開日:2023-06-02
# 高速適応モーメント推定のための三成分移動平均の活用

Leveraging the Triple Exponential Moving Average for Fast-Adaptive Moment Estimation ( http://arxiv.org/abs/2306.01423v1 )

ライセンス: Link先を確認
Roi Peleg, Roi Weiss, Assaf Hoogi(参考訳) ネットワーク最適化は深層学習において重要なステップであり、コンピュータビジョンなどの様々な領域におけるモデルの性能に直接影響を与える。 長年にわたって開発されてきた多くのオプティマイザにもかかわらず、現在の手法は勾配の傾向を正確かつ迅速に識別する能力に制限されているため、ネットワークの準最適性能につながる可能性がある。 本稿では,三重指数移動平均 (tema) を用いて勾配モーメントを初めて推定する,fast-adaptive moment estimation (fame) と呼ばれる新しいディープオプティマイザを提案する。 TEMAを最適化プロセスに組み込むことで、現在のすべての適応最適化手法で使用される標準の指数移動平均よりも、データの変化やトレンドに関するよりリッチで正確な情報が得られる。 CIFAR-10, CIFAR-100, PASCAL-VOC, MS-COCO, Cityscapes など,14の異なる学習アーキテクチャ, 6つのオプティマイザ, 検出, 分類, 意味理解を含む様々な視覚タスクを用いて, 提案したFAMEオプティマイザを広範囲に検証した。 その結果,我々の名声オプティマイザは他の主要なオプティマイザよりもロバスト性と正確性の両方において優れていることがわかった。

Network optimization is a crucial step in the field of deep learning, as it directly affects the performance of models in various domains such as computer vision. Despite the numerous optimizers that have been developed over the years, the current methods are still limited in their ability to accurately and quickly identify gradient trends, which can lead to sub-optimal network performance. In this paper, we propose a novel deep optimizer called Fast-Adaptive Moment Estimation (FAME), which for the first time estimates gradient moments using a Triple Exponential Moving Average (TEMA). Incorporating TEMA into the optimization process provides richer and more accurate information on data changes and trends, as compared to the standard Exponential Moving Average used in essentially all current leading adaptive optimization methods. Our proposed FAME optimizer has been extensively validated through a wide range of benchmarks, including CIFAR-10, CIFAR-100, PASCAL-VOC, MS-COCO, and Cityscapes, using 14 different learning architectures, six optimizers, and various vision tasks, including detection, classification and semantic understanding. The results demonstrate that our FAME optimizer outperforms other leading optimizers in terms of both robustness and accuracy.
翻訳日:2023-06-05 15:45:57 公開日:2023-06-02
# 逆問題に対する平衡法の収束解析

Convergence analysis of equilibrium methods for inverse problems ( http://arxiv.org/abs/2306.01421v1 )

ライセンス: Link先を確認
Daniel Obmann and Markus Haltmeier(参考訳) 近年,画像解析などの逆問題に対する新しいアプローチとして,深層平衡法の利用が注目されている。 学習されたコンポーネントは、実際これらの方法の優れた性能の鍵となる可能性があるが、正規化の観点からの理論的正当化はまだ不足している。 本稿では,平衡クラスの安定性と収束結果を提供することにより,この問題に対処する。 さらに,対称ブレグマン距離における収束率と安定性推定値を導出する。 我々は,契約残差を持つ正規化演算子に対する結果を強化する。 さらに,提案分析を用いて,正規化解の性能を低く抑えることを含め,これらの手法の実用的挙動について考察する。 さらに, 収束解析により, 従来よりもいくつかのアドバンテージを有する新しい損失関数の設計が可能となることを示した。 数値シミュレーションは我々の発見を支えるために使われる。

Recently, the use of deep equilibrium methods has emerged as a new approach for solving imaging and other ill-posed inverse problems. While learned components may be a key factor in the good performance of these methods in practice, a theoretical justification from a regularization point of view is still lacking. In this paper, we address this issue by providing stability and convergence results for the class of equilibrium methods. In addition, we derive convergence rates and stability estimates in the symmetric Bregman distance. We strengthen our results for regularization operators with contractive residuals. Furthermore, we use the presented analysis to gain insight into the practical behavior of these methods, including a lower bound on the performance of the regularized solutions. In addition, we show that the convergence analysis leads to the design of a new type of loss function which has several advantages over previous ones. Numerical simulations are used to support our findings.
翻訳日:2023-06-05 15:45:30 公開日:2023-06-02
# 強化学習を産業環境に展開するためのアーキテクチャ

An Architecture for Deploying Reinforcement Learning in Industrial Environments ( http://arxiv.org/abs/2306.01420v1 )

ライセンス: Link先を確認
Georg Sch\"afer, Reuf Kozlica, Stefan Wegenkittl, Stefan Huber(参考訳) industry 4.0は、市場投入時間の短縮、製品の大量カスタマイズ、バッチサイズ1の生産といった要求によって駆動される。 強化学習(Reinforcement Learning, RL)は、多数の複雑なタスクにおいて、人間レベルのパフォーマンスを改善し、達成する大きな可能性を持つ機械学習パラダイムである。 本稿では,OPC UAをベースとしたオペレーショナル・テクノロジー(OT)対応のRLアーキテクチャを提案する。 さらに、使用するRLエージェントを交換するための汎用的なプラグイン・アンド・プレイのようなアプローチを実現するためのOPC UA情報モデルを定義する。 結論として,概念実証を作成することにより,アーキテクチャを実証し,評価する。 おもちゃの例を解くことによって,本アーキテクチャが実際の制御システムを用いて最適方針を決定することができることを示す。

Industry 4.0 is driven by demands like shorter time-to-market, mass customization of products, and batch size one production. Reinforcement Learning (RL), a machine learning paradigm shown to possess a great potential in improving and surpassing human level performance in numerous complex tasks, allows coping with the mentioned demands. In this paper, we present an OPC UA based Operational Technology (OT)-aware RL architecture, which extends the standard RL setting, combining it with the setting of digital twins. Moreover, we define an OPC UA information model allowing for a generalized plug-and-play like approach for exchanging the RL agent used. In conclusion, we demonstrate and evaluate the architecture, by creating a proof of concept. By means of solving a toy example, we show that this architecture can be used to determine the optimal policy using a real control system.
翻訳日:2023-06-05 15:45:17 公開日:2023-06-02
# 公平な機械学習の基礎の欠陥

The Flawed Foundations of Fair Machine Learning ( http://arxiv.org/abs/2306.01417v1 )

ライセンス: Link先を確認
Robert Lee Poe and Soumia Zohra El Mestari(参考訳) 自動決定における公正の定義と実装は、研究コミュニティによって広く研究されている。 しかし、現在の公正な機械学習パラダイムの基礎には、誤った推論、誤解を招く主張、疑わしいプラクティスが隠されている。 これらの欠陥は、統計的に正確な結果と類似した結果の間のトレードオフが、一般的に議論された主観的表現としてではなく、独立した外部制約として存在することを理解できない結果である。 まず、公正な機械学習文献にはフェアネスの概念が1つだけ存在すると説明する: 類似性が劣悪なグループに利益をもたらすセンシティブな属性に基づく結果の群類似性。 第2に,統計的に正確な結果と,グループ格差が存在する任意のデータセットにおける類似結果とのトレードオフが存在すること,公平で公平な機械学習アプローチに対して,そのトレードオフが存在の脅威であることを示す。 第3に、統計的に正確な結果とグループ類似の結果の関係を理解するために、研究者やデザイナーに概念実証評価を導入する。 最後に、本論文で述べられている概念的および実験的枠組みを利用したデータ科学者、法学者、データ倫理学者を対象とした今後の研究の提案について述べる。

The definition and implementation of fairness in automated decisions has been extensively studied by the research community. Yet, there hides fallacious reasoning, misleading assertions, and questionable practices at the foundations of the current fair machine learning paradigm. Those flaws are the result of a failure to understand that the trade-off between statistically accurate outcomes and group similar outcomes exists as independent, external constraint rather than as a subjective manifestation as has been commonly argued. First, we explain that there is only one conception of fairness present in the fair machine learning literature: group similarity of outcomes based on a sensitive attribute where the similarity benefits an underprivileged group. Second, we show that there is, in fact, a trade-off between statistically accurate outcomes and group similar outcomes in any data setting where group disparities exist, and that the trade-off presents an existential threat to the equitable, fair machine learning approach. Third, we introduce a proof-of-concept evaluation to aid researchers and designers in understanding the relationship between statistically accurate outcomes and group similar outcomes. Finally, suggestions for future work aimed at data scientists, legal scholars, and data ethicists that utilize the conceptual and experimental framework described throughout this article are provided.
翻訳日:2023-06-05 15:45:02 公開日:2023-06-02
# 話者非依存3次元対話ヘッド生成のための音声からのランドマークの学習

Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking Heads Generation ( http://arxiv.org/abs/2306.01415v1 )

ライセンス: Link先を確認
Federico Nocentini, Claudio Ferrari, Stefano Berretti(参考訳) 本稿では,生音声入力から3次元音声頭を生成する新しい手法を提案する。 本手法は,顔の可動部に位置するいくつかの制御点,すなわちランドマークの運動によって,音声関連運動を包括的かつ効率的に記述できるという考えに基づく。 基礎となる筋骨格構造は、その動きが顔全体の幾何学的変形にどのように影響するかを学べる。 提案手法はこの目的のために2つの異なるモデルを用いており、最初の1つは与えられたオーディオからスパースなランドマークの動作を生成することを学ぶ。 第2のモデルは、そのようなランドマークの動きを密度の高い運動場に拡張し、与えられた3Dメッシュを中立状態にアニメーションするために使用される。 さらに,生成した運動ベクトルと基底真理関数との角度を最小化する新しい損失関数Cosine Lossを導入する。 3D音声ヘッド生成におけるランドマークの使用は、一貫性、信頼性、手動アノテーションの必要性の回避など、さまざまなメリットを提供する。 当社のアプローチは、アイデンティティ非依存で、追加のデータやトレーニングなしで、任意のユーザに対して高品質な顔アニメーションを可能にするように設計されている。

This paper presents a novel approach for generating 3D talking heads from raw audio inputs. Our method grounds on the idea that speech related movements can be comprehensively and efficiently described by the motion of a few control points located on the movable parts of the face, i.e., landmarks. The underlying musculoskeletal structure then allows us to learn how their motion influences the geometrical deformations of the whole face. The proposed method employs two distinct models to this aim: the first one learns to generate the motion of a sparse set of landmarks from the given audio. The second model expands such landmarks motion to a dense motion field, which is utilized to animate a given 3D mesh in neutral state. Additionally, we introduce a novel loss function, named Cosine Loss, which minimizes the angle between the generated motion vectors and the ground truth ones. Using landmarks in 3D talking head generation offers various advantages such as consistency, reliability, and obviating the need for manual-annotation. Our approach is designed to be identity-agnostic, enabling high-quality facial animations for any users without additional data or training.
翻訳日:2023-06-05 15:44:46 公開日:2023-06-02
# リピータ付き1次元ネットワークにおける絡み合いとテレポーテーション

Entanglement and Teleportation in a 1-D Network with Repeaters ( http://arxiv.org/abs/2306.01406v1 )

ライセンス: Link先を確認
Ganesh Mylavarapu, Indranil Chakrabarty, Kaushiki Mukherjee, Minyi Huang, Junde Wu(参考訳) 最も単純な量子ネットワークは1次元の量子ネットワークであり、各ノードに1人のプレイヤーが存在する。 リモートの絡み合い分布では、各プレイヤーが中間ノードで測定を行い、遠隔で分離された初期ノードと最終ノードの間の絡み合い状態を生成する。 情報源と対象ノード間のネットワークにおける情報の流れと絡み合いのパーコレーションが重要な研究領域であることを示すことが不可欠である。 これにより、リソース状態の限界と、リモートの絡み合い分布のプロセスで実施される測定を理解するのに役立ちます。 本稿では, 最終絡み合い状態のコンカレンスが, 1-D鎖に存在する初期絡み合い状態のコンカレンスとどのように関連しているかを検討する。 我々は、ヴェルナー状態、ベル対角状態、一般混合状態のような混合絡み合った状態に対して純粋な絡み合った状態に対してなされた作業を拡張する。 測定が完璧に行われている状況に限定されませんでした。 また,不完全交換を考慮した場合,これらの関係がどう変化するかを検討する。 本研究では,スワップ数と成功確率の測定値の限界を求め,スワップ後の状態が絡み合うことを保証する。 これらに加えて、測定が完全で同じ例の集合で不完全である場合、初期ノードから最終ノード(テレポーテーションの忠実度を計算して)への量子情報の送信量についても検討する。 また、得られた最終状態が情報を転送可能であることを保証するため、スワップ数と測定成功確率の制限も取得する。 これらの結果は、2つの量子プロセッサ間でリモートの絡み合った分布で量子情報を送信するという、非常に将来的な応用をもたらす。

The most simplest form of quantum network is an one dimensional quantum network with a single player in each node. In remote entanglement distribution each of the players carry out measurement at the intermediate nodes to produce an entangled state between initial and final node which are remotely separated. It is imperative to say that the flow of information as well as the percolation of entanglement in a network between the source and target node is an important area of study. This will help us to understand the limits of the resource states as well as the measurements that are carried out in the process of remote entanglement distribution. In this article we investigate how the concurrence of the final entangled state obtained is connected with the concurrences of the initial entangled states present in a 1-D chain. We extend the works done for the pure entangled states for mixed entangled states like Werner states, Bell diagonal states and for general mixed states. We did not limit ourselves to a situation where the measurements are happening perfectly. We also investigate how these relations change when we consider imperfect swapping. We obtain the limits on the number of swappings as well as the success probability measurements to ensure the final state to be entangled state after swapping. In addition to these we also investigate on how much quantum information can be sent from the initial node to the final node (by computing the teleportation fidelity) when the measurement is perfect and imperfect with the same set of examples. Here also we obtain the limits on the number of swapping and the success probability of measurement to ensure that the final state obtained is capable of transferring the information . These results have tremendous future applications in sending quantum information between two quantum processors in remote entangled distribution.
翻訳日:2023-06-05 15:44:27 公開日:2023-06-02
# 感情トリガーの教師なし抽出要約

Unsupervised Extractive Summarization of Emotion Triggers ( http://arxiv.org/abs/2306.01444v1 )

ライセンス: Link先を確認
Tiberiu Sosea, Hongli Zhan, Junyi Jessy Li, and Cornelia Caragea(参考訳) 大規模危機時の感情に何をもたらすかを理解することは、表現された感情の基盤を提供し、続いて進行中の災害の理解を改善するために重要である。 最近のアプローチでは、感情の検出と、抽象的な要約を通じて感情トリガ(イベントと評価)を説明するために教師付きモデルが訓練されている。 しかし、時間と質的な抽象的な要約を得ることは高価であり、非常に時間がかかるため、高度に訓練された専門家アノテータが必要である。 時間に敏感で高スループットなコンテキストでは、必要な応答をブロックできる。 代わりに、テキストからトリガーを抽出する教師なしのシステムを追求する。 まず,CvidET-EXT,Augmenting (Zhan et al. 2022)の抽象的データセット(COVID-19危機の文脈で)を抽出的トリガーで導入する。 第2に,感情を共同で検出し,トリガを要約する,教師なし学習モデルを開発した。 Emotion-Aware Pagerankと題された私たちのベストアプローチは、外部ソースからの感情情報を言語理解モジュールと組み合わせることで、強力なベースラインを上回ります。 データとコードはhttps://github.com/tsosea2/CovidET-EXTで公開しています。

Understanding what leads to emotions during large-scale crises is important as it can provide groundings for expressed emotions and subsequently improve the understanding of ongoing disasters. Recent approaches trained supervised models to both detect emotions and explain emotion triggers (events and appraisals) via abstractive summarization. However, obtaining timely and qualitative abstractive summaries is expensive and extremely time-consuming, requiring highly-trained expert annotators. In time-sensitive, high-stake contexts, this can block necessary responses. We instead pursue unsupervised systems that extract triggers from text. First, we introduce CovidET-EXT, augmenting (Zhan et al. 2022)'s abstractive dataset (in the context of the COVID-19 crisis) with extractive triggers. Second, we develop new unsupervised learning models that can jointly detect emotions and summarize their triggers. Our best approach, entitled Emotion-Aware Pagerank, incorporates emotion information from external sources combined with a language understanding module, and outperforms strong baselines. We release our data and code at https://github.com/tsosea2/CovidET-EXT.
翻訳日:2023-06-05 15:36:51 公開日:2023-06-02
# 多語表現の教師なしパラフレージング

Unsupervised Paraphrasing of Multiword Expressions ( http://arxiv.org/abs/2306.01443v1 )

ライセンス: Link先を確認
Takashi Wada, Yuji Matsumoto, Timothy Baldwin, Jey Han Lau(参考訳) そこで本稿では,MWEを文脈で表現するための教師なしアプローチを提案する。 我々のモデルは単言語コーパスデータと事前訓練された言語モデルのみを使用し(微調整なしで)、辞書などの外部リソースは利用しない。 提案手法は2022年度の慣用的意味テキスト類似性課題において評価し,非教師なしシステムや競合システムよりも優れていることを示す。

We propose an unsupervised approach to paraphrasing multiword expressions (MWEs) in context. Our model employs only monolingual corpus data and pre-trained language models (without fine-tuning), and does not make use of any external resources such as dictionaries. We evaluate our method on the SemEval 2022 idiomatic semantic text similarity task, and show that it outperforms all unsupervised systems and rivals supervised systems.
翻訳日:2023-06-05 15:36:20 公開日:2023-06-02
# 残留マルチモダリティモデリングによるロバストなfastspeech 2に向けて

Towards Robust FastSpeech 2 by Modelling Residual Multimodality ( http://arxiv.org/abs/2306.01442v1 )

ライセンス: Link先を確認
Fabian K\"ogel, Bac Nguyen, Fabien Cardinaux(参考訳) FastSpeech 2に基づく最新の非自己回帰テキスト音声(TTS)モデルは、高忠実度と自然な音声を効率的に合成することができる。 しかし,表現型音声データセットでは,特徴的音声歪みが観察される。 平均二乗誤差(MSE)損失の選択によって誘導される過平滑なメル・スペクトログラム予測により,このようなアーチファクトがボコーダ再構成に導入されることを実証する。 mseロス・ファストスペッチ2は、トレーニング分布の条件平均を学習するために制限されており、全ての条件信号の後に分布がマルチモーダルに見える場合、自然サンプルに近くない可能性がある。 この問題を軽減するために, 3変数-連鎖ガウス分布の混合モデルであるTVC-GMMを導入し, 残留多モード性をモデル化する。 TVC-GMMは、客観的および主観的評価の両方で示されるように、特に表現的データセットにおけるスペクトルの滑らかさを低減し、知覚音質を向上させる。

State-of-the-art non-autoregressive text-to-speech (TTS) models based on FastSpeech 2 can efficiently synthesise high-fidelity and natural speech. For expressive speech datasets however, we observe characteristic audio distortions. We demonstrate that such artefacts are introduced to the vocoder reconstruction by over-smooth mel-spectrogram predictions, which are induced by the choice of mean-squared-error (MSE) loss for training the mel-spectrogram decoder. With MSE loss FastSpeech 2 is limited to learn conditional averages of the training distribution, which might not lie close to a natural sample if the distribution still appears multimodal after all conditioning signals. To alleviate this problem, we introduce TVC-GMM, a mixture model of Trivariate-Chain Gaussian distributions, to model the residual multimodality. TVC-GMM reduces spectrogram smoothness and improves perceptual audio quality in particular for expressive datasets as shown by both objective and subjective evaluation.
翻訳日:2023-06-05 15:35:59 公開日:2023-06-02
# 産業応用における強化学習のためのモジュラーテストベッド

A Modular Test Bed for Reinforcement Learning Incorporation into Industrial Applications ( http://arxiv.org/abs/2306.01440v1 )

ライセンス: Link先を確認
Reuf Kozlica, Georg Sch\"afer, Simon Hirl\"ander, Stefan Wegenkittl(参考訳) 本稿では,市場投入期間の短縮,大量カスタマイズ,バッチサイズ1生産など,産業4.0の需要に対応するために強化学習(RL)を利用する可能性について検討する。 具体的には、あらかじめ定義されたルールに従って、モデルファクトリを通じて商品を輸送・組み立てする作業を行う。 各シミュレーションは、特定の数の無作為な色の商品をエントリポイントに配置する。 目的は、各製品に2つのリベットを設置し、上部と下部を接続する組立所へ商品を輸送することである。 リベットの設置後、青い製品は出口に運ばれ、緑色の製品は倉庫に運ばれなければならない。 本研究は, この課題に対処し, 生産プロセスの効率化を図るため, 強化学習技術の応用に焦点を当てた。

This application paper explores the potential of using reinforcement learning (RL) to address the demands of Industry 4.0, including shorter time-to-market, mass customization, and batch size one production. Specifically, we present a use case in which the task is to transport and assemble goods through a model factory following predefined rules. Each simulation run involves placing a specific number of goods of random color at the entry point. The objective is to transport the goods to the assembly station, where two rivets are installed in each product, connecting the upper part to the lower part. Following the installation of rivets, blue products must be transported to the exit, while green products are to be transported to storage. The study focuses on the application of reinforcement learning techniques to address this problem and improve the efficiency of the production process.
翻訳日:2023-06-05 15:35:29 公開日:2023-06-02
# 神経誘導的シンボリック抽象化による解釈可能かつ説明可能な論理ポリシー

Interpretable and Explainable Logical Policies via Neurally Guided Symbolic Abstraction ( http://arxiv.org/abs/2306.01439v1 )

ライセンス: Link先を確認
Quentin Delfosse, Hikaru Shindo, Devendra Dhami, Kristian Kersting(参考訳) ニューラルネットワークが必要とする制限された事前条件は、強化学習(RL)を使用してポリシーをエンコードし、学習する支配的な選択となる。 しかし、それらはブラックボックスであり、特に画像レベルで作業する場合、エージェントの振る舞いを理解するのが難しくなる。 したがって、ニューロシンボリックRLは、そもそも解釈可能なポリシーを作成することを目的としている。 残念ながら、解釈は説明できない。 両者を両立させるため,Nurally gUided Differentiable loGic policiEs (NUDGE)を導入する。 NUDGEは、トレーニングされたニューラルネットワークベースのエージェントを使用して、候補重み付けされたロジックルールの探索をガイドし、差別化可能なロジックを使用してロジックエージェントをトレーニングする。 実験により, NUDGEエージェントは, 純粋に神経性に優れ, 初期状態や問題の大きさの異なる環境に対して良好な柔軟性を示しながら, 解釈可能かつ説明可能なポリシーを誘導できることを示した。

The limited priors required by neural networks make them the dominating choice to encode and learn policies using reinforcement learning (RL). However, they are also black-boxes, making it hard to understand the agent's behaviour, especially when working on the image level. Therefore, neuro-symbolic RL aims at creating policies that are interpretable in the first place. Unfortunately, interpretability is not explainability. To achieve both, we introduce Neurally gUided Differentiable loGic policiEs (NUDGE). NUDGE exploits trained neural network-based agents to guide the search of candidate-weighted logic rules, then uses differentiable logic to train the logic agents. Our experimental evaluation demonstrates that NUDGE agents can induce interpretable and explainable policies while outperforming purely neural ones and showing good flexibility to environments of different initial states and problem sizes.
翻訳日:2023-06-05 15:35:12 公開日:2023-06-02
# Bi-LRフュージョン:3次元動的物体検出のための双方向LiDAR-レーダー融合

Bi-LRFusion: Bi-Directional LiDAR-Radar Fusion for 3D Dynamic Object Detection ( http://arxiv.org/abs/2306.01438v1 )

ライセンス: Link先を確認
Yingjie Wang, Jiajun Deng, Yao Li, Jinshui Hu, Cong Liu, Yu Zhang, Jianmin Ji, Wanli Ouyang, Yanyong Zhang(参考訳) LiDARとRadarは、LiDARが物体の3D形状を捉え、Radarはより長い検出範囲と速度ヒントを提供するという2つの補完的なセンシング手法である。 一見自然に見えるが、機能表現の改善のために効率的に組み合わせる方法はまだ不明だ。 主な課題は、レーダーデータが非常に乏しく、高さ情報がないことだ。 したがって、Radar機能をLiDAR中心の検知ネットワークに直接統合することは最適ではない。 本研究では,Bi-LRFusionと呼ばれる双方向LiDAR-Radar融合フレームワークを導入し,その課題に対処し,動的オブジェクトの3次元検出を改善する。 技術的には、Bi-LRFusionは2つのステップを含む: 第一に、高度情報や極端に疎外性の欠如に起因する問題を緩和するために、LiDARブランチから重要な詳細を学習することで、Radarの局所的な特徴を豊かにする。 我々はnuScenesとORRデータセットに関する広範な実験を行い、我々のBi-LRFusionが動的オブジェクトを検出するための最先端のパフォーマンスを達成することを示す。 特に、この2つのデータセットのレーダーデータは異なるフォーマットを持ち、この方法の一般化性を示している。 コードはhttps://github.com/jessiew0806/bilrfusionで入手できる。

LiDAR and Radar are two complementary sensing approaches in that LiDAR specializes in capturing an object's 3D shape while Radar provides longer detection ranges as well as velocity hints. Though seemingly natural, how to efficiently combine them for improved feature representation is still unclear. The main challenge arises from that Radar data are extremely sparse and lack height information. Therefore, directly integrating Radar features into LiDAR-centric detection networks is not optimal. In this work, we introduce a bi-directional LiDAR-Radar fusion framework, termed Bi-LRFusion, to tackle the challenges and improve 3D detection for dynamic objects. Technically, Bi-LRFusion involves two steps: first, it enriches Radar's local features by learning important details from the LiDAR branch to alleviate the problems caused by the absence of height information and extreme sparsity; second, it combines LiDAR features with the enhanced Radar features in a unified bird's-eye-view representation. We conduct extensive experiments on nuScenes and ORR datasets, and show that our Bi-LRFusion achieves state-of-the-art performance for detecting dynamic objects. Notably, Radar data in these two datasets have different formats, which demonstrates the generalizability of our method. Codes are available at https://github.com/JessieW0806/BiLRFusion.
翻訳日:2023-06-05 15:34:56 公開日:2023-06-02
# 多目的人口ベーストレーニング

Multi-Objective Population Based Training ( http://arxiv.org/abs/2306.01436v1 )

ライセンス: Link先を確認
Arkadiy Dushatskiy, Alexander Chebykin, Tanja Alderliesten, Peter A.N. Bosman(参考訳) Population Based Training (PBT) は効率的なハイパーパラメータ最適化アルゴリズムである。 PBTは単目的アルゴリズムであるが、現実のハイパーパラメータ最適化問題の多くは、2つ以上の矛盾する目的を含む。 そこで本研究ではPBTの多目的版であるMO-PBTを導入する。 多様な多目的ハイパーパラメータ最適化問題(精度/リコール,精度/フェールネス,精度/逆ロバストネス)に関する実験により,MO-PBTがランダム探索,単目的PST,最先端多目的ハイパーパラメータ最適化アルゴリズムMO-ASHAより優れていることが示された。

Population Based Training (PBT) is an efficient hyperparameter optimization algorithm. PBT is a single-objective algorithm, but many real-world hyperparameter optimization problems involve two or more conflicting objectives. In this work, we therefore introduce a multi-objective version of PBT, MO-PBT. Our experiments on diverse multi-objective hyperparameter optimization problems (Precision/Recall, Accuracy/Fairness, Accuracy/Adversarial Robustness) show that MO-PBT outperforms random search, single-objective PBT, and the state-of-the-art multi-objective hyperparameter optimization algorithm MO-ASHA.
翻訳日:2023-06-05 15:34:29 公開日:2023-06-02
# 神経動力学による明示的な制御によるdeqの逆ロバスト性の改善

Improving Adversarial Robustness of DEQs with Explicit Regulations Along the Neural Dynamics ( http://arxiv.org/abs/2306.01435v1 )

ライセンス: Link先を確認
Zonghan Yang, Peng Li, Tianyu Pang, Yang Liu(参考訳) ディープ平衡(deq)モデルは、従来のディープネットワークの多層積み重ねを単一層変換の固定点反復に置き換える。 さまざまな現実のシナリオで競争力があることが実証されて以来、一般的なdeqsの敵対的堅牢性は、信頼性の高いデプロイメントにおいてますます重要になっている。 既存の研究は、広く使用されているadversarial training (at)フレームワークで一般的なdeqモデルの堅牢性を改善するが、deqモデルの構造的特異性を活用できない。 この目的のために、神経動力学のレンズを通してdeqsを解釈し、中間状態を過小に調整することを見つける。 さらに、中間状態は通常、高い予測エントロピーを持つ予測を提供する。 力学系のエントロピーとその安定性の相関関係から,神経力学に沿って入力を漸進的に更新することで予測エントロピーの低減を提案する。 AT中は、ランダムな中間状態を利用して損失関数を計算する。 この方法でdeqモデルの神経動力学を制御している。 広範な実験により,deqモデルのロバスト性が大幅に向上し,強力なディープネットワークベースラインを上回った。

Deep equilibrium (DEQ) models replace the multiple-layer stacking of conventional deep networks with a fixed-point iteration of a single-layer transformation. Having been demonstrated to be competitive in a variety of real-world scenarios, the adversarial robustness of general DEQs becomes increasingly crucial for their reliable deployment. Existing works improve the robustness of general DEQ models with the widely-used adversarial training (AT) framework, but they fail to exploit the structural uniquenesses of DEQ models. To this end, we interpret DEQs through the lens of neural dynamics and find that AT under-regulates intermediate states. Besides, the intermediate states typically provide predictions with a high prediction entropy. Informed by the correlation between the entropy of dynamical systems and their stability properties, we propose reducing prediction entropy by progressively updating inputs along the neural dynamics. During AT, we also utilize random intermediate states to compute the loss function. Our methods regulate the neural dynamics of DEQ models in this manner. Extensive experiments demonstrate that our methods substantially increase the robustness of DEQ models and even outperform the strong deep network baselines.
翻訳日:2023-06-05 15:34:17 公開日:2023-06-02
# ゼロショットブラインドオーディオ帯域幅拡張

Zero-Shot Blind Audio Bandwidth Extension ( http://arxiv.org/abs/2306.01433v1 )

ライセンス: Link先を確認
Eloi Moliner, Filip Elvander, Vesa V\"alim\"aki(参考訳) 帯域幅拡張は、帯域制限観測による高周波スペクトルの現実的な再構成を含む。 過去の音声記録の復元など、低域劣化が不明な場合には、盲点となる。 本稿では,事前学習された無条件拡散モデルの生成前処理を活用し,ゼロショット設定におけるブラインド問題に対処するbabe(blind audio bandwidth extension)という新しい手法を提案する。 推論過程において、BABEは拡散後サンプリングの一般化版を使用し、分解演算子は未知だがパラメータ化され、反復的に推論される。 提案手法の性能は客観的および主観的指標を用いて評価され,babeは最先端ブラインド帯域拡張ベースラインを上回っており,合成データを用いてテストした場合の非blindフィルタインフォーム法と比較して競合性能が向上した。 また,本記録との一貫性を維持しつつ,失われた高周波コンテンツを効果的に再構築し,実記録を充実させる際に,babeは頑健な一般化能力を示す。 主観的嗜好テストは,BABEが歴史的録音の音質を著しく向上させることを確認した。 提案手法で復元された過去の記録の例は、同伴のWebページで見ることができる。

Audio bandwidth extension involves the realistic reconstruction of high-frequency spectra from bandlimited observations. In cases where the lowpass degradation is unknown, such as in restoring historical audio recordings, this becomes a blind problem. This paper introduces a novel method called BABE (Blind Audio Bandwidth Extension) that addresses the blind problem in a zero-shot setting, leveraging the generative priors of a pre-trained unconditional diffusion model. During the inference process, BABE utilizes a generalized version of diffusion posterior sampling, where the degradation operator is unknown but parametrized and inferred iteratively. The performance of the proposed method is evaluated using objective and subjective metrics, and the results show that BABE surpasses state-of-the-art blind bandwidth extension baselines and achieves competitive performance compared to non-blind filter-informed methods when tested with synthetic data. Moreover, BABE exhibits robust generalization capabilities when enhancing real historical recordings, effectively reconstructing the missing high-frequency content while maintaining coherence with the original recording. Subjective preference tests confirm that BABE significantly improves the audio quality of historical music recordings. Examples of historical recordings restored with the proposed method are available on the companion webpage: (http://research.spa.aalto.fi/publications/papers/ieee-taslp-babe/)
翻訳日:2023-06-05 15:33:58 公開日:2023-06-02
# スコアベース生成モデルによる音声音声強調

Audio-Visual Speech Enhancement with Score-Based Generative Models ( http://arxiv.org/abs/2306.01432v1 )

ライセンス: Link先を確認
Julius Richter, Simone Frintrop, Timo Gerkmann(参考訳) 本稿では,視覚情報に基づく拡散モデル(拡散モデル)と呼ばれるスコアベース生成モデルを活用する音声視覚音声強調システムを提案する。 特に,リップリードを微調整した自己教師あり学習モデルから得られる視聴覚埋め込みを活用した。 トランスベースのエンコーダの層別特徴を集約し、タイムアライメントし、ノイズ条件スコアネットワークに組み込む。 実験により,提案する音声-視覚音声強調システムにより,音声品質が向上し,音韻混乱などの生成的アーチファクトの低減が期待できることがわかった。 後者は、特に低入力信号対雑音比において顕著に減少する下流自動音声認識モデルの単語誤り率によって支持される。

This paper introduces an audio-visual speech enhancement system that leverages score-based generative models, also known as diffusion models, conditioned on visual information. In particular, we exploit audio-visual embeddings obtained from a self-super\-vised learning model that has been fine-tuned on lipreading. The layer-wise features of its transformer-based encoder are aggregated, time-aligned, and incorporated into the noise conditional score network. Experimental evaluations show that the proposed audio-visual speech enhancement system yields improved speech quality and reduces generative artifacts such as phonetic confusions with respect to the audio-only equivalent. The latter is supported by the word error rate of a downstream automatic speech recognition model, which decreases noticeably, especially at low input signal-to-noise ratios.
翻訳日:2023-06-05 15:33:35 公開日:2023-06-02
# 測定誤差モデルに対するロバストベイズ推定

Robust Bayesian Inference for Measurement Error Models ( http://arxiv.org/abs/2306.01468v1 )

ライセンス: Link先を確認
Charita Dellaporta, Theodoros Damoulas(参考訳) 測定誤差は、応答変数に影響を及ぼす共変量の集合がノイズによって破損した場合に発生する。 これは、特に因果効果推定のような共変量と応答変数の関係を正確に推定する問題において、誤った推論結果をもたらす可能性がある。 既存の測定誤差に対処する方法は、誤差分布の知識やその分散、共変量の測定の再現性といった強い仮定に依存することが多い。 本研究では,共変数の誤測定に頑健なベイズ非パラメトリック学習フレームワークを提案し,事前の仮定を必要とせず,真の誤差分布に関する事前の信念を組み込むことができる。 提案手法は,損失関数による誤差の測定にロバストな2つの手法を導出する。1つは最小2乗対象,もう1つは最大平均差(mmd)に基づく。 後者は非ガウス分布誤差と非線形共変-応答関係の一般化を可能にする。 mmd-lossを用いた一般化誤差の限界を提供し,実世界のメンタルヘルスと食事データセットにおいて重要な測定誤差を含む先行技術と比較して,提案手法の有効性を示す。

Measurement error occurs when a set of covariates influencing a response variable are corrupted by noise. This can lead to misleading inference outcomes, particularly in problems where accurately estimating the relationship between covariates and response variables is crucial, such as causal effect estimation. Existing methods for dealing with measurement error often rely on strong assumptions such as knowledge of the error distribution or its variance and availability of replicated measurements of the covariates. We propose a Bayesian Nonparametric Learning framework which is robust to mismeasured covariates, does not require the preceding assumptions, and is able to incorporate prior beliefs about the true error distribution. Our approach gives rise to two methods that are robust to measurement error via different loss functions: one based on the Total Least Squares objective and the other based on Maximum Mean Discrepancy (MMD). The latter allows for generalisation to non-Gaussian distributed errors and non-linear covariate-response relationships. We provide bounds on the generalisation error using the MMD-loss and showcase the effectiveness of the proposed framework versus prior art in real-world mental health and dietary datasets that contain significant measurement errors.
翻訳日:2023-06-05 15:27:52 公開日:2023-06-02
# 階層的談話特徴を有するロシア語の光同時参照分解

Light Coreference Resolution for Russian with Hierarchical Discourse Features ( http://arxiv.org/abs/2306.01465v1 )

ライセンス: Link先を確認
Elena Chistova and Ivan Smirnov(参考訳) コリファレンス解決(coreference resolution)は、同じ現実世界のエンティティを参照する言及を識別しグループ化するタスクである。 従来のニューラルモデルは主に、コア参照決定のためのスパン表現とペアワイズスコアの学習に重点を置いてきた。 しかし、現在の手法は、コア参照解決の重要な要素である階層的談話における参照選択を明示的に捉えていない。 本研究では,神経共参照分解モデルに修辞的情報を組み込んだ新しいアプローチを提案する。 自動談話解析から修辞的特徴を収集し,その影響について検討する。 ベースモデルとして、部分的な微調整された多言語エンティティ対応言語モデルlukeを用いて、エンドツーエンドのスパンベースのコリファレンスリゾルバを実装した。 rucoco-23共有タスクにおけるロシア語共参照解決手法の評価を行った。 言及間の修辞距離を用いた最良のモデルは、開発セット(74.6%f1)、テストセット(73.3%f1)で第1位である。 我々の研究は、ニューラルコア参照解決モデルに談話情報を統合するためのさらなる研究を促すことを願っている。

Coreference resolution is the task of identifying and grouping mentions referring to the same real-world entity. Previous neural models have mainly focused on learning span representations and pairwise scores for coreference decisions. However, current methods do not explicitly capture the referential choice in the hierarchical discourse, an important factor in coreference resolution. In this study, we propose a new approach that incorporates rhetorical information into neural coreference resolution models. We collect rhetorical features from automated discourse parses and examine their impact. As a base model, we implement an end-to-end span-based coreference resolver using a partially fine-tuned multilingual entity-aware language model LUKE. We evaluate our method on the RuCoCo-23 Shared Task for coreference resolution in Russian. Our best model employing rhetorical distance between mentions has ranked 1st on the development set (74.6% F1) and 2nd on the test set (73.3% F1) of the Shared Task. We hope that our work will inspire further research on incorporating discourse information in neural coreference resolution models.
翻訳日:2023-06-05 15:27:31 公開日:2023-06-02
# 抑制変数の存在下でのXAI法の理論的挙動

Theoretical Behavior of XAI Methods in the Presence of Suppressor Variables ( http://arxiv.org/abs/2306.01464v1 )

ライセンス: Link先を確認
Rick Wilming, Leo Kieslich, Benedict Clark, Stefan Haufe(参考訳) 近年,「説明可能な人工知能(XAI)」のコミュニティは,モデル「複雑性」と「解釈可能性」のギャップを埋めるための膨大な手法を生み出している。 しかし、XAI法で解決すべき具体的な問題は、まだ公式には述べられていない。 その結果、XAI法は、その説明の「正確さ」に関する理論的および実証的な証拠が欠如しており、品質管理と透明性の目的のためにその潜在的な使用を制限している。 同時に、haufe et al. (2014) は単純なおもちゃの例を使って、線形モデルの標準的な解釈でさえ非常に誤解を招くことができることを示した。 特に、高い重要性は、予測対象と統計的に関係のないいわゆる抑制変数に起因する可能性がある。 この振舞いはウィルミングら (2022) のXAI法で実証的に確認されている。 ここでは、ガウスのクラス条件分布を含む単純な2次元二項分類問題において、様々なXAI手法の挙動に関する解析式を導出する。 本研究のアプローチの大部分は、相関雑音の存在下での非クラス関連抑制機能に非ゼロの重要性が寄与する。 このことは、これらのXAI手法の出力に余裕があるという解釈と結論に重要な制限をもたらす。

In recent years, the community of 'explainable artificial intelligence' (XAI) has created a vast body of methods to bridge a perceived gap between model 'complexity' and 'interpretability'. However, a concrete problem to be solved by XAI methods has not yet been formally stated. As a result, XAI methods are lacking theoretical and empirical evidence for the 'correctness' of their explanations, limiting their potential use for quality-control and transparency purposes. At the same time, Haufe et al. (2014) showed, using simple toy examples, that even standard interpretations of linear models can be highly misleading. Specifically, high importance may be attributed to so-called suppressor variables lacking any statistical relation to the prediction target. This behavior has been confirmed empirically for a large array of XAI methods in Wilming et al. (2022). Here, we go one step further by deriving analytical expressions for the behavior of a variety of popular XAI methods on a simple two-dimensional binary classification problem involving Gaussian class-conditional distributions. We show that the majority of the studied approaches will attribute non-zero importance to a non-class-related suppressor feature in the presence of correlated noise. This poses important limitations on the interpretations and conclusions that the outputs of these XAI methods can afford.
翻訳日:2023-06-05 15:27:13 公開日:2023-06-02
# ポリディフューズ:ガイド付き集合拡散モデルによる多角形状再構成

PolyDiffuse: Polygonal Shape Reconstruction via Guided Set Diffusion Models ( http://arxiv.org/abs/2306.01461v1 )

ライセンス: Link先を確認
Jiacheng Chen, Ruizhi Deng, Yasutaka Furukawa(参考訳) 本稿では,視覚センサデータを拡散モデル(dm)を用いて多角形に変換する新しい構造化再構成アルゴリズムであるpolydiffuseを提案する。 構造復元の課題は2つの基本課題である。 1)構造化幾何は ``set'''(例えば、フロアプラン幾何の多角形の集合)であり、ここでは$n$要素のサンプルは$n! 異なるが同等の表現であり、発音が極めて曖昧である。 2) `reconstruction'タスクは単一のソリューションを持ち、初期ノイズは慎重に選択する必要があるが、初期ノイズは生成タスクで機能する。 我々の技術的貢献は、ガイドセット拡散モデルの導入である。 1)前方拡散プロセスは、サンプルの1つの表現が他の置換変種と区別されるようにノイズ注入を制御するための誘導網を学習し、あいまいさを解消する。 2) 逆復調処理は、センサデータに基づく条件生成プロセスとして、誘導網によって初期化および誘導される多角形を再構成する。 我々は,多角形集合としてのフロアプランと,一組のポリラインとしての自律走行車用HDマップの2種類の多角形形状を再構築するためのアプローチを評価した。 標準ベンチマークに関する広範囲な実験を通じて、ポリディフュースが現在の技術を大きく進歩させ、より広範な実用的応用を可能にすることを実証する。

This paper presents PolyDiffuse, a novel structured reconstruction algorithm that transforms visual sensor data into polygonal shapes with Diffusion Models (DM), an emerging machinery amid exploding generative AI, while formulating reconstruction as a generation process conditioned on sensor data. The task of structured reconstruction poses two fundamental challenges to DM: 1) A structured geometry is a ``set'' (e.g., a set of polygons for a floorplan geometry), where a sample of $N$ elements has $N!$ different but equivalent representations, making the denoising highly ambiguous; and 2) A ``reconstruction'' task has a single solution, where an initial noise needs to be chosen carefully, while any initial noise works for a generation task. Our technical contribution is the introduction of a Guided Set Diffusion Model where 1) the forward diffusion process learns guidance networks to control noise injection so that one representation of a sample remains distinct from its other permutation variants, thus resolving denoising ambiguity; and 2) the reverse denoising process reconstructs polygonal shapes, initialized and directed by the guidance networks, as a conditional generation process subject to the sensor data. We have evaluated our approach for reconstructing two types of polygonal shapes: floorplan as a set of polygons and HD map for autonomous cars as a set of polylines. Through extensive experiments on standard benchmarks, we demonstrate that PolyDiffuse significantly advances the current state of the art and enables broader practical applications.
翻訳日:2023-06-05 15:26:55 公開日:2023-06-02
# RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する

ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages ( http://arxiv.org/abs/2306.01460v1 )

ライセンス: Link先を確認
Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and Jakob Nicolaus Foerster and Yarin Gal(参考訳) 本稿では,リアルタイムの深層強化学習(DRL)アルゴリズムの有効性を高める新しい手法を提案する。 ppo(proximal policy optimization)やa3c(asynchronous advantage actor-critic)といった現在のオンポリシーアルゴリズムは、環境との慎重な相互作用を十分に考慮していない。 提案手法は,真の値関数と定数に対する下限を最大化することにより,<textit{conservative value estimation} の促進と,慎重な探索のためのトンプソンサンプリングの導入という2つの重要な方法で,慎重な相互作用を明示的に統合することで,このギャップに対処する。 これらの機能は、3つの驚くほど単純なa3cアルゴリズムの変更によって実現されている: relu関数による有利な見積もりの処理、スペクトル正規化、およびドロップアウトである。 提案アルゴリズムは,マルチエージェント強化学習のための離散的法則法であるRegret Matching Policy Gradients (RMPG) を基礎とした下界の最大化を理論的に証明する。 様々なベンチマークにおける厳密な経験的評価は、既存のオンポリシーアルゴリズムに対する我々のアプローチの性能改善を一貫して実証している。 この研究は、より慎重で効果的なDRLアルゴリズムへの大きな一歩であり、複雑な実世界の問題へのアプリケーションをアンロックする可能性がある。

In this paper, we introduce a novel method for enhancing the effectiveness of on-policy Deep Reinforcement Learning (DRL) algorithms. Current on-policy algorithms, such as Proximal Policy Optimization (PPO) and Asynchronous Advantage Actor-Critic (A3C), do not sufficiently account for cautious interaction with the environment. Our method addresses this gap by explicitly integrating cautious interaction in two critical ways: by maximizing a lower-bound on the true value function plus a constant, thereby promoting a \textit{conservative value estimation}, and by incorporating Thompson sampling for cautious exploration. These features are realized through three surprisingly simple modifications to the A3C algorithm: processing advantage estimates through a ReLU function, spectral normalization, and dropout. We provide theoretical proof that our algorithm maximizes the lower bound, which also grounds Regret Matching Policy Gradients (RMPG), a discrete-action on-policy method for multi-agent reinforcement learning. Our rigorous empirical evaluations across various benchmarks consistently demonstrates our approach's improved performance against existing on-policy algorithms. This research represents a substantial step towards more cautious and effective DRL algorithms, which has the potential to unlock application to complex, real-world problems.
翻訳日:2023-06-05 15:26:32 公開日:2023-06-02
# 文脈性研究のためのトポロジカルな手法:$n$-cycle scenarios and beyond

Topological methods for studying contextuality: $N$-cycle scenarios and beyond ( http://arxiv.org/abs/2306.01459v1 )

ライセンス: Link先を確認
Aziz Kharoof, Selman Ipek, Cihan Okay(参考訳) 単純分布(simplicial distributions)は、文脈性シナリオにおける非信号分布を一般化する測定空間と結果の空間上の分布を記述する組合せモデルである。 本稿では,新しいトポロジカル手法を導入して,2次元計測空間上の単純分布について検討する。 2つの重要な要素はフーリエ-モツキン除去の幾何学的解釈と測定空間の崩壊に基づく技法である。 1つ目は、n$-cycle シナリオにおける非文脈分布を特徴づける fine の定理の新たな証明である。 我々のアプローチはこれらのシナリオを超越しており、様々なサイズのサイクルシナリオを結合することで得られるシナリオの非コンテキスト分布を記述できる。 第2のテクニックは、文脈的頂点の検出と、新しいベルの不等式導出に使用される。 これらの手法と組み合わせることで,単純分布上のモノイド構造を探索する。

Simplicial distributions are combinatorial models describing distributions on spaces of measurements and outcomes that generalize non-signaling distributions on contextuality scenarios. This paper studies simplicial distributions on $2$-dimensional measurement spaces by introducing new topological methods. Two key ingredients are a geometric interpretation of Fourier--Motzkin elimination and a technique based on collapsing of measurement spaces. Using the first one, we provide a new proof of Fine's theorem characterizing non-contextual distributions on $N$-cycle scenarios. Our approach goes beyond these scenarios and can describe non-contextual distributions on scenarios obtained by gluing cycle scenarios of various sizes. The second technique is used for detecting contextual vertices and deriving new Bell inequalities. Combined with these methods, we explore a monoid structure on simplicial distributions.
翻訳日:2023-06-05 15:26:06 公開日:2023-06-02
# テキスト・テキスト・プライバタイズにおけるコンテキストの駆動

Driving Context into Text-to-Text Privatization ( http://arxiv.org/abs/2306.01457v1 )

ライセンス: Link先を確認
Stefan Arnold, Dilara Yesilbas, Sven Weinzierl(参考訳) \textit{metric differential privacy} は、埋め込み空間から派生した単語のベクトルに校正されたノイズを追加し、このノイズベクトルを近接探索を用いて離散語彙に投影することで、テキスト対テキストの民営化を可能にする。 単語は文脈無しで置換されるため、このメカニズムは \textit{'bank'} のような曖昧な意味を持つ単語の代用品を見つけるのに不足することが期待される。 これらのあいまいな単語を考慮し,ノイズ注入前に感覚埋め込みを活用し,感覚曖昧化ステップを組み込む。 プライバシとユーティリティを見積もって,民営化機構への修正を包含しています。 textit{Words in Context}データセットにおける単語感覚の曖昧さについては、分類精度を6.05\%$で大幅に向上させる。

\textit{Metric Differential Privacy} enables text-to-text privatization by adding calibrated noise to the vector of a word derived from an embedding space and projecting this noisy vector back to a discrete vocabulary using a nearest neighbor search. Since words are substituted without context, this mechanism is expected to fall short at finding substitutes for words with ambiguous meanings, such as \textit{'bank'}. To account for these ambiguous words, we leverage a sense embedding and incorporate a sense disambiguation step prior to noise injection. We encompass our modification to the privatization mechanism with an estimation of privacy and utility. For word sense disambiguation on the \textit{Words in Context} dataset, we demonstrate a substantial increase in classification accuracy by $6.05\%$.
翻訳日:2023-06-05 15:25:55 公開日:2023-06-02
# dugMatting: Decomposed-Uncertainty-Guided Matting

dugMatting: Decomposed-Uncertainty-Guided Matting ( http://arxiv.org/abs/2306.01452v1 )

ライセンス: Link先を確認
Jiawei Wu, Changqing Zhang, Zuoyong Li, Huazhu Fu, Xi Peng, Joey Tianyi Zhou(参考訳) 物体を切り取り、その不透明なマスクを推定する画像マッチングは、画像とビデオの編集において重要なタスクである。 極めて不適切な問題のため、通常、ユーザ定義のトライマップやスクリブルといった追加入力は、不確実性を減らすために通常必要となる。 有効ではあるが、ストロークの場所を知っている経験豊富なユーザーには、時間がかかるか、適しているだけである。 本研究では, 明示的に分解された不確かさを探索し, 効率的かつ効果的に結果を改善するdugmattingアルゴリズムを提案する。 これらの不確実性の特徴に基づいて、インタラクション(事前知識の導入)を導く過程において認識的不確実性が減少し、データ分布のモデリング(データと可能なノイズの両方に統計を導入する)において、アリュータ的不確実性が減少する。 提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。 その結果,提案手法は,効率と有効性の両方の観点から,元のマッチングアルゴリズムを大幅に改善することを確認した。

Cutting out an object and estimating its opacity mask, known as image matting, is a key task in image and video editing. Due to the highly ill-posed issue, additional inputs, typically user-defined trimaps or scribbles, are usually needed to reduce the uncertainty. Although effective, it is either time consuming or only suitable for experienced users who know where to place the strokes. In this work, we propose a decomposed-uncertainty-guided matting (dugMatting) algorithm, which explores the explicitly decomposed uncertainties to efficiently and effectively improve the results. Basing on the characteristic of these uncertainties, the epistemic uncertainty is reduced in the process of guiding interaction (which introduces prior knowledge), while the aleatoric uncertainty is reduced in modeling data distribution (which introduces statistics for both data and possible noise). The proposed matting framework relieves the requirement for users to determine the interaction areas by using simple and efficient labeling. Extensively quantitative and qualitative results validate that the proposed method significantly improves the original matting algorithms in terms of both efficiency and efficacy.
翻訳日:2023-06-05 15:25:38 公開日:2023-06-02
# Q-Learning vs Proximal Policy Optimization:Material Sorting Taskのパフォーマンス比較

Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting Task ( http://arxiv.org/abs/2306.01451v1 )

ライセンス: Link先を確認
Reuf Kozlica, Stefan Wegenkittl, Simon Hirl\"ander(参考訳) 本稿では,DQN(Deep Q-Learning)とPPO(Proximal Policy Optimization)という2つのよく知られた深層強化学習(Deep Reinforcement Learning, RL)アルゴリズムの比較を行った。 これまでに提案してきたペトリネット(pn)ベースのシミュレーション環境を利用する。 2つのアルゴリズムの性能は、正しく組み立てられた製品とソートされた製品の平均パーセンテージ、平均エピソード長、成功したエピソードのパーセンテージなど、いくつかの評価指標に基づいて比較される。 これらの結果から,PPOはDQNよりも高い性能を示した。 この研究は、高次元状態および行動空間の問題におけるポリシーに基づくアルゴリズムの利点を強調した。 この研究は、異なるアルゴリズムの有効性と異なるタスクに対するそれらの適合性に関する洞察を提供することにより、生産システムの文脈における深いRLの分野に寄与する。

This paper presents a comparison between two well-known deep Reinforcement Learning (RL) algorithms: Deep Q-Learning (DQN) and Proximal Policy Optimization (PPO) in a simulated production system. We utilize a Petri Net (PN)-based simulation environment, which was previously proposed in related work. The performance of the two algorithms is compared based on several evaluation metrics, including average percentage of correctly assembled and sorted products, average episode length, and percentage of successful episodes. The results show that PPO outperforms DQN in terms of all evaluation metrics. The study highlights the advantages of policy-based algorithms in problems with high-dimensional state and action spaces. The study contributes to the field of deep RL in context of production systems by providing insights into the effectiveness of different algorithms and their suitability for different tasks.
翻訳日:2023-06-05 15:25:16 公開日:2023-06-02
# SASMU:合成顔データを用いた一般化認識モデルの性能向上

SASMU: boost the performance of generalized recognition model using synthetic face dataset ( http://arxiv.org/abs/2306.01449v1 )

ライセンス: Link先を確認
Chia-Chun Chung, Pei-Chun Chang, Yong-Sheng Chen, HaoYuan He, Chinson Yeh(参考訳) 近年,何十年にもわたって顔認証技術が開発され,堅牢な顔認識製品の展開が容易になっている。 プロファイル画像の検証だけでなく、最先端の手法もほぼ完璧に処理できる。 しかし、プライバシー問題に対する懸念は急速に高まり、主要な研究成果は、プライバシー侵害問題に直面した大量のウェブクローラーデータによって支えられている。 コミュニティは、顔認識モデルを合成データでトレーニングすることで、この前提を完全に回避しようとしているが、深刻なドメインギャップの問題に直面している。 本稿では,合成データセットを用いた,シンプルで斬新で効果的な顔認識手法であるSASMUを提案する。 提案手法は空間データ拡張(SA)とスペクトル混合(SMU)からなる。 まず,既存の合成データセットを分析し,顔認識システムを構築する。 そして, 合成データを用いた場合, ヘビーデータ拡張が性能向上に有用であることを明らかにする。 先行する周波数混合研究を解析し,新しい領域一般化法を提案する。 LFW, AgeDB-30, CA-LFW, CFP-FP, CP-LFW などの一般的なベンチマークにおいて, SASMU の有効性を実証した。

Nowadays, deploying a robust face recognition product becomes easy with the development of face recognition techniques for decades. Not only profile image verification but also the state-of-the-art method can handle the in-the-wild image almost perfectly. However, the concern of privacy issues raise rapidly since mainstream research results are powered by tons of web-crawled data, which faces the privacy invasion issue. The community tries to escape this predicament completely by training the face recognition model with synthetic data but faces severe domain gap issues, which still need to access real images and identity labels to fine-tune the model. In this paper, we propose SASMU, a simple, novel, and effective method for face recognition using a synthetic dataset. Our proposed method consists of spatial data augmentation (SA) and spectrum mixup (SMU). We first analyze the existing synthetic datasets for developing a face recognition system. Then, we reveal that heavy data augmentation is helpful for boosting performance when using synthetic data. By analyzing the previous frequency mixup studies, we proposed a novel method for domain generalization. Extensive experimental results have demonstrated the effectiveness of SASMU, achieving state-of-the-art performance on several common benchmarks, such as LFW, AgeDB-30, CA-LFW, CFP-FP, and CP-LFW.
翻訳日:2023-06-05 15:25:02 公開日:2023-06-02
# 2次コヒーレンス時間における一次磁気感度状態におけるロバストでスケーラブルなrf分光

Robust and scalable rf spectroscopy in first-order magnetic sensitive states at second-long coherence time ( http://arxiv.org/abs/2306.01486v1 )

ライセンス: Link先を確認
C.-H. Yeh, K. C. Grensemann, L. S. Dreissen, H. A. F\"urst, T. E. Mehlst\"aubler(参考訳) トラップイオン量子センサーは、標準モデルを超えて物理学を探索するための非常に敏感なツールとなっている。 近年,局所ローレンツ不変性(lli)のストリングテストが捕捉イオンの精密分光法を用いて行われている。 ここでは, 捕捉された$^{172}$yb$^{+}$イオンの長寿命$^{2}f_{7/2}$状態の磁気サブレベルにおける2番目の長いコヒーレンス時間におけるロバストでスケーラブルな高周波複合パルス分光について詳述する。 2つのラムゼー型複合rfパルスシーケンス、一般化スピンエコー(gse)シーケンスと、10個の強調パルス(ur10)を持つ普遍回転に基づくシーケンスを比較し、エネルギー準位を磁場ノイズから切り離し、ロバストで正確な分光分析を可能にした。 両シーケンスは理論上、実験的に、スピン-$1/2$$$$$$$^{2}s_{1/2}$ 電子基底状態$^{172}$yb$^{+}$で特徴づけられ、結果、ur10シーケンスはgseシーケンスよりもパルス持続時間(周波数減衰)エラーに対して38(13)強固であることが示されている。 我々は、このシミュレーションを、LLIの違反に非常に敏感な$^2F_{7/2}$状態の8レベル多様体に拡張し、雑音環境下での高忠実ラムゼー分光にUR10系列が使用できることを示す。 UR10配列は、$^2F_{7/2}$多様体で実験的に実装され、2.5\,$sまでのコヒーレント信号に到達する。 我々は、このシーケンスを実装し、電子-光子セクターにおけるLLIの最も厳密な試験に使用した。 UR10配列の堅牢性のため、ローレンツ対称性のテストを改善するためにより大きなイオン結晶に適用することができる。 また、このシーケンスを用いて、準安定な$^{2}F_{7/2}$状態の四重極モーメントを抽出し、クロック測定から導出される値と一致する$\Theta\,=\,-0.0298(38)\,ea^{2}_{0}$を得ることを示した。

Trapped-ion quantum sensors have become highly sensitive tools for the search of physics beyond the Standard Model. Recently, stringent tests of local Lorentz-invariance (LLI) have been conducted with precision spectroscopy in trapped ions. We here elaborate on robust and scalable radio-frequency composite-pulse spectroscopy at second long coherence times in the magnetic sublevels of the long-lived $^{2}F_{7/2}$ state of a trapped $^{172}$Yb$^{+}$ ion. We compare two Ramsey-type composite rf pulse sequences, a generalized spin-echo (GSE) sequence and a sequence based on universal rotations with 10 rephasing pulses (UR10) that decouple the energy levels from magnetic field noise, enabling robust and accurate spectroscopy. Both sequences are characterized theoretically and experimentally in the spin-$1/2$$\ $$^{2}S_{1/2}$ electronic ground state of $^{172}$Yb$^{+}$ and results show that the UR10 sequence is 38 (13) times more robust against pulse duration (frequency detuning) errors than the GSE sequence. We extend our simulations to the eight-level manifold of the $^2F_{7/2}$ state, which is highly sensitive to a possible violation of LLI, and show that the UR10 sequence can be used for high-fidelity Ramsey spectroscopy in noisy environments. The UR10 sequence is implemented experimentally in the $^2F_{7/2}$ manifold and a coherent signal of up to $2.5\,$s is reached. We have implemented the sequence and used it to perform the most stringent test of LLI in the electron-photon sector to date. Due to the robustness of the UR10 sequence, it can be applied on larger ion crystals to improve tests of Lorentz symmetry further. We demonstrate that the sequence can also be used to extract the quadrupole moment of the meta-stable $^{2}F_{7/2}$ state, obtaining a value of $\Theta\,=\,-0.0298(38)\,ea^{2}_{0}$ which is in agreement with the value deduced from clock measurements.
翻訳日:2023-06-05 15:17:52 公開日:2023-06-02
# 近似正則制約によるロバスト低ランクトレーニング

Robust low-rank training via approximate orthonormal constraints ( http://arxiv.org/abs/2306.01485v1 )

ライセンス: Link先を確認
Dayana Savostianova, Emanuele Zangrando, Gianluca Ceruti, Francesco Tudisco(参考訳) モデルとデータサイズの増加に伴い、モデルパフォーマンスを維持しながら、ディープラーニングパイプラインのリソース需要を削減できるプルーニング技術を設計するための幅広い取り組みが実施されている。 推論とトレーニングの両方のコストを削減するために、顕著な作業はネットワークの重みを表すために低ランク行列分解を使用する。 精度は保たれるが,低ランク法では逆摂動に対するモデルのロバスト性が損なわれる傾向が観察された。 ニューラルネットワークの条件数の観点からロバストネスをモデル化することにより、このロバストネスの損失は、低ランク重み行列の爆発的な特異値に起因すると論じる。 そこで本研究では,ネットワークの重みを低ランク行列多様体上に維持するロバストな低ランクトレーニングアルゴリズムを提案する。 その結果, モデル精度を損なうことなく, トレーニングコストと推論コストを低減し, 良好な条件設定を実現し, 対向ロバスト性を向上する。 これは広範な数値的な証拠と、計算された頑健な低ランクネットワークを理想のフルモデルとして適用したことを示す主近似定理によって示される。

With the growth of model and data sizes, a broad effort has been made to design pruning techniques that reduce the resource demand of deep learning pipelines, while retaining model performance. In order to reduce both inference and training costs, a prominent line of work uses low-rank matrix factorizations to represent the network weights. Although able to retain accuracy, we observe that low-rank methods tend to compromise model robustness against adversarial perturbations. By modeling robustness in terms of the condition number of the neural network, we argue that this loss of robustness is due to the exploding singular values of the low-rank weight matrices. Thus, we introduce a robust low-rank training algorithm that maintains the network's weights on the low-rank matrix manifold while simultaneously enforcing approximate orthonormal constraints. The resulting model reduces both training and inference costs while ensuring well-conditioning and thus better adversarial robustness, without compromising model accuracy. This is shown by extensive numerical evidence and by our main approximation theorem that shows the computed robust low-rank network well-approximates the ideal full model, provided a highly performing low-rank sub-network exists.
翻訳日:2023-06-05 15:17:09 公開日:2023-06-02
# GAIA Search: NLPトレーニングデータ探索のためのHugging FaceとPyserini相互運用性

GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration ( http://arxiv.org/abs/2306.01481v1 )

ライセンス: Link先を確認
Aleksandra Piktus, Odunayo Ogundepo, Christopher Akiki, Akintunde Oladipo, Xinyu Zhang, Hailey Schoelkopf, Stella Biderman, Martin Potthast, Jimmy Lin(参考訳) 本稿では,最近のNLPの大規模テキストコーパスを高速かつユーザフレンドリに定性的に分析するためのツールを緊急に提供する必要があることに気付き,情報検索分野(IR)の成熟度の高い手法に転換することを提案する。 我々は、再現可能なIR研究のための広く使われているツールキットであるPyseriniを、オープンソースAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。 両プラットフォームの既存の機能を活用しながら,その統合をさらに促進する新たな機能を提案しています。 我々のゴールは、NLP研究者がデータ分析のニーズに対して、簡単かつ機敏に検索ベースのインスツルメンテーションを開発できるようにすることです。 jupyter notebookベースのインターオペラビリティ機能は、githubのhttps://github.com/huggingface/gaiaで利用可能です。 次に、我々が提示するアイデアがどのように運用され、nlpの質的データ分析のための強力なツールとなるかを示す。 GAIA Search - 前述した原則に従って構築された検索エンジンで、4つの人気のある大規模テキストコレクションにアクセスする。 gaiaは、私たちが議論する方法論の可能性を図示すると同時に、トレーニングで使用する前にデータセットを理解することを目的としたnlp研究者が活用できるスタンドアロンの定性分析ツールとしても役立ちます。 GAIAはHugging Face Spaceshttps://huggingface.co/spaces/spacerini/gaia.comでホストされている。

Noticing the urgent need to provide tools for fast and user-friendly qualitative analysis of large-scale textual corpora of the modern NLP, we propose to turn to the mature and well-tested methods from the domain of Information Retrieval (IR) - a research field with a long history of tackling TB-scale document collections. We discuss how Pyserini - a widely used toolkit for reproducible IR research can be integrated with the Hugging Face ecosystem of open-source AI libraries and artifacts. We leverage the existing functionalities of both platforms while proposing novel features further facilitating their integration. Our goal is to give NLP researchers tools that will allow them to develop retrieval-based instrumentation for their data analytics needs with ease and agility. We include a Jupyter Notebook-based walk through the core interoperability features, available on GitHub at https://github.com/huggingface/gaia. We then demonstrate how the ideas we present can be operationalized to create a powerful tool for qualitative data analysis in NLP. We present GAIA Search - a search engine built following previously laid out principles, giving access to four popular large-scale text collections. GAIA serves a dual purpose of illustrating the potential of methodologies we discuss but also as a standalone qualitative analysis tool that can be leveraged by NLP researchers aiming to understand datasets prior to using them in training. GAIA is hosted live on Hugging Face Spaces - https://huggingface.co/spaces/spacerini/gaia.
翻訳日:2023-06-05 15:16:47 公開日:2023-06-02
# オンラインターゲティングの政府利用と民主主義

Reconciling Governmental Use of Online Targeting With Democracy ( http://arxiv.org/abs/2306.01479v1 )

ライセンス: Link先を確認
Katja Andric and Atoosa Kasirzadeh(参考訳) オンラインターゲット広告の社会的および認識学的意味は、AI倫理学者、法学者、政策立案者らによって精査されている。 しかし、政府によるオンラインターゲティングの使用とそれに伴う社会・政治の分岐は、批判的な社会技術的観点からは未検討のままである。 本稿では、政府によるオンラインターゲティングの社会的・政治的意義について、英国政府の公共政策目的への適用事例を用いて検討する。 このプラクティスは、根本的な民主的教義や価値観と衝突する3つの主要な関心事である透明性、プライバシ、平等を包含するので、民主的理想を損なうと我々は主張する。 これらの懸念に対処するため、ある民主的原則と政府によるオンラインターゲティングの利用を調和させるAIガバナンスフレームワークの予備的青写真を紹介した。 さらに、我々は、民主的価値を維持するための重要な手段である、政府によるオンラインターゲティングの使用を監督し、監視する責任を負う独立した非政府規制機関の創設を提唱する。

The societal and epistemological implications of online targeted advertising have been scrutinized by AI ethicists, legal scholars, and policymakers alike. However, the government's use of online targeting and its consequential socio-political ramifications remain under-explored from a critical socio-technical standpoint. This paper investigates the socio-political implications of governmental online targeting, using a case study of the UK government's application of such techniques for public policy objectives. We argue that this practice undermines democratic ideals, as it engenders three primary concerns -- Transparency, Privacy, and Equality -- that clash with fundamental democratic doctrines and values. To address these concerns, the paper introduces a preliminary blueprint for an AI governance framework that harmonizes governmental use of online targeting with certain democratic principles. Furthermore, we advocate for the creation of an independent, non-governmental regulatory body responsible for overseeing the process and monitoring the government's use of online targeting, a critical measure for preserving democratic values.
翻訳日:2023-06-05 15:16:17 公開日:2023-06-02
# レコメンダシステムにおけるユーザノベルティシーキングインテントのモデル化のための階層的強化学習

Hierarchical Reinforcement Learning for Modeling User Novelty-Seeking Intent in Recommender Systems ( http://arxiv.org/abs/2306.01476v1 )

ライセンス: Link先を確認
Pan Li, Yuyan Wang, Ed H. Chi and Minmin Chen(参考訳) 新たな関心事に導入することで、ユーザの視野を広げる新しいコンテンツの推奨は、レコメンデーションプラットフォーム上でのユーザの長期的なエクスペリエンスを改善することが示されている。 しかし、ユーザーは新しいコンテンツを常に探しているわけではない。 そのため、新奇な探究意図を理解し、それに応じて勧告方針を調整することが重要である。 ほとんどの既存の文献は、ユーザが新しいコンテンツを選択することや、個々の相互作用においてより多様なレコメンデーションを選択することを推奨する傾向をモデル化している。 一方、階層構造は、動的セッションベースの適合性とともに、新規性を求める静的で本質的なユーザ嗜好として、ユーザの新規性検索意図に存在している。 そこで本研究では,階層的ユーザノベルティシーキング意図をモデル化し,抽出したユーザノベルティシーキング傾向に応じてレコメンデーションポリシーを適用する階層的強化学習ベース手法を提案する。 さらに、階層的RL(HRL)エージェントの報酬関数に多様性と新規性に関連する測定を組み込んで、ユーザの探索を奨励する。 シミュレーションおよび実世界のデータセットに関する広範な実験を通じて,階層的ユーザノベルティ検索意図を明示的にモデル化する利点を実証する。 特に,提案した階層的RL法の有効性は,そのような階層的意図を捉える能力にあることを示す。 その結果、提案したHRLモデルは、最先端のベースラインと比較して、いくつかの公開データセットにおいて優れたパフォーマンスを実現する。

Recommending novel content, which expands user horizons by introducing them to new interests, has been shown to improve users' long-term experience on recommendation platforms \cite{chen2021values}. Users however are not constantly looking to explore novel content. It is therefore crucial to understand their novelty-seeking intent and adjust the recommendation policy accordingly. Most existing literature models a user's propensity to choose novel content or to prefer a more diverse set of recommendations at individual interactions. Hierarchical structure, on the other hand, exists in a user's novelty-seeking intent, which is manifested as a static and intrinsic user preference for seeking novelty along with a dynamic session-based propensity. To this end, we propose a novel hierarchical reinforcement learning-based method to model the hierarchical user novelty-seeking intent, and to adapt the recommendation policy accordingly based on the extracted user novelty-seeking propensity. We further incorporate diversity and novelty-related measurement in the reward function of the hierarchical RL (HRL) agent to encourage user exploration \cite{chen2021values}. We demonstrate the benefits of explicitly modeling hierarchical user novelty-seeking intent in recommendations through extensive experiments on simulated and real-world datasets. In particular, we demonstrate that the effectiveness of our proposed hierarchical RL-based method lies in its ability to capture such hierarchically-structured intent. As a result, the proposed HRL model achieves superior performance on several public datasets, compared with state-of-art baselines.
翻訳日:2023-06-05 15:16:02 公開日:2023-06-02
# 推薦のためのパーソナライズされたアスペクト抽出に基づく大規模言語モデルのプロンプトチューニング

Prompt Tuning Large Language Models on Personalized Aspect Extraction for Recommendations ( http://arxiv.org/abs/2306.01475v1 )

ライセンス: Link先を確認
Pan Li, Yuyan Wang, Ed H. Chi and Minmin Chen(参考訳) 既存のアスペクト抽出方法は、主に明示的あるいは根拠的なアスペクト情報に依存するか、データマイニングや機械学習のアプローチを使用して、ユーザレビューのような暗黙のユーザフィードバックからアスペクトを抽出する。 しかし、抽出された側面がユーザにとってより意味のあるレコメンデーションを生み出すのにどのように役立つかは、まだ解明されていない。 一方、アスペクトベースのリコメンデーションに関する既存の研究は、しばしば別々のアスペクト抽出モデルに依存するか、あるいはアスペクトが与えられると仮定する。 本稿では,アスペクト抽出とアスペクトベースのレコメンデーションをエンドツーエンドで組み合わせ,一つのフレームワークで2つの目標を達成することを提案する。 アスペクト抽出コンポーネントについては,最近の大規模言語モデルの進歩を活かし,エンドレコメンデーションタスクのアスペクトを生成するための新しいプロンプト学習機構を設計する。 アスペクトベースのレコメンデーションコンポーネントでは、抽出されたアスペクトは、レコメンデーションモデルで使用される通常のユーザとアイテムの特徴と結合される。 レコメンデーションタスクは、アスペクトを生成するためのソフトプロンプトとして使用される、ユーザ埋め込みとアイテム埋め込みの学習を仲介する。 したがって、抽出されたアスペクトは、レコメンデーションタスクによってパーソナライズされ、コンテキスト化される。 提案手法の有効性を,3つの産業データセットを用いた広範囲な実験により明らかにし,提案手法はパーソナライズされたアスペクト抽出とアスペクトベースレコメンデーションタスクの両方において,最先端のベースラインを著しく上回っている。 特に,アスペクト抽出の学習とアスペクトベースレコメンデーションを組み合わせることは,必要かつ有益であることを実証する。 また,フレームワークにおける各設計要素の寄与を理解するために,広範なアブレーション研究も行います。

Existing aspect extraction methods mostly rely on explicit or ground truth aspect information, or using data mining or machine learning approaches to extract aspects from implicit user feedback such as user reviews. It however remains under-explored how the extracted aspects can help generate more meaningful recommendations to the users. Meanwhile, existing research on aspect-based recommendations often relies on separate aspect extraction models or assumes the aspects are given, without accounting for the fact the optimal set of aspects could be dependent on the recommendation task at hand. In this work, we propose to combine aspect extraction together with aspect-based recommendations in an end-to-end manner, achieving the two goals together in a single framework. For the aspect extraction component, we leverage the recent advances in large language models and design a new prompt learning mechanism to generate aspects for the end recommendation task. For the aspect-based recommendation component, the extracted aspects are concatenated with the usual user and item features used by the recommendation model. The recommendation task mediates the learning of the user embeddings and item embeddings, which are used as soft prompts to generate aspects. Therefore, the extracted aspects are personalized and contextualized by the recommendation task. We showcase the effectiveness of our proposed method through extensive experiments on three industrial datasets, where our proposed framework significantly outperforms state-of-the-art baselines in both the personalized aspect extraction and aspect-based recommendation tasks. In particular, we demonstrate that it is necessary and beneficial to combine the learning of aspect extraction and aspect-based recommendation together. We also conduct extensive ablation studies to understand the contribution of each design component in our framework.
翻訳日:2023-06-05 15:15:35 公開日:2023-06-02
# 3次元分子相互作用学習に向けたジェネラリスト同変トランスフォーマー

Generalist Equivariant Transformer Towards 3D Molecular Interaction Learning ( http://arxiv.org/abs/2306.01474v1 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 生物学や薬物発見における多くのプロセスは、タンパク質やタンパク質、タンパク質や小さな分子など、様々な分子間の様々な3D相互作用を含んでいる。 普遍的な分子相互作用を学ぶための一般モデルの設計は、異なる分子が通常異なる粒度で表されるため、非常に難しい。 本稿では,従来の1次元表現とは対照的に,まず3次元分子を集合の幾何グラフとして普遍的に表現することを提案する。 提案する統一表現に基づき, スパースブロックレベルと高密度原子準位の両方の相互作用を効果的に捉えるためのジェネラリスト同変トランスフォーマー(get)を提案する。 具体的には、getは2レベルアテンションモジュール、フィードフォワードモジュール、および層正規化モジュールで構成されており、特に、各モジュールは3d世界の対称性を満たすようにe(3)同値である。 タンパク質親和性予測,リガンド結合親和性予測,リガンド有効性予測に関する広範な実験により,提案手法が既存手法に対して有効であることを検証し,異なる領域と異なるタスク間で伝達可能な知識を学ぶ可能性を明らかにする。

Many processes in biology and drug discovery involve various 3D interactions between different molecules, such as protein and protein, protein and small molecule, etc. Designing a generalist model to learn universal molecular interactions is valuable yet challenging, given that different molecules are usually represented in different granularity. In this paper, we first propose to universally represent a 3D molecule as a geometric graph of sets, in contrast to conventional single-level representations. Upon the proposed unified representation, we then propose a Generalist Equivariant Transformer (GET) to effectively capture both sparse block-level and dense atom-level interactions. To be specific, GET consists of a bilevel attention module, a feed-forward module and a layer normalization module, where, notably, each module is E(3) equivariant to meet the symmetry of 3D world. Extensive experiments on the prediction of protein-protein affinity, ligand binding affinity, and ligand efficacy prediction verify the effectiveness of our proposed method against existing methods, and reveal its potential to learn transferable knowledge across different domains and different tasks.
翻訳日:2023-06-05 15:15:04 公開日:2023-06-02
# 構文解析によるテキスト・テキスト・プライバタイゼーションの指導

Guiding Text-to-Text Privatization by Syntax ( http://arxiv.org/abs/2306.01471v1 )

ライセンス: Link先を確認
Stefan Arnold, Dilara Yesilbas, Sven Weinzierl(参考訳) メトリックディファレンシャルプライバシは、テキスト間民営化のユニークな課題に対処するために調整されたディファレンシャルプライバシの一般化である。 埋め込みの幾何学的空間における単語の表現にノイズを加えることにより、単語は雑音のある表現の近傍に位置する単語に置き換えられる。 埋め込みは単語共起に基づいて訓練されるので、このメカニズムは置換が共通の意味的文脈に由来することを保証します。 しかし、単語の文法的なカテゴリーを考慮せずに、このメカニズムは置換が同様の構文的役割を果たすことを保証できない。 置換後の単語の文法的カテゴリーを保存するために,テキストからテキストへの民営化の能力を分析し,代理テキストがほぼ名詞のみであることを示す。 センシティブテキストの構造と相関するサロゲートテキストを生成する能力が欠如しているため,民営化のステップを,文法特性に適合する単語に置換が向けられる候補選択問題に変換することで,分析を包含する。 我々は、相対的なプライバシー保証を維持しながら、ダウンストリームタスクのパフォーマンスを最大$4.66\%向上させることを実証する。

Metric Differential Privacy is a generalization of differential privacy tailored to address the unique challenges of text-to-text privatization. By adding noise to the representation of words in the geometric space of embeddings, words are replaced with words located in the proximity of the noisy representation. Since embeddings are trained based on word co-occurrences, this mechanism ensures that substitutions stem from a common semantic context. Without considering the grammatical category of words, however, this mechanism cannot guarantee that substitutions play similar syntactic roles. We analyze the capability of text-to-text privatization to preserve the grammatical category of words after substitution and find that surrogate texts consist almost exclusively of nouns. Lacking the capability to produce surrogate texts that correlate with the structure of the sensitive texts, we encompass our analysis by transforming the privatization step into a candidate selection problem in which substitutions are directed to words with matching grammatical properties. We demonstrate a substantial improvement in the performance of downstream tasks by up to $4.66\%$ while retaining comparative privacy guarantees.
翻訳日:2023-06-05 15:14:43 公開日:2023-06-02
# 広帯域MLPとしてのMLPミクサ

MLP-Mixer as a Wide and Sparse MLP ( http://arxiv.org/abs/2306.01470v1 )

ライセンス: Link先を確認
Tomohiro Hayase, Ryo Karakida(参考訳) 多層パーセプトロン(MLP)は深層学習の基本的要素であり,様々な問題に広く用いられている。 しかし、近年のMLPベースのアーキテクチャ、特にMLP-Mixerの進歩は、MPPを改善するための隠れた可能性があることを明らかにしている。 本研究では, MLP-Mixer が, 一定重量の広帯域 MLP として有効であることを明らかにした。 まず,ミキサーの混合層は,重量が小さくクロネッカー生成物で表されるより広いmlpとして効果的に発現することを明らかにした。 この表現は自然に置換クロネッカー(PK)ファミリーを定義しており、これは混合層の一般的なクラスと見なすことができ、モナール行列の近似でもある。 その後、PKファミリーはスパース重み付き広いMLPを効果的に構成するので、ウェイト数が固定されたときに幅(スパーシティ)が増加するにつれて予測性能が向上する、とGolubeva, Neyshabur, Gur-Ari (2021) が提唱した仮説を適用することができる。 MLP-Mixerの有効幅を最大化することにより,この仮説を実証的に検証し,混合層のサイズを定量的に決定する。

Multi-layer perceptron (MLP) is a fundamental component of deep learning that has been extensively employed for various problems. However, recent empirical successes in MLP-based architectures, particularly the progress of the MLP-Mixer, have revealed that there is still hidden potential in improving MLPs to achieve better performance. In this study, we reveal that the MLP-Mixer works effectively as a wide MLP with certain sparse weights. Initially, we clarify that the mixing layer of the Mixer has an effective expression as a wider MLP whose weights are sparse and represented by the Kronecker product. This expression naturally defines a permuted-Kronecker (PK) family, which can be regarded as a general class of mixing layers and is also regarded as an approximation of Monarch matrices. Subsequently, because the PK family effectively constitutes a wide MLP with sparse weights, one can apply the hypothesis proposed by Golubeva, Neyshabur and Gur-Ari (2021) that the prediction performance improves as the width (sparsity) increases when the number of weights is fixed. We empirically verify this hypothesis by maximizing the effective width of the MLP-Mixer, which enables us to determine the appropriate size of the mixing layers quantitatively.
翻訳日:2023-06-05 15:14:24 公開日:2023-06-02
# 非破壊超音波探傷における欠陥分類の領域適応のためのGANと代替合成ノイズ生成法

GANs and alternative methods of synthetic noise generation for domain adaption of defect classification of Non-destructive ultrasonic testing ( http://arxiv.org/abs/2306.01469v1 )

ライセンス: Link先を確認
Shaun McKnight, S. Gareth Pierce, Ehsan Mohseni, Christopher MacKinnon, Charles MacLeod, Tom OHare, Charalampos Loukas(参考訳) この研究は、複合部品の非破壊超音波探傷における少量のトレーニングデータの課題に対する解決策を提供する。 その結果, 直接シミュレーションだけでは, 実験領域を代表する訓練データの生成には効果がないことがわかった。 そこで, 半解析シミュレーションデータを用いた合成データ生成手法を4つ提案した。 遺伝的アルゴリズムを用いてハイパーパラメータ最適化を行った畳み込みニューラルネットワークを用いて,実実験画像の分類性能評価を行った。 最初の方法はサイクガンのタスク固有の修正を導入し、欠陥適応の物理学に基づくシミュレーションから超音波画像の実験的適応へのマッピングを学習した。 第2の方法は,実実験的欠陥自由画像と模擬欠陥応答を組み合わせたものである。 最後の2つの方法は、それぞれ画像と信号レベルでのノイズ応答をシミュレートする。 純粋なシミュレーションデータから平均分類F1スコアは0.394。 しかし, 新たな合成データセットで学習すると, 平均分類f1スコア0.843, 0.688, 0.629, 0.738で実験データでの分類性能が著しく向上した。

This work provides a solution to the challenge of small amounts of training data in Non-Destructive Ultrasonic Testing for composite components. It was demonstrated that direct simulation alone is ineffective at producing training data that was representative of the experimental domain due to poor noise reconstruction. Therefore, four unique synthetic data generation methods were proposed which use semi-analytical simulated data as a foundation. Each method was evaluated on its classification performance of real experimental images when trained on a Convolutional Neural Network which underwent hyperparameter optimization using a genetic algorithm. The first method introduced task specific modifications to CycleGAN, to learn the mapping from physics-based simulations of defect indications to experimental indications in resulting ultrasound images. The second method was based on combining real experimental defect free images with simulated defect responses. The final two methods fully simulated the noise responses at an image and signal level respectively. The purely simulated data produced a mean classification F1 score of 0.394. However, when trained on the new synthetic datasets, a significant improvement in classification performance on experimental data was realized, with mean classification F1 scores of 0.843, 0.688, 0.629, and 0.738 for the respective approaches.
翻訳日:2023-06-05 15:14:00 公開日:2023-06-02
# トレーニングパフォーマンス指標としてのネットワークデジェネシー:有限および無限幅角予測の比較

Network Degeneracy as an Indicator of Training Performance: Comparing Finite and Infinite Width Angle Predictions ( http://arxiv.org/abs/2306.01513v1 )

ライセンス: Link先を確認
Cameron Jakub, Mihai Nica(参考訳) ニューラルネットワークは広く利用されている強力な関数であるが、これらの関数の理論的挙動は十分に理解されていない。 多くのレイヤを積み重ねることでディープニューラルネットワークを作成することは、多くのアプリケーションで例外的なパフォーマンスを達成し、これらのメソッドの最近の爆発に寄与した。 前回の研究では、深さがネットワークの表現可能性を指数関数的に増加させることが示されている。 しかし、ネットワークの深層化が進むにつれ、ネットワークは縮退する傾向にある。 我々は、初期化において、入力がネットワークの層を通過するにつれてより相関する傾向にあるという意味で、この縮退を観察する。 ネットワークに層が多すぎる場合、(ランダムな)定数関数を近似する傾向があり、入力を区別することができない。 本論文では,ネットワークのトレーニングに影響を及ぼし,パフォーマンスに悪影響を及ぼすと考えられる。 完全接続されたReLUネットワークアーキテクチャのデジェネリシーレベルを正確に予測できる単純なアルゴリズムを用いて、予測されたデジェネリシーがネットワークのトレーニング力学とどのように関係しているかを実証する。 また、この予測を無限幅ネットワークを用いた予測と比較する。

Neural networks are powerful functions with widespread use, but the theoretical behaviour of these functions is not fully understood. Creating deep neural networks by stacking many layers has achieved exceptional performance in many applications and contributed to the recent explosion of these methods. Previous works have shown that depth can exponentially increase the expressibility of the network. However, as networks get deeper and deeper, they are more susceptible to becoming degenerate. We observe this degeneracy in the sense that on initialization, inputs tend to become more and more correlated as they travel through the layers of the network. If a network has too many layers, it tends to approximate a (random) constant function, making it effectively incapable of distinguishing between inputs. This seems to affect the training of the network and cause it to perform poorly, as we empirically investigate in this paper. We use a simple algorithm that can accurately predict the level of degeneracy for any given fully connected ReLU network architecture, and demonstrate how the predicted degeneracy relates to training dynamics of the network. We also compare this prediction to predictions derived using infinite width networks.
翻訳日:2023-06-05 15:03:37 公開日:2023-06-02
# ひとつは: 動的マルチテナントエッジクラウドプラットフォームのための統一ワークロード予測

One for All: Unified Workload Prediction for Dynamic Multi-tenant Edge Cloud Platforms ( http://arxiv.org/abs/2306.01507v1 )

ライセンス: Link先を確認
Shaoyuan Huang, Zheng Wang, Heng Zhang, Xiaofei Wang, Cheng Zhang, and Wenyu Wang(参考訳) マルチテナントエッジクラウドプラットフォーム(MT-ECP)のワークロード予測は、効率的なアプリケーションデプロイメントとリソースプロビジョニングに不可欠である。 しかし、MT-ECPにおける異種アプリケーションパターン、可変インフラストラクチャ性能、頻繁なデプロイメントは、正確かつ効率的なワークロード予測に重大な課題をもたらす。 動的MT-ECPモデリングのためのクラスタリングベースの手法は、多くのデータクラスタやモデルを維持する必要があるため、過度なコストが発生することが多い。 既存のエンドツーエンドの時系列予測手法は、動的MT-ECPにおいて一貫した予測性能を提供することが困難である。 本稿では,動的mt-ecpのための統一的なワークロード予測手法を提供するために,グローバルプールと静的コンテンツ認識を備えたエンド・ツー・エンドのフレームワークdyneformerを提案する。 厳密に設計されたグローバルプールと情報マージ機構は、グローバルアプリケーションパターンを効果的に識別し、活用することで、ローカルなワークロード予測を促進する。 静的コンテンツ認識機構の統合は、現実のシナリオにおけるモデルの堅牢性を高める。 実世界の5つのデータセットの実験を通じて、DynEformerはMT-ECPの動的シーンにおいて最先端の技術を達成し、MT-ECPのための統一されたエンドツーエンド予測スキームを提供した。

Workload prediction in multi-tenant edge cloud platforms (MT-ECP) is vital for efficient application deployment and resource provisioning. However, the heterogeneous application patterns, variable infrastructure performance, and frequent deployments in MT-ECP pose significant challenges for accurate and efficient workload prediction. Clustering-based methods for dynamic MT-ECP modeling often incur excessive costs due to the need to maintain numerous data clusters and models, which leads to excessive costs. Existing end-to-end time series prediction methods are challenging to provide consistent prediction performance in dynamic MT-ECP. In this paper, we propose an end-to-end framework with global pooling and static content awareness, DynEformer, to provide a unified workload prediction scheme for dynamic MT-ECP. Meticulously designed global pooling and information merging mechanisms can effectively identify and utilize global application patterns to drive local workload predictions. The integration of static content-aware mechanisms enhances model robustness in real-world scenarios. Through experiments on five real-world datasets, DynEformer achieved state-of-the-art in the dynamic scene of MT-ECP and provided a unified end-to-end prediction scheme for MT-ECP.
翻訳日:2023-06-05 15:03:17 公開日:2023-06-02
# BabySLM:自己教師型音声言語モデルの言語習得フレンドリーなベンチマーク

BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models ( http://arxiv.org/abs/2306.01506v1 )

ライセンス: Link先を確認
Marvin Lavechin and Yaya Sy and Hadrien Titeux and Mar\'ia Andrea Cruz Bland\'on and Okko R\"as\"anen and Herv\'e Bredin and Emmanuel Dupoux and Alejandrina Cristia(参考訳) 音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。 これらのアプローチの可能性を十分に実現し、幼児が言語を学ぶ方法の理解を深めるために、シミュレーションは発達的に妥当なコーパスのトレーニングと適切なテストセットに対するベンチマークによって、現実の状況を密にエミュレートする必要がある。 そこで本研究では,子どもの言語経験の典型的語彙に適合する語彙と構文レベルでの発話言語モデルを調査するための言語獲得フレンドリなベンチマークを提案する。 本稿では,本ベンチマークを紹介し,その有用性を示す実験を概説する。 さらに,テキストと音声のギャップを埋めることと,クリーンな音声と単語間のギャップを埋めることという,さらなる進歩のために対処する必要がある2つのエキサイティングな課題を強調した。

Self-supervised techniques for learning speech representations have been shown to develop linguistic competence from exposure to speech without the need for human labels. In order to fully realize the potential of these approaches and further our understanding of how infants learn language, simulations must closely emulate real-life situations by training on developmentally plausible corpora and benchmarking against appropriate test sets. To this end, we propose a language-acquisition-friendly benchmark to probe spoken language models at the lexical and syntactic levels, both of which are compatible with the vocabulary typical of children's language experiences. This paper introduces the benchmark and summarizes a range of experiments showing its usefulness. In addition, we highlight two exciting challenges that need to be addressed for further progress: bridging the gap between text and speech and between clean speech and in-the-wild speech.
翻訳日:2023-06-05 15:02:55 公開日:2023-06-02
# 会話における感情認識のための教師付きコントラスト学習

Supervised Adversarial Contrastive Learning for Emotion Recognition in Conversations ( http://arxiv.org/abs/2306.01505v1 )

ライセンス: Link先を確認
Dou Hu, Yinan Bao, Lingwei Wei, Wei Zhou, Songlin Hu(参考訳) 一般化されたロバスト表現の抽出は、会話における感情認識(erc)において大きな課題である。 そこで本研究では,クラススプレッド構造表現を学習するための教師付き対逆学習(SACL)フレームワークを提案する。 本フレームワークは, 対向学習を応用し, 最悪のサンプルを生成するとともに, 対向学習と対向学習の両方に, 対向学習を併用する。 ラベルレベルの機能一貫性を効果的に活用し、クラス内の細かな機能を保持できる。 文脈依存データに対する敵意摂動の悪影響を避けるために,文脈からより多様な特徴を学習し,モデルの文脈ロバスト性を高めるために,文脈対応トレーニング戦略を設計する。 本研究では,ERCのラベル一貫性と文脈特性を学習するためのシーケンスベースSACL-LSTMを提案する。 3つのデータセットの実験により、SACL-LSTMがERCの最先端のパフォーマンスを達成することが示された。 拡張実験はSACLフレームワークの有効性を証明した。

Extracting generalized and robust representations is a major challenge in emotion recognition in conversations (ERC). To address this, we propose a supervised adversarial contrastive learning (SACL) framework for learning class-spread structured representations. The framework applies contrast-aware adversarial training to generate worst-case samples and uses a joint class-spread contrastive learning objective on both original and adversarial samples. It can effectively utilize label-level feature consistency and retain fine-grained intra-class features. To avoid the negative impact of adversarial perturbations on context-dependent data, we design a contextual adversarial training strategy to learn more diverse features from context and enhance the model's context robustness. We develop a sequence-based method SACL-LSTM under this framework, to learn label-consistent and context-robust emotional features for ERC. Experiments on three datasets demonstrate that SACL-LSTM achieves state-of-the-art performance on ERC. Extended experiments prove the effectiveness of the SACL framework.
翻訳日:2023-06-05 15:02:38 公開日:2023-06-02
# 参照型スーパーリゾリューションのためのテクスチャ適応アグリゲーションを用いた特徴再利用フレームワーク

A Feature Reuse Framework with Texture-adaptive Aggregation for Reference-based Super-Resolution ( http://arxiv.org/abs/2306.01500v1 )

ライセンス: Link先を確認
Xiaoyong Mei, Yi Yang, Ming Li, Changqin Huang, Kai Zhang, Pietro Li\'o(参考訳) 参照ベース超解像(RefSR)は、高分解能参照画像を追加し、低分解能(LR)入力をより高周波で再構成し、単一画像超解像(SISR)の限界を克服することで、超解像の分野で大きな成功を収めている。 RefSRの分野におけるこれまでの研究は主に2つの重要な側面に焦点を当ててきた。 1つ目は、LRと参照(Ref)画像との正確な対応である。 2つ目は、Ref画像から類似したテクスチャ情報の効果的転送と集約である。 それにもかかわらず、知覚的損失と敵対的損失の重要な詳細は過小評価されており、テクスチャーの伝達と再構築に一定の悪影響を及ぼす。 本研究では,異なる段階のテクスチャ再構築過程を段階的にガイドする機能再利用フレームワークを提案し,知覚的・対角的損失の負の影響を低減した。 機能再利用フレームワークは、任意のRefSRモデルに使用することができ、いくつかのRefSRアプローチは、我々のフレームワークを使用して再トレーニングされた後、パフォーマンスを改善した。 さらに,単一の画像特徴埋め込みモジュールとテクスチャ対応アグリゲーションモジュールを導入する。 単一の画像特徴埋め込みモジュールは、LR入力自体の特徴の再構築を支援し、無関係なテクスチャを含む可能性を効果的に低下させる。 テクスチャ適応集約モジュールは、動的フィルタを用いてLR入力とRef画像との間のテクスチャ情報を動的に知覚、集約する。 これにより、参照誤用を低減しつつ、参照テクスチャの利用が向上する。 ソースコードはhttps://github.com/yi-yang355/frfsrで入手できる。

Reference-based super-resolution (RefSR) has gained considerable success in the field of super-resolution with the addition of high-resolution reference images to reconstruct low-resolution (LR) inputs with more high-frequency details, thereby overcoming some limitations of single image super-resolution (SISR). Previous research in the field of RefSR has mostly focused on two crucial aspects. The first is accurate correspondence matching between the LR and the reference (Ref) image. The second is the effective transfer and aggregation of similar texture information from the Ref images. Nonetheless, an important detail of perceptual loss and adversarial loss has been underestimated, which has a certain adverse effect on texture transfer and reconstruction. In this study, we propose a feature reuse framework that guides the step-by-step texture reconstruction process through different stages, reducing the negative impacts of perceptual and adversarial loss. The feature reuse framework can be used for any RefSR model, and several RefSR approaches have improved their performance after being retrained using our framework. Additionally, we introduce a single image feature embedding module and a texture-adaptive aggregation module. The single image feature embedding module assists in reconstructing the features of the LR inputs itself and effectively lowers the possibility of including irrelevant textures. The texture-adaptive aggregation module dynamically perceives and aggregates texture information between the LR inputs and the Ref images using dynamic filters. This enhances the utilization of the reference texture while reducing reference misuse. The source code is available at https://github.com/Yi-Yang355/FRFSR.
翻訳日:2023-06-05 15:02:19 公開日:2023-06-02
# GPT-4のようなLLMは認知症診断において従来のAIツールより優れているか? おそらく、しかし今日ではない

Can LLMs like GPT-4 outperform traditional AI tools in dementia diagnosis? Maybe, but not today ( http://arxiv.org/abs/2306.01499v1 )

ライセンス: Link先を確認
Zhuo Wang, Rongzhen Li, Bowen Dong, Jie Wang, Xiuxing Li, Ning Liu, Chenhui Mao, Wei Zhang, Liling Dong, Jing Gao, Jianyong Wang(参考訳) 近年の研究では、大規模言語モデル(特にGPT-4)が、共通自然言語処理(NLP)タスクにおいて顕著な能力を持つだけでなく、様々な専門的・学術的なベンチマークで人間レベルの性能を示すことが示されている。 しかし、GPT-4が実際に利用でき、専門分野における従来の人工知能(AI)ツールを置き換えるためには、さらなる実験的検証が必要である。 本稿では,認知症診断における従来のAIツールよりも優れたLCM(GPT-4)の可能性を探求する。 GPT-4と従来のAIツールの総合的な比較を行い,臨床現場での診断精度を検討した。 2つの実際の臨床データセットの実験結果から、GPT-4のようなLCMは認知症診断の今後の進歩の可能性を示しているが、それらは従来のAIツールの性能を超えていないことが示されている。 また, GPT-4の解釈性および忠実度を, 実際の医師との比較により評価した。 認知症診断におけるGPT-4の限界について検討し,GPT-4の今後の研究方向性を提案する。

Recent investigations show that large language models (LLMs), specifically GPT-4, not only have remarkable capabilities in common Natural Language Processing (NLP) tasks but also exhibit human-level performance on various professional and academic benchmarks. However, whether GPT-4 can be directly used in practical applications and replace traditional artificial intelligence (AI) tools in specialized domains requires further experimental validation. In this paper, we explore the potential of LLMs such as GPT-4 to outperform traditional AI tools in dementia diagnosis. Comprehensive comparisons between GPT-4 and traditional AI tools are conducted to examine their diagnostic accuracy in a clinical setting. Experimental results on two real clinical datasets show that, although LLMs like GPT-4 demonstrate potential for future advancements in dementia diagnosis, they currently do not surpass the performance of traditional AI tools. The interpretability and faithfulness of GPT-4 are also evaluated by comparison with real doctors. We discuss the limitations of GPT-4 in its current state and propose future research directions to enhance GPT-4 in dementia diagnosis.
翻訳日:2023-06-05 15:01:49 公開日:2023-06-02
# CamemBERTaを用いたデータ効率の良いフランス語モデリング

Data-Efficient French Language Modeling with CamemBERTa ( http://arxiv.org/abs/2306.01497v1 )

ライセンス: Link先を確認
Wissam Antoun, Beno\^it Sagot, Djam\'e Seddah(参考訳) NLPの最近の進歩は、様々なタスクにおける言語モデルの性能を大幅に改善した。 これらの進歩は、大量のデータと計算能力の可用性によって大きく推進される一方で、より良いトレーニング方法やアーキテクチャの開発からも恩恵を受けている。 本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築されたフランスのDeBERTaモデルであるCamemBERTaを紹介する。 質問応答,パート・オブ・スパイチ・タギング,依存関係解析,名前付きエンティティ認識,flueベンチマークなど,フランスのダウンストリームタスクやデータセットにおけるモデルのパフォーマンスを評価し,フランス語の最先端モノリンガルモデルであるcamembertと比較した。 その結果、トレーニングトークンの量が同じであれば、私たちのモデルは、ほとんどのタスクにおいてMLMでトレーニングされたBERTベースのモデルよりも優れています。 さらに,新しいモデルでは,入力トークン数の30%しかトレーニングされていないにも関わらず,ダウンストリームタスクにおいて,camembertと同等あるいは優れたパフォーマンスを実現している。 実験結果に加えて、CamemBERTaの重みとコード実装も公開し、オリジナルの論文以外では初めて公開されたDeBERTaV3モデルであり、DeBERTaV3トレーニング目標の最初の公開実装である。 https://gitlab.inria.fr/almanach/CamemBERTa

Recent advances in NLP have significantly improved the performance of language models on a variety of tasks. While these advances are largely driven by the availability of large amounts of data and computational power, they also benefit from the development of better training methods and architectures. In this paper, we introduce CamemBERTa, a French DeBERTa model that builds upon the DeBERTaV3 architecture and training objective. We evaluate our model's performance on a variety of French downstream tasks and datasets, including question answering, part-of-speech tagging, dependency parsing, named entity recognition, and the FLUE benchmark, and compare against CamemBERT, the state-of-the-art monolingual model for French. Our results show that, given the same amount of training tokens, our model outperforms BERT-based models trained with MLM on most tasks. Furthermore, our new model reaches similar or superior performance on downstream tasks compared to CamemBERT, despite being trained on only 30% of its total number of input tokens. In addition to our experimental results, we also publicly release the weights and code implementation of CamemBERTa, making it the first publicly available DeBERTaV3 model outside of the original paper and the first openly available implementation of a DeBERTaV3 training objective. https://gitlab.inria.fr/almanach/CamemBERTa
翻訳日:2023-06-05 15:01:31 公開日:2023-06-02
# 人工知能による科学の加速

Accelerating science with human-aware artificial intelligence ( http://arxiv.org/abs/2306.01495v1 )

ライセンス: Link先を確認
Jamshid Sourati, James Evans(参考訳) 科学的な発見に基づいて訓練された人工知能(AI)モデルは、貴重な材料を発明し、標的とする治療に使われてきたが、典型的には発見の風景を継続的に変える人間の科学者を無視している。 本稿では、専門家が認識的にアクセス可能なシミュレーション推論に教師なしのモデルを訓練することにより、人間の専門知識の分布を組み込むことにより、研究内容のみに重点を置くもの、特に関連文献が不足している場合に、将来の発見のai予測を劇的に改善(最大400%)することを示す。 これらのモデルは、人間の予測とそれを作る科学者を予測することで成功する。 群衆を避けるために人間を意識したAIをチューニングすることで、現在追求されている問題を超えて科学的進歩を刺激する約束を掲げる遠い未来まで、科学的に有望な「アリアン」仮説を想像または追求することなく生成することができる。 人間の発見を加速する、あるいはその盲点を探索するAIは、現代科学の最前線を行き来することを可能にする。

Artificial intelligence (AI) models trained on published scientific findings have been used to invent valuable materials and targeted therapies, but they typically ignore the human scientists who continually alter the landscape of discovery. Here we show that incorporating the distribution of human expertise by training unsupervised models on simulated inferences cognitively accessible to experts dramatically improves (up to 400%) AI prediction of future discoveries beyond those focused on research content alone, especially when relevant literature is sparse. These models succeed by predicting human predictions and the scientists who will make them. By tuning human-aware AI to avoid the crowd, we can generate scientifically promising "alien" hypotheses unlikely to be imagined or pursued without intervention until the distant future, which hold promise to punctuate scientific advance beyond questions currently pursued. Accelerating human discovery or probing its blind spots, human-aware AI enables us to move toward and beyond the contemporary scientific frontier.
翻訳日:2023-06-05 15:01:09 公開日:2023-06-02
# フラストレーションシステムにおけるローカルメッセージパッシング

Local Message Passing on Frustrated Systems ( http://arxiv.org/abs/2306.01494v1 )

ライセンス: Link先を確認
Luca Schmid, Joshua Brenk, Laurent Schmalen(参考訳) 因子グラフ上のメッセージパッシングは、様々な科学的領域で重要な応用を見つける確率的推論の強力なフレームワークである。 最も広範なメッセージパッシング方式はSPA(Sum-product Algorithm)であり、木について正確な結果を与えるが、小さな周期のグラフでは失敗することが多い。 このような循環グラフで特にうまく機能する代替メッセージパッシングアルゴリズムを探索する。 そこで我々は,SPAの外部原理に挑戦し,サイクルを持つグラフの目的を損なう。 さらに、基礎となるグラフの係数ノードにおけるローカルSPAメッセージ更新ルールを、データ駆動方式で最適化されたジェネリックマッピングに置き換える。 これらの変更は、spaの単純さを保ちながら、パフォーマンスを大幅に向上させる。 シンボル間干渉を伴う線形通信路上でのシンボル検出のための2x2完全連結イジング格子と因子グラフの2種類の循環グラフについて評価を行った。 本手法は,統計物理学のbethe近似に触発された新しい損失関数を開発し,教師なしの方法でのトレーニングを可能にする。

Message passing on factor graphs is a powerful framework for probabilistic inference, which finds important applications in various scientific domains. The most wide-spread message passing scheme is the sum-product algorithm (SPA) which gives exact results on trees but often fails on graphs with many small cycles. We search for an alternative message passing algorithm that works particularly well on such cyclic graphs. Therefore, we challenge the extrinsic principle of the SPA, which loses its objective on graphs with cycles. We further replace the local SPA message update rule at the factor nodes of the underlying graph with a generic mapping, which is optimized in a data-driven fashion. These modifications lead to a considerable improvement in performance while preserving the simplicity of the SPA. We evaluate our method for two classes of cyclic graphs: the 2x2 fully connected Ising grid and factor graphs for symbol detection on linear communication channels with inter-symbol interference. To enable the method for large graphs as they occur in practical applications, we develop a novel loss function that is inspired by the Bethe approximation from statistical physics and allows for training in an unsupervised fashion.
翻訳日:2023-06-05 15:00:48 公開日:2023-06-02
# エネルギーモデルの特徴多様性について

On Feature Diversity in Energy-based Models ( http://arxiv.org/abs/2306.01489v1 )

ライセンス: Link先を確認
Firas Laakom, Jenni Raitoharju, Alexandros Iosifidis, Moncef Gabbouj(参考訳) エネルギーベースの学習は、様々な識別的および生成的アプローチをカプセル化する強力な学習パラダイムである。 エネルギーベースモデル(EBM)は通常、異なる特徴の組み合わせを学習し、入力構成ごとにエネルギーマッピングを生成する内部モデルによって構成される。 本稿では,生成した特徴集合の多様性に着目した。 EBMのほぼ正しい(PAC)理論を拡張し,EBMの性能に及ぼす冗長性低減の影響を解析した。 我々は、様々な学習文脈、すなわち回帰、分類、暗黙回帰の一般化境界をエネルギー関数で導き、特徴集合の冗長性を実際に減少させることで、エネルギーの真の期待と経験的な期待のギャップを一貫して減らし、モデルの性能を高めることを示す。

Energy-based learning is a powerful learning paradigm that encapsulates various discriminative and generative approaches. An energy-based model (EBM) is typically formed of inner-model(s) that learn a combination of the different features to generate an energy mapping for each input configuration. In this paper, we focus on the diversity of the produced feature set. We extend the probably approximately correct (PAC) theory of EBMs and analyze the effect of redundancy reduction on the performance of EBMs. We derive generalization bounds for various learning contexts, i.e., regression, classification, and implicit regression, with different energy functions and we show that indeed reducing redundancy of the feature set can consistently decrease the gap between the true and empirical expectation of the energy and boosts the performance of the model.
翻訳日:2023-06-05 15:00:30 公開日:2023-06-02
# 医用画像合成のための注意型生成モデル

An Attentive-based Generative Model for Medical Image Synthesis ( http://arxiv.org/abs/2306.01562v1 )

ライセンス: Link先を確認
Jiayuan Wang, Q. M. Jonathan Wu and Farhad Farhad(参考訳) 磁気共鳴(MR)とコンピュータ断層撮影(CT)は、疾患の診断や計画治療に有用なツールである。 しかし、放射線照射やコストといった制限は、特定の画像モダリティへのアクセスを制限する可能性がある。 この問題に対処するため、医用画像合成は他のモデルから1つのモダリティを生成することができるが、既存のモデルの多くは、データセットに複数のスライスが存在する場合、高品質な画像合成に苦労している。 本研究では,複数のスライスを用いた非ペアデータから医用画像を合成できるadc-cycleganと呼ばれる注意に基づく二重コントラスト生成モデルを提案する。 このモデルは、二重コントラスト損失項とCycleGAN損失を統合し、合成された画像がソース領域と区別可能であることを保証する。 さらに、注意機構をジェネレータに組み込んで、チャネル領域と空間領域の両方から情報的特徴を抽出する。 複数のスライスを扱う場合のパフォーマンスを改善するために、$K$-meansアルゴリズムを使用してデータセットを$K$グループにクラスタし、各グループが別々のADCサイクルGANをトレーニングする。 実験の結果,提案したADCサイクルGANモデルは他の最先端生成モデルと同等のサンプルを生成し,それぞれ19.04385および0.68551のPSNRおよびSSIM値を達成した。 コードをhttps://github.com/JiayuanWang-JW/ADC-cycleGANで公開しています。

Magnetic resonance (MR) and computer tomography (CT) imaging are valuable tools for diagnosing diseases and planning treatment. However, limitations such as radiation exposure and cost can restrict access to certain imaging modalities. To address this issue, medical image synthesis can generate one modality from another, but many existing models struggle with high-quality image synthesis when multiple slices are present in the dataset. This study proposes an attention-based dual contrast generative model, called ADC-cycleGAN, which can synthesize medical images from unpaired data with multiple slices. The model integrates a dual contrast loss term with the CycleGAN loss to ensure that the synthesized images are distinguishable from the source domain. Additionally, an attention mechanism is incorporated into the generators to extract informative features from both channel and spatial domains. To improve performance when dealing with multiple slices, the $K$-means algorithm is used to cluster the dataset into $K$ groups, and each group is used to train a separate ADC-cycleGAN. Experimental results demonstrate that the proposed ADC-cycleGAN model produces comparable samples to other state-of-the-art generative models, achieving the highest PSNR and SSIM values of 19.04385 and 0.68551, respectively. We publish the code at https://github.com/JiayuanWang-JW/ADC-cycleGAN.
翻訳日:2023-06-05 14:53:06 公開日:2023-06-02
# 結合モデルと連鎖モデルの比較による最寄りの視覚物体の同定

Comparing a composite model versus chained models to locate a nearest visual object ( http://arxiv.org/abs/2306.01551v1 )

ライセンス: Link先を確認
Antoine Le Borgne, Xavier Marjou, Fanny Parzysz, Tayeb Lemlouma(参考訳) 地理画像やテキストから情報を抽出することは、自動運転車が将来の経路に沿って接続する最適なセルステーションを事前に決めるのに不可欠である。 複数の人工ニューラルネットワークモデルがこの課題に対処できるが、そのようなユースケースに適したモデルの選択に関する決定的なガイダンスはない。 そこで我々は,この課題を解決するために,チェーン内の各モデルがタスクのサブタスクに対処するチェーンモデルを持つ最初のアーキテクチャと,タスク全体を扱う単一モデルを持つ2番目のアーキテクチャの2つのアーキテクチャを実験した。 以上の結果から,これらの2つのアーキテクチャは根平均二乗誤差(RMSE)を0.055および0.056と同等に達成し,タスクをサブタスクに分解できる場合,チェーンアーキテクチャは複合モデルと比較して12倍のトレーニング速度向上を示すことが明らかとなった。 それでも、複合モデルはデータラベリングの負担を大幅に軽減する。

Extracting information from geographic images and text is crucial for autonomous vehicles to determine in advance the best cell stations to connect to along their future path. Multiple artificial neural network models can address this challenge; however, there is no definitive guidance on the selection of an appropriate model for such use cases. Therefore, we experimented two architectures to solve such a task: a first architecture with chained models where each model in the chain addresses a sub-task of the task; and a second architecture with a single model that addresses the whole task. Our results showed that these two architectures achieved the same level performance with a root mean square error (RMSE) of 0.055 and 0.056; The findings further revealed that when the task can be decomposed into sub-tasks, the chain architecture exhibits a twelve-fold increase in training speed compared to the composite model. Nevertheless, the composite model significantly alleviates the burden of data labeling.
翻訳日:2023-06-05 14:52:42 公開日:2023-06-02
# 超高速半導体分光のための連続可変量子光学と資源理論

Continuous-variable quantum optics and resource theory for ultrafast semiconductor spectroscopy ( http://arxiv.org/abs/2306.01550v1 )

ライセンス: Link先を確認
Carolin L\"uders, Franziska Barkhausen, Matthias Pukrop, Elena Rozas, Jan Sperling, Stefan Schumacher, Marc A{\ss}mann(参考訳) 本稿では,超高速ダイナミクスを持つ半導体システムにおける量子コヒーレンスと光-マター相互作用を連続可変分光法を用いて検討する。 ポラリトン系の量子コヒーレンスと全密度行列を測定するための強力なツールとして,マルチチャネルホモダイン検出に着目した。 偏光子凝縮体における量子コヒーレンスの時間減衰を観測することにより、ナノ秒スケールを超えるコヒーレンス時間を観察する。 我々の研究は概念実証実験と数値シミュレーションによって支えられ、現代の量子プロトコルにおける生成したシステム状態の資源性の向上を実証した。 ここで提示されるリソース量子化器と超高速分光技術の組み合わせは、量子情報技術の将来の応用への道を開くものである。

In this review, we discuss the use of continuous variable spectroscopy techniques for investigating quantum coherence and light-matter interactions in semiconductor systems with ultrafast dynamics. We focus on multichannel homodyne detection as a powerful tool to measure the quantum coherence and the full density matrix of a polariton system. By monitoring the temporal decay of quantum coherence in the polariton condensate, we observe coherence times exceeding the nanosecond scale. Our findings, supported by proof-of-concept experiments and numerical simulations, demonstrate the enhanced resourcefulness of the produced system states for modern quantum protocols. The combination of tailored resource quantifiers and ultrafast spectroscopy techniques presented here paves the way for future applications of quantum information technologies.
翻訳日:2023-06-05 14:52:25 公開日:2023-06-02
# 共形予測分布を用いた機械翻訳品質の評価

Evaluating Machine Translation Quality with Conformal Predictive Distributions ( http://arxiv.org/abs/2306.01549v1 )

ライセンス: Link先を確認
Patrizio Giovannotti(参考訳) 本稿では,機械翻訳における不確実性を評価するための新しい手法を提案する。 提案手法では, コンフォメーション予測分布を用いて, カバー範囲が保証された予測区間を生成する。つまり, 任意の意味レベル$\epsilon$に対して, 翻訳の真の品質スコアが1-\epsilon$のレートで区間から外れることが期待できる。 本稿では,この手法が6つの異なる言語ペアにおいて,カバレッジとシャープネスの点で,単純かつ効果的なベースラインに勝ることを示す。 さらに,本手法では最適な性能を得るためにデータ交換可能性の仮定が必要であることを検証する。

This paper presents a new approach for assessing uncertainty in machine translation by simultaneously evaluating translation quality and providing a reliable confidence score. Our approach utilizes conformal predictive distributions to produce prediction intervals with guaranteed coverage, meaning that for any given significance level $\epsilon$, we can expect the true quality score of a translation to fall out of the interval at a rate of $1-\epsilon$. In this paper, we demonstrate how our method outperforms a simple, but effective baseline on six different language pairs in terms of coverage and sharpness. Furthermore, we validate that our approach requires the data exchangeability assumption to hold for optimal performance.
翻訳日:2023-06-05 14:52:13 公開日:2023-06-02
# 乳腺病理組織学h&e全スライダー画像の公開データセット:系統的検討

Publicly available datasets of breast histopathology H&E whole-slide images: A systematic review ( http://arxiv.org/abs/2306.01546v1 )

ライセンス: Link先を確認
Masoud Tafavvoghi (1), Lars Ailo Bongo (2), Nikita Shvetsov (2), Lill-Tove Rasmussen Busund (3), Kajsa M{\o}llersen (1) ((1) Department of Community Medicine, UiT The Arctic University of Norway, Troms{\o}, Norway, (2) Department of Computer Science, UiT The Arctic University of Norway, Troms{\o}, Norway, (3) Department of Medical Biology, UiT The Arctic University of Norway, Troms{\o}, Norway)(参考訳) デジタル病理学と計算資源の進歩は、乳がんの診断と治療のための計算病理学の分野に大きな影響を与えた。 しかし、乳がんの良質なラベル付き病理像へのアクセスは、正確で堅牢なディープラーニングモデルの開発を制限する大きな課題である。 この体系的なレビューでは、深層学習アルゴリズムの開発に使用できる胸部H&E染色スライディング画像(WSI)の公開データセットを特定した。 9つの科学文献データベースと9つの研究データリポジトリを体系的に検索した。 乳がん5153例のH&E WSIを含む公開データセットを12件発見した。 さらに,各データセットの画像メタデータと特徴を報告し,乳癌の計算病理における特定のタスクに適したデータセットの選択を支援する。 さらに,本論文に含まれるパッチデータセットとプライベートデータセットの一覧を,研究者の補足リソースとしてまとめた。 特に、対象記事の22%が複数のデータセットを使用しており、外部検証セットを使用した記事はわずか12%であり、他の先進モデルの性能が過大評価される可能性があることを示唆している。 TCGA-BRCAは、選択された研究の47.4%で使用された。 このデータセットには、トレーニングされたアルゴリズムの堅牢性と一般化性に影響を与える、かなりの選択バイアスがある。 また、正確なディープラーニングモデルを開発する際に問題となる、胸部wsiデータセットの一貫したメタデータレポートが欠如しており、胸部wsiデータセットの特徴とメタデータを文書化する明確なガイドラインを確立する必要性を示している。

Advancements in digital pathology and computing resources have made a significant impact in the field of computational pathology for breast cancer diagnosis and treatment. However, access to high-quality labeled histopathological images of breast cancer is a big challenge that limits the development of accurate and robust deep learning models. In this systematic review, we identified the publicly available datasets of breast H&E stained whole-slide images (WSI) that can be used to develop deep learning algorithms. We systematically searched nine scientific literature databases and nine research data repositories. We found twelve publicly available datasets, containing 5153 H&E WSIs of breast cancer. Moreover, we reported image metadata and characteristics for each dataset to assist researchers in selecting proper datasets for specific tasks in breast cancer computational pathology. In addition, we compiled a list of patch and private datasets that were used in the included articles as a supplementary resource for researchers. Notably, 22% of the included articles utilized multiple datasets, and only 12% of the articles used an external validation set, suggesting that the performance of other developed models may be susceptible to overestimation. The TCGA-BRCA was used in 47.4% of the selected studies. This dataset has a considerable selection bias that can impact the robustness and generalizability of the trained algorithms. There is also a lack of consistent metadata reporting of breast WSI datasets that can be an issue in developing accurate deep learning models, indicating the necessity of establishing explicit guidelines for documenting breast WSI dataset characteristics and metadata.
翻訳日:2023-06-05 14:52:00 公開日:2023-06-02
# PassGPT: 大きな言語モデルを用いたパスワードモデリングと(ガイド付き)生成

PassGPT: Password Modeling and (Guided) Generation with Large Language Models ( http://arxiv.org/abs/2306.01545v1 )

ライセンス: Link先を確認
Javier Rando and Fernando Perez-Cruz and Briland Hitaj(参考訳) 大規模言語モデル(LLM)は、明示的な監督なしに大量のテキストから自然言語をモデル化することに成功した。 本稿では,パスワードのモデリングにおけるLLMの有効性について検討する。 パスワード生成のためのパスワードリークを訓練したllmであるpassgptを提案する。 passgptは、従来の2倍のパスワードを推測することで、generative adversarial networks (gan) に基づく既存の方法よりも優れています。 さらに,任意の制約に対応するパスワードを生成するためにPassGPTサンプリング手法を利用する誘導型パスワード生成の概念を導入する。 最後に、passgptがパスワード上で定義しているエントロピーと確率分布の詳細な分析を行い、既存のパスワード強度推定器の強化における使用について論じる。

Large language models (LLMs) successfully model natural language from vast amounts of text without the need for explicit supervision. In this paper, we investigate the efficacy of LLMs in modeling passwords. We present PassGPT, a LLM trained on password leaks for password generation. PassGPT outperforms existing methods based on generative adversarial networks (GAN) by guessing twice as many previously unseen passwords. Furthermore, we introduce the concept of guided password generation, where we leverage PassGPT sampling procedure to generate passwords matching arbitrary constraints, a feat lacking in current GAN-based strategies. Lastly, we conduct an in-depth analysis of the entropy and probability distribution that PassGPT defines over passwords and discuss their use in enhancing existing password strength estimators.
翻訳日:2023-06-05 14:51:37 公開日:2023-06-02
# panogrf:広基線パノラマの一般化可能な球面放射場

PanoGRF: Generalizable Spherical Radiance Fields for Wide-baseline Panoramas ( http://arxiv.org/abs/2306.01531v1 )

ライセンス: Link先を確認
Zheng Chen, Yan-Pei Cao, Yuan-Chen Guo, Chen Wang, Ying Shan, Song-Hai Zhang(参考訳) 6自由度(6DoF)で仮想環境を探索できる没入型体験を実現することは、仮想現実(VR)のような様々なアプリケーションに不可欠である。 広帯域パノラマは、ネットワーク帯域幅とストレージ要求を減らすために一般的に使用される。 しかし、これらのパノラマから新しい視点を合成することは重要な課題である。 既存のニューラルラディアンス場法は、細いベースラインと密集したイメージキャプチャーの下でフォトリアリスティックなビューを生成することができるが、スパース360^{\circ}$ビューから正確な幾何学を学ぶのが難しいため、 'emph{wide-baseline} panoramas' を扱う場合、トレーニングビューに適合する傾向にある。 この問題に対処するため,我々は,360^{\circ}$シーンプリエントを含む球面ラミアンス場を構成する広基線パノラマに対して,一般化可能な球面ラミアンスフィールドであるpanogrfを提案する。 パースペクティブ画像で訓練された一般化された放射輝度場とは異なり、パノラマからパースペクティブへの変換による情報損失を回避し、球面投影に基づく各パノラマ視点からの3dサンプル点の形状と外観の特徴を直接集約する。 さらに、パノラマの一部の領域は1つの視点でしか見えず、他の領域からは広いベースライン設定で見えないため、パノラマは360^{\circ}$単眼深度を球面深度推定に組み込んで幾何学的特徴を改善する。 複数のパノラマデータセットの実験的結果は、panogrfが広帯域パノラマ(例えばomnisyn)とパースペクティブ画像(例えばibrnet、neuray)の最先端の汎用ビュー合成法を大幅に上回っていることを示している。

Achieving an immersive experience enabling users to explore virtual environments with six degrees of freedom (6DoF) is essential for various applications such as virtual reality (VR). Wide-baseline panoramas are commonly used in these applications to reduce network bandwidth and storage requirements. However, synthesizing novel views from these panoramas remains a key challenge. Although existing neural radiance field methods can produce photorealistic views under narrow-baseline and dense image captures, they tend to overfit the training views when dealing with \emph{wide-baseline} panoramas due to the difficulty in learning accurate geometry from sparse $360^{\circ}$ views. To address this problem, we propose PanoGRF, Generalizable Spherical Radiance Fields for Wide-baseline Panoramas, which construct spherical radiance fields incorporating $360^{\circ}$ scene priors. Unlike generalizable radiance fields trained on perspective images, PanoGRF avoids the information loss from panorama-to-perspective conversion and directly aggregates geometry and appearance features of 3D sample points from each panoramic view based on spherical projection. Moreover, as some regions of the panorama are only visible from one view while invisible from others under wide baseline settings, PanoGRF incorporates $360^{\circ}$ monocular depth priors into spherical depth estimation to improve the geometry features. Experimental results on multiple panoramic datasets demonstrate that PanoGRF significantly outperforms state-of-the-art generalizable view synthesis methods for wide-baseline panoramas (e.g., OmniSyn) and perspective images (e.g., IBRNet, NeuRay).
翻訳日:2023-06-05 14:51:26 公開日:2023-06-02
# AUCの最適化に費用はかかるか?

Does it pay to optimize AUC? ( http://arxiv.org/abs/2306.01528v1 )

ライセンス: Link先を確認
Baojian Zhou, Steven Skiena(参考訳) ROC曲線下の領域(AUC)はバイナリ分類器を評価するための重要なモデル計量であり、AUCを概ね最適化するために多くのアルゴリズムが提案されている。 これは、以前の研究で観察された一般に重要でない利益が、メトリックの固有の制限か、最適化の不十分な品質に起因するかという疑問を提起する。 AUC の最適化値をよりよく理解するために,$n_+$ と $n_+$ が正および負のサンプル数である $\mathcal{O}(n_+ n_- \log (n_+ n_-))$ で実行される$\mathbb{R}^2$ の証明可能な最適 AUC 線形分類器を求めるアルゴリズム,すなわち AUC-opt を提案する。 さらに、これは自然に$\mathbb{R}^d$ in $\mathcal{O}((n_+n_-)^{d-1}\log (n_+n_-)$に拡張することができる。 d$ が固定されていないとき、問題は NP 完全であることが証明され、 \textit{open hemisphere problem} から導かれる。 実験の結果,AUC-optは他の手法と比較して17~40 in $\mathbb{R}^2$,4~42 in $\mathbb{R}^3$ of 50 t-SNEトレーニングデータセットに対して統計的に有意な改善が得られた。 しかし、一般的にゲインは、最高の標準分類器と比較して、ほとんどのテストデータセットにおいて重要でないことが証明される。 同様の観測は、実世界のデータセットの下で非線形AUC法でも見られる。

The Area Under the ROC Curve (AUC) is an important model metric for evaluating binary classifiers, and many algorithms have been proposed to optimize AUC approximately. It raises the question of whether the generally insignificant gains observed by previous studies are due to inherent limitations of the metric or the inadequate quality of optimization. To better understand the value of optimizing for AUC, we present an efficient algorithm, namely AUC-opt, to find the provably optimal AUC linear classifier in $\mathbb{R}^2$, which runs in $\mathcal{O}(n_+ n_- \log (n_+ n_-))$ where $n_+$ and $n_-$ are the number of positive and negative samples respectively. Furthermore, it can be naturally extended to $\mathbb{R}^d$ in $\mathcal{O}((n_+n_-)^{d-1}\log (n_+n_-))$ by calling AUC-opt in lower-dimensional spaces recursively. We prove the problem is NP-complete when $d$ is not fixed, reducing from the \textit{open hemisphere problem}. Experiments show that compared with other methods, AUC-opt achieves statistically significant improvements on between 17 to 40 in $\mathbb{R}^2$ and between 4 to 42 in $\mathbb{R}^3$ of 50 t-SNE training datasets. However, generally the gain proves insignificant on most testing datasets compared to the best standard classifiers. Similar observations are found for nonlinear AUC methods under real-world datasets.
翻訳日:2023-06-05 14:50:46 公開日:2023-06-02
# 物体検出のためのグループチャネルプルーニングと空間的注意蒸留

Group channel pruning and spatial attention distilling for object detection ( http://arxiv.org/abs/2306.01526v1 )

ライセンス: Link先を確認
Yun Chu, Pu Li, Yong Bai, Zhuhua Hu, Yongqing Chen and Jiafeng Lu(参考訳) ニューラルネットワークの過度パラメータ化により、プルーニングと量子化に基づくモデル圧縮法が数多く出現している。 それらはモデルのサイズ、パラメータ数、計算の複雑さを減少させるのに顕著である。 しかし、そのような方法で圧縮されたモデルのほとんどは特別なハードウェアとソフトウェアをサポートする必要があり、デプロイメントコストが増大する。 また、これらの手法は主に分類タスクで使われ、検出タスクで直接使用されることは稀である。 これらの問題に対処するため,オブジェクト検出ネットワークでは,動的スパーストレーニング,グループチャネルプルーニング,空間注意蒸留という3段階モデル圧縮手法を導入する。 まず、ネットワーク内の重要でないチャネルを選択し、空間性と精度のバランスをよく保ちながら、可変スパース率を導入し、ネットワークのトレーニングプロセスでスパース率を変化させるダイナミックスパーストレーニング手法を提案する。 次に,ネットワーク精度への影響を低減するため,グループチャネルプルーニングと呼ばれる新しいプルーニング手法を提案する。 特に,特徴層のスケールとモジュール構造の類似性に応じて,ネットワークを複数のグループに分割し,異なるプルーニングしきい値を用いて各グループ内のチャネルをプルークする。 最後に,prunedネットワークの精度を回復するために,prunedネットワークの知識蒸留法を改良した。 特に,蒸留の知識として,各グループの特定スケールの特徴マップから空間的注意情報を抽出する。 実験では,オブジェクト検出ネットワークとしてYOLOv4,トレーニングデータセットとしてPASCALVOCを用いた。 本手法はモデルのパラメータを64.7%削減し,計算量を34.9%削減する。

Due to the over-parameterization of neural networks, many model compression methods based on pruning and quantization have emerged. They are remarkable in reducing the size, parameter number, and computational complexity of the model. However, most of the models compressed by such methods need the support of special hardware and software, which increases the deployment cost. Moreover, these methods are mainly used in classification tasks, and rarely directly used in detection tasks. To address these issues, for the object detection network we introduce a three-stage model compression method: dynamic sparse training, group channel pruning, and spatial attention distilling. Firstly, to select out the unimportant channels in the network and maintain a good balance between sparsity and accuracy, we put forward a dynamic sparse training method, which introduces a variable sparse rate, and the sparse rate will change with the training process of the network. Secondly, to reduce the effect of pruning on network accuracy, we propose a novel pruning method called group channel pruning. In particular, we divide the network into multiple groups according to the scales of the feature layer and the similarity of module structure in the network, and then we use different pruning thresholds to prune the channels in each group. Finally, to recover the accuracy of the pruned network, we use an improved knowledge distillation method for the pruned network. Especially, we extract spatial attention information from the feature maps of specific scales in each group as knowledge for distillation. In the experiments, we use YOLOv4 as the object detection network and PASCAL VOC as the training dataset. Our method reduces the parameters of the model by 64.7 % and the calculation by 34.9%.
翻訳日:2023-06-05 14:50:11 公開日:2023-06-02
# マルチラベルリモートセンシング画像分類のためのトランスフォーマーに基づくマルチモーダル学習

Transformer-based Multi-Modal Learning for Multi Label Remote Sensing Image Classification ( http://arxiv.org/abs/2306.01523v1 )

ライセンス: Link先を確認
David Hoffmann, Kai Norman Clasen and Beg\"um Demir(参考訳) 本稿では,リモートセンシング(rs)画像のマルチモーダルマルチラベル分類(mlc)の枠組みにおいて,新しい同期型クラストークン融合(sct fusion)アーキテクチャを提案する。 提案アーキテクチャは,各トランスフォーマーエンコーダブロックの後に特別なクラストークンを同期させることにより,様々な入力モダリティの処理を行う。 同期は、クラストークンを訓練可能な融合変換と融合させ、結果としてすべてのモダリティの情報を含む同期クラストークンとなる。 融合変換は訓練可能であるため、異なるモダリティ間で共有された特徴の正確な表現に到達することができる。 実験の結果,マルチモーダルmlcデータセット上で評価した場合,単一モダリティアーキテクチャと早期融合マルチモーダルアーキテクチャに対する提案アーキテクチャの有効性が示された。 提案されたアーキテクチャのコードはhttps://git.tu-berlin.de/rsim/sct-fusionで公開されている。

In this paper, we introduce a novel Synchronized Class Token Fusion (SCT Fusion) architecture in the framework of multi-modal multi-label classification (MLC) of remote sensing (RS) images. The proposed architecture leverages modality-specific attention-based transformer encoders to process varying input modalities, while exchanging information across modalities by synchronizing the special class tokens after each transformer encoder block. The synchronization involves fusing the class tokens with a trainable fusion transformation, resulting in a synchronized class token that contains information from all modalities. As the fusion transformation is trainable, it allows to reach an accurate representation of the shared features among different modalities. Experimental results show the effectiveness of the proposed architecture over single-modality architectures and an early fusion multi-modal architecture when evaluated on a multi-modal MLC dataset. The code of the proposed architecture is publicly available at https://git.tu-berlin.de/rsim/sct-fusion.
翻訳日:2023-06-05 14:49:46 公開日:2023-06-02
# 対応のない2次元幾何学

Two-View Geometry Scoring Without Correspondences ( http://arxiv.org/abs/2306.01596v1 )

ライセンス: Link先を確認
Axel Barroso-Laguna, Eric Brachmann, Victor Adrian Prisacariu, Gabriel J. Brostow, Daniyar Turmukhambetov(参考訳) カメラのポーズ推定は伝統的にRANSACに依存している。 通常、多数の画像対応は、提案された仮説のプールにつながり、勝利モデルを見つけるためにスコアが与えられる。 インリアー数は一般に「合意」の信頼できる指標と見なされる。 このスコアリングヒューリスティックを検証したところ、特定の状況下では失望するモデルを好むことがわかった。 本稿では,一対の重なり合う画像と基本行列のスコアを推定する基本スコアネットワーク(FSNet)を提案する。 スパース対応には依存せず、2つの画像のポーズ誤差を予測するエピポーラアテンション機構を通じて2次元幾何学モデルを具現化する。 FSNetは従来のRANSACループに組み込むことができる。 我々は,FSNetを屋内および屋外データセットの基本的および本質的な行列推定に基づいて評価し,FSNetが少ないあるいは信頼性の低い画像のペアに対してよいポーズを識別できることを確かめた。 さらに,FSNet と MAGSAC++ のスコアリング手法を鼻で組み合わせることで,その結果が得られた。

Camera pose estimation for two-view geometry traditionally relies on RANSAC. Normally, a multitude of image correspondences leads to a pool of proposed hypotheses, which are then scored to find a winning model. The inlier count is generally regarded as a reliable indicator of "consensus". We examine this scoring heuristic, and find that it favors disappointing models under certain circumstances. As a remedy, we propose the Fundamental Scoring Network (FSNet), which infers a score for a pair of overlapping images and any proposed fundamental matrix. It does not rely on sparse correspondences, but rather embodies a two-view geometry model through an epipolar attention mechanism that predicts the pose error of the two images. FSNet can be incorporated into traditional RANSAC loops. We evaluate FSNet on fundamental and essential matrix estimation on indoor and outdoor datasets, and establish that FSNet can successfully identify good poses for pairs of images with few or unreliable correspondences. Besides, we show that naively combining FSNet with MAGSAC++ scoring approach achieves state of the art results.
翻訳日:2023-06-05 14:43:38 公開日:2023-06-02
# 生体画像分類のための自己注意型視覚変換器の開発

A Novel Vision Transformer with Residual in Self-attention for Biomedical Image Classification ( http://arxiv.org/abs/2306.01594v1 )

ライセンス: Link先を確認
Arun K. Sharma, Nishchal K. Sharma(参考訳) 生物医学的画像分類は、特定の特徴分布に基づくバイオインフォマティクスのキャプチャを必要とする。 このようなアプリケーションのほとんどは、病気の患者に対するサンプルの可用性の制限とデータセットのバランスのとれた性質のため、主に課題がある。 本稿では,視覚トランスフォーマー (vit) のための多頭部セルフアテンション(multi-head self-attention) の枠組みについて述べる。 提案手法では,複数頭部注意のブロック毎に最適な注意出力を蓄積するために残留接続の概念を用いる。 提案するフレームワークは2つの小さなデータセットで評価されている。 (i)血液細胞分類データセット及び (ii)脳MRI画像による脳腫瘍の検出。 その結果、従来のViTや他の畳み込みに基づく最先端分類モデルよりも顕著な改善が見られた。

Biomedical image classification requires capturing of bio-informatics based on specific feature distribution. In most of such applications, there are mainly challenges due to limited availability of samples for diseased cases and imbalanced nature of dataset. This article presents the novel framework of multi-head self-attention for vision transformer (ViT) which makes capable of capturing the specific image features for classification and analysis. The proposed method uses the concept of residual connection for accumulating the best attention output in each block of multi-head attention. The proposed framework has been evaluated on two small datasets: (i) blood cell classification dataset and (ii) brain tumor detection using brain MRI images. The results show the significant improvement over traditional ViT and other convolution based state-of-the-art classification models.
翻訳日:2023-06-05 14:43:22 公開日:2023-06-02
# ChatGPTを用いたログ解析の評価

An Evaluation of Log Parsing with ChatGPT ( http://arxiv.org/abs/2306.01590v1 )

ライセンス: Link先を確認
Van-Hoang Le and Hongyu Zhang(参考訳) ソフトウェアログは、しばしばランタイム情報の唯一のソースであるため、大規模ソフトウェアシステムの信頼性と保守性を保証する上で重要な役割を果たす。 生ログメッセージを構造化データに変換するログ解析は、下流ログ分析への重要なステップである。 最近の研究では、現在の最先端の大規模言語モデル(LLM)であるChatGPTが、幅広いソフトウェアエンジニアリングタスクに広く適用されている。 しかし、自動ログ解析のパフォーマンスは未だに不明である。 本稿では,ChatGPTが2つの研究課題に対処してログ解析を行う能力を評価する。 1) ChatGPT はログを効果的に解析できるか? (2) ChatGPTは、異なるプロンプトメソッドでどのように動作するか? 以上の結果から,ChatGPTはログ解析において,特に数発のプロンプトで,適切なプロンプトで有望な結果が得られることがわかった。 本稿では,ChatGPTに基づくログ解析の課題と可能性について概説する。

Software logs play an essential role in ensuring the reliability and maintainability of large-scale software systems, as they are often the sole source of runtime information. Log parsing, which converts raw log messages into structured data, is an important initial step towards downstream log analytics. In recent studies, ChatGPT, the current cutting-edge large language model (LLM), has been widely applied to a wide range of software engineering tasks. However, its performance in automated log parsing remains unclear. In this paper, we evaluate ChatGPT's ability to undertake log parsing by addressing two research questions. (1) Can ChatGPT effectively parse logs? (2) How does ChatGPT perform with different prompting methods? Our results show that ChatGPT can achieve promising results for log parsing with appropriate prompts, especially with few-shot prompting. Based on our findings, we outline several challenges and opportunities for ChatGPT-based log parsing.
翻訳日:2023-06-05 14:43:11 公開日:2023-06-02
# GNNとカーネル平均埋め込みを用いた原子シミュレーションのための伝達学習

Transfer learning for atomistic simulations using GNNs and kernel mean embeddings ( http://arxiv.org/abs/2306.01589v1 )

ライセンス: Link先を確認
John Falk, Luigi Bonati, Pietro Novelli, Michele Parinello, Massimiliano Pontil(参考訳) 機械学習を用いて学習した原子間ポテンシャルは原子論シミュレーションにうまく応用されている。 しかし、ディープラーニングパイプラインはデータ不足で悪名高い一方、参照計算の生成は計算的に要求される。 この課題を克服するために,グラフニューラルネットワーク(gnns)の化学環境記述能力とカーネル平均埋め込みを活用した転送学習アルゴリズムを提案する。 OC20データセット上で事前学習したGNNの特徴マップを抽出し,それを用いて触媒プロセスのシステム固有のデータセットからポテンシャルエネルギー面を学習する。 本手法は, 化学種情報を組み込んだフレキシブルカーネル機能によりさらに拡張され, 性能と解釈性が向上する。 我々は,GNNやリッジレグレッションのみに依存する手法,および類似の微調整手法を改良し,複雑性を増大させ,優れた一般化と転送可能性性能を示す一連の現実的なデータセットを検証した。 コードはhttps://github.com/IsakFalk/atomistic_transfer_mekrrでコミュニティに公開しています。

Interatomic potentials learned using machine learning methods have been successfully applied to atomistic simulations. However, deep learning pipelines are notoriously data-hungry, while generating reference calculations is computationally demanding. To overcome this difficulty, we propose a transfer learning algorithm that leverages the ability of graph neural networks (GNNs) in describing chemical environments, together with kernel mean embeddings. We extract a feature map from GNNs pre-trained on the OC20 dataset and use it to learn the potential energy surface from system-specific datasets of catalytic processes. Our method is further enhanced by a flexible kernel function that incorporates chemical species information, resulting in improved performance and interpretability. We test our approach on a series of realistic datasets of increasing complexity, showing excellent generalization and transferability performance, and improving on methods that rely on GNNs or ridge regression alone, as well as similar fine-tuning approaches. We make the code available to the community at https://github.com/IsakFalk/atomistic_transfer_mekrr.
翻訳日:2023-06-05 14:42:56 公開日:2023-06-02
# 量子多体検出確率における相互作用誘起相転移

Interaction induced phase transition in quantum many-body detection probability ( http://arxiv.org/abs/2306.01586v1 )

ライセンス: Link先を確認
Archak Purkayastha, Alberto Imparato(参考訳) 量子多体検出確率(QMBDP)の物理を紹介し,検討する。 遠い平衡状態から始まる量子多体系を想像してみよう。 システムの特定の位置に配置される検出器はほとんどない。 これらの検出器は、選択された局所作用素の同時分光射影測定を行う。 特定の測定結果が 'signal' として扱われる。 QMBDPでは、信号が所定の時間内に検出される確率を参照する。 ストロボ計測を繰り返した結果,信号がほぼ確実に検出される時間尺度が出現する可能性が示唆された。 ハミルトニアンのスペクトル特性によっては、この時間スケールが遷移点を越えてハミルトンパラメータをチューニングする際に劇的に増加する相転移が存在する。 従って、有限だが大きな時間領域において、初期状態に応じていくつかのハミルトンパラメータをチューニングすると、信号が確実に検出される(qmbdp $=1$)フェーズから信号が検出されないフェーズ(qmbdp $<1$)への鋭い遷移が生じる。 一例として,多体相互作用強度を変化させることにより,このような非平衡遷移を実現する単一不純物非可積分モデルを提案する。

We introduce and explore the physics of quantum many-body detection probability (QMBDP). Imagine a quantum many-body system starting from a far-from-equilibrium initial state. Few detectors are put at some given positions of the system. The detectors make simultaneous stroboscopic projective measurements of some chosen local operators. A particular measurement outcome is taken as the `signal'. By QMBDP we refer to the probability that the signal is detected within a given time. We find that, due to repeated stroboscopic measurements, there can emerge a time-scale within which the signal is almost certainly detected. Depending on the spectral properties of the Hamiltonian, there can be a phase transition where this time-scale increases dramatically on tuning some Hamiltonian parameters across the transition point. Consequently, over a finite but large regime of time, depending on the initial state, tuning some Hamiltonian parameters can result in sharp transition from a phase where the signal is certainly detected (QMBDP $=1$) to a phase where the the signal may not be detected (QMBDP $<1$). As an example, we present a single-impurity non-integrable model where such a far-from-equilibrium transition is achieved by varying the many-body interaction strength.
翻訳日:2023-06-05 14:42:39 公開日:2023-06-02
# 部分注釈データからの学習--言語学習のためのギャップ充足演習の例-

Learning from Partially Annotated Data: Example-aware Creation of Gap-filling Exercises for Language Learning ( http://arxiv.org/abs/2306.01584v1 )

ライセンス: Link先を確認
Semere Kiros Bitew, Johannes Deleu, A. Seza Dogru\"oz, Chris Develder, Thomas Demeester(参考訳) エクササイズ(例えば、練習テストを含む)が学習の重要な要素となっているため、そのようなエクササイズを作成するには教師の自明な努力が不可欠である。 教育におけるデジタルツールの自動運動生成には大きな価値がある。 本稿では,特に言語学習,特に文法演習のためのギャップ埋め演習の自動作成に焦点を当てる。 この領域にいかなるアノテーションも人的専門家の努力を必要とするため、我々は、意図した文法トピックの明示的な指示や詳細なアノテーションを使わずに、既存のテキストを純粋にサンプルエクササイズに基づいて、新しいギャップを埋めるエクササイズに変換するタスクを、完全に回避することを目的としている。 貢献します (i)上記ギャップ充足運動生成タスク専用に設計された新規ニューラルネットワークアーキテクチャ、及び (ii)フランス語文法のための実世界のベンチマークデータセット。 この文法ギャップを埋めるエクササイズ生成のための我々のモデルは、F1パーセンテージポイントにおいて競合ベースライン分類器を8%上回り、平均F1スコアが82%であることを示す。 我々のモデル実装とデータセットは,今後の研究を促進するために公開され,文法演習作成において提案する部分注釈データ予測タスクの標準化された評価とベースラインソリューションを提供する。

Since performing exercises (including, e.g., practice tests) forms a crucial component of learning, and creating such exercises requires non-trivial effort from the teacher. There is a great value in automatic exercise generation in digital tools in education. In this paper, we particularly focus on automatic creation of gapfilling exercises for language learning, specifically grammar exercises. Since providing any annotation in this domain requires human expert effort, we aim to avoid it entirely and explore the task of converting existing texts into new gap-filling exercises, purely based on an example exercise, without explicit instruction or detailed annotation of the intended grammar topics. We contribute (i) a novel neural network architecture specifically designed for aforementioned gap-filling exercise generation task, and (ii) a real-world benchmark dataset for French grammar. We show that our model for this French grammar gap-filling exercise generation outperforms a competitive baseline classifier by 8% in F1 percentage points, achieving an average F1 score of 82%. Our model implementation and the dataset are made publicly available to foster future research, thus offering a standardized evaluation and baseline solution of the proposed partially annotated data prediction task in grammar exercise creation.
翻訳日:2023-06-05 14:42:21 公開日:2023-06-02
# Emous:タスク指向対話におけるユーザ感情のシミュレーション

EmoUS: Simulating User Emotions in Task-Oriented Dialogues ( http://arxiv.org/abs/2306.01579v1 )

ライセンス: Link先を確認
Hsien-Chin Lin, Shutong Feng, Christian Geishauser, Nurul Lubis, Carel van Niekerk, Michael Heck, Benjamin Ruppik, Renato Vukovic, Milica Ga\v{s}i\'c(参考訳) タスク指向対話システムのための既存のユーザシミュレータ(US)は、ユーザペルソナや感情を考慮せずに、意味的および自然言語レベルでのユーザ行動のみをモデル化する。 感情状態の異なる多様なユーザ動作をモデル化できない汎用ユーザポリシーによる対話システムの最適化は、現実世界に展開する際の高いドロップオフ率をもたらす可能性がある。 そこで本稿では,ユーザの行動とともにユーザの感情をシミュレートするユーザシミュレータEmoUSを紹介する。 emousは、ユーザの目標、対話履歴、およびユーザペルソナに基づいて、ユーザの感情、セマンティックアクション、自然言語応答を生成する。 システム行動がどのようなユーザの感情を誘発するかを分析することにより,emousは多様な対話システム,特にユーザの感情状態に対する影響を評価するプローブとして使用できることを示す。 このような手法の開発は、大規模言語モデルチャットボットの時代と倫理的懸念の高まりにおいて重要である。

Existing user simulators (USs) for task-oriented dialogue systems only model user behaviour on semantic and natural language levels without considering the user persona and emotions. Optimising dialogue systems with generic user policies, which cannot model diverse user behaviour driven by different emotional states, may result in a high drop-off rate when deployed in the real world. Thus, we present EmoUS, a user simulator that learns to simulate user emotions alongside user behaviour. EmoUS generates user emotions, semantic actions, and natural language responses based on the user goal, the dialogue history, and the user persona. By analysing what kind of system behaviour elicits what kind of user emotions, we show that EmoUS can be used as a probe to evaluate a variety of dialogue systems and in particular their effect on the user's emotional state. Developing such methods is important in the age of large language model chat-bots and rising ethical concerns.
翻訳日:2023-06-05 14:41:58 公開日:2023-06-02
# 確率的概念ボトルネックモデル

Probabilistic Concept Bottleneck Models ( http://arxiv.org/abs/2306.01574v1 )

ライセンス: Link先を確認
Eunji Kim, Dahuin Jung, Sangha Park, Siwon Kim, Sungroh Yoon(参考訳) 解釈可能なモデルは、人間の解釈可能な方法で決定するように設計されている。 代表的に、Concept Bottleneck Models (CBM) は、予測された概念に基づいて概念予測とクラス予測の2段階のプロセスに従う。 CBMは、概念予測から派生した高レベルの概念の説明を提供するため、信頼性の高い概念予測は信頼性に重要である。 本研究では,信頼性を損なう曖昧性問題に対処する。 概念の存在はしばしばデータにおいて曖昧であるが、cbmはこの曖昧さを考慮せずに決定論的に概念を予測する。 この曖昧さに対する信頼できる解釈を提供するため,我々は確率的概念ボトルネックモデル(probcbm)を提案する。 確率的概念埋め込みを活用することで、probcbmは概念予測における不確実性をモデル化し、概念とその対応する不確実性に基づく説明を提供する。 この不確実性は説明の信頼性を高める。 さらに、クラス不確実性はProbCBMにおける概念不確実性に由来するため、概念不確実性を用いてクラス不確実性を説明することができる。 コードはhttps://github.com/ejkim47/prob-cbmで公開されている。

Interpretable models are designed to make decisions in a human-interpretable manner. Representatively, Concept Bottleneck Models (CBM) follow a two-step process of concept prediction and class prediction based on the predicted concepts. CBM provides explanations with high-level concepts derived from concept predictions; thus, reliable concept predictions are important for trustworthiness. In this study, we address the ambiguity issue that can harm reliability. While the existence of a concept can often be ambiguous in the data, CBM predicts concepts deterministically without considering this ambiguity. To provide a reliable interpretation against this ambiguity, we propose Probabilistic Concept Bottleneck Models (ProbCBM). By leveraging probabilistic concept embeddings, ProbCBM models uncertainty in concept prediction and provides explanations based on the concept and its corresponding uncertainty. This uncertainty enhances the reliability of the explanations. Furthermore, as class uncertainty is derived from concept uncertainty in ProbCBM, we can explain class uncertainty by means of concept uncertainty. Code is publicly available at https://github.com/ejkim47/prob-cbm.
翻訳日:2023-06-05 14:41:44 公開日:2023-06-02
# 時空間深層学習支援型セキュリティ制約ユニットコミット

Spatio-Temporal Deep Learning-Assisted Reduced Security-Constrained Unit Commitment ( http://arxiv.org/abs/2306.01570v1 )

ライセンス: Link先を確認
Arun Venkatesh Ramesh and Xingpeng Li(参考訳) SCUC(Security-Constrained Unit commitment)は、電力系統の日頭スケジューリングと市場浄化に使用される計算上の複雑なプロセスである。 SCUCは毎日実行され、プロセスのスピードアップには最先端のアルゴリズムが必要である。 SCUCに関連する制約とデータは、地理的および時間的に相関し、ソリューションの信頼性を保証する。 本稿では,電力系統履歴データにおける空間的および時間的(st)相関を制約条件として検討するために,高度な機械学習(ml)モデルを用いた。 ST関連MLモデルはグラフニューラルネットワーク(GNN)を考慮して空間相関を理解するために訓練される一方、時間列は長短期記憶(LSTM)ネットワークを用いて研究される。 提案手法は,IEEE 24-Busシステム,IEEE-73バスシステム,IEEE 118-Busシステム,合成サウスカロライナ500-Busシステムなど,いくつかの試験システムで検証されている。 さらに本研究では, B-{\theta} と PTDF (Power Transfer Distribution Factor) に基づくSCUC の定式化を検討した。 シミュレーションの結果,ST手法は生成開始スケジュールを効果的に予測し,SCUCのモデル縮小に利用したシステム内のクリティカルラインと非クリティカルラインを分類し,解品質を損なうことなく計算強化が得られることを示した。

Security-constrained unit commitment (SCUC) is a computationally complex process utilized in power system day-ahead scheduling and market clearing. SCUC is run daily and requires state-of-the-art algorithms to speed up the process. The constraints and data associated with SCUC are both geographically and temporally correlated to ensure the reliability of the solution, which further increases the complexity. In this paper, an advanced machine learning (ML) model is used to study the patterns in power system historical data, which inherently considers both spatial and temporal (ST) correlations in constraints. The ST-correlated ML model is trained to understand spatial correlation by considering graph neural networks (GNN) whereas temporal sequences are studied using long short-term memory (LSTM) networks. The proposed approach is validated on several test systems namely, IEEE 24-Bus system, IEEE-73 Bus system, IEEE 118-Bus system, and synthetic South-Carolina (SC) 500-Bus system. Moreover, B-{\theta} and power transfer distribution factor (PTDF) based SCUC formulations were considered in this research. Simulation results demonstrate that the ST approach can effectively predict generator commitment schedule and classify critical and non-critical lines in the system which are utilized for model reduction of SCUC to obtain computational enhancement without loss in solution quality
翻訳日:2023-06-05 14:41:27 公開日:2023-06-02
# あらゆるものを高品質に分割する

Segment Anything in High Quality ( http://arxiv.org/abs/2306.01567v1 )

ライセンス: Link先を確認
Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu(参考訳) 最近のSegment Anything Model(SAM)は、セグメンテーションモデルをスケールアップする大きな飛躍であり、強力なゼロショット機能と柔軟なプロンプトを可能にする。 11億のマスクで訓練されているにもかかわらず、サムのマスクの予測品質は多くの場合、特に複雑な構造を持つオブジェクトを扱う場合、不足している。 本稿では,SAM の本来の設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。 注意深い設計はSAMの事前訓練されたモデルの重みを再利用し保存し、最小限の追加パラメータと計算しか導入しない。 SAMのマスクデコーダに入力し,高品質なマスクを予測する学習可能な高品質出力トークンを設計する。 マスクデコーダ機能にのみ適用する代わりに、マスクの詳細を改善するために、まず初期のViT機能と最後のViT機能を融合します。 導入した学習可能なパラメータをトレーニングするために、複数のソースから44Kのきめ細かいマスクのデータセットを作成します。 HQ-SAMは、紹介された44kマスクの切り離しでのみトレーニングされており、8GPUで4時間しかかからない。 ダウンストリームタスクにまたがる9種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち7つをゼロショット転送プロトコルで評価した。 私たちのコードとモデルはhttps://github.com/SysCV/SAM-HQ.comでリリースされます。

The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. Our code and models will be released at https://github.com/SysCV/SAM-HQ.
翻訳日:2023-06-05 14:41:03 公開日:2023-06-02
# Gode -- 学習済み分子グラフニューラルネットワークに生化学知識グラフを統合する

Gode -- Integrating Biochemical Knowledge Graph into Pre-training Molecule Graph Neural Network ( http://arxiv.org/abs/2306.01631v1 )

ライセンス: Link先を確認
Pengcheng Jiang(参考訳) 分子特性の正確な予測は、革新的な治療法の開発を促進し、化学物質と生物学的システムの複雑な相互作用を理解する上で重要な役割を担っている。 本研究では,生物医学知識グラフ(kgs)から個々の分子構造のグラフ表現と多領域情報を統合する新しい手法を提案する。 両レベルからの情報を統合することで,分子レベルおよびKGレベルの予測タスクに対して,より広範囲かつ堅牢な表現を,新たなセルフスーパービジョン戦略で事前訓練することができる。 性能評価のために,11個の化学特性予測タスクの事前学習モデルを微調整する。 我々のフレームワークの結果は、我々の微調整されたモデルが既存の最先端モデルより優れていることを示している。

The precise prediction of molecular properties holds paramount importance in facilitating the development of innovative treatments and comprehending the intricate interplay between chemicals and biological systems. In this study, we propose a novel approach that integrates graph representations of individual molecular structures with multi-domain information from biomedical knowledge graphs (KGs). Integrating information from both levels, we can pre-train a more extensive and robust representation for both molecule-level and KG-level prediction tasks with our novel self-supervision strategy. For performance evaluation, we fine-tune our pre-trained model on 11 challenging chemical property prediction tasks. Results from our framework demonstrate our fine-tuned models outperform existing state-of-the-art models.
翻訳日:2023-06-05 14:33:16 公開日:2023-06-02
# 高速マルチコイルMRイメージングのための条件正規化流

A Conditional Normalizing Flow for Accelerated Multi-Coil MR Imaging ( http://arxiv.org/abs/2306.01630v1 )

ライセンス: Link先を確認
Jeffrey Wen, Rizwan Ahmad, and Philip Schniter(参考訳) 加速磁気共鳴(MR)イメージングは、Nyquistレート以下のデータを収集することで取得時間を短縮しようとする。 逆問題として、多くの可算解が存在するが、ディープラーニングアプローチの大多数は単一の解のみを生成する。 代わりに、下流の推論タスクについてより包括的な情報を提供する後方分布からのサンプリングにフォーカスする。 そこで我々は,測定演算子のヌル空間の信号成分を推定する新しい条件正規化フロー(CNF)を設計し,後に測定データと組み合わせて完全な画像を生成する。 高速MRI脳と膝データを用いて,近年のMRI後部サンプリング技術を上回る高速な推測と精度を示す。 コードはhttps://github.com/jwen307/mri_cnf/で入手できる。

Accelerated magnetic resonance (MR) imaging attempts to reduce acquisition time by collecting data below the Nyquist rate. As an ill-posed inverse problem, many plausible solutions exist, yet the majority of deep learning approaches generate only a single solution. We instead focus on sampling from the posterior distribution, which provides more comprehensive information for downstream inference tasks. To do this, we design a novel conditional normalizing flow (CNF) that infers the signal component in the measurement operator's nullspace, which is later combined with measured data to form complete images. Using fastMRI brain and knee data, we demonstrate fast inference and accuracy that surpasses recent posterior sampling techniques for MRI. Code is available at https://github.com/jwen307/mri_cnf/
翻訳日:2023-06-05 14:33:05 公開日:2023-06-02
# 分数チャーン絶縁体のエッジモード分光

Edge mode spectroscopy of fractional Chern insulators ( http://arxiv.org/abs/2306.01624v1 )

ライセンス: Link先を確認
F. Binanti, N. Goldman, C. Repellin(参考訳) 原子分数量子ホール(fqh)状態の探索は、光格子実験の限界に達している。 箱(Leonard et al., arXiv:2210.10919]でHofstadter-Bose-Hubbardモデルを実現するシステムでは、バルクシグネチャが観測されているが、この設定では、どのようにマークエッジプロパティにアクセスするかが中心的な疑問である。 原子FQH状態の運動量分解エッジスペクトルを抽出する現実的なスキームを提案し,解析する。 本提案は,制御された角運動量$l$とエネルギー$\hbar \omega$を系に伝達する2つの干渉ラゲール・ガウシアンビームにfqh基底状態を適用することに基づく。 共振結合は、fqh液滴のバルクから端への原子の移動を追跡することによって、局所密度測定によって検出される。 我々は,Hofstadter-Bose-Hubbardモデルの数値シミュレーションを用いて,$\nu=1/2$ Laughlin基底状態のボソン数を考える。 これらの結果から,FQHスペクトルのスペクトルの特徴,すなわちキラルなギャップレスエッジブランチと磁気ロートンモードの抽出に適していることが示された。 これらのシグネチャはすでに2つのボソンの現実的なシステムで検出可能であり、ボックスポテンシャルは液滴よりも大きい。 我々の研究は、エッジシグネチャによる寒冷原子の分数統計の検出方法である。

The exploration of atomic fractional quantum Hall (FQH) states is now within reach in optical-lattice experiments. While bulk signatures have been observed in a system realizing the Hofstadter-Bose-Hubbard model in a box [Leonard et al., arXiv:2210.10919], how to access hallmark edge properties in this setting remains a central open question. We propose and analyze a realistic scheme to extract the momentum-resolved edge spectrum of atomic FQH states. Our proposal is based on subjecting the prepared FQH ground state to two interfering Laguerre-Gaussian beams, which transfer a controlled angular momentum $l$ and energy $\hbar \omega$ to the system. The resonant coupling is then detected through local density measurements, by tracking the transfer of atoms from the bulk to the edge of the FQH droplet. We benchmark our method using numerical simulations of the Hofstadter-Bose-Hubbard model, considering few bosons in the $\nu=1/2$ Laughlin ground state. These studies demonstrate that our probing scheme is well suited to extract hallmark features of FQH spectra: a chiral gapless edge branch and a gapped magneto-roton mode. These signatures are already detectable in realistic systems of two bosons, provided that the box potential is larger than the droplet. Our work paves the way for the detection of fractional statistics in cold atoms through edge signatures.
翻訳日:2023-06-05 14:32:51 公開日:2023-06-02
# HomE:Homography-Equivariant Video Representation Learning

HomE: Homography-Equivariant Video Representation Learning ( http://arxiv.org/abs/2306.01623v1 )

ライセンス: Link先を確認
Anirudh Sriram, Adrien Gaidon, Jiajun Wu, Juan Carlos Niebles, Li Fei-Fei, Ehsan Adeli(参考訳) 自己教師付き表現学習の最近の進歩は、広範囲なラベル付きデータに頼ることなく、より効率的で堅牢なモデル性能を実現している。 しかし、ほとんどの作品は今でも画像に焦点を当てており、ビデオにはほとんど取り組みませんし、マルチビュービデオにもあまり関心がなく、より強力なインダクティブバイアスを自己スーパービジョンに活用することができます。 本研究では,Homography Equivariance (HomE) を維持するために,表現空間を明示的にモデル化する多視点ビデオの表現学習手法を提案する。 提案手法は異なるビュー間の暗黙的なマッピングを学習し,隣接ビュー間のホモグラフィ関係を維持する表現空間に到達する。 我々は,行動認識と歩行者意図予測を下流課題として評価する。 動作分類では,UCF101データセットの96.4%の3倍精度が得られた。 同様に、STIPデータセットでは、歩行者意図予測を1秒で6%上回り、歩行者行動(横断的対横断的)分類では91.2%の精度を得る。 コードはhttps://github.com/anirudhs123/HomEで入手できる。

Recent advances in self-supervised representation learning have enabled more efficient and robust model performance without relying on extensive labeled data. However, most works are still focused on images, with few working on videos and even fewer on multi-view videos, where more powerful inductive biases can be leveraged for self-supervision. In this work, we propose a novel method for representation learning of multi-view videos, where we explicitly model the representation space to maintain Homography Equivariance (HomE). Our method learns an implicit mapping between different views, culminating in a representation space that maintains the homography relationship between neighboring views. We evaluate our HomE representation via action recognition and pedestrian intent prediction as downstream tasks. On action classification, our method obtains 96.4% 3-fold accuracy on the UCF101 dataset, better than most state-of-the-art self-supervised learning methods. Similarly, on the STIP dataset, we outperform the state-of-the-art by 6% for pedestrian intent prediction one second into the future while also obtaining an accuracy of 91.2% for pedestrian action (cross vs. not-cross) classification. Code is available at https://github.com/anirudhs123/HomE.
翻訳日:2023-06-05 14:32:20 公開日:2023-06-02
# ランドー・ツェナー転移の連続測定による量子スペクトル解析

Quantum spectral analysis by continuous measurement of Landau-Zener transitions ( http://arxiv.org/abs/2306.01622v1 )

ライセンス: Link先を確認
Christopher C. Bounds, Josh P. Duff, Alex Tritt, Hamish Taylor, George X. Coe, Sam J. White, Lincoln D. Turner (School of Physics and Astronomy, Monash University, Melbourne, Australia)(参考訳) 本稿では,信号周波数と振幅の同時推定を単一アンサンブル量子ビットセンサによる時間依存制御下で実証する。 スパンを直線的に分割すると、クビットが共鳴するときに非断熱的なランダウ・ツェナー転移が生じる。 信号周波数は遷移の時刻と振幅をその範囲で決定する。 このユニタリ進化の連続的な弱測定は、周波数と振幅を正確に測定するパラメータ推定器に知らせる。 ファラデー・スピンライト・インタフェースで読み出された超低温原子に実装し、振幅の精度が$\unit[20]{pT}$、周波数の周波数の精度がほぼ変化した磁気信号を、$\unit[300]{ms}$ sweep from $\unit[7-13]{kHz}$で検出する。 このプロトコルは、sweept-sine量子スペクトルアナライザを実現し、単一のアンサンブル量子ビットで数百から数千のチャネルを検知する可能性がある。

We demonstrate the simultaneous estimation of signal frequency and amplitude by a single ensemble qubit sensor under irreducibly time-dependent control. Sweeping the qubit splitting linearly across a span induces a non-adiabatic Landau-Zener transition as the qubit crosses resonance. The signal frequency determines the time of the transition, and the amplitude its extent. Continuous weak measurement of this unitary evolution informs a parameter estimator retrieving precision measurements of frequency and amplitude. Implemented on radiofrequency-dressed ultracold atoms read out by a Faraday spin-light interface, we sense a magnetic signal with $\unit[20]{pT}$ precision in amplitude, and near-transform-limited precision in frequency, in a single $\unit[300]{ms}$ sweep from $\unit[7-13]{kHz}$. The protocol realises a swept-sine quantum spectrum analyzer, potentially sensing hundreds or thousands of channels with a single ensemble qubit.
翻訳日:2023-06-05 14:32:00 公開日:2023-06-02
# NLPクラスタリングと機械学習による信用リスクモデル問題の解析:検証レポートからの考察

Analyzing Credit Risk Model Problems through NLP-Based Clustering and Machine Learning: Insights from Validation Reports ( http://arxiv.org/abs/2306.01618v1 )

ライセンス: Link先を確認
Szymon Lis, Mariusz Kubkowski, Olimpia Borkowska, Dobromi{\l} Serwa, Jaros{\l}aw Kurpanik(参考訳) 本稿では,NLP(Natural Language Processing)を含むクラスタリング手法と機械学習アルゴリズムを用いて,検証レポートに含まれるテキスト情報を用いて,信用リスクモデルで特定された問題を識別・分類する。 2019年1月から2022年12月にかけて、大規模な国際銀行グループによる検証チームによる657件のユニークなデータセットを使用した。 これらの知見は,9つの検証次元に分類し,その専門知識を用いてバリデータから重度レベルを割り振った。 著者らは、TensorFlow Hubの"module\_url"とSentenceTransformerライブラリの3つのモデル、すなわち"all-mpnet-base-v2"、"all-MiniLM-L6-v2"、"paraphrase-mpnet-base-v2"という4つのトレーニング済みモデルを使用して、調査結果のタイトルと観察に埋め込み生成を使用する。 本論文は,様々なクラスタリング手法を用いて類似した特徴を分類し,各検証次元と重大度における共通問題を特定することを可能にする。 その結果,クラスタリングは信用リスクモデル問題の特定と分類に有効な手法であり,精度が60\%以上であることが示唆された。 著者らはまた、ロジスティック回帰とXGBoostを含む機械学習アルゴリズムを使用して、検証次元とその重大さを予測し、XGBoostアルゴリズムの精度を80%達成している。 さらに,検証次元と重大度を予測する単語のトップ10を同定した。 本稿では,検証報告におけるテキスト情報の解析にクラスタリングと機械学習が有用であることを示すとともに,信用リスクモデルの開発と検証に直面する問題の種類について考察する。

This paper explores the use of clustering methods and machine learning algorithms, including Natural Language Processing (NLP), to identify and classify problems identified in credit risk models through textual information contained in validation reports. Using a unique dataset of 657 findings raised by validation teams in a large international banking group between January 2019 and December 2022. The findings are classified into nine validation dimensions and assigned a severity level by validators using their expert knowledge. The authors use embedding generation for the findings' titles and observations using four different pre-trained models, including "module\_url" from TensorFlow Hub and three models from the SentenceTransformer library, namely "all-mpnet-base-v2", "all-MiniLM-L6-v2", and "paraphrase-mpnet-base-v2". The paper uses and compares various clustering methods in grouping findings with similar characteristics, enabling the identification of common problems within each validation dimension and severity. The results of the study show that clustering is an effective approach for identifying and classifying credit risk model problems with accuracy higher than 60\%. The authors also employ machine learning algorithms, including logistic regression and XGBoost, to predict the validation dimension and its severity, achieving an accuracy of 80\% for XGBoost algorithm. Furthermore, the study identifies the top 10 words that predict a validation dimension and severity. Overall, this paper makes a contribution by demonstrating the usefulness of clustering and machine learning for analyzing textual information in validation reports, and providing insights into the types of problems encountered in the development and validation of credit risk models.
翻訳日:2023-06-05 14:31:33 公開日:2023-06-02
# データ中毒下におけるハイパーパラメータ学習:多目的二レベル最適化による正規化の影響分析

Hyperparameter Learning under Data Poisoning: Analysis of the Influence of Regularization via Multiobjective Bilevel Optimization ( http://arxiv.org/abs/2306.01613v1 )

ライセンス: Link先を確認
Javier Carnerero-Cano, Luis Mu\~noz-Gonz\'alez, Phillippa Spencer, Emil C. Lupu(参考訳) 機械学習(ml)アルゴリズムは、アルゴリズムのパフォーマンスを意図的に低下させるためにトレーニングデータの一部が操作される中毒攻撃に対して脆弱である。 最適な攻撃は二段階最適化問題として定式化でき、最悪のシナリオにおけるロバスト性を評価するのに役立つ。 ハイパーパラメータが一定であると考える現在のアプローチは、アルゴリズムの頑健さと正規化の影響を過度に悲観的に捉えていることを示している。 本稿では,ハイパーパラメータに対する攻撃の影響を考慮し,多目的二段階最適化問題として攻撃をモデル化する,新しい最適攻撃定式化を提案する。 これにより、最適な攻撃を定式化し、ハイパーパラメータを学習し、最悪の場合の堅牢性を評価することができる。 この攻撃定式化を、$L_2$と$L_1$正規化を用いて複数のML分類器に適用する。 複数のデータセットに対する評価は, 過去の戦略の限界を確認し, 毒性攻撃の影響を抑えるために$L_2$と$L_1$正規化を使用することの利点を証明している。

Machine Learning (ML) algorithms are vulnerable to poisoning attacks, where a fraction of the training data is manipulated to deliberately degrade the algorithms' performance. Optimal attacks can be formulated as bilevel optimization problems and help to assess their robustness in worst-case scenarios. We show that current approaches, which typically assume that hyperparameters remain constant, lead to an overly pessimistic view of the algorithms' robustness and of the impact of regularization. We propose a novel optimal attack formulation that considers the effect of the attack on the hyperparameters and models the attack as a multiobjective bilevel optimization problem. This allows to formulate optimal attacks, learn hyperparameters and evaluate robustness under worst-case conditions. We apply this attack formulation to several ML classifiers using $L_2$ and $L_1$ regularization. Our evaluation on multiple datasets confirms the limitations of previous strategies and evidences the benefits of using $L_2$ and $L_1$ regularization to dampen the effect of poisoning attacks.
翻訳日:2023-06-05 14:31:02 公開日:2023-06-02
# 中心的自己着床層

Centered Self-Attention Layers ( http://arxiv.org/abs/2306.01610v1 )

ライセンス: Link先を確認
Ameen Ali and Tomer Galanti and Lior Wolf(参考訳) ディープラーニングアーキテクチャでは、トランスフォーマーの自己接続機構とグラフニューラルネットワークのメッセージパッシング機構が繰り返し適用される。 このアプリケーションは必然的に、トランスフォーマーの異なるトークンやグラフニューラルネットワークの異なるノードに対して、より深い層で類似した表現を過小評価することにつながる。 本解析に基づいて,これらの機構の集約演算子に対して補正項を提案する。 経験上、この単純な用語は視覚トランスフォーマーの過剰な問題の多くを取り除き、複数の補助ネットワークとトレーニングフレーズを導入する精巧なベースラインメソッドを超える弱い教師付きセグメンテーションのパフォーマンスを得る。 グラフニューラルネットワークでは、補正項は、同じ問題に対する多くの最近のソリューションよりも、非常に深いアーキテクチャのトレーニングを効果的に行うことができる。

The self-attention mechanism in transformers and the message-passing mechanism in graph neural networks are repeatedly applied within deep learning architectures. We show that this application inevitably leads to oversmoothing, i.e., to similar representations at the deeper layers for different tokens in transformers and different nodes in graph neural networks. Based on our analysis, we present a correction term to the aggregating operator of these mechanisms. Empirically, this simple term eliminates much of the oversmoothing problem in visual transformers, obtaining performance in weakly supervised segmentation that surpasses elaborate baseline methods that introduce multiple auxiliary networks and training phrases. In graph neural networks, the correction term enables the training of very deep architectures more effectively than many recent solutions to the same problem.
翻訳日:2023-06-05 14:30:44 公開日:2023-06-02
# 分散連帯学習 : 調査と展望

Decentralized Federated Learning: A Survey and Perspective ( http://arxiv.org/abs/2306.01603v1 )

ライセンス: Link先を確認
Liangqi Yuan and Lichao Sun and Philip S. Yu and Ziran Wang(参考訳) 連合学習(federated learning, ffl)は,ユーザデータを維持しながら知識を共有する能力,プライバシ保護,学習効率の向上,コミュニケーションオーバーヘッドの低減など,多くの注目を集めている。 Decentralized FL (DFL) は、集中型 FL (CFL) とは対照的に、中央サーバーを必要としない分散ネットワークアーキテクチャである。 dflはクライアント間の直接通信を可能にし、通信リソースを大幅に節約する。 本稿では,DFLに対する総合的な調査と深い視点について述べる。 まず, CFLの方法論, 課題, 変種について概観し, DFLの背景を概観する。 次に,反復順序,通信プロトコル,ネットワークトポロジ,パラダイム提案,時間変動など,dflの体系的かつ詳細な展望を紹介する。 次に、DFLの定義に基づいて、いくつかの拡張された変種と分類を最先端技術で提案する。 最後に、DFLにおける現在の課題の要約に加えて、いくつかの解決策と今後の研究方向性についても論じる。

Federated learning (FL) has been gaining attention for its ability to share knowledge while maintaining user data, protecting privacy, increasing learning efficiency, and reducing communication overhead. Decentralized FL (DFL) is a decentralized network architecture that eliminates the need for a central server in contrast to centralized FL (CFL). DFL enables direct communication between clients, resulting in significant savings in communication resources. In this paper, a comprehensive survey and profound perspective is provided for DFL. First, a review of the methodology, challenges, and variants of CFL is conducted, laying the background of DFL. Then, a systematic and detailed perspective on DFL is introduced, including iteration order, communication protocols, network topologies, paradigm proposals, and temporal variability. Next, based on the definition of DFL, several extended variants and categorizations are proposed with state-of-the-art technologies. Lastly, in addition to summarizing the current challenges in the DFL, some possible solutions and future research directions are also discussed.
翻訳日:2023-06-05 14:30:31 公開日:2023-06-02
# 意味認識とプロトタイプコントラスト学習によるソースフリードメイン適応セマンティックセマンティックセグメンテーションに向けて

Towards Source-free Domain Adaptive Semantic Segmentation via Importance-aware and Prototype-contrast Learning ( http://arxiv.org/abs/2306.01598v1 )

ライセンス: Link先を確認
Yihong Cao, Hui Zhang, Xiao Lu, Zheng Xiao, Kailun Yang, Yaonan Wang(参考訳) ドメイン適応セマンティックセグメンテーションは、現実世界の運転シーンで堅牢なピクセルワイズ理解を可能にする。 ソースフリードメイン適応は、より実践的な手法として、典型的には教師なしのドメイン適応手法におけるデータプライバシとストレージ制限の懸念に対処する。 トレーニング済みのソースモデルとラベルなしのターゲットデータを使用して、ターゲットドメインへの適応を実現する。 しかし、ソースデータとターゲットラベルがない場合、現在のソリューションは、ドメインシフトの影響を十分に減らすことができず、ターゲットデータからの情報を十分に活用できない。 本稿では,Importance-Aware and Prototype-Contrast(IAPC)学習を用いた,エンドツーエンドなドメイン適応セマンティックセマンティックセマンティクス手法を提案する。 提案したIAPCフレームワークは、訓練済みソースモデルからドメイン不変知識を効果的に抽出し、ラベルなしターゲットドメインからドメイン固有知識を学習する。 具体的には、ソースモデルによる対象ドメインの予測におけるドメインシフトの問題を考慮して、偏りのあるターゲット予測確率分布の重要度を考慮したメカニズムを提案し、ソースモデルからドメイン不変知識を抽出する。 さらに,プロトタイプ対称クロスエントロピー損失とプロトタイプエントロピー損失を含むプロトタイプコントラスト戦略を導入し,ラベルに依存しずにドメイン内知識を学習する。 2つのドメイン適応的セマンティクスセグメンテーションベンチマークに関する包括的な実験により、提案するiapcソリューションが、既存の最先端手法よりも優れていることが示されている。 コードはhttps://github.com/yihong-97/Source-free_IAPCで公開される。

Domain adaptive semantic segmentation enables robust pixel-wise understanding in real-world driving scenes. Source-free domain adaptation, as a more practical technique, addresses the concerns of data privacy and storage limitations in typical unsupervised domain adaptation methods. It utilizes a well-trained source model and unlabeled target data to achieve adaptation in the target domain. However, in the absence of source data and target labels, current solutions cannot sufficiently reduce the impact of domain shift and fully leverage the information from the target data. In this paper, we propose an end-to-end source-free domain adaptation semantic segmentation method via Importance-Aware and Prototype-Contrast (IAPC) learning. The proposed IAPC framework effectively extracts domain-invariant knowledge from the well-trained source model and learns domain-specific knowledge from the unlabeled target domain. Specifically, considering the problem of domain shift in the prediction of the target domain by the source model, we put forward an importance-aware mechanism for the biased target prediction probability distribution to extract domain-invariant knowledge from the source model. We further introduce a prototype-contrast strategy, which includes a prototype-symmetric cross-entropy loss and a prototype-enhanced cross-entropy loss, to learn target intra-domain knowledge without relying on labels. A comprehensive variety of experiments on two domain adaptive semantic segmentation benchmarks demonstrates that the proposed end-to-end IAPC solution outperforms existing state-of-the-art methods. Code will be made publicly available at https://github.com/yihong-97/Source-free_IAPC.
翻訳日:2023-06-05 14:30:16 公開日:2023-06-02
# DiffusEmp: 共感応答生成のための多点制御による拡散モデルベースフレームワーク

DiffusEmp: A Diffusion Model-Based Framework with Multi-Grained Control for Empathetic Response Generation ( http://arxiv.org/abs/2306.01657v1 )

ライセンス: Link先を確認
Guanqun Bi, Lei Shen, Yanan Cao, Meng Chen, Yuqiang Xie, Zheng Lin and Xiaodong He(参考訳) 共感はオープンドメインの会話において重要な要素であり、他人の世話や理解を自然に示します。 共感応答を生成するためにいくつかの方法が提案されているが、既存の作品はしばしば汎用的で安全な表現を参照する単調な共感に繋がる。 本稿では,対話コンテキストと属性指向制御信号の利用を統一する条件拡散言語モデルに基づいて,共感表現のガイドとフレームワークDiffusEmpの設計に明示的な制御を用いることを提案する。 具体的には, コミュニケーション機構, 意図, セマンティックフレームを, 粗いレベルから細かいレベルへの共感の実現を制御するための, 多粒度信号として輸入する。 次に,多重粒度信号と応答トークンの関係を反映したマスキング戦略をデザインし,生成過程に影響を与える拡散モデルに統合する。 ベンチマークデータセットEmpatheticDialogueの実験結果から,我々のフレームワークは文脈関連性を失うことなく,制御性,情報性,多様性の点で競争ベースラインを上回っていることがわかった。

Empathy is a crucial factor in open-domain conversations, which naturally shows one's caring and understanding to others. Though several methods have been proposed to generate empathetic responses, existing works often lead to monotonous empathy that refers to generic and safe expressions. In this paper, we propose to use explicit control to guide the empathy expression and design a framework DiffusEmp based on conditional diffusion language model to unify the utilization of dialogue context and attribute-oriented control signals. Specifically, communication mechanism, intent, and semantic frame are imported as multi-grained signals that control the empathy realization from coarse to fine levels. We then design a specific masking strategy to reflect the relationship between multi-grained signals and response tokens, and integrate it into the diffusion model to influence the generative process. Experimental results on a benchmark dataset EmpatheticDialogue show that our framework outperforms competitive baselines in terms of controllability, informativeness, and diversity without the loss of context-relatedness.
翻訳日:2023-06-05 14:24:58 公開日:2023-06-02
# 変圧器ネットワークを用いたビデオからのバックチャネル検出とコンセンサス推定

Backchannel Detection and Agreement Estimation from Video with Transformer Networks ( http://arxiv.org/abs/2306.01656v1 )

ライセンス: Link先を確認
Ahmed Amer, Chirag Bhuvaneshwara, Gowtham K. Addluri, Mohammed M. Shaik, Vedant Bonde, Philipp M\"uller(参考訳) リスナーはショート・インタージェクション(いわゆるバックチャネル)を使用して注意や合意を表現する。 この動作の自動解析は、人間の会話分析と対話型会話エージェントにとって重要である。 視覚行動からのバックチャネル分析の最先端的アプローチは、身体のポーズに基づく特徴と、顔行動に基づく特徴の2つのタイプの特徴を利用する。 同時に、トランスフォーマーニューラルネットワークは、異なるデータソースからの入力を融合する有効な手段として確立されているが、バックチャネル解析には適用されていない。 本研究では,ポーズと顔情報に基づくバックチャネル自動解析のためのマルチモーダルトランスフォーマーアーキテクチャの包括的評価を行う。 我々は、バックチャネルの検出と、バックチャネルで表現された合意を推定するタスクの両方に対処する。 MultiMediate'22のバックチャネル検出課題の評価では、1層トランスフォーマーアーキテクチャで66.4%の精度に達し、従来の技術よりも優れていた。 2層トランスフォーマーアーキテクチャにより,バックチャネルで表現されるアグリーメントの量を推定するタスクに対して,さらに新たな状態(0.0604 mse)を設定した。

Listeners use short interjections, so-called backchannels, to signify attention or express agreement. The automatic analysis of this behavior is of key importance for human conversation analysis and interactive conversational agents. Current state-of-the-art approaches for backchannel analysis from visual behavior make use of two types of features: features based on body pose and features based on facial behavior. At the same time, transformer neural networks have been established as an effective means to fuse input from different data sources, but they have not yet been applied to backchannel analysis. In this work, we conduct a comprehensive evaluation of multi-modal transformer architectures for automatic backchannel analysis based on pose and facial information. We address both the detection of backchannels as well as the task of estimating the agreement expressed in a backchannel. In evaluations on the MultiMediate'22 backchannel detection challenge, we reach 66.4% accuracy with a one-layer transformer architecture, outperforming the previous state of the art. With a two-layer transformer architecture, we furthermore set a new state of the art (0.0604 MSE) on the task of estimating the amount of agreement expressed in a backchannel.
翻訳日:2023-06-05 14:24:41 公開日:2023-06-02
# 中毒ネットワークフロー分類器

Poisoning Network Flow Classifiers ( http://arxiv.org/abs/2306.01655v1 )

ライセンス: Link先を確認
Giorgio Severi, Simona Boboila, Alina Oprea, John Holodnak, Kendra Kratkiewicz, Jason Matterer(参考訳) 機械学習(ML)分類器がネットワークトラフィックの自動監視をますます監督するようになり、敵攻撃に対するレジリエンスの研究が重要になる。 本稿では,ネットワークトラフィックフロー分類器に対する毒性攻撃,特にバックドア攻撃に焦点を当てた。 そこで我々は, 相手の能力がトレーニングデータのみの改ざんに制限され, トレーニングラベルやトレーニングプロセスの他の要素を任意に修正することができない, クリーンラベル中毒の困難なシナリオについて検討する。 モデル解釈技術を活用して,極めて低い中毒率でも有効なトリガーパターンを生成するトリガー作り戦略について述べる。 最後に, 生成ベイズネットワークモデルに基づくアプローチを含むステルス性トリガーを創出するための新たな戦略を設計し, トリガーの目立たしさを最小化し, 進行中の毒殺キャンペーンの検出をより困難にすることを目的とする。 本研究は,悪意のある通信やアプリケーション分類など,複数のシナリオで使用されるネットワークトラフィック分類器に対する毒性攻撃の可能性に関する重要な知見を提供する。

As machine learning (ML) classifiers increasingly oversee the automated monitoring of network traffic, studying their resilience against adversarial attacks becomes critical. This paper focuses on poisoning attacks, specifically backdoor attacks, against network traffic flow classifiers. We investigate the challenging scenario of clean-label poisoning where the adversary's capabilities are constrained to tampering only with the training data - without the ability to arbitrarily modify the training labels or any other component of the training process. We describe a trigger crafting strategy that leverages model interpretability techniques to generate trigger patterns that are effective even at very low poisoning rates. Finally, we design novel strategies to generate stealthy triggers, including an approach based on generative Bayesian network models, with the goal of minimizing the conspicuousness of the trigger, and thus making detection of an ongoing poisoning campaign more challenging. Our findings provide significant insights into the feasibility of poisoning attacks on network traffic classifiers used in multiple scenarios, including detecting malicious communication and application classification.
翻訳日:2023-06-05 14:24:24 公開日:2023-06-02
# ガンズ スコア落ち着け!

GANs Settle Scores! ( http://arxiv.org/abs/2306.01654v1 )

ライセンス: Link先を確認
Siddarth Asokan, Nishanth Shetty, Aadithya Srikanth, Chandra Sekhar Seelamantula(参考訳) GAN(Generative Adversarial Network)は、所望のデータの基盤となる分布を学習するために訓練されたジェネレータと、ジェネレータによって出力されたデータと実際のサンプルを区別するために訓練された識別器から構成される。 gan文学の大多数は、積分確率計量(ipm)または分岐に基づく分析による判別器の最適性を理解することに焦点を当てている。 本稿では,変分手法による発電機最適化を統一的に解析する手法を提案する。 f$-divergence-minimizing gansでは、最適生成子は出力分布のスコアとデータ分布のスコアを一致させるものであり、ipm gansでは、選択されたipm制約空間に関連するカーネルのフローフィールドを含むスコアのような関数に最適な生成器が一致することを示す。 さらに、ipm-gan最適化は、データとジェネレータ分布のスコアと、その制約に関連するカーネルとが畳み合わされる平滑化スコアマッチングの1つと見なすことができる。 提案手法は、スコアベーストレーニングと既存のGANフレーバーを統一し、フローの正規化の結果を活用するとともに、非飽和GAN損失の安定性などの経験的現象の説明を提供する。 これらの結果に基づき,スコアとフローマッチングに基づく$f$-gan および ipm-gan トレーニングと判別器誘導ランジュバンサンプリングの代替案を提案する。

Generative adversarial networks (GANs) comprise a generator, trained to learn the underlying distribution of the desired data, and a discriminator, trained to distinguish real samples from those output by the generator. A majority of GAN literature focuses on understanding the optimality of the discriminator through integral probability metric (IPM) or divergence based analysis. In this paper, we propose a unified approach to analyzing the generator optimization through variational approach. In $f$-divergence-minimizing GANs, we show that the optimal generator is the one that matches the score of its output distribution with that of the data distribution, while in IPM GANs, we show that this optimal generator matches score-like functions, involving the flow-field of the kernel associated with a chosen IPM constraint space. Further, the IPM-GAN optimization can be seen as one of smoothed score-matching, where the scores of the data and the generator distributions are convolved with the kernel associated with the constraint. The proposed approach serves to unify score-based training and existing GAN flavors, leveraging results from normalizing flows, while also providing explanations for empirical phenomena such as the stability of non-saturating GAN losses. Based on these results, we propose novel alternatives to $f$-GAN and IPM-GAN training based on score and flow matching, and discriminator-guided Langevin sampling.
翻訳日:2023-06-05 14:24:03 公開日:2023-06-02
# wikipediaにおける多言語バンダリズム検出システム

Fair multilingual vandalism detection system for Wikipedia ( http://arxiv.org/abs/2306.01650v1 )

ライセンス: Link先を確認
Mykola Trokhymovych, Muniza Aslam, Ai-Jou Chou, Ricardo Baeza-Yates, and Diego Saez-Trumper(参考訳) 本稿では,wikipediaコミュニティがプラットフォーム上で破壊行為に対処することを支援するシステムについて,新しい設計手法を提案する。 これを実現するために,47言語からなる膨大なデータセットを収集し,多言語マスキング言語モデリングを含む高度なフィルタリングと特徴工学手法を適用し,人間の生成したデータからトレーニングデータセットを構築する。 システムの性能は、ORESとして知られるウィキペディアのプロダクションで使われているものと比較することで評価された。 調査の結果、対象言語が大幅に増加し、ウィキペディアのパトロールがより広い範囲のコミュニティでより効率的になった。 さらに、我々のモデルはORESよりも優れており、提供された結果がより正確であるだけでなく、コントリビュータの特定のグループに対するバイアスが少ないことを保証します。

This paper presents a novel design of the system aimed at supporting the Wikipedia community in addressing vandalism on the platform. To achieve this, we collected a massive dataset of 47 languages, and applied advanced filtering and feature engineering techniques, including multilingual masked language modeling to build the training dataset from human-generated data. The performance of the system was evaluated through comparison with the one used in production in Wikipedia, known as ORES. Our research results in a significant increase in the number of languages covered, making Wikipedia patrolling more efficient to a wider range of communities. Furthermore, our model outperforms ORES, ensuring that the results provided are not only more accurate but also less biased against certain groups of contributors.
翻訳日:2023-06-05 14:23:25 公開日:2023-06-02
# 局所過次推定を用いた多系列確率近似

Federated Multi-Sequence Stochastic Approximation with Local Hypergradient Estimation ( http://arxiv.org/abs/2306.01648v1 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Mingchen Li, Pranay Sharma, Samet Oymak(参考訳) マルチカップリングシーケンス(MSA)による確率近似は、バイレベル最適化(BLO)、マルチレベル合成最適化(MCO)、強化学習(特にアクター批判的手法)など、機械学習における幅広い応用を見出した。 しかし、二列近似(dsa)の特別な場合であっても、msaの有理効率なフェデレーションアルゴリズムの設計は不可解な問題であった。 この目標に向けて,MSAのフェデレーションアルゴリズムであるFedMSAを開発し,その準最適通信複雑性を確立する。 コア・ノベルティとして (i)FedMSAは、BLOとMCOのローカルクライアント更新による高次化の証明可能な推定を可能にする。 (ii)我々の収束保証は、問題の異質性レベルに敏感である。 また, 運動量や分散低減技術も取り入れ, 最適に近い速度に繋がるさらなる加速を実現する。 最後に,本理論を支持する実験を行い,fedmsaの実証的効果を示す。 例として、FedMSAは、以前の連合BLO方式と比較して、通信ラウンドのオーダー・オブ・マグニチュード・セーブを可能にする。

Stochastic approximation with multiple coupled sequences (MSA) has found broad applications in machine learning as it encompasses a rich class of problems including bilevel optimization (BLO), multi-level compositional optimization (MCO), and reinforcement learning (specifically, actor-critic methods). However, designing provably-efficient federated algorithms for MSA has been an elusive question even for the special case of double sequence approximation (DSA). Towards this goal, we develop FedMSA which is the first federated algorithm for MSA, and establish its near-optimal communication complexity. As core novelties, (i) FedMSA enables the provable estimation of hypergradients in BLO and MCO via local client updates, which has been a notable bottleneck in prior theory, and (ii) our convergence guarantees are sensitive to the heterogeneity-level of the problem. We also incorporate momentum and variance reduction techniques to achieve further acceleration leading to near-optimal rates. Finally, we provide experiments that support our theory and demonstrate the empirical benefits of FedMSA. As an example, FedMSA enables order-of-magnitude savings in communication rounds compared to prior federated BLO schemes.
翻訳日:2023-06-05 14:23:03 公開日:2023-06-02
# 人間の専門知識の監査

Auditing for Human Expertise ( http://arxiv.org/abs/2306.01646v1 )

ライセンス: Link先を確認
Rohan Alur, Loren Laine, Darrick K. Li, Manish Raghavan, Devavrat Shah, Dennis Shung(参考訳) 高度な予測タスク(例:患者の診断)は、しばしば訓練された人間の専門家によって扱われる。 これらの設定における自動化に関する共通の懸念の源は、専門家がモデル化が難しい直観を行使したり、(患者との会話のような)情報へのアクセスを単純にできないようにしたりすることである。 これは、人間の専門家がアルゴリズム予測器で捉えられない価値を付加するかどうかという自然な疑問を引き起こす。 我々は、この問題を自然仮説テストとして適用できる統計的枠組みを開発する。 実際、我々のフレームワークが強調しているように、人間の専門知識を検出することは、専門家による予測の精度を特定の学習アルゴリズムで作成されたものと単に比較するよりも微妙である。 提案手法は,有意な入力(features')を条件に,有意な予測結果から統計的に独立しているかどうかを判定する簡単な手法である。 そこで本試験の拒絶は,人間の専門家が利用可能なデータに基づいて訓練されたアルゴリズムに価値を付加する可能性を示唆し,与えられた予測タスクにおいて,AIの「補完性」が達成可能かどうかを直接的に示唆するものである。 そこで本研究では, 急性消化器出血(agib)患者に対する医師の入院・退院決定が, 標準アルゴリズムスクリーニングツールで捉えられていない情報を取り入れていることを示す。 これは、スクリーニングツールが医師の判断よりも正確であることに拘わらず、説明責任や解釈可能性に関する規範的な懸念がなくても、精度はアルゴリズムによる自動化を正当化するには不十分であることを強調している。

High-stakes prediction tasks (e.g., patient diagnosis) are often handled by trained human experts. A common source of concern about automation in these settings is that experts may exercise intuition that is difficult to model and/or have access to information (e.g., conversations with a patient) that is simply unavailable to a would-be algorithm. This raises a natural question whether human experts add value which could not be captured by an algorithmic predictor. We develop a statistical framework under which we can pose this question as a natural hypothesis test. Indeed, as our framework highlights, detecting human expertise is more subtle than simply comparing the accuracy of expert predictions to those made by a particular learning algorithm. Instead, we propose a simple procedure which tests whether expert predictions are statistically independent from the outcomes of interest after conditioning on the available inputs (`features'). A rejection of our test thus suggests that human experts may add value to any algorithm trained on the available data, and has direct implications for whether human-AI `complementarity' is achievable in a given prediction task. We highlight the utility of our procedure using admissions data collected from the emergency department of a large academic hospital system, where we show that physicians' admit/discharge decisions for patients with acute gastrointestinal bleeding (AGIB) appear to be incorporating information not captured in a standard algorithmic screening tool. This is despite the fact that the screening tool is arguably more accurate than physicians' discretionary decisions, highlighting that -- even absent normative concerns about accountability or interpretability -- accuracy is insufficient to justify algorithmic automation.
翻訳日:2023-06-05 14:22:27 公開日:2023-06-02
# 2次元床計画による意味的3次元モデルの自動再構成

Automatic Reconstruction of Semantic 3D Models from 2D Floor Plans ( http://arxiv.org/abs/2306.01642v1 )

ライセンス: Link先を確認
Aleixo Cambeiro Barreiro, Mariusz Trzeciakiewicz, Anna Hilsmann, Peter Eisert(参考訳) 既存建築物のデジタル化と3次元BIMモデルの作成は多くの課題に欠かせないものとなっている。 特に重要なのは、建物のレイアウトに関する情報を含み、建設、メンテナンス、改修などのプロセスに不可欠であるフロアプランである。 しかし、このデータは必ずしもデジタル形式では利用できない。特にCADツールが普及する以前に建てられた古い建物では意味情報がない。 このような情報のデジタル化は通常、手作業でレイアウトを再構築しなければならない専門家の手作業を必要とする。 本稿では,スキャンした2次元計画からベクトル化された3次元モデルを再構成するパイプラインを提案する。 提案手法は, 公開データセットCubeCasa5kにおける最先端の成果を達成し, 各種プランに対する優れた一般化を示す。 ベクトル化アプローチは特に効果的で,従来の手法よりも優れています。

Digitalization of existing buildings and the creation of 3D BIM models for them has become crucial for many tasks. Of particular importance are floor plans, which contain information about building layouts and are vital for processes such as construction, maintenance or refurbishing. However, this data is not always available in digital form, especially for older buildings constructed before CAD tools were widely available, or lacks semantic information. The digitalization of such information usually requires manual work of an expert that must reconstruct the layouts by hand, which is a cumbersome and error-prone process. In this paper, we present a pipeline for reconstruction of vectorized 3D models from scanned 2D plans, aiming at increasing the efficiency of this process. The method presented achieves state-of-the-art results in the public dataset CubiCasa5k, and shows good generalization to different types of plans. Our vectorization approach is particularly effective, outperforming previous methods.
翻訳日:2023-06-05 14:21:37 公開日:2023-06-02
# 量子ニューラルネットワークにおける有限サンプリングノイズの低減

Reduction of finite sampling noise in quantum neural networks ( http://arxiv.org/abs/2306.01639v1 )

ライセンス: Link先を確認
David Kreplin and Marco Roth(参考訳) 量子ニューラルネットワーク(QNN)は、データ依存の入力を持つパラメータ化量子回路を使用し、期待値の評価を通じて出力を生成する。 これらの期待値を計算することは繰り返し回路評価を必要とするため、エラーのない量子コンピュータでも基本的な有限サンプリングノイズが生じる。 このノイズを量子モデルトレーニング中に期待値の分散を減少させる手法である分散正規化を導入することで低減する。 この手法は、QNNが適切に構築されている場合、追加の回路評価を必要としない。 実験結果から, 分散速度の低下がトレーニングを高速化し, 出力ノイズを低減し, 勾配回路評価における測定回数を減少させることを示した。 この正則化法は多重関数の回帰に基づいてベンチマークされる。 私たちの例では、平均で1桁のばらつきが減少し、qnnのノイズレベルが著しく低下することを示している。 最後に,実量子デバイス上でqnnトレーニングを行い,誤差軽減の効果を評価する。 この最適化は, 分散の低減による勾配評価において, ショット数の減少によってのみ実現可能である。

Quantum neural networks (QNNs) use parameterized quantum circuits with data-dependent inputs and generate outputs through the evaluation of expectation values. Calculating these expectation values necessitates repeated circuit evaluations, thus introducing fundamental finite-sampling noise even on error-free quantum computers. We reduce this noise by introducing the variance regularization, a technique for reducing the variance of the expectation value during the quantum model training. This technique requires no additional circuit evaluations if the QNN is properly constructed. Our empirical findings demonstrate the reduced variance speeds up the training and lowers the output noise as well as decreases the number of measurements in the gradient circuit evaluation. This regularization method is benchmarked on the regression of multiple functions. We show that in our examples, it lowers the variance by an order of magnitude on average and leads to a significantly reduced noise level of the QNN. We finally demonstrate QNN training on a real quantum device and evaluate the impact of error mitigation. Here, the optimization is practical only due to the reduced number shots in the gradient evaluation resulting from the reduced variance.
翻訳日:2023-06-05 14:21:22 公開日:2023-06-02
# 時間とともに賢くなるのか? 相関背景知識による因果同値性について

Do we become wiser with time? On causal equivalence with tiered background knowledge ( http://arxiv.org/abs/2306.01638v1 )

ライセンス: Link先を確認
Christine W. Bang and Vanessa Didelez(参考訳) DAGの等価クラス(PDAGで表される)は、有用な因果情報を提供するには大きすぎるかもしれない。 ここでは、階層化MPDAGで表される制約付き同値クラスを出力する階層型背景知識を組み込む。 連結MPDAGの構築は、Meekの第一規則の適用のみを必要とし、連結MPDAG(一般MPDAGとは違って)は弦成分を持つ連鎖グラフであることを示す。 これは例えば因果効果推定のための有効な調整セットを決定することを単純化する。 さらに,一方の結び付き順序が他方よりも有益である場合に特徴付け,背景知識の有用な側面に関する洞察を提供する。

Equivalence classes of DAGs (represented by CPDAGs) may be too large to provide useful causal information. Here, we address incorporating tiered background knowledge yielding restricted equivalence classes represented by 'tiered MPDAGs'. Tiered knowledge leads to considerable gains in informativeness and computational efficiency: We show that construction of tiered MPDAGs only requires application of Meek's 1st rule, and that tiered MPDAGs (unlike general MPDAGs) are chain graphs with chordal components. This entails simplifications e.g. of determining valid adjustment sets for causal effect estimation. Further, we characterise when one tiered ordering is more informative than another, providing insights into useful aspects of background knowledge.
翻訳日:2023-06-05 14:21:07 公開日:2023-06-02
# 大規模言語モデルによる私的合成テキストの生成

Harnessing large-language models to generate private synthetic text ( http://arxiv.org/abs/2306.01684v1 )

ライセンス: Link先を確認
Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis(参考訳) DP-SGDのような差分プライベート(DP)トレーニング手法は、MLモデルがプライベート情報を公開しないことを保証することで、機密性の高いトレーニングデータを保護することができる。 そこで本研究では, センシティブなデータセットを用いて, 元のデータに対して差分プライベートな新しい合成データセットを生成する手法を提案する。 合成データは(ハイパーパラメータチューニングを含む)他のタスクのために再利用したり、無期限に保持したり、プライバシーを犠牲にすることなく第三者と共有することができる。 しかし、DPデータを取得することは、トレーニング中にDPを導入するよりもはるかに難しい。 テキスト化を実現するために、近年の研究では、事前学習された生成言語モデルから、機密データにプライベートに微調整することで、パブリックデータを利用した。 このモデルはdp合成データセットのサンプルに使用することができる。 この戦略は単純そうに思えるが、実行には問題があった。 これまでのアプローチでは、パフォーマンスが著しく低下していたり、重要な設計上の欠陥があったりします。 本稿では,パラメータの調整の少ない適切な学習目標がDP合成データ品質に優れた結果をもたらすことを示す。 我々のアプローチは、下流タスクにおけるパフォーマンスの観点から、下流分類器の直接DP訓練と競合する。 また, dp合成データが下流分類訓練に有用であるだけでなく, 同じモデルのチューニングにも有効であることを示す。

Differentially private (DP) training methods like DP-SGD can protect sensitive training data by ensuring that ML models will not reveal private information. An alternative approach, which this paper studies, is to use a sensitive dataset to generate a new synthetic dataset which is differentially private with respect to the original data. Doing so has several advantages: synthetic data can be reused for other tasks (including for hyper parameter tuning), retained indefinitely, or shared with third parties without sacrificing privacy. However, obtaining DP data is much harder than introducing DP during training. To make it feasible for text, recent work has utilized public data by starting with a pre-trained generative language model and privately finetuning it on sensitive data. This model can be used to sample a DP synthetic dataset. While this strategy seems straightforward, executing it has proven problematic. Previous approaches either show significant performance loss, or have, as we show, critical design flaws. In this paper we demonstrate that a proper training objective along with tuning fewer parameters results in excellent DP synthetic data quality. Our approach is competitive with direct DP-training of downstream classifiers in terms of performance on downstream tasks. We also demonstrate that our DP synthetic data is not only useful for downstream classifier training, but also to tune those same models.
翻訳日:2023-06-05 14:14:18 公開日:2023-06-02
# ド・ノボの医薬品設計におけるバランシングと爆発:$\beta$-CVAE

Balancing Exploration and Exploitation: Disentangled $\beta$-CVAE in De Novo Drug Design ( http://arxiv.org/abs/2306.01683v1 )

ライセンス: Link先を確認
Guang Jun Nicholas Ang, De Tao Irwin Chin and Bingquan Shen(参考訳) 深層生成モデルは最近、有望なデ・ノボ薬物設計法として登場した。 CVAEモデル(Deep Generative Conditional Variational Autoencoder)は、薬物のような性質を持つ新規分子を生成するための強力なアプローチである。 しかし、乱れと多変量明示的な潜伏条件を持つ分子グラフに基づくモデルは完全に解明されていない。 これに対処するため,我々は分子グラフ $\beta$-cvae モデルを提案した。 ここでは, 乱れの値を実験的に調整し, 最適化された単変量または多変量の性質を持つ分子を生成する能力を評価した。 特に,オクタノール水分配係数 (clogp), モル屈折率 (cmr), 薬物類似度の定量的推定 (qed), 合成アクセシビリティスコア (sas) を最適化した。 その結果、より低い$\beta$値が生成分子の特異性(探索)を高めることが示唆された。 その結果,clogp = 41.07%$\pm$ 0.01%,cmr 66.76%$\pm$ 0.01%の分子特性平均が生成した。 多変量特性最適化の結果, 両特性とも平均30.07%$\pm$0.01%分子が得られた。 さらに,本モデルは生成分子のQEDおよびSAS(Exploitation)を改善した。 これらの結果は、$\beta$-CVAEが解離による探索と搾取のバランスをとることを示唆し、デ・ノボの薬物設計の有望なモデルであり、将来の研究の基礎となることを示唆している。

Deep generative models have recently emerged as a promising de novo drug design method. In this respect, deep generative conditional variational autoencoder (CVAE) models are a powerful approach for generating novel molecules with desired drug-like properties. However, molecular graph-based models with disentanglement and multivariate explicit latent conditioning have not been fully elucidated. To address this, we proposed a molecular-graph $\beta$-CVAE model for de novo drug design. Here, we empirically tuned the value of disentanglement and assessed its ability to generate molecules with optimised univariate- or-multivariate properties. In particular, we optimised the octanol-water partition coefficient (ClogP), molar refractivity (CMR), quantitative estimate of drug-likeness (QED), and synthetic accessibility score (SAS). Results suggest that a lower $\beta$ value increases the uniqueness of generated molecules (exploration). Univariate optimisation results showed our model generated molecular property averages of ClogP = 41.07% $\pm$ 0.01% and CMR 66.76% $\pm$ 0.01% by the Ghose filter. Multivariate property optimisation results showed that our model generated an average of 30.07% $\pm$ 0.01% molecules for both desired properties. Furthermore, our model improved the QED and SAS (exploitation) of molecules generated. Together, these results suggest that the $\beta$-CVAE could balance exploration and exploitation through disentanglement and is a promising model for de novo drug design, thus providing a basis for future studies.
翻訳日:2023-06-05 14:13:59 公開日:2023-06-02
# 量子散逸の多色フローケット工学

Multichromatic Floquet engineering of quantum dissipation ( http://arxiv.org/abs/2306.01676v1 )

ライセンス: Link先を確認
Fran\c{c}ois Impens and David Gu\'ery-Odelin(参考訳) 量子系の単色駆動は量子シミュレーションにおいて成功し、ハミルトニアンアプローチによってうまく捉えられ、人工ゲージ場やトポロジカルエンジニアリングにも応用されている。 本稿では,自由度が遅い多色フロケット駆動のモデル化について検討する。 十分に定義されたパラメータの範囲内では、そのような駆動された閉じた量子システムの時間粗粒度ダイナミクスは、時間平均密度行列の有効マスター方程式にカプセル化され、有効ハミルトニアンおよび可変リンドブラッド型散逸/量子ゲイン項の作用下で進化する。 応用として, 2レベル系のバイクロマチック駆動における位相雑音および非コヒーレント発光・吸収過程による散逸をエミュレートする。

The monochromatic driving of a quantum system is a successful technique in quantum simulations, well captured by an effective Hamiltonian approach, and with applications in artificial gauge fields and topological engineering. In this letter, we investigate the modeling of multichromatic Floquet driving for the slow degrees of freedom. Within a well-defined range of parameters, we show that the time coarse-grained dynamics of such a driven closed quantum system is encapsulated in an effective Master equation for the time-averaged density matrix, that evolves under the action of an effective Hamiltonian and tunable Lindblad-type dissipation/quantum gain terms. As an application, we emulate the dissipation induced by phase noise and incoherent emission/absorption processes in the bichromatic driving of a two-level system.
翻訳日:2023-06-05 14:13:29 公開日:2023-06-02
# 適応時間ステップを有するニューラルディファレンシャルリカレントニューラルネットワーク

Neural Differential Recurrent Neural Network with Adaptive Time Steps ( http://arxiv.org/abs/2306.01674v1 )

ライセンス: Link先を確認
Yixuan Tan, Liyan Xie, Xiuyuan Cheng(参考訳) ニューラル常微分方程式(ODE)モデルは、離散時間スタンプの観測から複雑な継続的プロセスを学ぶことに成功している。 本研究では,非定常でスパイクなどの鋭い変化を伴う時系列データのモデル化と予測について考察する。 rnn-ode-adapと呼ばれるrnnベースのモデルを提案し,ニューラルネットワークを用いた隠れ状態の時間発展を表現し,時間経過に伴うデータの変化の急勾配に基づいて時間ステップを適応的に選択することで,"スパイクライク"時系列に対してより効率的にモデルを訓練する。 理論的には、RNN-ODE-Adapはホークス型時系列データに対する強度関数を確実に一貫した推定を行う。 また、適応的なステップの利点を示すRNN-ODEモデルの近似解析も提供する。 シミュレーションされた動的システムデータとポイントプロセスデータと実際の心電図データセットで計算コストを削減し,予測精度の向上を実証した。

The neural Ordinary Differential Equation (ODE) model has shown success in learning complex continuous-time processes from observations on discrete time stamps. In this work, we consider the modeling and forecasting of time series data that are non-stationary and may have sharp changes like spikes. We propose an RNN-based model, called RNN-ODE-Adap, that uses a neural ODE to represent the time development of the hidden states, and we adaptively select time steps based on the steepness of changes of the data over time so as to train the model more efficiently for the "spike-like" time series. Theoretically, RNN-ODE-Adap yields provably a consistent estimation of the intensity function for the Hawkes-type time series data. We also provide an approximation analysis of the RNN-ODE model showing the benefit of adaptive steps. The proposed model is demonstrated to achieve higher prediction accuracy with reduced computational cost on simulated dynamic system data and point process data and on a real electrocardiography dataset.
翻訳日:2023-06-05 14:13:15 公開日:2023-06-02
# nonadiabatic nuclear-electron dynamics:量子コンピューティングのアプローチ

Nonadiabatic nuclear-electron dynamics: a quantum computing approach ( http://arxiv.org/abs/2306.01671v1 )

ライセンス: Link先を確認
Arseny Kovyrshin, M{\aa}rten Skogh, Lars Tornberg, Anders Broo, Stefano Mensa, Emre Sahin, Benjamin C. B. Symons, Jason Crain, and Ivano Tavernelli(参考訳) 結合した量子電子核力学は、しばしばボルン・フンの分子波関数の膨張と摂動としての非断熱効果の出現と関連している。 一方、電子と核のネイティブな多成分表現も存在し、これはいかなる先行近似にも依存しない。 しかし、それらの実装はスケーリングの禁止によって妨げられ、そのため量子コンピュータはより大きなシステムに拡張するユニークな機会を提供する。 本稿では,第2量子化フレームワークにおける分子系の時間進化シミュレーションのための量子アルゴリズムを提案し,マロンアルデヒド中の陽子転移ダイナミクスのシミュレーションに応用した。 動力学を遅くて速い成分に分割した後、電子が原子核の変位の後に断熱しない場合、電子と核の自由度の間の絡み合いが長時間持続することを示す。 提案した量子アルゴリズムは、十分に強力な量子コンピュータが利用可能になったときの電子核量子現象の研究に有効な候補となるかもしれない。

The combined quantum electron-nuclear dynamics is often associated with the Born-Huang expansion of the molecular wave function and the appearance of nonadiabatic effects as a perturbation. On the other hand, native multicomponent representations of electrons and nuclei also exist, which do not rely on any a priori approximation. However, their implementation is hampered by prohibitive scaling costs and therefore quantum computers offer a unique opportunity for extending their use to larger systems. Here, we propose a quantum algorithm for the simulation of the time-evolution of molecular systems in the second quantization framework, which is applied to the simulation of the proton transfer dynamics in malonaldehyde. After partitioning the dynamics into slow and fast components, we show how the entanglement between the electronic and nuclear degrees of freedom can persist over long times if electrons are not adiabatically following the nuclear displacement. The proposed quantum algorithm may become a valid candidate for the study of electron-nuclear quantum phenomena when sufficiently powerful quantum computers become available.
翻訳日:2023-06-05 14:12:58 公開日:2023-06-02
# クリップ付き強調クリップ:限定的プロンプトチューニングのための擬似ラベル探索

Enhancing CLIP with CLIP: Exploring Pseudolabeling for Limited-Label Prompt Tuning ( http://arxiv.org/abs/2306.01669v1 )

ライセンス: Link先を確認
Cristina Menghini, Andrew Delworth, Stephen H. Bach(参考訳) CLIPのような微調整の視覚言語モデル(VLM)は、パフォーマンスを最適化するためにしばしば必要である。 しかし、大きな障害はラベル付きデータの可用性の制限である。 擬似ラベル,すなわちラベルのないデータに対するヒューリスティックラベルを用いて,即興チューニングによるクリップの強調を行った。 従来の擬似ラベル付けはラベル付きデータにモデルをトレーニングし、ラベルなしデータのラベルを生成する。 VLMのゼロショット機能は、ラベル付きデータに対するタスク固有のトレーニングを必要としない擬似ラベル付けアプローチの‘第2世代’を可能にする。 ゼロショット擬似ラベルを監督の源として使用することにより,半教師付き,トランスダクティブなゼロショット,非教師付き学習といった学習パラダイムを,すべて同じ損失関数の最適化と見なすことができる。 この統一された見解は、学習パラダイム全体に適用可能な多彩なトレーニング戦略の開発を可能にする。 我々は,CLIPが制限を示す画像分類タスクについて,テキストや視覚的プロンプト,学習パラダイムなど,迅速なモダリティの変化によって検討する。 その結果,(1) 擬似ラベルを反復的に洗練してCLIP精度を向上する未探索のプロンプトチューニング戦略,(2) 半教師付き学習では19.5ポイント, トランスダクティブゼロショット学習では28.4ポイント, 教師なし学習では15.2ポイント, そして(2) 高品質な擬似ラベルを持つクラスに対するモデルバイアスを悪化させる従来の半教師付き擬似ラベルとは異なり, 即時チューニングはより公平なクラス毎の精度分布をもたらすことがわかった。 実験を再現するコードはgithub.com/BatsResearch/menghini-enhanceCLIPwithCLIP-codeにある。

Fine-tuning vision-language models (VLMs) like CLIP to downstream tasks is often necessary to optimize their performance. However, a major obstacle is the limited availability of labeled data. We study the use of pseudolabels, i.e., heuristic labels for unlabeled data, to enhance CLIP via prompt tuning. Conventional pseudolabeling trains a model on labeled data and then generates labels for unlabeled data. VLMs' zero-shot capabilities enable a ``second generation'' of pseudolabeling approaches that do not require task-specific training on labeled data. By using zero-shot pseudolabels as a source of supervision, we observe that learning paradigms such as semi-supervised, transductive zero-shot, and unsupervised learning can all be seen as optimizing the same loss function. This unified view enables the development of versatile training strategies that are applicable across learning paradigms. We investigate them on image classification tasks where CLIP exhibits limitations, by varying prompt modalities, e.g., textual or visual prompts, and learning paradigms. We find that (1) unexplored prompt tuning strategies that iteratively refine pseudolabels consistently improve CLIP accuracy, by 19.5 points in semi-supervised learning, by 28.4 points in transductive zero-shot learning, and by 15.2 points in unsupervised learning, and (2) unlike conventional semi-supervised pseudolabeling, which exacerbates model biases toward classes with higher-quality pseudolabels, prompt tuning leads to a more equitable distribution of per-class accuracy. The code to reproduce the experiments is at github.com/BatsResearch/menghini-enhanceCLIPwithCLIP-code.
翻訳日:2023-06-05 14:12:43 公開日:2023-06-02
# XAIルネサンス:医療診断モデルにおける解釈可能性の再定義

XAI Renaissance: Redefining Interpretability in Medical Diagnostic Models ( http://arxiv.org/abs/2306.01668v1 )

ライセンス: Link先を確認
Sujith K Mandala(参考訳) 医療診断において機械学習モデルがますます普及するにつれて、解釈可能性と透明性の必要性が最重要となる。 XAIルネッサンスは、医療診断モデルの解釈可能性を再定義することを目的として、この分野における大きな変化を示している。 本稿では,医療診断モデルの解釈可能性に革命をもたらす,説明可能なAI(XAI)の領域における革新的なアプローチと方法論について考察する。 根底にある意思決定プロセスに光を当てることで、XAI技術は医療専門家にこれらのモデルを理解し、信頼し、効果的に活用することを可能にする。 このレビューでは、XAIの医療診断における重要な進歩と、医療の展望を変革し、最終的には患者の成果を改善し、AI駆動診断システムの信頼を高める可能性を強調している。

As machine learning models become increasingly prevalent in medical diagnostics, the need for interpretability and transparency becomes paramount. The XAI Renaissance signifies a significant shift in the field, aiming to redefine the interpretability of medical diagnostic models. This paper explores the innovative approaches and methodologies within the realm of Explainable AI (XAI) that are revolutionizing the interpretability of medical diagnostic models. By shedding light on the underlying decision-making process, XAI techniques empower healthcare professionals to understand, trust, and effectively utilize these models for accurate and reliable medical diagnoses. This review highlights the key advancements in XAI for medical diagnostics and their potential to transform the healthcare landscape, ultimately improving patient outcomes and fostering trust in AI-driven diagnostic systems.
翻訳日:2023-06-05 14:12:07 公開日:2023-06-02
# 文脈内シーン理解に向けて

Towards In-context Scene Understanding ( http://arxiv.org/abs/2306.01667v1 )

ライセンス: Link先を確認
Ivana Bala\v{z}evi\'c, David Steiner, Nikhil Parthasarathy, Relja Arandjelovi\'c, Olivier J. H\'enaff(参考訳) in-context learning$\unicode{x2013}$has 異なるプロンプトでモデルの動作を設定する能力は、自然言語処理の分野に革命をもたらし、タスク固有のモデルの必要性を緩和し、任意のクエリを補助できるジェネラリストモデルへの道を開く。 対照的にコンピュータビジョンは、主に前政権に留まっており、特殊デコーダと微調整プロトコルは、一般的に、セマンティックセグメンテーションや深さ推定のような密集したタスクを実行するために必要である。 本研究では,このような場面理解タスクの文脈内学習のための簡単なメカニズムについて検討する。 我々は,新しい事前学習プロトコル$\unicode{x2013}$leveraging attention in and across images$\unicode{x2013}$を提案する。 結果として得られたHummingbirdモデルは、各タスクに精巧に調整された専門家のパフォーマンスにアプローチしながら、変更せずに様々なシーン理解タスクを実行する。 さらに、hummingbirdは、微調整されたモデルよりもずっと効率的に新しいタスクを実行するように構成でき、対話型アシスタントシステムにおけるシーン理解の可能性を高めることができる。

In-context learning$\unicode{x2013}$the ability to configure a model's behavior with different prompts$\unicode{x2013}$has revolutionized the field of natural language processing, alleviating the need for task-specific models and paving the way for generalist models capable of assisting with any query. Computer vision, in contrast, has largely stayed in the former regime: specialized decoders and finetuning protocols are generally required to perform dense tasks such as semantic segmentation and depth estimation. In this work we explore a simple mechanism for in-context learning of such scene understanding tasks: nearest neighbor retrieval from a prompt of annotated features. We propose a new pretraining protocol$\unicode{x2013}$leveraging attention within and across images$\unicode{x2013}$which yields representations particularly useful in this regime. The resulting Hummingbird model, suitably prompted, performs various scene understanding tasks without modification while approaching the performance of specialists that have been finetuned for each task. Moreover, Hummingbird can be configured to perform new tasks much more efficiently than finetuned models, raising the possibility of scene understanding in the interactive assistant regime.
翻訳日:2023-06-05 14:11:53 公開日:2023-06-02
# SourceP: データフローによる事前学習モデルを用いたEthereum上のスマートポンジ検出

SourceP: Smart Ponzi Schemes Detection on Ethereum Using Pre-training Model with Data Flow ( http://arxiv.org/abs/2306.01665v1 )

ライセンス: Link先を確認
Pengcheng Lu, Liang Cai, and Keting Yin(参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。 スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。 Ethereum上のスマートPonziスキームを検出する既存の方法は、主にバイトコード機能、オプコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、解釈可能性や持続可能性に欠ける。 本稿では、前訓練モデルとデータフローを使用してethereumプラットフォーム上でスマートポンジスキームを検出する方法であるsourcepを提案し、smart contractsのソースコードを機能として使用することで、別の方向からスマートポンジスキームを検出する可能性を探究する。 sourcepは、モデルの解釈性を高めながら、データ取得の難しさと既存の検出方法の特徴抽出を削減します。 具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前トレーニングモデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。 実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。 我々はまた、事前学習モデルとデータフローがSourcePに重要な貢献を果たすこと、およびSourcePが優れた一般化能力を持っていることを証明する追加の実験を通して実証する。

As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, and such methods lack interpretability and sustainability. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-training models and data flow, which only requires using the source code of smart contracts as features to explore the possibility of detecting smart Ponzi schemes from another direction. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods while increasing the interpretability of the model. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-training model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-training models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.
翻訳日:2023-06-05 14:11:32 公開日:2023-06-02
# ドリフトデータを用いた弱監視のための適応的手法

An Adaptive Method for Weak Supervision with Drifting Data ( http://arxiv.org/abs/2306.01658v1 )

ライセンス: Link先を確認
Alessio Mazzetto, Reza Esfandiarpoor, Eli Upfal, Stephen H. Bach(参考訳) 非定常環境における弱監視のための形式的品質保証による適応手法を提案する。 我々のゴールは、各データポイントの正しい分類の独立したノイズ信号を提供する弱い監督源を用いて、データの列の未知のラベルを推測することである。 この設定にはクラウドソーシングとプログラムによる弱い監督が含まれる。 我々は、弱い監督源の精度が時間とともに変動する、例えば、基盤となるデータ分布の変化によって、非定常の場合に焦点を当てる。 ドリフトのため、古いデータは誤解を招く情報を提供し、現在のデータポイントのラベルを推測することができる。 これまでの作業は、過去のデータ使用量を決定するために、ドリフトの大きさに関する前提に頼っていた。 対照的に、我々のアルゴリズムはドリフトに関する仮定を一切必要とせず、入力に基づいて適応する。 特に,各ステップにおいて,推定値のばらつきによる誤差とドリフトによる誤差とのトレードオフを最小限に抑える,過去の観測窓上での弱監視源の現在の確率の推定を保証する。 人工ラベルと実世界のラベルの実験は、我々のアプローチがドリフトに適応していることを示している。 固定ウィンドウサイズ戦略とは異なり、ウィンドウサイズを動的に選択することで、継続的に優れたパフォーマンスを維持することができる。

We introduce an adaptive method with formal quality guarantees for weak supervision in a non-stationary setting. Our goal is to infer the unknown labels of a sequence of data by using weak supervision sources that provide independent noisy signals of the correct classification for each data point. This setting includes crowdsourcing and programmatic weak supervision. We focus on the non-stationary case, where the accuracy of the weak supervision sources can drift over time, e.g., because of changes in the underlying data distribution. Due to the drift, older data could provide misleading information to infer the label of the current data point. Previous work relied on a priori assumptions on the magnitude of the drift to decide how much data to use from the past. Comparatively, our algorithm does not require any assumptions on the drift, and it adapts based on the input. In particular, at each step, our algorithm guarantees an estimation of the current accuracies of the weak supervision sources over a window of past observations that minimizes a trade-off between the error due to the variance of the estimation and the error due to the drift. Experiments on synthetic and real-world labelers show that our approach indeed adapts to the drift. Unlike fixed-window-size strategies, it dynamically chooses a window size that allows it to consistently maintain good performance.
翻訳日:2023-06-05 14:10:55 公開日:2023-06-02
# 生成モデリングに基づくスタイライゼーションは回帰タスクにおけるドメイン適応に必要か?

Is Generative Modeling-based Stylization Necessary for Domain Adaptation in Regression Tasks? ( http://arxiv.org/abs/2306.01706v1 )

ライセンス: Link先を確認
Jinman Park, Francois Barnard, Saad Hossain, Sirisha Rambhatla, Paul Fieguth(参考訳) 教師なしドメイン適応(UDA)は、入力レベルアライメント(生成モデリングやスタイリゼーションなど)と特徴レベルアライメント(例えば勾配反転層のような特徴マップの分布と一致する)という2つの主要な手法を用いて、ターゲットドメインラベルが存在しない場合に、ソースとターゲットドメイン間のギャップを埋めることを目的としている。 画像分類における生成モデルの成功から、最近、ポーズ推定などの回帰タスクに対してスタイリゼーションに基づく手法が提案されている。 しかし、生成モデリングとスタイリングによる入力レベルのアライメントの使用は、実際のDAタスクでの使用を制限する追加のオーバーヘッドと計算の複雑さをもたらす。 DAにおける入力レベルアライメントの役割を調査するためには, 回帰における視覚領域適応に生成モデルに基づくスタイリングが必要か? 意外なことに、入力アライメントは、分類と比較して回帰タスクにはほとんど影響しない。 これらの知見に基づき、計算集約型スタイリゼーションや生成モデリングを必要とせず、SOTA回帰タスクよりも一貫した改善をもたらす非パラメトリックな特徴レベルドメインアライメント手法、ImStyを開発した。 本研究は、ドメインの一般化においても人気が高まっている時期に、生成モデリングとスタイル化の役割を批判的に評価する。

Unsupervised domain adaptation (UDA) aims to bridge the gap between source and target domains in the absence of target domain labels using two main techniques: input-level alignment (such as generative modeling and stylization) and feature-level alignment (which matches the distribution of the feature maps, e.g. gradient reversal layers). Motivated from the success of generative modeling for image classification, stylization-based methods were recently proposed for regression tasks, such as pose estimation. However, use of input-level alignment via generative modeling and stylization incur additional overhead and computational complexity which limit their use in real-world DA tasks. To investigate the role of input-level alignment for DA, we ask the following question: Is generative modeling-based stylization necessary for visual domain adaptation in regression? Surprisingly, we find that input-alignment has little effect on regression tasks as compared to classification. Based on these insights, we develop a non-parametric feature-level domain alignment method -- Implicit Stylization (ImSty) -- which results in consistent improvements over SOTA regression task, without the need for computationally intensive stylization and generative modeling. Our work conducts a critical evaluation of the role of generative modeling and stylization, at a time when these are also gaining popularity for domain generalization.
翻訳日:2023-06-05 14:05:50 公開日:2023-06-02
# 情報経路仮説:トランスフォーマーは動的自己感覚である

The Information Pathways Hypothesis: Transformers are Dynamic Self-Ensembles ( http://arxiv.org/abs/2306.01705v1 )

ライセンス: Link先を確認
Md Shamim Hussain, Mohammed J. Zaki and Dharmashankar Subramanian(参考訳) トランスフォーマーは、長距離接続に多くの柔軟性をもたらす、密集した自己保持機構を使用する。 ディープトランスの複数の層にまたがる接続パターンの数は指数関数的に増加する。 しかし、ネットワークのパフォーマンスに寄与するものはごくわずかであり、必要不可欠なものは少なめである。 我々は、情報経路と呼ばれるトランスフォーマーの内部に疎結合なサブネットワークが存在することを仮定する。 しかし、これらの経路の動的(すなわち入力依存的)性質は、訓練中に密着した自己集中を損なうことが困難である。 しかし、これらの経路全体の分布は予測可能であることが多い。 我々はこの事実を利用して、SSA(Stochastically Subsampled Self-Attention)を提案する。これはトランスフォーマーの汎用的なトレーニング戦略であり、トレーニング中に4~8倍のメモリと計算コストを削減できると同時に、正規化手法としても機能し、高密度トレーニングよりも一般化を改善する。 ネットワーク内のサブサンプリングされた経路から、複数のサブモデルを形成することが可能であり、密集した経路よりも優れた性能が得られることを示す。 我々は,様々なnlp,コンピュータビジョン,グラフ学習タスクにおいて,生成的および判別的設定の両方において実験を行い,クレームの実証的証拠を提供し,提案手法の有効性を示す。

Transformers use the dense self-attention mechanism which gives a lot of flexibility for long-range connectivity. Over multiple layers of a deep transformer, the number of possible connectivity patterns increases exponentially. However, very few of these contribute to the performance of the network, and even fewer are essential. We hypothesize that there are sparsely connected sub-networks within a transformer, called information pathways which can be trained independently. However, the dynamic (i.e., input-dependent) nature of these pathways makes it difficult to prune dense self-attention during training. But the overall distribution of these pathways is often predictable. We take advantage of this fact to propose Stochastically Subsampled self-Attention (SSA) - a general-purpose training strategy for transformers that can reduce both the memory and computational cost of self-attention by 4 to 8 times during training while also serving as a regularization method - improving generalization over dense training. We show that an ensemble of sub-models can be formed from the subsampled pathways within a network, which can achieve better performance than its densely attended counterpart. We perform experiments on a variety of NLP, computer vision and graph learning tasks in both generative and discriminative settings to provide empirical evidence for our claims and show the effectiveness of the proposed method.
翻訳日:2023-06-05 14:05:23 公開日:2023-06-02
# Pairwise Distribution Disrepancy を用いたデータデバイアスのための親和性クラスタリングフレームワーク

Affinity Clustering Framework for Data Debiasing Using Pairwise Distribution Discrepancy ( http://arxiv.org/abs/2306.01699v1 )

ライセンス: Link先を確認
Siamak Ghodsi, and Eirini Ntoutsi(参考訳) グループ不均衡(グループ不均衡)は、データセットにおける表現バイアスの主要な原因である。 表現バイアスは1つ以上の保護された属性の異なるグループに対して存在し、特定の個人のグループに対して偏見的および差別的な結果をもたらす可能性がある。 本稿では,保護された属性のインスタンスを共有することによって,同じクラスタで分類された類似データセットから保護された属性のインスタンスを活用し,対象データセットの非保護型および保護型グループ表現のバランスをとるために,親和性クラスタリングを利用するデータ拡張手法であるmascを提案する。 提案手法は,データセット対間の分布差を定量化し,対称なペアワイズ類似性行列に変換することで,親和性行列を構築することを含む。 このアフィニティマトリックスには非パラメトリックスペクトルクラスタリングが適用され、データセットを最適なクラスタに自動的に分類する。 本手法のデモとして,提案手法の手順を示し,その性能評価と議論を行うためのステップバイステップ実験を行った。 各手法のモデル評価解析とともに,事前および後増分法と他のデータ増分法との比較を行った。 本手法は,非バイナリ保護属性を扱えるため,非バイナリ保護属性設定w.r.t.人種集団分布において,非バイナリ保護属性をデバイアス前後の多数派と比較し,バイアスを測定できる。 実験結果から,類似したコンテキストから実(生成)データを用いてデータセットバイアスを増大させる手法は,既存のデータ拡張戦略と同等にターゲットデータセットの偏りを効果的に解消できることが示唆された。

Group imbalance, resulting from inadequate or unrepresentative data collection methods, is a primary cause of representation bias in datasets. Representation bias can exist with respect to different groups of one or more protected attributes and might lead to prejudicial and discriminatory outcomes toward certain groups of individuals; in cases where a learning model is trained on such biased data. This paper presents MASC, a data augmentation approach that leverages affinity clustering to balance the representation of non-protected and protected groups of a target dataset by utilizing instances of the same protected attributes from similar datasets that are categorized in the same cluster as the target dataset by sharing instances of the protected attribute. The proposed method involves constructing an affinity matrix by quantifying distribution discrepancies between dataset pairs and transforming them into a symmetric pairwise similarity matrix. A non-parametric spectral clustering is then applied to this affinity matrix, automatically categorizing the datasets into an optimal number of clusters. We perform a step-by-step experiment as a demo of our method to show the procedure of the proposed data augmentation method and evaluate and discuss its performance. A comparison with other data augmentation methods, both pre- and post-augmentation, is conducted, along with a model evaluation analysis of each method. Our method can handle non-binary protected attributes so, in our experiments, bias is measured in a non-binary protected attribute setup w.r.t. racial groups distribution for two separate minority groups in comparison with the majority group before and after debiasing. Empirical results imply that our method of augmenting dataset biases using real (genuine) data from similar contexts can effectively debias the target datasets comparably to existing data augmentation strategies.
翻訳日:2023-06-05 14:04:58 公開日:2023-06-02
# MutateNN: ハードウェアアクセラレータにデプロイされた画像認識モデルの変異テスト

MutateNN: Mutation Testing of Image Recognition Models Deployed on Hardware Accelerators ( http://arxiv.org/abs/2306.01697v1 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano, and Ajitha Rajan(参考訳) 近年の人工知能の研究進歩により、現実世界の問題を緩和し、技術的に前進する新たな機会が生まれている。 特に画像認識モデルは、複雑な現実世界の課題を軽減し、新しい解決策につながるために知覚タスクに割り当てられる。 さらに、そのようなモデルの資源に対する計算複雑性と需要も増大した。 これを軽減するために、モデル最適化とハードウェアアクセラレーションが動き出したが、そのような概念を効果的に統合することは困難でエラーを起こしやすいプロセスである。 デベロッパーと研究者は、異なるハードウェアアクセラレーションデバイスにデプロイされたディープラーニング画像認識モデルの堅牢性を調べるために、変異テストと解析機能を提供するツールであるMutateNNを提案する。 その能力を示すために、広く知られている7つの深層ニューラルネットワークモデルの21の変異を利用した。 計算能力の異なる4種類のミュータントに対して,条件演算に関連するミュータントと,算術型に関連するミュータントとの不安定な動作を観察した。

With the research advancement of Artificial Intelligence in the last years, there are new opportunities to mitigate real-world problems and advance technologically. Image recognition models in particular, are assigned with perception tasks to mitigate complex real-world challenges and lead to new solutions. Furthermore, the computational complexity and demand for resources of such models has also increased. To mitigate this, model optimization and hardware acceleration has come into play, but effectively integrating such concepts is a challenging and error-prone process. In order to allow developers and researchers to explore the robustness of deep learning image recognition models deployed on different hardware acceleration devices, we propose MutateNN, a tool that provides mutation testing and analysis capabilities for that purpose. To showcase its capabilities, we utilized 21 mutations for 7 widely-known pre-trained deep neural network models. We deployed our mutants on 4 different devices of varying computational capabilities and observed discrepancies in mutants related to conditional operations, as well as some unstable behaviour with those related to arithmetic types.
翻訳日:2023-06-05 14:04:26 公開日:2023-06-02
# 相互作用による数学用言語モデルの評価

Evaluating Language Models for Mathematics through Interactions ( http://arxiv.org/abs/2306.01694v1 )

ライセンス: Link先を確認
Katherine M. Collins and Albert Q. Jiang and Simon Frieder and Lionel Wong and Miri Zilka and Umang Bhatt and Thomas Lukasiewicz and Yuhuai Wu and Joshua B. Tenenbaum and William Hart and Timothy Gowers and Wenda Li and Adrian Weller and Mateja Jamnik(参考訳) 静的な入力と出力のペアに基づいて大規模言語モデル(llm)を評価する標準的な方法論は、アシスタントの開発には不十分である。 我々は,LLMの操作と評価を行うための適応型プロトタイププラットフォームであるCheckMateを紹介する。 そこで我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を,大学生から数学教授への混成コホートを用いて,学部レベルの数学の証明支援として評価した。 結果のインタラクションとレーティングデータセットであるmathconverseをリリースします。 MathConverseを解析することにより、人間の行動の予備的な分類法が導き出され、概して正の相関があるにもかかわらず、LLM世代における正確性と知覚的有用性の相違が顕著であることが明らかとなった。 さらに, 数学者による一連のケーススタディを通じて, GPT-4の数学的推論における有用シナリオと既存の課題を明らかにした。 我々は,ML実践者や数学者に対して,不確実性を伝達し,ユーザ修正によく対応し,より解釈しやすく,より簡潔なモデルがより良いアシスタントを構成すること,対話的評価がこれらのモデルの能力を継続的にナビゲートするための有望な方法であること,言語モデルの代数的誤認を認識すべきであること,そしてその理由から,それらがどこに使われるべきかを識別すること,といった行動可能なテイクアウトで結論付けた。

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models' algebraic fallibility, and for that reason discern where they should be used.
翻訳日:2023-06-05 14:04:07 公開日:2023-06-02
# 言語モデルトレーニングのための人体フィードバックの微粒化

Fine-Grained Human Feedback Gives Better Rewards for Language Model Training ( http://arxiv.org/abs/2306.01693v1 )

ライセンス: Link先を確認
Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi(参考訳) 言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。 人間のフィードバックからの強化学習(RLHF) – LM出力に対する人間の嗜好判断が学習信号に変換される – は、これらの問題に対処する上での約束を最近示した。 しかし、このような全体論的フィードバックは、長いテキスト出力に関する限られた情報を伝えるものであり、出力のどの側面がユーザーの好みに影響を与えているかを示すものではない。 本稿では, 明快な訓練信号として, きめ細かい人間のフィードバック(例えば, 文は偽で, サブ文は無関係)を用いる。 我々は,(1)各セグメント(文など)が生成されてから報酬を与える密度,(2)異なるフィードバックタイプ(事実的誤り,不適切性,情報不完全性など)に関連付けられた複数の報酬モデルを統合する,2つの点で微細な報酬関数からのトレーニングと学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。 我々は,このような報酬関数による学習が,自動評価と人的評価の両方で支持されるパフォーマンス向上につながることを示すために,解毒および長文質問応答の実験を行った。 さらに、細粒度報酬モデルの異なる組み合わせを用いて、LMの挙動をカスタマイズできることを示す。 すべてのデータ、人間のフィードバック、コードをhttps://FineGrainedRLHF.github.ioで公開しています。

Language models (LMs) often exhibit undesirable text generation behaviors, including generating false, toxic, or irrelevant outputs. Reinforcement learning from human feedback (RLHF) - where human preference judgments on LM outputs are transformed into a learning signal - has recently shown promise in addressing these issues. However, such holistic feedback conveys limited information on long text outputs; it does not indicate which aspects of the outputs influenced user preference; e.g., which parts contain what type(s) of errors. In this paper, we use fine-grained human feedback (e.g., which sentence is false, which sub-sentence is irrelevant) as an explicit training signal. We introduce Fine-Grained RLHF, a framework that enables training and learning from reward functions that are fine-grained in two respects: (1) density, providing a reward after every segment (e.g., a sentence) is generated; and (2) incorporating multiple reward models associated with different feedback types (e.g., factual incorrectness, irrelevance, and information incompleteness). We conduct experiments on detoxification and long-form question answering to illustrate how learning with such reward functions leads to improved performance, supported by both automatic and human evaluation. Additionally, we show that LM behaviors can be customized using different combinations of fine-grained reward models. We release all data, collected human feedback, and codes at https://FineGrainedRLHF.github.io.
翻訳日:2023-06-05 14:03:37 公開日:2023-06-02
# リプシッツ連続活性化関数と可変幅を持つディープニューラルネットワークの一様収束

Uniform Convergence of Deep Neural Networks with Lipschitz Continuous Activation Functions and Variable Widths ( http://arxiv.org/abs/2306.01692v1 )

ライセンス: Link先を確認
Yuesheng Xu and Haizhang Zhang(参考訳) リプシッツ連続活性化関数と可変幅の重み行列を持つディープニューラルネットワークを考える。 リプシッツ定数とともに、重み行列とバイアスベクトルの十分な条件が与えられ、それらの層数が無限大になる傾向にあるように、ディープニューラルネットワークの均一収束を有意義な関数に保証する一様収束解析フレームワークを確立する。 本フレームワークでは、固定幅、有界幅、非有界幅を有するディープニューラルネットワークの一様収束に関する特別結果を示す。 特に、畳み込みニューラルネットワークは、幅が増大する重み行列を持つ特殊な深層ニューラルネットワークであるので、畳み込みニューラルネットワークの一様収束につながるマスクシーケンスの条件を提示する。 活性化関数上のリプシッツ連続性仮定は、アプリケーションでよく使われる活性化関数のほとんどを我々の理論に含めることができる。

We consider deep neural networks with a Lipschitz continuous activation function and with weight matrices of variable widths. We establish a uniform convergence analysis framework in which sufficient conditions on weight matrices and bias vectors together with the Lipschitz constant are provided to ensure uniform convergence of the deep neural networks to a meaningful function as the number of their layers tends to infinity. In the framework, special results on uniform convergence of deep neural networks with a fixed width, bounded widths and unbounded widths are presented. In particular, as convolutional neural networks are special deep neural networks with weight matrices of increasing widths, we put forward conditions on the mask sequence which lead to uniform convergence of resulting convolutional neural networks. The Lipschitz continuity assumption on the activation functions allows us to include in our theory most of commonly used activation functions in applications.
翻訳日:2023-06-05 14:03:08 公開日:2023-06-02
# gateon: 大規模連続学習のための教師なし手法

GateON: an unsupervised method for large scale continual learning ( http://arxiv.org/abs/2306.01690v1 )

ライセンス: Link先を確認
Martin Barry, Guillaume Bellec, Wulfram Gerstner(参考訳) 継続学習(CL)の目的は、以前のタスクを再学習することなく連続的にタスクを学習することである。 しかし、clを受けると、従来のニューラルネットワークは破滅的な忘れ方と限定的な一般化を示す。 これらの問題を解決するために,Gate and Obstruct Network (GateON) と呼ばれる新しい手法を導入する。 gateonは、学習可能なアクティビティのゲーティングとパラメータ関連性のオンライン推定を組み合わせて、重要な知識を上書きから守る。 本手法は,逐次学習中に前方および後方移動を許容するタスク間の部分重複経路を生成する。 Gateonは、固定ニューロンの再活性化機構によるパラメータ固定後のネットワーク飽和の問題に対処し、大規模連続学習を可能にした。 Gateonは、幅広いネットワーク(全接続、CNN、Transformers)で実装されており、計算の複雑さが低く、100MNISTの学習タスクを効果的に学習し、CLベースのNLPタスクにおいて、事前学習されたBERTの上位層の結果を得る。

The objective of continual learning (CL) is to learn tasks sequentially without retraining on earlier tasks. However, when subjected to CL, traditional neural networks exhibit catastrophic forgetting and limited generalization. To overcome these problems, we introduce a novel method called 'Gate and Obstruct Network' (GateON). GateON combines learnable gating of activity and online estimation of parameter relevance to safeguard crucial knowledge from being overwritten. Our method generates partially overlapping pathways between tasks which permits forward and backward transfer during sequential learning. GateON addresses the issue of network saturation after parameter fixation by a re-activation mechanism of fixed neurons, enabling large-scale continual learning. GateON is implemented on a wide range of networks (fully-connected, CNN, Transformers), has low computational complexity, effectively learns up to 100 MNIST learning tasks, and achieves top-tier results for pre-trained BERT in CL-based NLP tasks.
翻訳日:2023-06-05 14:02:53 公開日:2023-06-02
# 構造MRIを用いたパーキンソン病患者の脳ネットワーク識別数

Unique Brain Network Identification Number for Parkinson's Individuals Using Structural MRI ( http://arxiv.org/abs/2306.01689v1 )

ライセンス: Link先を確認
Tanmayee Samantaray, Utsav Gupta, Jitender Saini, and Cota Navin Gupta(参考訳) 本稿では,個々の被験者の脳ネットワークを符号化する一意性脳ネットワーク識別番号(ubnin)と呼ばれる新しいアルゴリズムを提案する。 この目的を達成するため,インド国立精神保健神経科学研究所から180パーキンソン病(PD)患者のT1強調MRIを用いた。 各被験者の脳容積を分節し,各領域の灰白質(gm)容積の相関関係を用いて個々の隣接行列を構築した。 ユニークなコードは、各ノード (i) の接続を表す値から導かれ、2^-(i-1) の係数で重み付けされる。 数値表現ubninは個々の脳ネットワークで異なることが観察され、他の神経画像のモダリティにも応用できる。 このモデルは、人のユニークな脳接続性のニューラルシグネチャとして実装され、脳プリントアプリケーションに有用である。 さらに、上記のデータセットをa:22-32年、b:33-42年、c:43-52年、d:53-62年、e:63-72年という5つの年齢コホートに分け、年齢によるネットワークトポロジーの変化を調査した。 各年齢別相関行列を二項化するための閾値推定値としてスペーサ性を採用した。 Brain Connectivity ToolboxベースのMATLAB関数を用いて接続度を測定した。 年齢層ごとに平均クラスタリング係数が減少傾向にあり,スパーシティが増大した。 年齢コホートBとC(スパース:0.63,0.66)、CとE(スパース:0.66,0.69)の間に有意な異なるクラスタリング係数が認められた。 以上の結果から,ネットワーク接続パターンは年齢とともに変化し,神経病理学によるネットワーク破壊が示唆された。 異なるコホートに対する分散クラスタリング係数は、隣接するノード間の情報転送が年齢とともに変化することを示す。 これは加齢に伴う脳の収縮とネットワークの変性の証拠となる。

We propose a novel algorithm called Unique Brain Network Identification Number (UBNIN) for encoding brain networks of individual subject. To realize this objective, we employed T1-weighted structural MRI of 180 Parkinson's disease (PD) patients from National Institute of Mental Health and Neurosciences, India. We parcellated each subject's brain volume and constructed individual adjacency matrix using correlation between grey matter (GM) volume of every pair of regions. The unique code is derived from values representing connections of every node (i), weighted by a factor of 2^-(i-1). The numerical representation UBNIN was observed to be distinct for each individual brain network, which may also be applied to other neuroimaging modalities. This model may be implemented as neural signature of a person's unique brain connectivity, thereby useful for brainprinting applications. Additionally, we segregated the above dataset into five age-cohorts: A:22-32years, B:33-42years, C:43-52years, D:53-62years and E:63-72years to study the variation in network topology over age. Sparsity was adopted as the threshold estimate to binarize each age-based correlation matrix. Connectivity metrics were obtained using Brain Connectivity toolbox-based MATLAB functions. For each age-cohort, a decreasing trend was observed in mean clustering coefficient with increasing sparsity. Significantly different clustering coefficient was noted between age-cohort B and C (sparsity: 0.63,0.66), C and E (sparsity: 0.66,0.69). Our findings suggest network connectivity patterns change with age, indicating network disruption due to the underlying neuropathology. Varying clustering coefficient for different cohorts indicate that information transfer between neighboring nodes change with age. This provides evidence on age-related brain shrinkage and network degeneration.
翻訳日:2023-06-05 14:02:35 公開日:2023-06-02
# MKOR: Rank-1 アップデートを用いたモーメントム付きクロネッカー型最適化器

MKOR: Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 Updates ( http://arxiv.org/abs/2306.01685v1 )

ライセンス: Link先を確認
Mohammad Mozaffari, Sikan Li, Zhao Zhang, Maryam Mehri Dehnavi(参考訳) 本研究は,deep neural network (dnn) の学習時間と収束特性を改善するために,rank-1 更新を用いた運動量対応クロネッカー型最適化器を提案する。 2階の手法は、収束率が高い一方、1階の手法はモデルサイズまたは/またはトレーニングバッチサイズに関して3倍の複雑さを持つ。 したがって、大きな言語モデル(LLM)のようなトランスフォーマーモデルでは、これらのモデルにおけるバッチサイズがアテンションメカニズムのシーケンス長によってスケールするため、スケーラビリティとパフォーマンスが劣る。 MKORの複雑性はモデルサイズに対して2次的であり、2階法の計算ボトルネックを軽減する。 計算の複雑さが高いため、第2次メソッドの最先端の実装は、第2次情報を必ずしも更新できないため、これらの更新からよりよい収束の約束を十分に活用できない。 2次更新の通信複雑性を低減し、線形通信複雑性を達成することにより、MKORは2次更新の頻度を増加させる。 また,第2次更新が収束を加速しない場合,MKOR(MKOR-H)のハイブリッド版も提案する。 実験の結果, MKORは, 64個のGPU上でのBERT-Large-Uncased上で, LAMBオプティマイザやKAISA/KFACといった2次メソッドの最適実装において, それぞれ2.57倍, 1.85倍の性能を発揮した。

This work proposes a Momentum-Enabled Kronecker-Factor-Based Optimizer Using Rank-1 updates, called MKOR, that improves the training time and convergence properties of deep neural networks (DNNs). Second-order techniques, while enjoying higher convergence rates vs first-order counterparts, have cubic complexity with respect to either the model size and/or the training batch size. Hence they exhibit poor scalability and performance in transformer models, e.g. large language models (LLMs), because the batch sizes in these models scale by the attention mechanism sequence length, leading to large model size and batch sizes. MKOR's complexity is quadratic with respect to the model size, alleviating the computation bottlenecks in second-order methods. Because of their high computation complexity, state-of-the-art implementations of second-order methods can only afford to update the second order information infrequently, and thus do not fully exploit the promise of better convergence from these updates. By reducing the communication complexity of the second-order updates as well as achieving a linear communication complexity, MKOR increases the frequency of second order updates. We also propose a hybrid version of MKOR (called MKOR-H) that mid-training falls backs to a first order optimizer if the second order updates no longer accelerate convergence. Our experiments show that MKOR outperforms state -of-the-art first order methods, e.g. the LAMB optimizer, and best implementations of second-order methods, i.e. KAISA/KFAC, up to 2.57x and 1.85x respectively on BERT-Large-Uncased on 64 GPUs.
翻訳日:2023-06-05 14:02:03 公開日:2023-06-02
# ラベルなしデータに基づく雑音判断のためのストリーミングアルゴリズム -バイナリ分類

Streaming algorithms for evaluating noisy judges on unlabeled data -- binary classification ( http://arxiv.org/abs/2306.01726v1 )

ライセンス: Link先を確認
Andr\'es Corrada-Emmanuel(参考訳) ラベル付けされていないデータに対するノイズの多いバイナリ分類器の評価はストリーミングタスクとして扱われる: アンサンブルによる決定のデータのスケッチを与えられた場合、ラベルの真価と各分類器の精度を推定する。 2つの完全に代数的な評価器が構築されている。 どちらも、分類器が独立した誤りを犯すという仮定に基づいている。 1つ目は多数決による投票である。 論文の主な貢献である2番目は、正しいことが保証されている。 しかし、どのようなテストで分類器が独立であることをどうやって知るのか? このプリンシパル/エージェント監視パラドックスは、独立評価器の故障を利用して、合理的な見積を返すことで改善される。 ほぼエラーのない三重項の探索は、代数的故障モードを用いて、不相関な評価アンサンブルを拒絶することで、 \texttt{adult}, \texttt{mushroom}, \texttt{two-norm}データセット上で経験的に実行される。 真の値点を含む評価空間の表面を構築することにより、検索を洗練する。 任意の相関変数を含まない多項式部分集合の選択を任意の相関型分類器の代数は許す。 候補評価アンサンブルは、データスケッチが構築面から遠すぎる独立した推定値を生成する場合、拒否される。 生き残ったアンサンブルが生み出す結果は、時には1\%にも達することがある。 しかし、少量の相関を扱うことは依然として困難である。 独立性が仮定されるときに生成される推定値のテイラー展開は、実際、分類器はわずかに相関しており、独立評価器が代数的「盲点」を持つかを明らかにするのに役立つ。

The evaluation of noisy binary classifiers on unlabeled data is treated as a streaming task: given a data sketch of the decisions by an ensemble, estimate the true prevalence of the labels as well as each classifier's accuracy on them. Two fully algebraic evaluators are constructed to do this. Both are based on the assumption that the classifiers make independent errors. The first is based on majority voting. The second, the main contribution of the paper, is guaranteed to be correct. But how do we know the classifiers are independent on any given test? This principal/agent monitoring paradox is ameliorated by exploiting the failures of the independent evaluator to return sensible estimates. A search for nearly error independent trios is empirically carried out on the \texttt{adult}, \texttt{mushroom}, and \texttt{two-norm} datasets by using the algebraic failure modes to reject evaluation ensembles as too correlated. The searches are refined by constructing a surface in evaluation space that contains the true value point. The algebra of arbitrarily correlated classifiers permits the selection of a polynomial subset free of any correlation variables. Candidate evaluation ensembles are rejected if their data sketches produce independent estimates too far from the constructed surface. The results produced by the surviving ensembles can sometimes be as good as 1\%. But handling even small amounts of correlation remains a challenge. A Taylor expansion of the estimates produced when independence is assumed but the classifiers are, in fact, slightly correlated helps clarify how the independent evaluator has algebraic `blind spots'.
翻訳日:2023-06-05 13:55:32 公開日:2023-06-02
# 最適収量予測に向けたgcnのグラフスパース化

Graph Sparsification for GCN Towards Optimal Crop Yield Predictions ( http://arxiv.org/abs/2306.01725v1 )

ライセンス: Link先を確認
Saghar Bagheri, Gene Cheung, Tim Eadie(参考訳) アグロノミクスでは、農夫が不確実性を最小化し、次の収穫サイクルに向けて種を計画することが重要である。 最先端の予測技術では、前年の関連する特徴と収量から将来の収量を予測するためにグラフ畳み込みネット(GCN)を採用しているが、基盤となるグラフカーネルは長いトレーニングと実行時間を必要とする。 本稿では、GCNのトレーニング/実行の複雑さを低減するために、完全なグラフカーネルからエッジを取り除くためのFiedler数に基づくグラフスペーシング手法を提案する。 具体的には,第2の固有値の最小値変化を誘発する辺をゆるやかに取り除くと,gcn性能が良好なスパースグラフになることを示す。 次に,固有値摂動定理に基づく反復毎にエッジを選択する高速手法を提案する。 実験により, 収穫量予測における他のグラフスペーシフィケーション手法と比較して, 優れたGCN性能を有するスパースグラフが得られた。

In agronomics, predicting crop yield at a per field/county granularity is important for farmers to minimize uncertainty and plan seeding for the next crop cycle. While state-of-the-art prediction techniques employ graph convolutional nets (GCN) to predict future crop yields given relevant features and crop yields of previous years, a dense underlying graph kernel requires long training and execution time. In this paper, we propose a graph sparsification method based on the Fiedler number to remove edges from a complete graph kernel, in order to lower the complexity of GCN training/execution. Specifically, we first show that greedily removing an edge at a time that induces the minimal change in the second eigenvalue leads to a sparse graph with good GCN performance. We then propose a fast method to choose an edge for removal per iteration based on an eigenvalue perturbation theorem. Experiments show that our Fiedler-based method produces a sparse graph with good GCN performance compared to other graph sparsification schemes in crop yield prediction.
翻訳日:2023-06-05 13:55:04 公開日:2023-06-02
# 1クエリによる効率的な量子状態合成

Efficient Quantum State Synthesis with One Query ( http://arxiv.org/abs/2306.01723v1 )

ライセンス: Link先を確認
Gregory Rosenthal(参考訳) 我々は、多項式時間量子アルゴリズムを古典オラクルに(重ね合わせで)1つのクエリを作成し、すべての状態に対して$|\psi\rangle$という指数関数的に近似するオラクルの選択が存在することを示す。 この問題の以前のアルゴリズムでは、線形数のクエリと多項式時間(arXiv:1607.05256)、あるいは定数数のクエリと多項式数のアンシラを使用していた。 statePSPACE $\subseteq$ stateQIP [arXiv:2108.07192] (PSPACE $\subseteq$ IPの量子状態類似体) の証明を単純化し、相互作用のラウンドの一定数が十分であることを示す。 qac$\mathsf{_f^0}$下限は明示的なブール関数を計算するための画期的な回路下限であることを示す。 各$n$-qubit状態は、適切な有限ゲート集合上の$o(2^n/n)$-size回路によって0.01エラー以内に構築できることを証明します。 より一般的には、カウントする引数によって任意の有限ゲート集合に対して最適である大きさエラートレードオフを与える。

We present a polynomial-time quantum algorithm making a single query (in superposition) to a classical oracle, such that for every state $|\psi\rangle$ there exists a choice of oracle that makes the algorithm construct an exponentially close approximation of $|\psi\rangle$. Previous algorithms for this problem either used a linear number of queries and polynomial time [arXiv:1607.05256], or a constant number of queries and polynomially many ancillae but no nontrivial bound on the runtime [arXiv:2111.02999]. As corollaries we do the following: - We simplify the proof that statePSPACE $\subseteq$ stateQIP [arXiv:2108.07192] (a quantum state analogue of PSPACE $\subseteq$ IP) and show that a constant number of rounds of interaction suffices. - We show that QAC$\mathsf{_f^0}$ lower bounds for constructing explicit states would imply breakthrough circuit lower bounds for computing explicit boolean functions. - We prove that every $n$-qubit state can be constructed to within 0.01 error by an $O(2^n/n)$-size circuit over an appropriate finite gate set. More generally we give a size-error tradeoff which, by a counting argument, is optimal for any finite gate set.
翻訳日:2023-06-05 13:54:46 公開日:2023-06-02
# マスク事前モデリングによる拡散セマンティクスの分節化

Denoising Diffusion Semantic Segmentation with Mask Prior Modeling ( http://arxiv.org/abs/2306.01721v1 )

ライセンス: Link先を確認
Zeqiang Lai, Yuchen Duan, Jifeng Dai, Ziheng Li, Ying Fu, Hongsheng Li, Yu Qiao, Wenhai Wang(参考訳) セマンティックセグメンテーションの進化は、各ピクセルを分類するためのより識別的な画像表現を学ぶことで長い間支配されてきた。 顕著な進歩にもかかわらず、セグメンテーションマスクの先行、例えば幾何学的制約や意味的制約はいまだ未発見のままである。 本稿では,最近開発された分別拡散生成モデルによるマスク先行モデルを用いて,既存の判別手法のセグメンテーション品質を改善することを提案する。 マスク事前モデリングに拡散モデルを適用する統一アーキテクチャから始め、この作業は離散拡散を伴う特定のインスタンス化に焦点をあて、その成功のために様々な重要な設計選択を識別する。 Our exploratory analysis revealed several important findings, including: (1) a simple integration of diffusion models into semantic segmentation is not sufficient, and a poorly-designed diffusion process might lead to degradation in segmentation performance; (2) during the training, the object to which noise is added is more important than the type of noise; (3) during the inference, the strict diffusion denoising scheme may not be essential and can be relaxed to a simpler scheme that even works better. ade20k と cityscapes における実験結果から,提案手法が競争的に定量的な性能とより魅力的な視覚品質を実現することを証明した。

The evolution of semantic segmentation has long been dominated by learning more discriminative image representations for classifying each pixel. Despite the prominent advancements, the priors of segmentation masks themselves, e.g., geometric and semantic constraints, are still under-explored. In this paper, we propose to ameliorate the semantic segmentation quality of existing discriminative approaches with a mask prior modeled by a recently-developed denoising diffusion generative model. Beginning with a unified architecture that adapts diffusion models for mask prior modeling, we focus this work on a specific instantiation with discrete diffusion and identify a variety of key design choices for its successful application. Our exploratory analysis revealed several important findings, including: (1) a simple integration of diffusion models into semantic segmentation is not sufficient, and a poorly-designed diffusion process might lead to degradation in segmentation performance; (2) during the training, the object to which noise is added is more important than the type of noise; (3) during the inference, the strict diffusion denoising scheme may not be essential and can be relaxed to a simpler scheme that even works better. We evaluate the proposed prior modeling with several off-the-shelf segmentors, and our experimental results on ADE20K and Cityscapes demonstrate that our approach could achieve competitively quantitative performance and more appealing visual quality.
翻訳日:2023-06-05 13:54:19 公開日:2023-06-02
# 漸近テンソルランクの離散性

Discreteness of asymptotic tensor ranks ( http://arxiv.org/abs/2306.01718v1 )

ライセンス: Link先を確認
Jop Bri\"et, Matthias Christandl, Itai Leigh, Amir Shpilka, Jeroen Zuiddam(参考訳) テンソルのパラメータは、しばしば「漸近的」テンソルパラメータと呼ばれ、代数的複雑性理論(高速な行列乗算アルゴリズムを構築する)、量子情報(絡み合いコストと蒸留可能な絡み合い)、加法組合せ(キャップセット上の束縛、ひまわりなし集合など)など、いくつかの分野において中心的な役割を果たす。 例えば、漸近テンソルランク、漸近スライスランク、漸近サブランクなどである。 最近の研究 (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) では、そのようなテンソルパラメータの値における離散性(累積点を持たない)や「ギャップ」の概念が研究されている。 3次テンソルの漸近テンソルパラメータに対する一般離散性定理を証明し、(1)任意の有限体上、漸近部分ランクおよび漸近スライスランクが蓄積点を持たないこと、(2)複素数上、漸近スライスランクは蓄積点を持たないことを証明するためにこれを用いる。 我々のアプローチの中心はテンソルの漸近部分ランクの2つの新しい一般下界であり、テンソルがどれだけ対角化できるかを測定する。 最初の下限は、簡潔な3つのテンソルの漸近部分ランクが少なくとも最小次元の立方根であることを示している。 2つ目の下限は、(他の2よりはるかに小さい1次元を持つ)任意の3つのテンソルは最大漸近部分ランクを持つことを示している。 我々の証明は、行列部分空間の最大階数に対する新しい下界に依存し、3つの異なる方向に3つのテンソルをスライスすることで得られる。 任意の簡潔テンソルに対して、そのような2つの最大ランクの積は大きいものでなければならず、その結果、常に2つの異なる方向があり、最大ランクが大きいことが証明される。

Tensor parameters that are amortized or regularized over large tensor powers, often called "asymptotic" tensor parameters, play a central role in several areas including algebraic complexity theory (constructing fast matrix multiplication algorithms), quantum information (entanglement cost and distillable entanglement), and additive combinatorics (bounds on cap sets, sunflower-free sets, etc.). Examples are the asymptotic tensor rank, asymptotic slice rank and asymptotic subrank. Recent works (Costa-Dalai, Blatter-Draisma-Rupniewski, Christandl-Gesmundo-Zuiddam) have investigated notions of discreteness (no accumulation points) or "gaps" in the values of such tensor parameters. We prove a general discreteness theorem for asymptotic tensor parameters of order-three tensors and use this to prove that (1) over any finite field, the asymptotic subrank and the asymptotic slice rank have no accumulation points, and (2) over the complex numbers, the asymptotic slice rank has no accumulation points. Central to our approach are two new general lower bounds on the asymptotic subrank of tensors, which measures how much a tensor can be diagonalized. The first lower bound says that the asymptotic subrank of any concise three-tensor is at least the cube-root of the smallest dimension. The second lower bound says that any three-tensor that is "narrow enough" (has one dimension much smaller than the other two) has maximal asymptotic subrank. Our proofs rely on new lower bounds on the maximum rank in matrix subspaces that are obtained by slicing a three-tensor in the three different directions. We prove that for any concise tensor the product of any two such maximum ranks must be large, and as a consequence there are always two distinct directions with large max-rank.
翻訳日:2023-06-05 13:54:00 公開日:2023-06-02
# OMNI:人間の興味の表記モデルによる開放性

OMNI: Open-endedness via Models of human Notions of Interestingness ( http://arxiv.org/abs/2306.01711v1 )

ライセンス: Link先を確認
Jenny Zhang, Joel Lehman, Kenneth Stanley, Jeff Clune(参考訳) オープンエンドアルゴリズムは、新しい興味深い振る舞いを永遠に学習することを目的としている。 これには広大な環境探索スペースが必要ですが、無限に多くのタスクが存在します。 タスクをフィルタリングした後でも、現在のエージェントは学習できる(つまり、進歩を学ぶ)。 open-endedness researchのアキレス・ヒールは、学習可能なタスクだけでなく、$\textit{interesting}$(例えば、価値とノベル)を定量化(そして優先順位付け)することができないことである。 我々は、この問題を解決するために、$\textit{Open-endedness via Models of Human Notions of Interestingness}$ (OMNI)を提案する。 その洞察は、大きな(言語)モデル(lms)を興味のモデル(moi)として利用することができるということです。なぜなら、彼らは$\textit{already}$ 人間の興味のコンセプトを、膨大な量の人間生成データのトレーニングから内部化するからです。 LM ベースの MoI は,学習可能な $\textit{and interesting}$ のタスクに焦点を合わせ,一様タスクサンプリングや学習の進捗のみに基づくベースラインよりも優れていることを示す。 このアプローチは、次にフォーカスすべきタスク(すなわちオートクラキュラ)を知的に選択する能力を劇的に向上させる可能性があり、AIが学習する次のタスクを選択することで、自己改善型のAIとAI生成アルゴリズムが促進される可能性がある。

Open-ended algorithms aim to learn new, interesting behaviors forever. That requires a vast environment search space, but there are thus infinitely many possible tasks. Even after filtering for tasks the current agent can learn (i.e., learning progress), countless learnable yet uninteresting tasks remain (e.g., minor variations of previously learned tasks). An Achilles Heel of open-endedness research is the inability to quantify (and thus prioritize) tasks that are not just learnable, but also $\textit{interesting}$ (e.g., worthwhile and novel). We propose solving this problem by $\textit{Open-endedness via Models of human Notions of Interestingness}$ (OMNI). The insight is that we can utilize large (language) models (LMs) as a model of interestingness (MoI), because they $\textit{already}$ internalize human concepts of interestingness from training on vast amounts of human-generated data, where humans naturally write about what they find interesting or boring. We show that LM-based MoIs improve open-ended learning by focusing on tasks that are both learnable $\textit{and interesting}$, outperforming baselines based on uniform task sampling or learning progress alone. This approach has the potential to dramatically advance the ability to intelligently select which tasks to focus on next (i.e., auto-curricula), and could be seen as AI selecting its own next task to learn, facilitating self-improving AI and AI-Generating Algorithms.
翻訳日:2023-06-05 13:53:21 公開日:2023-06-02
# 誤分類検出のためのデータ駆動型相対不確かさ尺度

A Data-Driven Measure of Relative Uncertainty for Misclassification Detection ( http://arxiv.org/abs/2306.01710v1 )

ライセンス: Link先を確認
Eduardo Dadalto, Marco Romanelli, Georg Pichler, and Pablo Piantanida(参考訳) モデルの予測が信頼できないインスタンスの識別を可能にするため、機械学習では誤分類検出が重要な問題である。 しかし、シャノンエントロピーのような従来の不確実性尺度は、モデルの予測に関連する実際の不確実性を予測する効果的な方法を提供していない。 本稿では,不確かさの相対的不確かさの新たなデータ駆動測定法を提案する。 ソフト予測分布のパターンを学習することにより,予測されたクラス確率に基づいて,不確かさ尺度が誤分類されたサンプルを識別できる。 興味深いことに,提案手法では,シャノンエントロピーが低かったとしても,誤分類されたインスタンスに対応するソフト予測は大量の不確実性をもたらす可能性がある。 複数の画像分類タスクに対する経験的改善を示し、最先端の誤分類検出方法より優れていることを示す。

Misclassification detection is an important problem in machine learning, as it allows for the identification of instances where the model's predictions are unreliable. However, conventional uncertainty measures such as Shannon entropy do not provide an effective way to infer the real uncertainty associated with the model's predictions. In this paper, we introduce a novel data-driven measure of relative uncertainty to an observer for misclassification detection. By learning patterns in the distribution of soft-predictions, our uncertainty measure can identify misclassified samples based on the predicted class probabilities. Interestingly, according to the proposed measure, soft-predictions that correspond to misclassified instances can carry a large amount of uncertainty, even though they may have low Shannon entropy. We demonstrate empirical improvements over multiple image classification tasks, outperforming state-of-the-art misclassification detection methods.
翻訳日:2023-06-05 13:52:52 公開日:2023-06-02
# クロスリンガル移動のための蒸留効率の良い言語特化モデル

Distilling Efficient Language-Specific Models for Cross-Lingual Transfer ( http://arxiv.org/abs/2306.01709v1 )

ライセンス: Link先を確認
Alan Ansell, Edoardo Maria Ponti, Anna Korhonen, Ivan Vuli\'c(参考訳) mBERTやXLM-Rのような多言語変換器(MMT)は多言語間変換学習に広く用いられている。 これらは数百の言語を表すために事前訓練されているが、NLPシステムのエンドユーザは個々の言語にのみ興味を持つことが多い。 そのような目的のために、mmtsの言語カバレッジは、モデルサイズ、推論時間、エネルギー、ハードウェアコストの点で、不要なコストを発生させる。 そこで本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTの容量を保持する。 これは、MSTをバイリンガルに蒸留し、すなわち、ソースとターゲット言語のみのデータを使用することによって達成される。 具体的には二相蒸留法(bistil:)を用いる。 i)第1相は、MTから一般的なバイリンガルモデルを消耗する一方、 (II)第2のタスク固有のフェーズは、元のMTTのタスクチューニング版を「教師」として用いて、バイリンガルの「学生」モデルをわずかに微調整する。 この蒸留技術は,多くの標準言語間ベンチマークにおいてゼロショット言語間移動において評価される。 その結果, 蒸留モデルでは, 比較的小さく, 高速であるにもかかわらず, 基本MTと比較して目標言語性能の低下が最小限に抑えられたことが示唆された。 さらに,DtilmBERT や MiniLMv2 などの多言語蒸留モデルでは,言語毎の訓練予算が極めて緩やかであり,性能も優れていた。 また,MMTから蒸留したバイリンガルモデルは,スクラッチから訓練したバイリンガルモデルよりも大幅に優れていた。 私たちのコードとモデルはhttps://github.com/alanansell/bistil.comで利用可能です。

Massively multilingual Transformers (MMTs), such as mBERT and XLM-R, are widely used for cross-lingual transfer learning. While these are pretrained to represent hundreds of languages, end users of NLP systems are often interested only in individual languages. For such purposes, the MMTs' language coverage makes them unnecessarily expensive to deploy in terms of model size, inference time, energy, and hardware cost. We thus propose to extract compressed, language-specific models from MMTs which retain the capacity of the original MMTs for cross-lingual transfer. This is achieved by distilling the MMT bilingually, i.e., using data from only the source and target language of interest. Specifically, we use a two-phase distillation approach, termed BiStil: (i) the first phase distils a general bilingual model from the MMT, while (ii) the second, task-specific phase sparsely fine-tunes the bilingual "student" model using a task-tuned variant of the original MMT as its "teacher". We evaluate this distillation technique in zero-shot cross-lingual transfer across a number of standard cross-lingual benchmarks. The key results indicate that the distilled models exhibit minimal degradation in target language performance relative to the base MMT despite being significantly smaller and faster. Furthermore, we find that they outperform multilingually distilled models such as DistilmBERT and MiniLMv2 while having a very modest training budget in comparison, even on a per-language basis. We also show that bilingual models distilled from MMTs greatly outperform bilingual models trained from scratch. Our code and models are available at https://github.com/AlanAnsell/bistil.
翻訳日:2023-06-05 13:52:39 公開日:2023-06-02
# マージモデルにおける干渉の解消

Resolving Interference When Merging Models ( http://arxiv.org/abs/2306.01708v1 )

ライセンス: Link先を確認
Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal(参考訳) トランスファーラーニング(Transfer Learning) - 下流タスクで事前訓練されたモデルをさらに微調整することで、下流のパフォーマンスの向上、収束の高速化、サンプル効率の向上など、大きなメリットを期待できる。 これらの利点は、通常1つのタスクしか実行できず、互いに恩恵を受けないタスク固有の微調整モデルの普及につながっている。 近年,複数のタスク固有のモデルを追加のトレーニングを行わずに単一のマルチタスクモデルに組み合わせる手法として,モデルマージ技術が登場している。 しかし、既存のマージ手法は異なるモデルのパラメータ間の干渉を無視することが多く、複数のモデルのマージ時に大きなパフォーマンス低下が発生する。 本稿では,2つの主要な干渉源により,事前統合技術が必然的に貴重な情報を失うことを実証する。 (a)冗長パラメータ値による干渉と (b)モデル間のパラメータの値の符号の不一致。 そこで本研究では,(1)微調整時に少量しか変化しないパラメータの再設定,(2)符号衝突の解消,(3)最終合意符号と一致したパラメータのみをマージする,という3つの新しいステップを導入する手法であるtrim,elect sign & merge (ties-merging)を提案する。 TIES-Mergingは、様々なモード、ドメイン、タスク数、モデルサイズ、アーキテクチャ、微調整設定を含む様々な設定において、既存のメソッドよりも優れています。 さらに,モデルパラメータに対する様々な干渉の影響を解析し,符号干渉の解消の重要性を強調した。 私たちのコードはhttps://github.com/prateeky2806/ties-mergingで利用可能です。

Transfer learning - i.e., further fine-tuning a pre-trained model on a downstream task - can confer significant advantages, including improved downstream performance, faster convergence, and better sample efficiency. These advantages have led to a proliferation of task-specific fine-tuned models, which typically can only perform a single task and do not benefit from one another. Recently, model merging techniques have emerged as a solution to combine multiple task-specific models into a single multitask model without performing additional training. However, existing merging methods often ignore the interference between parameters of different models, resulting in large performance drops when merging multiple models. In this paper, we demonstrate that prior merging techniques inadvertently lose valuable information due to two major sources of interference: (a) interference due to redundant parameter values and (b) disagreement on the sign of a given parameter's values across models. To address this, we propose our method, TrIm, Elect Sign & Merge (TIES-Merging), which introduces three novel steps when merging models: (1) resetting parameters that only changed a small amount during fine-tuning, (2) resolving sign conflicts, and (3) merging only the parameters that are in alignment with the final agreed-upon sign. We find that TIES-Merging outperforms several existing methods in diverse settings covering a range of modalities, domains, number of tasks, model sizes, architectures, and fine-tuning settings. We further analyze the impact of different types of interference on model parameters, highlight the importance of resolving sign interference. Our code is available at https://github.com/prateeky2806/ties-merging
翻訳日:2023-06-05 13:52:13 公開日:2023-06-02
# 算術タスクから多段階推論を学ぶ

Learning Multi-step Reasoning from Arithmetic Task ( http://arxiv.org/abs/2306.01707v1 )

ライセンス: Link先を確認
Tianduo Wang and Wei Lu(参考訳) 数学的推論は言語モデル(LM)に必要な能力とみなされる。 最近の研究は、数学問題を解決する際に大きなlmsの印象的な性能を示す。 この成功は、複雑な質問をステップバイステップの推論チェーンに分解する能力であるCoT推論能力(Chain-of-Thought)に起因しているが、そのような能力は豊富なパラメータを持つモデルからのみ現れるようである。 本研究では, 比較的小さなLMを多段階推論機能に組み込む方法について検討する。 本稿では,多段階算術課題を表す合成データセットMsAT上で,LMを継続的に事前学習することにより,そのような能力を注入することを提案する。 4つの数学単語問題データセットに対する実験により,提案手法の有効性が示唆された。

Mathematical reasoning is regarded as a necessary ability for Language Models (LMs). Recent works demonstrate large LMs' impressive performance in solving math problems. The success is attributed to their Chain-of-Thought (CoT) reasoning abilities, i.e., the ability to decompose complex questions into step-by-step reasoning chains, but such ability seems only to emerge from models with abundant parameters. This work investigates how to incorporate relatively small LMs with the capabilities of multi-step reasoning. We propose to inject such abilities by continually pre-training LMs on a synthetic dataset MsAT, which stands for Multi-step Arithmetic Task. Our experiments on four math word problem datasets show the effectiveness of the proposed method in enhancing LMs' math reasoning abilities.
翻訳日:2023-06-05 13:51:43 公開日:2023-06-02
# OCBEV:多視点3次元物体検出用オブジェクト中心型BEVトランス

OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection ( http://arxiv.org/abs/2306.01738v1 )

ライセンス: Link先を確認
Zhangyang Qi, Jiaqi Wang, Xiaoyang Wu, Hengshuang Zhao(参考訳) マルチビュー3dオブジェクト検出は、高い効率と低コストのため、自動運転で人気が高まっている。 現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っており、これはBEVの強い知覚力とエンドツーエンドパイプラインの恩恵を受けている。 実質的な進歩にもかかわらず、既存のワークスモデルオブジェクトは、bevの特徴の時間的および空間的情報をグローバルに活用し、複雑でダイナミックな自動運転シナリオを扱う際に問題を引き起こす。 本稿では,移動対象の時間的および空間的手がかりをより効果的に生成できる,オブジェクト中心のクエリbev検出器ocbevを提案する。 OCBEVは3つの設計で構成されている: Object Aligned Temporal Fusionは、エゴモーションと推定された移動物体の現在の位置に基づいてBEV機能を整列し、正確なインスタンスレベルの特徴融合をもたらす。 オブジェクトにフォーカスしたマルチビューサンプリング シーン毎の適応的な局所高さ範囲からより多くの3d特徴を抽出し、フォアグラウンド情報を豊かにする。 オブジェクトインフォームドクエリエンハンスメント(object informed query enhancement)は、共通のdetrスタイルのデコーダで定義済みのデコーダクエリの一部を、高信頼位置にあるオブジェクトの位置特徴に置き換え、より直接的なオブジェクトの位置優先を導入する。 挑戦的なnuScenesデータセット上で大規模な実験評価を行う。 提案手法は,従来のBEVFormerを1.5 NDSポイント超え,最先端の成果を達成する。 さらに、収束速度が速く、同等のパフォーマンスを得るためにはトレーニングイテレーションの半分しか必要ありません。

Multi-view 3D object detection is becoming popular in autonomous driving due to its high effectiveness and low cost. Most of the current state-of-the-art detectors follow the query-based bird's-eye-view (BEV) paradigm, which benefits from both BEV's strong perception power and end-to-end pipeline. Despite achieving substantial progress, existing works model objects via globally leveraging temporal and spatial information of BEV features, resulting in problems when handling the challenging complex and dynamic autonomous driving scenarios. In this paper, we proposed an Object-Centric query-BEV detector OCBEV, which can carve the temporal and spatial cues of moving targets more effectively. OCBEV comprises three designs: Object Aligned Temporal Fusion aligns the BEV feature based on ego-motion and estimated current locations of moving objects, leading to a precise instance-level feature fusion. Object Focused Multi-View Sampling samples more 3D features from an adaptive local height ranges of objects for each scene to enrich foreground information. Object Informed Query Enhancement replaces part of pre-defined decoder queries in common DETR-style decoders with positional features of objects on high-confidence locations, introducing more direct object positional priors. Extensive experimental evaluations are conducted on the challenging nuScenes dataset. Our approach achieves a state-of-the-art result, surpassing the traditional BEVFormer by 1.5 NDS points. Moreover, we have a faster convergence speed and only need half of the training iterations to get comparable performance, which further demonstrates its effectiveness.
翻訳日:2023-06-05 13:46:10 公開日:2023-06-02
# 任意統計位相をもつ1次元アノードの実現

Realization of 1D Anyons with Arbitrary Statistical Phase ( http://arxiv.org/abs/2306.01737v1 )

ライセンス: Link先を確認
Joyce Kwan, Perrin Segura, Yanfei Li, Sooshin Kim, Alexey V. Gorshkov, Andr\'e Eckardt, Brice Bakkali-Hassani, Markus Greiner(参考訳) 低次元量子系は、ボソニックでもフェルミオンでもない交換統計を持つ素粒子をホストすることができる。 豊富なエキゾチックな現象の徴候にもかかわらず、1次元(1D)のエキゾチックな現象の物理学はほとんど未解明のままである。 ここでは,光格子中の超低温原子を用いた任意の交換統計量を持つ1次元のアベリア異性体を実現し,密度依存ピールズ相を用いて統計位相を設計する。 量子ウォーク中の2つのアノンの動的挙動を探究し、オンサイト相互作用を伴わない境界状態の形成と同様に、アニック・ハンベリー・ブラウン-トウィス効果を観測する。 相互作用が導入されると、ボソンやフェルミオンの対称力学とは対照的に、空間的に非対称輸送が観測される。 我々の研究は1Dオンの多体挙動を探索する基礎となる。

Low-dimensional quantum systems can host anyons, particles with exchange statistics that are neither bosonic nor fermionic. Despite indications of a wealth of exotic phenomena, the physics of anyons in one dimension (1D) remains largely unexplored. Here, we realize Abelian anyons in 1D with arbitrary exchange statistics using ultracold atoms in an optical lattice, where we engineer the statistical phase via a density-dependent Peierls phase. We explore the dynamical behavior of two anyons undergoing quantum walks, and observe the anyonic Hanbury Brown-Twiss effect, as well as the formation of bound states without on-site interactions. Once interactions are introduced, we observe spatially asymmetric transport in contrast to the symmetric dynamics of bosons and fermions. Our work forms the foundation for exploring the many-body behavior of 1D anyons.
翻訳日:2023-06-05 13:45:39 公開日:2023-06-02
# DaTaSeg: ユニバーサルマルチデータセットマルチタスクセグメンテーションモデル

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model ( http://arxiv.org/abs/2306.01736v1 )

ライセンス: Link先を確認
Xiuye Gu, Yin Cui, Jonathan Huang, Abdullah Rashwan, Xuan Yang, Xingyi Zhou, Golnaz Ghiasi, Weicheng Kuo, Huizhong Chen, Liang-Chieh Chen, David A Ross(参考訳) そこで本研究では,全タスクに対して共有表現(クラス予測付きマスク提案)を用いるマルチタスクセグメンテーションモデル(DaTaSeg)をトレーニングすることを提案する。 タスクの不一致に対処するため、異なるタスクに対して異なるマージ操作と後処理を採用する。 セグメンテーションモデルがより安価なバウンディングボックスアノテーションの恩恵を受けられるように、弱いスーパービジョンも活用しています。 データセット間で知識を共有するために、同じセマンティックな埋め込み空間からテキストを埋め込み、データセット間ですべてのネットワークパラメータを共有する。 ADEセマンティック、COCOパノプティクス、Objects365検出データセットに基づいてDaTaSegをトレーニングします。 DaTaSegは、すべてのデータセット、特に小規模データセットのパフォーマンスを改善し、ADEセマンティック上で54.0 mIoU、COCOパノプティクス上で53.5 PQを達成した。 DaTaSegはADEとObjects365インスタンスのセグメンテーションにおいて、弱い教師付き知識転送を可能にする。 実験では、トレーニングデータセットの数によるdatasegスケールを示し、直接転送によるオープンボキャブラリセグメンテーションを可能にする。 さらに、object365インスタンスセグメンテーションセットに1000イメージをアノテートし、公開ベンチマークとしてリリースします。

Observing the close relationship among panoptic, semantic and instance segmentation tasks, we propose to train a universal multi-dataset multi-task segmentation model: DaTaSeg.We use a shared representation (mask proposals with class predictions) for all tasks. To tackle task discrepancy, we adopt different merge operations and post-processing for different tasks. We also leverage weak-supervision, allowing our segmentation model to benefit from cheaper bounding box annotations. To share knowledge across datasets, we use text embeddings from the same semantic embedding space as classifiers and share all network parameters among datasets. We train DaTaSeg on ADE semantic, COCO panoptic, and Objects365 detection datasets. DaTaSeg improves performance on all datasets, especially small-scale datasets, achieving 54.0 mIoU on ADE semantic and 53.5 PQ on COCO panoptic. DaTaSeg also enables weakly-supervised knowledge transfer on ADE panoptic and Objects365 instance segmentation. Experiments show DaTaSeg scales with the number of training datasets and enables open-vocabulary segmentation through direct transfer. In addition, we annotate an Objects365 instance segmentation set of 1,000 images and will release it as a public benchmark.
翻訳日:2023-06-05 13:45:25 公開日:2023-06-02
# テキスト・画像モデルにおける多言語概念被覆

Multilingual Conceptual Coverage in Text-to-Image Models ( http://arxiv.org/abs/2306.01735v1 )

ライセンス: Link先を確認
Michael Saxon, William Yang Wang(参考訳) 提案する"Conceptual Coverage Across Languages"(CoCo-CroLa)は,任意の生成的テキスト・画像システムが,有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。 各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。 この手法により、モデルがターゲット言語にどの程度適合しているかを推定し、a-prioriの仮定なしで、モデル固有の弱点、スプリアス相関、バイアスを識別できます。 マルチリンガル性の観点からT2Iモデルをベンチマークする方法を実証し、その単純さにもかかわらず、印象的な一般化のための優れたプロキシであることを示す。

We propose "Conceptual Coverage Across Languages" (CoCo-CroLa), a technique for benchmarking the degree to which any generative text-to-image system provides multilingual parity to its training language in terms of tangible nouns. For each model we can assess "conceptual coverage" of a given target language relative to a source language by comparing the population of images generated for a series of tangible nouns in the source language to the population of images generated for each noun under translation in the target language. This technique allows us to estimate how well-suited a model is to a target language as well as identify model-specific weaknesses, spurious correlations, and biases without a-priori assumptions. We demonstrate how it can be used to benchmark T2I models in terms of multilinguality, and how despite its simplicity it is a good proxy for impressive generalization.
翻訳日:2023-06-05 13:45:05 公開日:2023-06-02
# DocFormerv2: ドキュメント理解のためのローカル機能

DocFormerv2: Local Features for Document Understanding ( http://arxiv.org/abs/2306.01733v1 )

ライセンス: Link先を確認
Srikar Appalaraju, Peng Tang, Qi Dong, Nishant Sankaran, Yichu Zhou, R. Manmatha(参考訳) 本稿では,視覚文書理解のためのマルチモーダルトランスフォーマティブであるdocformerv2を提案する。 VDUドメインは、フォームから情報を取り出す、文書やその他のタスクに対するVQAなどの理解ドキュメント(単なるOCR予測)を必要とする。 VDUは、複数のモーダル(視覚、言語、空間)を理解して予測するモデルを必要とするため、難しい。 docformerv2と呼ばれる我々のアプローチは、視覚、言語、空間的特徴を入力とするエンコーダ・デコーダトランスフォーマです。 DocFormerv2は非対称、すなわちエンコーダの2つの新しいドキュメントタスクと自動回帰デコーダの1つのタスクで事前訓練されている。 教師なしのタスクは、事前トレーニングが複数のモダリティ間のローカル機能アライメントを促進するように、慎重に設計されている。 9つのデータセットで評価されたDocFormerv2は、TabFact (4.3%)、InfoVQA (1.4%)、FUNSD (1%)など、強力なベースライン上での最先端のパフォーマンスを示している。 さらに、シーンテキストを含む3つのVQAタスクの一般化能力を示すために、Doc-Prev2は以前のコンパラブルサイズのモデルよりも優れており、いくつかのタスクではより大きなモデル(GIT2、PaLi、Flamingoなど)よりも優れている。 事前トレーニングのため、DocFormerv2はVDUの先行技術よりも複数のモダリティを理解している。

We propose DocFormerv2, a multi-modal transformer for Visual Document Understanding (VDU). The VDU domain entails understanding documents (beyond mere OCR predictions) e.g., extracting information from a form, VQA for documents and other tasks. VDU is challenging as it needs a model to make sense of multiple modalities (visual, language and spatial) to make a prediction. Our approach, termed DocFormerv2 is an encoder-decoder transformer which takes as input - vision, language and spatial features. DocFormerv2 is pre-trained with unsupervised tasks employed asymmetrically i.e., two novel document tasks on encoder and one on the auto-regressive decoder. The unsupervised tasks have been carefully designed to ensure that the pre-training encourages local-feature alignment between multiple modalities. DocFormerv2 when evaluated on nine datasets shows state-of-the-art performance over strong baselines e.g. TabFact (4.3%), InfoVQA (1.4%), FUNSD (1%). Furthermore, to show generalization capabilities, on three VQA tasks involving scene-text, Doc- Formerv2 outperforms previous comparably-sized models and even does better than much larger models (such as GIT2, PaLi and Flamingo) on some tasks. Extensive ablations show that due to its pre-training, DocFormerv2 understands multiple modalities better than prior-art in VDU.
翻訳日:2023-06-05 13:44:51 公開日:2023-06-02
# 事前学習したテキスト・画像拡散モデルによる映像のカラー化

Video Colorization with Pre-trained Text-to-Image Diffusion Models ( http://arxiv.org/abs/2306.01732v1 )

ライセンス: Link先を確認
Hanyuan Liu, Minshan Xie, Jinbo Xing, Chengze Li, Tien-Tsin Wong(参考訳) ビデオのカラー化は、グレースケールフレームに対して可塑性および時間的に一貫した色を推測する難しい作業である。 本稿では,ビデオカラー化のための事前学習されたテキストから画像への潜時拡散モデルであるColorDiffuserを提案する。 提案手法では,事前学習したテキスト・ツー・イメージ・モデルを用いて,入力グレースケールの動画フレームを受け入れ,オプションのテキスト記述で映像のカラー化を行う。 フレーム間の色分けの鮮度を維持するために,色伝播注意と交互サンプリング戦略という2つの新しい手法を提案する。 カラー伝搬注意(Color Propagation Attention)により、参照潜在フレームに基づいてカラー化決定を洗練できる一方、Alternated Smpling Strategyは、生成拡散サンプリングステップにおいて、次のおよび以前の隣接潜在フレームを基準として、時空間依存性をキャプチャする。 これにより、隣接するビデオフレーム間の双方向カラー情報伝搬が促進され、フレーム間の色一貫性が向上する。 ベンチマークデータセットについて広範な実験を行い,提案手法の有効性を実証した。 評価の結果,カラーディフューザはカラー忠実度,時間的一貫性,視覚品質の点で既存の手法を上回って,映像のカラー化において最先端のパフォーマンスを達成していることがわかった。

Video colorization is a challenging task that involves inferring plausible and temporally consistent colors for grayscale frames. In this paper, we present ColorDiffuser, an adaptation of a pre-trained text-to-image latent diffusion model for video colorization. With the proposed adapter-based approach, we repropose the pre-trained text-to-image model to accept input grayscale video frames, with the optional text description, for video colorization. To enhance the temporal coherence and maintain the vividness of colorization across frames, we propose two novel techniques: the Color Propagation Attention and Alternated Sampling Strategy. Color Propagation Attention enables the model to refine its colorization decision based on a reference latent frame, while Alternated Sampling Strategy captures spatiotemporal dependencies by using the next and previous adjacent latent frames alternatively as reference during the generative diffusion sampling steps. This encourages bidirectional color information propagation between adjacent video frames, leading to improved color consistency across frames. We conduct extensive experiments on benchmark datasets, and the results demonstrate the effectiveness of our proposed framework. The evaluations show that ColorDiffuser achieves state-of-the-art performance in video colorization, surpassing existing methods in terms of color fidelity, temporal consistency, and visual quality.
翻訳日:2023-06-05 13:44:21 公開日:2023-06-02
# PAGAR: 敵対的反逆者による模倣学習

PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial Reward ( http://arxiv.org/abs/2306.01731v1 )

ライセンス: Link先を確認
Weichao Zhou, Wenchao Li(参考訳) イミテーション学習(IL)アルゴリズムは、しばしば逆強化学習(IRL)に頼り、まず専門家によるデモンストレーションから報酬関数を学習する。 しかし、IRLは識別可能性の問題に悩まされ、学習した報酬関数でトレーニングする際の性能保証や効率保証はない。 本稿では,政策訓練の報酬を設計するための半教師付き学習パラダイムであるPAGAR(Protagonist Antagonist Guided Adversarial Reward)を提案する。 PAGARは、報酬関数を反復的に探索して、主人公ポリシーと敵ポリシーの間のパフォーマンスギャップを最大化する。 これにより、主人公のポリシーは、識別可能性の問題にもかかわらず、可能な報酬関数のセットでうまく機能することができる。 IRLベースのILと統合されると、PAGARはトレーニングされたポリシーが基礎となるタスクで成功することを保証します。 さらに,PAGAR を用いた IL の実践的オン・アンド・オフポリシー手法を導入する。 このアプローチは、ポリシーと報酬関数の最適化のために、主人公と敵のポリシーの両方のサンプルを最大限活用する。 実験の結果,本アルゴリズムは標準設定のil/irlベースラインよりも高いトレーニング効率を達成し,転送環境における実演によるゼロショット学習を実現した。

Imitation learning (IL) algorithms often rely on inverse reinforcement learning (IRL) to first learn a reward function from expert demonstrations. However, IRL can suffer from identifiability issues and there is no performance or efficiency guarantee when training with the learned reward function. In this paper, we propose Protagonist Antagonist Guided Adversarial Reward (PAGAR), a semi-supervised learning paradigm for designing rewards for policy training. PAGAR employs an iterative adversarially search for reward functions to maximize the performance gap between a protagonist policy and an antagonist policy. This allows the protagonist policy to perform well across a set of possible reward functions despite the identifiability issue. When integrated with IRL-based IL, PAGAR guarantees that the trained policy succeeds in the underlying task. Furthermore, we introduce a practical on-and-off policy approach to IL with PAGAR. This approach maximally utilizes samples from both the protagonist and antagonist policies for the optimization of policy and reward functions. Experimental results demonstrate that our algorithm achieves higher training efficiency compared to state-of-the-art IL/IRL baselines in standard settings, as well as zero-shot learning from demonstrations in transfer environments.
翻訳日:2023-06-05 13:43:55 公開日:2023-06-02
# 非ガウス変分アンサッツと量子最適制御を用いた高速量子状態形成と浴のダイナミクス

Fast quantum state preparation and bath dynamics using non-Gaussian variational ansatz and quantum optimal control ( http://arxiv.org/abs/2306.01730v1 )

ライセンス: Link先を確認
Liam J. Bond, Arghavan Safavi-Naini, and Ji\v{r}\'i Min\'a\v{r}(参考訳) 量子多体状態の高速非断熱合成のための非ガウス状態に基づく変分アンサッツと量子最適制御を組み合わせる。 スピンボソンモデルの例でこれを実証し,多極子アンサッツを用いて近接臨界基底状態を作成する。 1つのモードでは、線形(最適化された局所断熱的な)ランプと比較して最大60ドル(約20ドル)までの不忠実度が減少し、多くのモードでは非断熱的なリニアランプに比べて最大5ドル(約5ドル)の不忠実度が減少する。 さらに,典型的な制御量である変分多様体からの漏洩は,状態の忠実性にゆるいバウンドのみを与えることを示した。 代わりに、行列積状態の結合次元に類似して、ポラロンの数に基づく制御された収束基準を提案する。 最後に、捕捉されたイオンにおける実現の可能性に動機付けられ、(サブ/スーパー)オーミックカップリングのパラダイムを超えた入浴特性を持つ系の力学を研究する。 このアンサッツを非摂動環境における浴モードの時間外秩序調整器(otoc)の研究に適用する。 スクランブル時間は、浴槽とスピンのカップリングの詳細に弱くのみ依存するロバストな特徴であることが判明した。

We combine quantum optimal control with a variational ansatz based on non-Gaussian states for fast, non-adiabatic preparation of quantum many-body states. We demonstrate this on the example of the spin-boson model, and use a multi-polaron ansatz to prepare near-critical ground states. For one mode, we achieve a reduction in infidelity of up to $\approx 60$ ($\approx 20$) times compared to linear (optimised local adiabatic) ramps respectively; for many modes we achieve a reduction in infidelity of up to $\approx 5$ times compared to non-adiabatic linear ramps. Further, we show that the typical control quantity, the leakage from the variational manifold, provides only a loose bound on the state's fidelity. Instead, in analogy to the bond dimension of matrix product states, we suggest a controlled convergence criterion based on the number of polarons. Finally, motivated by the possibility of realizations in trapped ions, we study the dynamics of a system with bath properties going beyond the paradigm of (sub/super) Ohmic couplings. We apply the ansatz to the study of the out-of-time-order-correlator (OTOC) of the bath modes in a non-perturbative regime. The scrambling time is found to be a robust feature only weakly dependent on the details of the coupling between the bath and the spin.
翻訳日:2023-06-05 13:43:36 公開日:2023-06-02
# ワークフローとアクションプランを用いたタスク指向対話の一般化

Improving Generalization in Task-oriented Dialogues with Workflows and Action Plans ( http://arxiv.org/abs/2306.01729v1 )

ライセンス: Link先を確認
Stefania Raimondo, Christopher Pal, Xiaotian Liu, David Vazquez, Hector Palacios(参考訳) タスク指向の対話は、ユーザ意図の理解、ユーザからの情報収集、API呼び出しの実行、有用で流動的な応答の生成など、部分的には難しい。 しかし、複雑なタスクの場合、これらすべてを複数のステップ、特定の順序で正しく行う必要があります。 大規模事前学習された言語モデルでは,多段階のタスク指向の対話エージェントが作成できるが,本手法では,学習中に見いだされない新たな多段階タスクが確実に実行できないことが確認できた。 これらの制限に対処するため、既知の \textit{valid workflow name} と \textit{action plans} で \textmd{text2text} transformer に与えられる対話コンテキストを拡大する。 アクションプランは、タスクを達成するために必要なアクションのシーケンスで構成され、単純なキーワードのシーケンス(例えば、バリデーションID、プルアップアカウント、リセットパスワードなど)としてエンコードされる。 我々は, ABCD(Action-Based Conversations Dataset)において, T5-small, base, large model を用いて広範な実験を行い, そのモデルを示す。 a) 提供された計画に従うことにより、より容易に見つからないワークフローに一般化することができる b) 計画に記載されている場合,不審な行為の実行を一般化することができる。 対照的に、新しいワークフロー名が与えられた場合でも、アクションプラン情報を提供していない場合、モデルは、新しいマルチステップタスクを完全に達成できない。

Task-oriented dialogue is difficult in part because it involves understanding user intent, collecting information from the user, executing API calls, and generating helpful and fluent responses. However, for complex tasks one must also correctly do all of these things over multiple steps, and in a specific order. While large pre-trained language models can be fine-tuned end-to-end to create multi-step task-oriented dialogue agents that generate fluent text, our experiments confirm that this approach alone cannot reliably perform new multi-step tasks that are unseen during training. To address these limitations, we augment the dialogue contexts given to \textmd{text2text} transformers with known \textit{valid workflow names} and \textit{action plans}. Action plans consist of sequences of actions required to accomplish a task, and are encoded as simple sequences of keywords (e.g. verify-identity, pull-up-account, reset-password, etc.). We perform extensive experiments on the Action-Based Conversations Dataset (ABCD) with T5-small, base and large models, and show that such models: a) are able to more readily generalize to unseen workflows by following the provided plan, and b) are able to generalize to executing unseen actions if they are provided in the plan. In contrast, models are unable to fully accomplish new multi-step tasks when they are not provided action plan information, even when given new valid workflow names.
翻訳日:2023-06-05 13:43:15 公開日:2023-06-02
# ランダム再帰的dagにおける放送

Broadcasting in random recursive dags ( http://arxiv.org/abs/2306.01727v1 )

ライセンス: Link先を確認
Simon Briend and Luc Devroye and Gabor Lugosi(参考訳) 均一$k$-{\sc dag} は、既存のノードからランダムに$k$親を選択することによって、一様ランダム再帰木を一般化する。 最初は$k$ ''roots' から始まります。 それぞれの$k$ルートはビットに割り当てられる。 これらのビットはノイズチャネルによって伝搬される。 両親のビットは確率$p$で反転し、過半数の投票が行われる。 すべてのノードがビットを受信すると、$k$-{\sc dag} がルートを特定せずに表示される。 目標は、ルーツの大多数のビットを見積もることである。 p$ のしきい値は、すべてのノードの多数ルールが $c<1/2$ の誤差 $c+o(1)$ を出力する $k$ 以下の関数として特定する。 しきい値を超えると、多数決ルールは1/2+o(1)$の確率を持つ。

A uniform $k$-{\sc dag} generalizes the uniform random recursive tree by picking $k$ parents uniformly at random from the existing nodes. It starts with $k$ ''roots''. Each of the $k$ roots is assigned a bit. These bits are propagated by a noisy channel. The parents' bits are flipped with probability $p$, and a majority vote is taken. When all nodes have received their bits, the $k$-{\sc dag} is shown without identifying the roots. The goal is to estimate the majority bit among the roots. We identify the threshold for $p$ as a function of $k$ below which the majority rule among all nodes yields an error $c+o(1)$ with $c<1/2$. Above the threshold the majority rule errs with probability $1/2+o(1)$.
翻訳日:2023-06-05 13:42:47 公開日:2023-06-02
# ゼロショット多言語ニューラルマシン翻訳の目標外問題について

On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation ( http://arxiv.org/abs/2305.10930v3 )

ライセンス: Link先を確認
Liang Chen and Shuming Ma and Dongdong Zhang and Furu Wei and Baobao Chang(参考訳) 多言語ニューラルマシン翻訳は大きな成功を収めているが、翻訳が間違った言語であるターゲット外の問題に苦しめられている。 この問題はゼロショット翻訳タスクでより顕著である。 本研究では,識別対象言語信号の符号化に失敗した場合,2言語の語彙間距離 (kl-divergence) がより高いオフターゲット率に関連していることを示す。 また、デコーダ内で異なる言語のボクタブを分離するだけで問題を軽減することができる。 そこで本研究では,多言語語彙構築のための単純かつ効果的なアルゴリズムであるlanguage aware vocabulary sharing (lavs)を提案する。 我々は11言語で多言語機械翻訳ベンチマーク実験を行った。 実験の結果、90の翻訳タスクのオフターゲットレートは29\%から8\%に削減され、BLEUスコアは平均1.9ポイント改善され、追加のトレーニングコストや監督方向のパフォーマンスが犠牲になる。 我々は、再現のためにhttps://github.com/PKUnlp-icler/Off-Target-MNMTでコードをリリースします。

While multilingual neural machine translation has achieved great success, it suffers from the off-target issue, where the translation is in the wrong language. This problem is more pronounced on zero-shot translation tasks. In this work, we find that failing in encoding discriminative target language signal will lead to off-target and a closer lexical distance (i.e., KL-divergence) between two languages' vocabularies is related with a higher off-target rate. We also find that solely isolating the vocab of different languages in the decoder can alleviate the problem. Motivated by the findings, we propose Language Aware Vocabulary Sharing (LAVS), a simple and effective algorithm to construct the multilingual vocabulary, that greatly alleviates the off-target problem of the translation model by increasing the KL-divergence between languages. We conduct experiments on a multilingual machine translation benchmark in 11 languages. Experiments show that the off-target rate for 90 translation tasks is reduced from 29\% to 8\%, while the overall BLEU score is improved by an average of 1.9 points without extra training cost or sacrificing the supervised directions' performance. We release the code at https://github.com/PKUnlp-icler/Off-Target-MNMT for reproduction.
翻訳日:2023-06-05 11:35:03 公開日:2023-06-02
# 低ビットビジョン変換器の無振動量子化

Oscillation-free Quantization for Low-bit Vision Transformers ( http://arxiv.org/abs/2302.02210v3 )

ライセンス: Link先を確認
Shih-Yang Liu, Zechun Liu, Kwang-Ting Cheng(参考訳) 重み振動は量子化対応トレーニングの望ましくない副作用であり、量子化された重みは2つの量子化レベルの間で頻繁にジャンプし、トレーニングの不安定性と準最適最終モデルをもたらす。 学習可能なスケーリング係数である$\textit{de facto}$の量子化設定は、重みの振動を増大させる。 本研究では,学習可能なスケーリング因子と量的重み振動との関係について検討し,vitをケースドライバとして活用し,その発見と改善について検討した。 さらに、量子化重みの相互依存性が$\textit{query}$と$\textit{key}$の自己アテンション層であることから、ViTは振動に弱いことが判明した。 そこで,本研究では, 統計的量量化($\rm StatsQ$)による量子化ロバスト性の向上と, 一般的な学習可能スケール法と比較しての信頼性向上($\rm CGA$)による重み付けを凍結し, 発振重みを緩和する($\textit{high confidence}$, $\textit{query}$-$\textit{key}$再パラメータ化($\rm QKR$)によるクエリキーの相互交叉振動の解消と, 結果の勾配推定の緩和を行う($\rm QKR$)3つの手法を提案する。 広汎な実験により、これらの手法は重量振動を緩和し、一貫して画像ネットの精度を向上することを示した。 具体的には、我々の2ビットのDeiT-T/DeiT-Sアルゴリズムは、それぞれ9.8%と7.7%で先行技術を上回っている。 コードとモデルは、https://github.com/nbasyl/ofqで入手できる。

Weight oscillation is an undesirable side effect of quantization-aware training, in which quantized weights frequently jump between two quantized levels, resulting in training instability and a sub-optimal final model. We discover that the learnable scaling factor, a widely-used $\textit{de facto}$ setting in quantization aggravates weight oscillation. In this study, we investigate the connection between the learnable scaling factor and quantized weight oscillation and use ViT as a case driver to illustrate the findings and remedies. In addition, we also found that the interdependence between quantized weights in $\textit{query}$ and $\textit{key}$ of a self-attention layer makes ViT vulnerable to oscillation. We, therefore, propose three techniques accordingly: statistical weight quantization ($\rm StatsQ$) to improve quantization robustness compared to the prevalent learnable-scale-based method; confidence-guided annealing ($\rm CGA$) that freezes the weights with $\textit{high confidence}$ and calms the oscillating weights; and $\textit{query}$-$\textit{key}$ reparameterization ($\rm QKR$) to resolve the query-key intertwined oscillation and mitigate the resulting gradient misestimation. Extensive experiments demonstrate that these proposed techniques successfully abate weight oscillation and consistently achieve substantial accuracy improvement on ImageNet. Specifically, our 2-bit DeiT-T/DeiT-S algorithms outperform the previous state-of-the-art by 9.8% and 7.7%, respectively. Code and models are available at: https://github.com/nbasyl/OFQ.
翻訳日:2023-06-05 11:34:26 公開日:2023-06-02
# コヒーレントワンウェイ量子鍵分布の簡単なセキュリティ証明

Simple security proof of coherent-one-way quantum key distribution ( http://arxiv.org/abs/2107.09329v5 )

ライセンス: Link先を確認
Rui-Qi Gao, Yuan-Mei Xie, Jie Gu, Wen-Bo Liu, Chen-Xun Weng, Bing-Hong Li, Hua-Lei Yin, Zeng-Bing Chen(参考訳) コヒーレントワンウェイ量子鍵分布(COW-QKD)は、単純な実験装置を必要とし、光子数分割攻撃に耐える能力を有し、実験的に実装されているだけでなく、商業的にも応用されている。 しかし、最近の研究では、現在のCOW-QKDシステムは安全ではなく、光ファイバー長の20km以内で秘密鍵を安全に配布できることが示されている。 本研究では,2パルス真空状態を新しいデコイシーケンスとして付加することでCOW-QKDの実現を提案する。 この提案は、オリジナルの実験的な設定と実装の単純さを維持している。 監視線上の詳細な観測を利用して位相誤差率を解析的に上限とし,コヒーレント攻撃に対して漸近的に安全である高性能COW-QKDを提供する。 これにより、100km以内でCOW-QKDが利用可能となり、さらなる応用のための理論的基盤が確立される。

Coherent-one-way quantum key distribution (COW-QKD), which requires a simple experimental setup and has the ability to withstand photon-number-splitting attacks, has been not only experimentally implemented but also commercially applied. However, recent studies have shown that the current COW-QKD system is insecure and can only distribute secret keys safely within 20 km of the optical fiber length. In this study, we propose a practical implementation of COW-QKD by adding a two-pulse vacuum state as a new decoy sequence. This proposal maintains the original experimental setup as well as the simplicity of its implementation. Utilizing detailed observations on the monitoring line to provide an analytical upper bound on the phase error rate, we provide a high-performance COW-QKD asymptotically secure against coherent attacks. This ensures the availability of COW-QKD within 100 km and establishes theoretical foundations for further applications.
翻訳日:2023-06-05 11:33:48 公開日:2023-06-02
# カナリア露光の解釈に関する一考察

A Note On Interpreting Canary Exposure ( http://arxiv.org/abs/2306.00133v2 )

ライセンス: Link先を確認
Matthew Jagielski(参考訳) カルリーニ等で導入されたカナリア露光は、機械学習モデルのトレーニングのプライバシを経験的に評価したり、監査するために頻繁に使用される。 このノートの目的は、メンバシップ推論攻撃やディファレンシャルプライバシに関連することを含む、カナリアエクスポージャーの解釈に関する直感を提供することです。

Canary exposure, introduced in Carlini et al. is frequently used to empirically evaluate, or audit, the privacy of machine learning model training. The goal of this note is to provide some intuition on how to interpret canary exposure, including by relating it to membership inference attacks and differential privacy.
翻訳日:2023-06-05 11:23:48 公開日:2023-06-02
# botartist: twitterのサスペンションに基づくtwitterボット検出機械学習モデル

BotArtist: Twitter bot detection Machine Learning model based on Twitter suspension ( http://arxiv.org/abs/2306.00037v2 )

ライセンス: Link先を確認
Alexander Shevtsov, Despoina Antonakaki, Ioannis Lamprou, Polyvios Pratikakis, Sotiris Ioannidis(参考訳) Twitterは最も人気のあるソーシャルネットワークの1つで、コミュニケーションとオンライン会話のための手段を提供しているが、残念ながらボットや偽アカウントのターゲットであり、偽情報の操作と拡散につながっている。 この目的に向けて、我々は、最近のロシア・ウクライナ戦争に関する900万人のユーザーから生まれた、Twitter上での難解で多言語的なソーシャル談話データセットを収集し、ボットアカウントとそれらに関わる会話を検出する。 Twitter APIの停止アカウントコレクションには,約343Kのボットアカウントと8Mの一般ユーザが含まれています。 さらに、Botometer-V3が提供するデータセットには、1,777のVarol、483のドイツアカウント、1,321の米国アカウントがあります。 公開データセットの他に、2022年のエネルギー危機と2022年の陰謀に関する一般的な議論に関する2つの独立したデータセットも収集しています。 どちらのデータセットも、twitterのサスペンションメカニズムに従ってラベル付けされた。 我々は最先端のXGBoostモデルを用いたボット検出のための新しいMLモデルを構築した。 Twitterのサスペンションメカニズムの真実に則って、このモデルを大量のラベル付きツイートと組み合わせています。 これは、Twitter APIとは独立しているため、コレクションから異なる期間でデータセットのラベル付けを可能にする、限定的なプロファイル機能を必要とする。 ボットメーターと比較すると,本手法は2つの実例のシナリオデータセットよりも平均11%高いroc-aucスコアが得られる。

Twitter as one of the most popular social networks, offers a means for communication and online discourse, which unfortunately has been the target of bots and fake accounts, leading to the manipulation and spreading of false information. Towards this end, we gather a challenging, multilingual dataset of social discourse on Twitter, originating from 9M users regarding the recent Russo-Ukrainian war, in order to detect the bot accounts and the conversation involving them. We collect the ground truth for our dataset through the Twitter API suspended accounts collection, containing approximately 343K of bot accounts and 8M of normal users. Additionally, we use a dataset provided by Botometer-V3 with 1,777 Varol, 483 German accounts, and 1,321 US accounts. Besides the publicly available datasets, we also manage to collect 2 independent datasets around popular discussion topics of the 2022 energy crisis and the 2022 conspiracy discussions. Both of the datasets were labeled according to the Twitter suspension mechanism. We build a novel ML model for bot detection using the state-of-the-art XGBoost model. We combine the model with a high volume of labeled tweets according to the Twitter suspension mechanism ground truth. This requires a limited set of profile features allowing labeling of the dataset in different time periods from the collection, as it is independent of the Twitter API. In comparison with Botometer our methodology achieves an average 11% higher ROC-AUC score over two real-case scenario datasets.
翻訳日:2023-06-05 11:23:37 公開日:2023-06-02
# ロデオ投影の最適化

Optimizing rodeo projection ( http://arxiv.org/abs/2305.19952v2 )

ライセンス: Link先を確認
Thomas D. Cohen, Hyunwoo Oh(参考訳) ロデオアルゴリズムは、離散スペクトル系に対する固定エネルギー状態への与えられた初期状態の投影のための量子コンピューティングの効率的な方法として最近提案されている。 ロデオアルゴリズムの初期定式化では、これらの時間は固定されたrms時間を持つガウス分布を介してランダムに選択された。 本稿では,このような時間選択のランダムなアプローチは,不必要な成分の抑制の指数関数的に大きな変動に苦しむことを示し,反復数が大きくなるにつれて,ランダム選択から得られる抑制因子の分布が,非常に大きな変動をもたらすログ正規分布に近づくことを示した。 このようなゆらぎをランダムにではなく意図的に時間を選択することで回避でき、抑制の厳密な上限を得ることができることに注意する。 さらに、固定計算コストを用いた平均抑制は、ランダムアルゴリズムと比較して桁違いに小さくすることができる。 これを行うための鍵は、極端に最大スケールから指数関数的に小さなスケールへと、指数関数的に多くのスケールで変化する時間を選択することである。

The rodeo algorithm has been proposed recently as an efficient method in quantum computing for projection of a given initial state onto a state of fixed energy for systems with discrete spectra. In the initial formulation of the rodeo algorithm these times were chosen randomly via a Gaussian distribution with fixed RMS times. In this paper it is shown that such a random approach for choosing times suffers from exponentially large fluctuations in the suppression of unwanted components: as the number of iterations gets large, the distribution of suppression factors obtained from random selection approaches a log-normal distribution leading to remarkably large fluctuations. We note that by choosing times intentionally rather than randomly such fluctuations can be avoided and strict upper bounds on the suppression can be obtained. Moreover, the average suppression using fixed computational cost can be reduced by many orders of magnitude relative to the random algorithm. A key to doing this is to choose times that vary over exponentially many times scales, starting from a modest maximum scale and going down to time scales exponentially smaller.
翻訳日:2023-06-05 11:23:15 公開日:2023-06-02
# UKP-SQuARE: 質問に答える対話型ツール

UKP-SQuARE: An Interactive Tool for Teaching Question Answering ( http://arxiv.org/abs/2305.19748v2 )

ライセンス: Link先を確認
Haishuo Fang, Haritz Puerto, Iryna Gurevych(参考訳) 質問応答の指数的増加(QA)は、あらゆる自然言語処理(NLP)コースにおいて必須のトピックとなっている。 さらに、この指数的成長から派生したQAの幅は、情報検索、説明可能性、敵攻撃など、関連するNLPトピックを教える上で理想的なシナリオとなっている。 本稿では,QA教育のプラットフォームとしてUKP-SQuAREを紹介する。 このプラットフォームは、学生が一般的な振る舞い、説明可能性、堅牢性など、さまざまな視点から様々なQAモデルを実行、比較、分析できるインタラクティブな環境を提供する。 そのため、学生は授業中に様々なQAテクニックを経験することができる。 そこで本研究では, 学生が積極的に理論概念を学習し, 対話的探索, 実験, 実践的課題を通じて問題解決スキルを身につけるqa教育のための学習者中心のアプローチを提案する。 授業シナリオにおけるUKP-SQuAREの有効性を評価するため,大学院NLPコースで採用し,その後,学生を対象に調査を行った。 彼らのポジティブなフィードバックは、プラットフォームのコースの有効性を示し、より広範な採用を招待します。

The exponential growth of question answering (QA) has made it an indispensable topic in any Natural Language Processing (NLP) course. Additionally, the breadth of QA derived from this exponential growth makes it an ideal scenario for teaching related NLP topics such as information retrieval, explainability, and adversarial attacks among others. In this paper, we introduce UKP-SQuARE as a platform for QA education. This platform provides an interactive environment where students can run, compare, and analyze various QA models from different perspectives, such as general behavior, explainability, and robustness. Therefore, students can get a first-hand experience in different QA techniques during the class. Thanks to this, we propose a learner-centered approach for QA education in which students proactively learn theoretical concepts and acquire problem-solving skills through interactive exploration, experimentation, and practical assignments, rather than solely relying on traditional lectures. To evaluate the effectiveness of UKP-SQuARE in teaching scenarios, we adopted it in a postgraduate NLP course and surveyed the students after the course. Their positive feedback shows the platform's effectiveness in their course and invites a wider adoption.
翻訳日:2023-06-05 11:22:59 公開日:2023-06-02
# Smooth-Trajectron++: 円滑な注意を伴うTrajectron++動作予測モデルの拡張

Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction model with smooth attention ( http://arxiv.org/abs/2305.19678v2 )

ライセンス: Link先を確認
Frederik S.B. Westerhout, Julian F. Schumann, Arkady Zgonnikov(参考訳) 交通参加者の行動を理解することは、将来の軌道予測に不可欠であり、自動運転車の安全で信頼性の高い計画システムの開発を支援する。 認知プロセスと機械学習モデルの統合は、他の領域では有望であるが、大規模自動運転データセットにおける複数の交通エージェントの軌道予測には不足している。 本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。 この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。 得られたSmooth-Trajectron++モデルの性能を評価し、それを様々なベンチマークで元のモデルと比較し、人間の認識からの洞察を軌道予測モデルに組み込む可能性を明らかにする。

Understanding traffic participants' behaviour is crucial for predicting their future trajectories, aiding in developing safe and reliable planning systems for autonomous vehicles. Integrating cognitive processes and machine learning models has shown promise in other domains but is lacking in the trajectory forecasting of multiple traffic agents in large-scale autonomous driving datasets. This work investigates the state-of-the-art trajectory forecasting model Trajectron++ which we enhance by incorporating a smoothing term in its attention module. This attention mechanism mimics human attention inspired by cognitive science research indicating limits to attention switching. We evaluate the performance of the resulting Smooth-Trajectron++ model and compare it to the original model on various benchmarks, revealing the potential of incorporating insights from human cognition into trajectory prediction models.
翻訳日:2023-06-05 11:22:39 公開日:2023-06-02
# 定数相関を持つ相関確率ブロックモデルにおける厳密なグラフマッチングの効率的なアルゴリズム

Efficient Algorithms for Exact Graph Matching on Correlated Stochastic Block Models with Constant Correlation ( http://arxiv.org/abs/2305.19666v2 )

ライセンス: Link先を確認
Joonhyuk Yang, Dongpil Shin, and Hye Won Chung(参考訳) 本稿では,2つの相関確率ブロックモデル(SBM)間のグラフマッチングや頂点対応の学習について考察する。 グラフマッチング問題は、コンピュータビジョン、自然言語処理、バイオインフォマティクスなど様々な分野で発生し、特に、グラフと固有のコミュニティ構造とのマッチングは、相関したソーシャルネットワークの非匿名化に関係している。 様々な効率的なアルゴリズムが開発されている相関型erdos-renyi(er)モデルと比較して、一定のエッジ相関の正確なマッチングを達成するためにいくつかのアルゴリズムが証明されているが、相関付きsbmの正確なマッチングを達成するための低次多項式アルゴリズムは知られていない。 本研究では,Mao et al. (2021) のアイデアをコミュニティを持つグラフに拡張することにより,各頂点から根付いた分割木の比較に基づいて,グラフとコミュニティ構造をマッチングする効率的なアルゴリズムを提案する。 分割木は、それぞれの頂点の大きな近傍を、それぞれのエッジ統計を用いて異なるコミュニティに分割する。 本アルゴリズムは,2つの相関sbmと高密度グラフの確率の高いマッチングを実現する,最初の低次多項式時間アルゴリズムである。

We consider the problem of graph matching, or learning vertex correspondence, between two correlated stochastic block models (SBMs). The graph matching problem arises in various fields, including computer vision, natural language processing and bioinformatics, and in particular, matching graphs with inherent community structure has significance related to de-anonymization of correlated social networks. Compared to the correlated Erdos-Renyi (ER) model, where various efficient algorithms have been developed, among which a few algorithms have been proven to achieve the exact matching with constant edge correlation, no low-order polynomial algorithm has been known to achieve exact matching for the correlated SBMs with constant correlation. In this work, we propose an efficient algorithm for matching graphs with community structure, based on the comparison between partition trees rooted from each vertex, by extending the idea of Mao et al. (2021) to graphs with communities. The partition tree divides the large neighborhoods of each vertex into disjoint subsets using their edge statistics to different communities. Our algorithm is the first low-order polynomial-time algorithm achieving exact matching between two correlated SBMs with high probability in dense graphs.
翻訳日:2023-06-05 11:22:25 公開日:2023-06-02
# 継続的強化学習のためのポリシー最適化

Policy Optimization for Continuous Reinforcement Learning ( http://arxiv.org/abs/2305.18901v3 )

ライセンス: Link先を確認
Hanyang Zhao, Wenpin Tang, David D. Yao(参考訳) 本研究では,連続時間と空間の設定における強化学習(rl)について,確率微分方程式によって駆動される無限大地平線と基礎となる力学について検討する。 RLへの継続的なアプローチの最近の進歩を基盤として、職業時間(具体的には割引対象)の概念を開発し、性能差と局所近似式を効果的に導出する方法を示す。 さらに、これらの結果を拡張し、PG(政治勾配)とTRPO/PPO(信頼地域政策最適化/近位政策最適化)の手法で、離散的なRL設定では馴染み深く、かつ強力なツールであるが、連続的なRLでは未開発であることを示す。 数値実験により,本手法の有効性と利点を実証した。

We study reinforcement learning (RL) in the setting of continuous time and space, for an infinite horizon with a discounted objective and the underlying dynamics driven by a stochastic differential equation. Built upon recent advances in the continuous approach to RL, we develop a notion of occupation time (specifically for a discounted objective), and show how it can be effectively used to derive performance-difference and local-approximation formulas. We further extend these results to illustrate their applications in the PG (policy gradient) and TRPO/PPO (trust region policy optimization/ proximal policy optimization) methods, which have been familiar and powerful tools in the discrete RL setting but under-developed in continuous RL. Through numerical experiments, we demonstrate the effectiveness and advantages of our approach.
翻訳日:2023-06-05 11:22:03 公開日:2023-06-02
# 教師なし多変量時系列表現学習のためのコントラストシェープレット学習

Contrastive Shapelet Learning for Unsupervised Multivariate Time Series Representation Learning ( http://arxiv.org/abs/2305.18888v3 )

ライセンス: Link先を確認
Zhiyu Liang, Jianfeng Zhang, Chen Liang, Hongzhi Wang, Zheng Liang, Lujia Pan(参考訳) 最近の研究は、多変量時系列に対する教師なし表現学習(URL)において、URLはアクセス不能なラベルを使わずに多くの下流タスクに対して一般化可能な表現を学習する能力を持っているため、大きな可能性を示している。 しかし、既存のアプローチは通常、他のドメイン(例えばコンピュータビジョン)向けに設計されたモデルを採用して時系列データをエンコードし、学習目標を設計するための強い仮定に依存している。 これらの問題に対処するために,一般的なコントラスト学習パラダイムを通じて,時系列特異的なシェープレット表現を学習することにより,多変量時系列のための新しいurlフレームワークを提案する。 私たちの知る限りでは、これは教師なしの汎用表現学習にシェープレットベースの埋め込みを探求する最初の作品です。 統一シェープレット型エンコーダと,多粒度コントラストとマルチスケールアライメントを用いた新しい学習目標を特に目標として設計し,その一般化のためにデータ拡張ライブラリを用いた。 我々は,何万もの実世界のデータセットを用いて,分類,クラスタリング,異常検出など,多くの下流タスクにおける表現品質の評価を行う。 提案手法は,URLコンペティタだけでなく,ダウンストリームタスク用に特別に設計された技術に対して優れていることを示す。 私たちのコードはhttps://github.com/real2fish/CSLで公開されています。

Recent studies have shown great promise in unsupervised representation learning (URL) for multivariate time series, because URL has the capability in learning generalizable representation for many downstream tasks without using inaccessible labels. However, existing approaches usually adopt the models originally designed for other domains (e.g., computer vision) to encode the time series data and rely on strong assumptions to design learning objectives, which limits their ability to perform well. To deal with these problems, we propose a novel URL framework for multivariate time series by learning time-series-specific shapelet-based representation through a popular contrasting learning paradigm. To the best of our knowledge, this is the first work that explores the shapelet-based embedding in the unsupervised general-purpose representation learning. A unified shapelet-based encoder and a novel learning objective with multi-grained contrasting and multi-scale alignment are particularly designed to achieve our goal, and a data augmentation library is employed to improve the generalization. We conduct extensive experiments using tens of real-world datasets to assess the representation quality on many downstream tasks, including classification, clustering, and anomaly detection. The results demonstrate the superiority of our method against not only URL competitors, but also techniques specially designed for downstream tasks. Our code has been made publicly available at https://github.com/real2fish/CSL.
翻訳日:2023-06-05 11:21:51 公開日:2023-06-02
# 長文のニューラル自然言語処理:最新技術に関する調査

Neural Natural Language Processing for Long Texts: A Survey of the State-of-the-Art ( http://arxiv.org/abs/2305.16259v3 )

ライセンス: Link先を確認
Dimitrios Tsirmpas, Ioannis Gkionis, Ioannis Mademlis(参考訳) ディープニューラルネットワーク(DNN)の採用は、過去10年間で自然言語処理(NLP)に大きな恩恵を受けている。 しかし、長文解析の要求は短いテキストの要求とは大きく異なり、オンラインにアップロードされた文書のサイズが増大すると、長いテキストの自動理解が重要な研究領域となる。 この記事には2つの目標がある。 a) 関連するニューラルビルディングブロックを概観し、短いチュートリアルとして機能し、 b) 主に文書分類と文書要約という2つの中心的なタスクに焦点を当てた,長文NLPの最先端を調査する。 典型的には文書分類の特定の事例として扱われるので、長文の感性分析もカバーされている。 さらに、長文NLPに関連する主な課題、課題、現在のソリューションについても論じる。 最後に、さらなる研究を促進するために、関連する、公開可能な注釈付きデータセットが提示される。

The adoption of Deep Neural Networks (DNNs) has greatly benefited Natural Language Processing (NLP) during the past decade. However, the demands of long document analysis are quite different from those of shorter texts, while the ever increasing size of documents uploaded on-line renders automated understanding of long texts a critical area of research. This article has two goals: a) it overviews the relevant neural building blocks, thus serving as a short tutorial, and b) it surveys the state-of-the-art in long document NLP, mainly focusing on two central tasks: document classification and document summarization. Sentiment analysis for long texts is also covered, since it is typically treated as a particular case of document classification. Additionally, this article discusses the main challenges, issues and current solutions related to long document NLP. Finally, the relevant, publicly available, annotated datasets are presented, in order to facilitate further research.
翻訳日:2023-06-05 11:21:02 公開日:2023-06-02
# 拡散自己誘導による制御可能な画像生成

Diffusion Self-Guidance for Controllable Image Generation ( http://arxiv.org/abs/2306.00986v2 )

ライセンス: Link先を確認
Dave Epstein, Allan Jabri, Ben Poole, Alexei A. Efros, Aleksander Holynski(参考訳) 大規模生成モデルは詳細なテキスト記述から高品質な画像を生成することができる。 しかし、画像の多くの側面はテキストで伝えるのが困難か不可能である。 本研究では,拡散モデルの内部表現を誘導することで生成画像の制御性を高める自己誘導法を提案する。 これらの表現から物体の形状、位置、外観などの特性を抽出し、サンプリングを制御できることを実証する。 自己誘導は分類器ガイダンスと同様に動作するが、事前訓練されたモデル自身に存在する信号を使用し、追加のモデルや訓練を必要としない。 オブジェクトの位置やサイズを変更したり、ある画像内のオブジェクトの外観を他の画像のレイアウトと融合したり、多数の画像からオブジェクトを1つにまとめたりといった、挑戦的な画像操作を行うために、単純なプロパティセットをどのように構成するかを示す。 また,実画像の編集に自己指導が利用できることを示す。 結果とインタラクティブなデモについては、https://dave.ml/selfguidance/のプロジェクトページを参照してください。

Large-scale generative models are capable of producing high-quality images from detailed text descriptions. However, many aspects of an image are difficult or impossible to convey through text. We introduce self-guidance, a method that provides greater control over generated images by guiding the internal representations of diffusion models. We demonstrate that properties such as the shape, location, and appearance of objects can be extracted from these representations and used to steer sampling. Self-guidance works similarly to classifier guidance, but uses signals present in the pretrained model itself, requiring no additional models or training. We show how a simple set of properties can be composed to perform challenging image manipulations, such as modifying the position or size of objects, merging the appearance of objects in one image with the layout of another, composing objects from many images into one, and more. We also show that self-guidance can be used to edit real images. For results and an interactive demo, see our project page at https://dave.ml/selfguidance/
翻訳日:2023-06-05 11:14:51 公開日:2023-06-02
# TopEx: モデル比較のためのトピックベースの説明

TopEx: Topic-based Explanations for Model Comparison ( http://arxiv.org/abs/2306.00976v2 )

ライセンス: Link先を確認
Shreya Havaldar, Adam Stein, Eric Wong, Lyle Ungar(参考訳) 言語モデルの比較は、現在の説明手法では困難である。 現在の説明は、大きな語彙やモデル間で比較できないため、人間にとって圧倒的に多い。 そこで本論文では,モデルに依存しないトピックを用いて,言語モデルを比較するためのレベルプレイフィールドを提供する。 様々なNLPタスクにおいて、TopEx が DistilRoBERTa と GPT-2 の類似点と相違点を識別できることを実証する。

Meaningfully comparing language models is challenging with current explanation methods. Current explanations are overwhelming for humans due to large vocabularies or incomparable across models. We present TopEx, an explanation method that enables a level playing field for comparing language models via model-agnostic topics. We demonstrate how TopEx can identify similarities and differences between DistilRoBERTa and GPT-2 on a variety of NLP tasks.
翻訳日:2023-06-05 11:14:37 公開日:2023-06-02
# ブロックチェーンベースの分散共同統治:持続可能なクラウドファンディングのためのイノベーションとソリューション

Blockchain-based Decentralized Co-governance: Innovations and Solutions for Sustainable Crowdfunding ( http://arxiv.org/abs/2306.00869v2 )

ライセンス: Link先を確認
Bingyou Chen, Yu Luo, Jieni Li, Yujian Li, Ying Liu, Fan Yang, Junge Bo and Yanan Qiao(参考訳) この論文は、MSMEやイノベーティブなプロジェクトによって直面する従来型のクラウドファンディング手法の課題に対処する新しいソリューションである、分散コガナンスクラウドファンディング(DCC)エコシステムの詳細な調査を提供する。 対処しようとしている問題には、高い取引コスト、透明性の欠如、詐欺、非効率なリソース割り当てなどがある。 クラウドファンディング経済活動に関する既存の文献とブロックチェーンの組織ガバナンスへの影響を総合的にレビューし,デジタルトークンと分散型共同統治に基づく変革的社会経済モデルを提案する。 このエコシステムには、労働、資本、統治という三部構成のコミュニティ構造があり、それぞれが生態系の運営に一意に貢献している。 我々の研究は、異なる段階を通じてdccエコシステムの進化を展開し、分散デジタル世界における社会経済のダイナミクスの新たな理解を提供する。 また、エコシステムの複雑なガバナンスメカニズム、完全性、公平性、そして価値と富のバランスのとれた分配を保証します。

This thesis provides an in-depth exploration of the Decentralized Co-governance Crowdfunding (DCC) Ecosystem, a novel solution addressing prevailing challenges in conventional crowdfunding methods faced by MSMEs and innovative projects. Among the problems it seeks to mitigate are high transaction costs, lack of transparency, fraud, and inefficient resource allocation. Leveraging a comprehensive review of the existing literature on crowdfunding economic activities and blockchain's impact on organizational governance, we propose a transformative socio-economic model based on digital tokens and decentralized co-governance. This ecosystem is marked by a tripartite community structure - the Labor, Capital, and Governance communities - each contributing uniquely to the ecosystem's operation. Our research unfolds the evolution of the DCC ecosystem through distinct phases, offering a novel understanding of socioeconomic dynamics in a decentralized digital world. It also delves into the intricate governance mechanism of the ecosystem, ensuring integrity, fairness, and a balanced distribution of value and wealth.
翻訳日:2023-06-05 11:14:30 公開日:2023-06-02
# BitE : 混合負荷環境における学習クエリ最適化の高速化

BitE : Accelerating Learned Query Optimization in a Mixed-Workload Environment ( http://arxiv.org/abs/2306.00845v2 )

ライセンス: Link先を確認
Yuri Kim, Yewon Choi, Yujung Gil, Sanghee Lee, Heesik Shin and Jaehyok Chong(参考訳) 近年、クエリ最適化に深層強化学習を適用する努力が増えているが、クエリオプティマイザが複雑なエンティティであり、ワークロードとデータセットを手作業で調整する必要があるため、改善の余地は残されている。 最近の研究では、クエリ最適化の結果は、主に特定のワークロードのユニークな特徴を拾い上げることに焦点を当てた、単一のワークロードのバルクで得られています。 これは、複数のワークロードとデータセットの異なる特性が混在して学習されるシナリオで問題となる。 そこで本研究では,データベース統計とメタデータを用いた新しいアンサンブル学習モデルであるbitsを提案する。 ヒントセットを拡張することで、最適なAbstract SQL Plan(ASPと呼ばれるJSONオブジェクトとして表現される)の検索スペースを拡張し、クエリのすべてのユニークな計画でエクスペリエンスを設定することでバイアスを受ける可能性のあるデフォルトプランからモデルを分離し、従来の損失関数から逸脱し、過小評価と報酬の過大評価に対処する代替方法を選択する。 我々のモデルは、既存の従来の方法に比べて19.6%改良されたクエリと15.8%のレグレッシブクエリを実現し、同等のレベルのリソースを使用する。

Although the many efforts to apply deep reinforcement learning to query optimization in recent years, there remains room for improvement as query optimizers are complex entities that require hand-designed tuning of workloads and datasets. Recent research present learned query optimizations results mostly in bulks of single workloads which focus on picking up the unique traits of the specific workload. This proves to be problematic in scenarios where the different characteristics of multiple workloads and datasets are to be mixed and learned together. Henceforth, in this paper, we propose BitE, a novel ensemble learning model using database statistics and metadata to tune a learned query optimizer for enhancing performance. On the way, we introduce multiple revisions to solve several challenges: we extend the search space for the optimal Abstract SQL Plan(represented as a JSON object called ASP) by expanding hintsets, we steer the model away from the default plans that may be biased by configuring the experience with all unique plans of queries, and we deviate from the traditional loss functions and choose an alternative method to cope with underestimation and overestimation of reward. Our model achieves 19.6% more improved queries and 15.8% less regressed queries compared to the existing traditional methods whilst using a comparable level of resources.
翻訳日:2023-06-05 11:14:12 公開日:2023-06-02
# LiT-4-RSVQA:軽量トランスフォーマーを用いたリモートセンシングにおける視覚質問応答

LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in Remote Sensing ( http://arxiv.org/abs/2306.00758v2 )

ライセンス: Link先を確認
Leonard Hackel (1,3), Kai Norman Clasen (1), Mahdyar Ravanbakhsh (2), Beg\"um Demir (1,3) ((1) Technische Universit\"at Berlin, (2) Zalando SE Berlin, (3) Berlin Institute for the Foundations of Learning and Data)(参考訳) リモートセンシング(rs)におけるvqa(visual question answering)メソッドは、rs画像に対して自然言語質問に答えることを目的としている。 既存の手法の多くは大量の計算資源を必要としており、RSの運用シナリオでの応用を制限する。 そこで本稿では, RS における効率よく正確な VQA を実現するために, RS (LiT-4-RSVQA) アーキテクチャにおいて, 効率的な軽量トランスフォーマーベースの VQA を提案する。 私たちのアーキテクチャは 一 軽量テキストエンコーダモジュール 二 軽量画像エンコーダモジュール 三 融合モジュール、及び iv) 分類モジュール。 提案したLiT-4-RSVQAアーキテクチャは,VQAの精度を向上するとともに,ハードウェアの計算要求を大幅に低減する。 私たちのコードはhttps://git.tu-berlin.de/rsim/lit4rsvqaで公開しています。

Visual question answering (VQA) methods in remote sensing (RS) aim to answer natural language questions with respect to an RS image. Most of the existing methods require a large amount of computational resources, which limits their application in operational scenarios in RS. To address this issue, in this paper we present an effective lightweight transformer-based VQA in RS (LiT-4-RSVQA) architecture for efficient and accurate VQA in RS. Our architecture consists of: i) a lightweight text encoder module; ii) a lightweight image encoder module; iii) a fusion module; and iv) a classification module. The experimental results obtained on a VQA benchmark dataset demonstrate that our proposed LiT-4-RSVQA architecture provides accurate VQA results while significantly reducing the computational requirements on the executing hardware. Our code is publicly available at https://git.tu-berlin.de/rsim/lit4rsvqa.
翻訳日:2023-06-05 11:13:48 公開日:2023-06-02
# ハイブリッド相互情報推定の有効性について

On the Effectiveness of Hybrid Mutual Information Estimation ( http://arxiv.org/abs/2306.00608v2 )

ライセンス: Link先を確認
Marco Federici, David Ruhe, Patrick Forr\'e(参考訳) 共同分布からサンプルから相互情報を推定することは、科学と工学の両方において難しい問題である。 本研究では,識別的アプローチと生成的アプローチの両方を一般化する変動境界を実現する。 このバウンドを用いることで,それぞれの欠点を緩和するハイブリッド手法を提案する。 さらに,予測量子化法(pq)を提案する。この手法は,計算のオーバーヘッドを最小限に抑えるために,識別的推定器と容易に組み合わせることができる。 我々の提案は、推定値のばらつきの低減により、情報により強く結びつく。 本研究では,高次元ガウス分布を関連付ける課題と,固定エネルギー環境下の自由粒子系を含む確率過程について実験を行った。 実験の結果, ハイブリッド手法は, 相互情報推定を, 対応する判別法と比較して一貫して改善することがわかった。

Estimating the mutual information from samples from a joint distribution is a challenging problem in both science and engineering. In this work, we realize a variational bound that generalizes both discriminative and generative approaches. Using this bound, we propose a hybrid method to mitigate their respective shortcomings. Further, we propose Predictive Quantization (PQ): a simple generative method that can be easily combined with discriminative estimators for minimal computational overhead. Our propositions yield a tighter bound on the information thanks to the reduced variance of the estimator. We test our methods on a challenging task of correlated high-dimensional Gaussian distributions and a stochastic process involving a system of free particles subjected to a fixed energy landscape. Empirical results show that hybrid methods consistently improved mutual information estimates when compared to the corresponding discriminative counterpart.
翻訳日:2023-06-05 11:13:32 公開日:2023-06-02
# AvatarStudio:3次元動的頭部アバターのテキスト駆動編集

AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars ( http://arxiv.org/abs/2306.00547v2 )

ライセンス: Link先を確認
Mohit Mendiratta, Xingang Pan, Mohamed Elgharib, Kartik Teotia, Mallikarjun B R, Ayush Tewari, Vladislav Golyanik, Adam Kortylewski, Christian Theobalt(参考訳) フルヘッドパフォーマンスのキャプチャと編集により、拡張現実やメディアプロダクションなど、さまざまなアプリケーションで仮想文字を作成することができる。 過去数年間、人間の頭部アバターの光現実主義の急激な上昇を目撃した。 このようなアバターは、RGB、オーディオ、ディープ、IMUなど、さまざまな入力データモダリティによって制御できる。 これらのデータモダリティは効果的な制御手段を提供するが、主に表情、頭部ポーズ、カメラ視点などの頭部の動きの編集に焦点を当てている。 本稿では,動的な頭部アバターの出現を編集するためのテキストベース手法であるアバタースタディオを提案する。 提案手法は,ニューラルラジアンス場(NeRF)を用いて人間の頭部の動的性能を捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。 具体的には,映像性能の異なるカメラ視点とタイムスタンプを表現する複数のキーフレームを単一拡散モデルに組み込む最適化戦略を提案する。 このパーソナライズされた拡散モデルを用いて,vt-sds(view-and-time-aware score distillation sampling)を導入した。 提案手法は,全頭部を標準空間で編集し,これらの編集を事前学習した変形ネットワークを介して残時間ステップに伝達する。 提案手法をユーザ調査により視覚的および数値的に評価し,既存の手法に勝ることを示す。 実験では,本手法の設計選択を検証し,編集が本物でパーソナライズされ,パーソナライズされ,かつ3Dおよび時間一貫性があることを示す。

Capturing and editing full head performances enables the creation of virtual characters with various applications such as extended reality and media production. The past few years witnessed a steep rise in the photorealism of human head avatars. Such avatars can be controlled through different input data modalities, including RGB, audio, depth, IMUs and others. While these data modalities provide effective means of control, they mostly focus on editing the head movements such as the facial expressions, head pose and/or camera viewpoint. In this paper, we propose AvatarStudio, a text-based method for editing the appearance of a dynamic full head avatar. Our approach builds on existing work to capture dynamic performances of human heads using neural radiance field (NeRF) and edits this representation with a text-to-image diffusion model. Specifically, we introduce an optimization strategy for incorporating multiple keyframes representing different camera viewpoints and time stamps of a video performance into a single diffusion model. Using this personalized diffusion model, we edit the dynamic NeRF by introducing view-and-time-aware Score Distillation Sampling (VT-SDS) following a model-based guidance approach. Our method edits the full head in a canonical space, and then propagates these edits to remaining time steps via a pretrained deformation network. We evaluate our method visually and numerically via a user study, and results show that our method outperforms existing approaches. Our experiments validate the design choices of our method and highlight that our edits are genuine, personalized, as well as 3D- and time-consistent.
翻訳日:2023-06-05 11:13:19 公開日:2023-06-02
# HySpecNet-11k:学習に基づくハイパースペクトル画像圧縮手法のベンチマークのための大規模ハイパースペクトルデータセット

HySpecNet-11k: A Large-Scale Hyperspectral Dataset for Benchmarking Learning-Based Hyperspectral Image Compression Methods ( http://arxiv.org/abs/2306.00385v2 )

ライセンス: Link先を確認
Martin Hermann Paul Fuchs, Beg\"um Demir(参考訳) 近年,学習に基づくハイパースペクトル画像圧縮手法の開発が注目されている。 このような方法では、全てのパラメータを最適化し、高い圧縮性能に達するために、トレーニング中に使用する高スペクトル画像が大量に必要となる。 しかし、既存のハイパースペクトルデータセットは学習に基づく圧縮手法の訓練や評価には不十分であり、この分野での研究を妨げている。 そこで本稿では,11,483個の非オーバーラップ画像パッチからなる大規模ハイパースペクトルベンチマークデータセットであるhyspecnet-11kを提案する。 各パッチは、128ドルの128ドルの128ピクセルの一部であり、224のスペクトルバンドと地上サンプル距離は30mである。 我々はHySpecNet-11kを用いて、学習に基づくハイパースペクトル画像圧縮における技術の現状をベンチマークし、様々な1D、2D、3D畳み込みオートエンコーダアーキテクチャに注目した。 それでもhyspecnet-11kはハイパースペクトル画像解析のフレームワークにおいて教師なしの学習タスクに使用できる。 データセット、コード、トレーニング済みの重みはhttps://hyspecnet.rsim.berlin.com/で公開されている。

The development of learning-based hyperspectral image compression methods has recently attracted great attention in remote sensing. Such methods require a high number of hyperspectral images to be used during training to optimize all parameters and reach a high compression performance. However, existing hyperspectral datasets are not sufficient to train and evaluate learning-based compression methods, which hinders the research in this field. To address this problem, in this paper we present HySpecNet-11k that is a large-scale hyperspectral benchmark dataset made up of 11,483 nonoverlapping image patches. Each patch is a portion of 128 $\times$ 128 pixels with 224 spectral bands and a ground sample distance of 30 m. We exploit HySpecNet-11k to benchmark the current state of the art in learning-based hyperspectral image compression by focussing our attention on various 1D, 2D and 3D convolutional autoencoder architectures. Nevertheless, HySpecNet-11k can be used for any unsupervised learning task in the framework of hyperspectral image analysis. The dataset, our code and the pre-trained weights are publicly available at https://hyspecnet.rsim.berlin .
翻訳日:2023-06-05 11:12:50 公開日:2023-06-02
# AfriNames: ほとんどのASRモデルは「肉屋」アフリカ名

AfriNames: Most ASR models "butcher" African Names ( http://arxiv.org/abs/2306.00253v2 )

ライセンス: Link先を確認
Tobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh(参考訳) 例えば、音声アシスタントに特定のアーティストからのトラックを再生するよう依頼したり、特定の場所へのナビゲーションを開始したり、患者のために実験結果を文書化したりする。 しかしながら、 '`Ukachukwu`' (Igbo)、 ``Lakicia`` (Swahili)、 ``Ingabire`` (Rwandan) などの名前付きエンティティが話される場合、自動音声認識(ASR)モデルの性能は著しく低下し、下流システムにエラーを伝播する。 我々は,この問題を分散シフトとしてモデル化し,多言語事前学習によるモデルバイアスの緩和,アフリカ名のエンティティの表現を向上するための知的データ拡張戦略,アフリカ語アクセント上での微調整型多言語ASRモデルなどを示す。 結果として得られた微調整モデルでは、アフリカ名を持つ標本のベースラインに比べて81.5\%の相対的なWER改善が見られた。

Useful conversational agents must accurately capture named entities to minimize error for downstream tasks, for example, asking a voice assistant to play a track from a certain artist, initiating navigation to a specific location, or documenting a laboratory result for a patient. However, where named entities such as ``Ukachukwu`` (Igbo), ``Lakicia`` (Swahili), or ``Ingabire`` (Rwandan) are spoken, automatic speech recognition (ASR) models' performance degrades significantly, propagating errors to downstream systems. We model this problem as a distribution shift and demonstrate that such model bias can be mitigated through multilingual pre-training, intelligent data augmentation strategies to increase the representation of African-named entities, and fine-tuning multilingual ASR models on multiple African accents. The resulting fine-tuned models show an 81.5\% relative WER improvement compared with the baseline on samples with African-named entities.
翻訳日:2023-06-05 11:12:31 公開日:2023-06-02
# メカニック:学習率チューナー

Mechanic: A Learning Rate Tuner ( http://arxiv.org/abs/2306.00144v2 )

ライセンス: Link先を確認
Ashok Cutkosky, Aaron Defazio, Harsh Mehta(参考訳) 我々は,任意のベース最適化アルゴリズムの学習率スケール係数とスケジュールを自動的に調整する手法を紹介し,これを \textsc{mechanic} と呼ぶ。 提案手法は,オンライン凸最適化における同様の目標を達成するために,最近の理論的な縮小を実践的に実現する。 我々は,バッチサイズ,スケジュール,ベース最適化アルゴリズムを多用した大規模深層学習タスクで \textsc{mechanic} を厳格に評価した。 これらの実験は、問題に応じて、‘textsc{mechanic} は、学習率のマニュアルチューニングによって非常に近いか、一致するか、あるいは改善されることを示している。

We introduce a technique for tuning the learning rate scale factor of any base optimization algorithm and schedule automatically, which we call \textsc{mechanic}. Our method provides a practical realization of recent theoretical reductions for accomplishing a similar goal in online convex optimization. We rigorously evaluate \textsc{mechanic} on a range of large scale deep learning tasks with varying batch sizes, schedules, and base optimization algorithms. These experiments demonstrate that depending on the problem, \textsc{mechanic} either comes very close to, matches or even improves upon manual tuning of learning rates.
翻訳日:2023-06-05 11:12:11 公開日:2023-06-02