このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230930となっている論文です。

PDF登録状況(公開日: 20230930)

TitleAuthorsAbstract論文公表日・翻訳日
# ソース推論攻撃:フェデレートラーニングにおけるメンバーシップ推論攻撃を超えて

Source Inference Attacks: Beyond Membership Inference Attacks in Federated Learning ( http://arxiv.org/abs/2310.00222v1 )

ライセンス: Link先を確認
Hongsheng Hu, Xuyun Zhang, Zoran Salcic, Lichao Sun, Kim-Kwang Raymond Choo, Gillian Dobbie, (参考訳) フェデレートラーニング(FL)は、プライバシを意識した機械学習を促進するための一般的なアプローチである。複数のクライアントがプライベートデータへのアクセスを許可することなく、グローバルモデルを協調的にトレーニングすることができるからだ。 しかし、グローバルモデルのトレーニング記録とテスト記録との区別が可能なMIA攻撃に対して、FLは脆弱であることが知られている。 意外なことに、ソース推論問題の調査に焦点をあてた研究は欠落しているようだ。 また、トレーニングレコードのソースクライアントを特定することで、MIAを超えたプライバシー侵害が発生することも観察した。 例えば、複数の病院が共同で新型コロナウイルスの診断モデルを訓練し、会員推論攻撃者がトレーニングに使われた医療記録を識別し、ソース病院のさらなる識別が特定の病院の患者を識別しやすくするFLアプリケーションを考える。 文献のギャップに貢献するために、FLのソースプライバシを調査する第一歩を踏み出します。 具体的には、トレーニングレコードのソースクライアントを特定するために、誠実だが正確なサーバを容易にするための新しい推論攻撃(以下、ソース推論攻撃(source inference attack -- SIA)を提案する。 提案したSIAはベイズ定理を利用して、サーバが定義されたFLプロトコルから逸脱することなく、非侵入的な方法で攻撃を実装することを可能にする。 次に、3つの異なるFLフレームワークでSIAを評価し、既存のFLフレームワークでは、クライアントが勾配、モデルパラメータ、またはパブリックデータセット上の予測を共有し、そのようなソース情報をサーバにリークすることを示す。 また, 各種データセットに対する広範囲な実験を行い, SIAの重要な要因について検討する。 実験結果は,提案したSIAの有効性を検証した。

Federated learning (FL) is a popular approach to facilitate privacy-aware machine learning since it allows multiple clients to collaboratively train a global model without granting others access to their private data. It is, however, known that FL can be vulnerable to membership inference attacks (MIAs), where the training records of the global model can be distinguished from the testing records. Surprisingly, research focusing on the investigation of the source inference problem appears to be lacking. We also observe that identifying a training record's source client can result in privacy breaches extending beyond MIAs. For example, consider an FL application where multiple hospitals jointly train a COVID-19 diagnosis model, membership inference attackers can identify the medical records that have been used for training, and any additional identification of the source hospital can result the patient from the particular hospital more prone to discrimination. Seeking to contribute to the literature gap, we take the first step to investigate source privacy in FL. Specifically, we propose a new inference attack (hereafter referred to as source inference attack -- SIA), designed to facilitate an honest-but-curious server to identify the training record's source client. The proposed SIAs leverage the Bayesian theorem to allow the server to implement the attack in a non-intrusive manner without deviating from the defined FL protocol. We then evaluate SIAs in three different FL frameworks to show that in existing FL frameworks, the clients sharing gradients, model parameters, or predictions on a public dataset will leak such source information to the server. We also conduct extensive experiments on various datasets to investigate the key factors in an SIA. The experimental results validate the efficacy of the proposed SIAs.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-30
# UAV RSMAネットワークにおけるセキュリティ強化 - ディープ・アンフォールディングとディープ・強化学習

Enhancing Secrecy in UAV RSMA Networks: Deep Unfolding Meets Deep Reinforcement Learning ( http://arxiv.org/abs/2310.01437v1 )

ライセンス: Link先を確認
Abuzar B. M. Adam, Mohammed A. M. Elhassan, (参考訳) 本稿では,複数の無人航空機(UAV)における秘密保持率の最大化について検討する。 非凸な共同ビームフォーミング、レートアロケーション、UAV軌道最適化問題を定式化する。 そこで、この問題をマルコフ決定問題に変換し、新しいマルチエージェント深部強化学習(DRL)フレームワークを設計する。 提案したフレームワーク(DUN-DRL)は、ビームフォーミングとレートアロケーションの設計、UAV軌道の設計のためのデータ駆動、学習手順のためのDeep Deterministic Policy gradient(DDPG)を組み合わせたものである。 提案したDUN-DRLは高い性能を示し、文献における他のDRLベースの手法よりも優れている。

In this paper, we consider the maximization of the secrecy rate in multiple unmanned aerial vehicles (UAV) rate-splitting multiple access (RSMA) network. A joint beamforming, rate allocation, and UAV trajectory optimization problem is formulated which is nonconvex. Hence, the problem is transformed into a Markov decision problem and a novel multiagent deep reinforcement learning (DRL) framework is designed. The proposed framework (named DUN-DRL) combines deep unfolding to design beamforming and rate allocation, data-driven to design the UAV trajectory, and deep deterministic policy gradient (DDPG) for the learning procedure. The proposed DUN-DRL have shown great performance and outperformed other DRL-based methods in the literature.
翻訳日:2024-03-25 14:15:19 公開日:2023-09-30
# ディープラーニングの宿題はもっと早く改善されるか?

Does Starting Deep Learning Homework Earlier Improve Grades? ( http://arxiv.org/abs/2311.09228v1 )

ライセンス: Link先を確認
Edward Raff, Cynthia Matuszek(参考訳) 直感的には、宿題の割り当てを早く開始し、より多くの時間を費やしている学生は、宿題の成績が良くなるべきである。 しかし、宿題に費やす時間の影響に関する既存の文献は明確ではなく、主にK-12教育に由来する。 これらの先行研究が、人口動態の違いや課題の完了に要する計算時間によって、ディープラーニングのコースワークに影響を及ぼすかどうかは不明だ。 本稿は,メリーランド大学ボルチモア郡ディープラーニングコース(UMBC)の3学年を対象としたポストホック研究において,宿題に費やした合計時間の近似値から,学生の成功への影響に関する理論的結論を得るための階層的ベイズモデルを構築したものである。 結果から,早期提出と在学期間延長は最終学年と正の相関を示した。 驚くべきことに、追加の作業日の価値は、課題を完了するのに合計時間が少なくても、学生間で等しいようである。

Intuitively, students who start a homework assignment earlier and spend more time on it should receive better grades on the assignment. However, existing literature on the impact of time spent on homework is not clear-cut and comes mostly from K-12 education. It is not clear that these prior studies can inform coursework in deep learning due to differences in demographics, as well as the computational time needed for assignments to be completed. We study this problem in a post-hoc study of three semesters of a deep learning course at the University of Maryland, Baltimore County (UMBC), and develop a hierarchical Bayesian model to help make principled conclusions about the impact on student success given an approximate measure of the total time spent on the homework, and how early they submitted the assignment. Our results show that both submitting early and spending more time positively relate with final grade. Surprisingly, the value of an additional day of work is apparently equal across students, even when some require less total time to complete an assignment.
翻訳日:2024-01-15 16:10:15 公開日:2023-09-30
# オープンソースのソフトウェア脆弱性追跡パッチ

Tracking Patches for Open Source Software Vulnerabilities ( http://arxiv.org/abs/2112.02240v2 )

ライセンス: Link先を確認
Congying Xu, Bihuan Chen, Chenhao Lu, Kaifeng Huang, Xin Peng, Yang Liu(参考訳) オープンソースソフトウェア(OSS)の脆弱性は、OSSを使用するソフトウェアシステムのセキュリティを脅かす。 脆弱性データベースはOSS脆弱性を軽減するために貴重な情報(脆弱性のあるバージョンやパッチなど)を提供する。 脆弱性データベースの情報品質に対する懸念が高まっている。 しかし、既存の脆弱性データベースのパッチの品質は明らかではなく、既存の手動またはヒューリスティックベースのパッチ追跡アプローチは、すべてのoss脆弱性に適用するには高価すぎるか、あるいはあまりに具体的すぎる。

Open source software (OSS) vulnerabilities threaten the security of software systems that use OSS. Vulnerability databases provide valuable information (e.g., vulnerable version and patch) to mitigate OSS vulnerabilities. There arises a growing concern about the information quality of vulnerability databases. However, it is unclear what the quality of patches in existing vulnerability databases is; and existing manual or heuristic-based approaches for patch tracking are either too expensive or too specific to apply to all OSS vulnerabilities.
翻訳日:2023-10-24 15:49:14 公開日:2023-09-30
# ソフトウェア工学におけるトランスフォーマー技術に関する実証的研究

Empirical Study on Transformer-based Techniques for Software Engineering ( http://arxiv.org/abs/2310.00399v1 )

ライセンス: Link先を確認
Yan Xiao, Xinyue Zuo, Lei Xue, Kailong Wang, Jin Song Dong and Ivan Beschastnikh(参考訳) コードのためのトランスフォーマーベースの事前訓練モデルが開発され、コード関連のタスクに適用されている。 本稿では,既存の文献を概観し,異なるタスクに対するモデルアーキテクチャの適合性を調べ,異なるデータセット上のモデルの一般化能力とリソース消費について考察する。 CodeBERT(リンク)、CodeGPT(リンク)、CodeT5(リンク)の3つの非常に代表的な事前訓練済みモデルを検証し、私たちの文献調査で見つかった最もターゲットにされたソフトウェアエンジニアリングタスクのトップ4(リンク)で実験を行います。 本研究では、最先端評価指標に基づく特定の生成タスクに対するデコーダのみのモデル(CodeGPT)の能力を示し、エンコーダ-デコーダアーキテクチャが汎用符号化タスクに最適であるという共通の信念に異議を唱える。 さらに、最も頻繁に使用されるモデルは、必ずしも特定のアプリケーションに適したものではなく、開発者のニーズが現在の研究で適切に対処されていないことも分かりました。 また、Bug FixingとCode Summarizationのベンチマークと頻繁なデータセットはどちらも、同じタスクのために他のデータセットにモデルを一般化することができない(頻繁なデータセットは、ベンチマーク以外の文献で使用される最も高い頻度のデータセットを指す)。 統計的テストを使って実験の結果を支援します。 最後に、codebertはタスクを理解するのに非常に効率的であるが、最も高いリソース消費では異なるメトリクスで一貫したパフォーマンスが保証されないため、生成タスクに対するcodet5の効率は疑わしい。 また,コード関連タスクに対するトランスフォーマーモデルの研究を推し進める上での多くの実践的課題についても論じる。

Many Transformer-based pre-trained models for code have been developed and applied to code-related tasks. In this paper, we review the existing literature, examine the suitability of model architectures for different tasks, and look at the generalization ability of models on different datasets, and their resource consumption. We examine three very representative pre-trained models for code: CodeBERT, CodeGPT, and CodeT5, and conduct experiments on the top-4 most targeted software engineering tasks that we found in our literature survey: Code Summarization, Bug Fixing, Bug Detection, and Code Search. In our study, we showcase the capability of decoder-only models (CodeGPT) for specific generation tasks under state-of-the-art evaluation metrics and contest the common belief that the encoder-decoder architecture is optimal for general-purpose coding tasks. Additionally, we found that the most frequently used models are not necessarily the most suitable for certain applications and the developers' needs are not adequately addressed by current research. As well, we found that the benchmark and frequent dataset for Bug Fixing and Code Summarization both fail to enable models to generalize onto other datasets for the same task (the frequent dataset refers to the dataset with the highest frequency used in literature other than the benchmark). We use statistical testing to support our conclusions from experiments. Finally, CodeBERT is highly efficient for understanding tasks, whereas CodeT5's efficiency for generation tasks is in doubt, as the highest resource consumption does not guarantee a consistent better performance on different metrics. We also discuss the numerous practical issues in advancing future research on transformer-based models for code-related tasks.
翻訳日:2023-10-23 05:26:43 公開日:2023-09-30
# 完全なメタモルフィックテストパイプラインに向けて

Towards a Complete Metamorphic Testing Pipeline ( http://arxiv.org/abs/2310.00338v1 )

ライセンス: Link先を確認
Alejandra Duque-Torres, Dietmar Pfahl(参考訳) メタモルフィックテスト(MT)は、システムアンダーテスト(SUT)の連続実行における入出力ペア間の関係を調べることで、テストオラクルの問題に対処する。 これらの関係は、メタモルフィック関係 (MRs) と呼ばれ、特定の入力変化に起因する期待される出力変化を規定する。 しかし、MR違反の生成、選択、理解において完全な自動化を達成することが課題となる。 本研究の目的は,MR の生成,制約の定義,MR 結果の説明可能性の提供を支援する手法とツールの開発である。 MR生成フェーズでは,MRの生成と記述にドメイン固有言語を利用する自動手法を検討する。MR制約の定義は,制約を定義することでMR適用のニュアンスを捉えることに焦点を当てている。 これらの制約はMRが保持される特定の条件を特定するのに役立つ。 評価と検証は、開発手法の有効性を評価し、実世界の回帰テストシナリオにおける適用性を検証するための実証的研究を含む。 本研究は, MR生成の自動化を推進し, MR違反の理解を深め, 回帰テストにおける有効適用を促進することを目的とする。

Metamorphic Testing (MT) addresses the test oracle problem by examining the relationships between input-output pairs in consecutive executions of the System Under Test (SUT). These relations, known as Metamorphic Relations (MRs), specify the expected output changes resulting from specific input changes. However, achieving full automation in generating, selecting, and understanding MR violations poses challenges. Our research aims to develop methods and tools that assist testers in generating MRs, defining constraints, and providing explainability for MR outcomes. In the MR generation phase, we explore automated techniques that utilise a domain-specific language to generate and describe MRs. The MR constraint definition focuses on capturing the nuances of MR applicability by defining constraints. These constraints help identify the specific conditions under which MRs are expected to hold. The evaluation and validation involve conducting empirical studies to assess the effectiveness of the developed methods and validate their applicability in real-world regression testing scenarios. Through this research, we aim to advance the automation of MR generation, enhance the understanding of MR violations, and facilitate their effective application in regression testing.
翻訳日:2023-10-23 05:26:13 公開日:2023-09-30
# オープンソース組込みソフトウェアにおける静的解析ツールの利用に関する実証的研究

An Empirical Study on the Use of Static Analysis Tools in Open Source Embedded Software ( http://arxiv.org/abs/2310.00205v1 )

ライセンス: Link先を確認
Mingjie Shen, Akul Pillai, Brian A. Yuan, James C. Davis, Aravind Machiry(参考訳) 本稿では,オープンソース組み込みソフトウェア(EMBOSS)レポジトリ上で静的アプリケーションセキュリティテスト(SAST)ツールの使用状況,課題,有効性を理解するための最初の研究を行う。 EMBOSSプロジェクトでは,リアルタイムオペレーティングシステムやネットワークスタック,アプリケーションなど,13の異なるカテゴリを対象として,258のコーパスを収集しています。 EMBOSSでのSASTツールの使用状況を理解するため、このコーパスを測定し、開発者を調査した。 EMBOSSプロジェクトでSASTツールを使うことの課題と有効性を理解するため、これらのツールを私たちのコーパスのプロジェクトに適用した。 これらのプロジェクトのほとんど(わずか3%)がコンパイラに組み込まれたツール以外にSASTツールを使用しておらず、開発者は非効率性や偽陽性などの根拠を与えています。 SASTツール自体を適用する際には、与えられたEMBOSSプロジェクトに多くのツールを適用するためには、最小限のエンジニアリング労力とプロジェクトの専門知識が必要です。 GitHubのCodeQLは最も効果的なSASTツールで、ビルトインのセキュリティチェックを使用して、258プロジェクト全体で540の欠陥(偽陽性率23%)を発見しました。 EMBOSSのエンジニアは、これらの欠陥の273(51%)を、主にプルリクエストを受け入れることによって確認した。 2機のCVEが発行された。 要約すると、EMBOSSエンジニアには、偽陽性率を低くし、セキュリティ関連欠陥を見つけるのに効果的である、現在の世代のSASTツールを採用するよう促す。

This paper performs the first study to understand the prevalence, challenges, and effectiveness of using Static Application Security Testing (SAST) tools on Open-Source Embedded Software (EMBOSS) repositories. We collect a corpus of 258 of the most popular EMBOSS projects, representing 13 distinct categories such as real-time operating systems, network stacks, and applications. To understand the current use of SAST tools on EMBOSS, we measured this corpus and surveyed developers. To understand the challenges and effectiveness of using SAST tools on EMBOSS projects, we applied these tools to the projects in our corpus. We report that almost none of these projects (just 3%) use SAST tools beyond those baked into the compiler, and developers give rationales such as ineffectiveness and false positives. In applying SAST tools ourselves, we show that minimal engineering effort and project expertise are needed to apply many tools to a given EMBOSS project. GitHub's CodeQL was the most effective SAST tool -- using its built-in security checks we found a total of 540 defects (with a false positive rate of 23%) across the 258 projects, with 399 (74%) likely security vulnerabilities, including in projects maintained by Microsoft, Amazon, and the Apache Foundation. EMBOSS engineers have confirmed 273 (51%) of these defects, mainly by accepting our pull requests. Two CVEs were issued. In summary, we urge EMBOSS engineers to adopt the current generation of SAST tools, which offer low false positive rates and are effective at finding security-relevant defects.
翻訳日:2023-10-23 05:25:54 公開日:2023-09-30
# ドメイン制御型プロンプト学習

Domain-Controlled Prompt Learning ( http://arxiv.org/abs/2310.07730v1 )

ライセンス: Link先を確認
Qinglong Cao, Zhengqin Xu, Yuantian Chen, Chao Ma, Xiaokang Yang(参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、適切なテキストプロンプトが提供されると、様々なタスクにわたって顕著な一般化能力を示す。 しかし、これらのモデルをリモートセンシング画像(rsis)や医療画像など、特殊な領域に適応させることは、未調査であり、挑戦的です。 既存のプロンプト学習法では、ドメイン認識やドメイン転送機構が欠如しており、自然画像パターンにおける特殊画像の誤解による最適化性能が低下する。 このジレンマに対処するため,専門分野を対象としたドメイン制御型プロンプト学習を提案する。 具体的には、大規模な専門ドメイン基盤モデル(LSDM)を導入し、本質的な専門ドメイン知識を提供する。 軽量ニューラルネットワークを用いて、これらの知識をドメインバイアスに転送し、視覚と言語の両方を制御し、直接的に組み込む方法でドメイン適応プロンプトを得る。 同時に、既存の過度に適合する課題を克服するために、トレーニング可能な余分なパラメータを伴わない新しいノイズ付加戦略を提案し、このモデルが大域的ドメイン振動方式で最適解から逃れる手助けをする。 実験により,本手法は特定領域画像認識データセットの最先端性能を実現することを示す。 私たちのコードはhttps://anonymous.4open.science/r/dcpl-8588で利用可能です。

Large pre-trained vision-language models, such as CLIP, have shown remarkable generalization capabilities across various tasks when appropriate text prompts are provided. However, adapting these models to specialized domains, like remote sensing images (RSIs), medical images, etc, remains unexplored and challenging. Existing prompt learning methods often lack domain-awareness or domain-transfer mechanisms, leading to suboptimal performance due to the misinterpretation of specialized images in natural image patterns. To tackle this dilemma, we proposed a Domain-Controlled Prompt Learning for the specialized domains. Specifically, the large-scale specialized domain foundation model (LSDM) is first introduced to provide essential specialized domain knowledge. Using lightweight neural networks, we transfer this knowledge into domain biases, which control both the visual and language branches to obtain domain-adaptive prompts in a directly incorporating manner. Simultaneously, to overcome the existing overfitting challenge, we propose a novel noisy-adding strategy, without extra trainable parameters, to help the model escape the suboptimal solution in a global domain oscillation manner. Experimental results show our method achieves state-of-the-art performance in specialized domain image recognition datasets. Our code is available at https://anonymous.4open.science/r/DCPL-8588.
翻訳日:2023-10-23 03:14:21 公開日:2023-09-30
# Promptの簡単な歴史:言語モデルの活用

A Brief History of Prompt: Leveraging Language Models ( http://arxiv.org/abs/2310.04438v1 )

ライセンス: Link先を確認
Golam Md Muktadir(参考訳) 本稿では,自然言語処理(NLP)分野における迅速なエンジニアリングと生成の進化を包括的に探求する。 初期の言語モデルと情報検索システムから始まり、長年にわたってプロンプトエンジニアリングを形成してきた重要な発展を追跡する。 2015年のアテンションメカニズムの導入は言語理解に革命をもたらし、制御性と文脈認識の進歩につながった。 その後の強化学習技術のブレークスルーにより、さらなるエンジニアリングが促進され、生成されたテキストの露出バイアスやバイアスといった問題に対処する。 2018年と2019年における重要な貢献について検討し、微調整戦略、制御コード、テンプレートベースの生成に焦点を当てた。 また,公平性,人間とaiのコラボレーション,低リソース適応の重要性についても論じた。 2020年と2021年には、文脈的なプロンプトとトランスファー学習が注目され、2022年と2023年には、教師なし事前学習や新しい報酬形成のような高度な技術が出現した。 本稿では,各種開発が迅速工学に与える影響を実証する研究成果について紹介する。 迅速なエンジニアリングの旅は続き、倫理的考慮がAIシステムの責任と包括的未来にとって最重要である。

This paper presents a comprehensive exploration of the evolution of prompt engineering and generation in the field of natural language processing (NLP). Starting from the early language models and information retrieval systems, we trace the key developments that have shaped prompt engineering over the years. The introduction of attention mechanisms in 2015 revolutionized language understanding, leading to advancements in controllability and context-awareness. Subsequent breakthroughs in reinforcement learning techniques further enhanced prompt engineering, addressing issues like exposure bias and biases in generated text. We examine the significant contributions in 2018 and 2019, focusing on fine-tuning strategies, control codes, and template-based generation. The paper also discusses the growing importance of fairness, human-AI collaboration, and low-resource adaptation. In 2020 and 2021, contextual prompting and transfer learning gained prominence, while 2022 and 2023 witnessed the emergence of advanced techniques like unsupervised pre-training and novel reward shaping. Throughout the paper, we reference specific research studies that exemplify the impact of various developments on prompt engineering. The journey of prompt engineering continues, with ethical considerations being paramount for the responsible and inclusive future of AI systems.
翻訳日:2023-10-15 14:35:51 公開日:2023-09-30
# 強化強化学習に基づく量子システム制御法

A quantum system control method based on enhanced reinforcement learning ( http://arxiv.org/abs/2310.03036v1 )

ライセンス: Link先を確認
Wenjie Liu, Bosi Wang, Jihao Fan, Yebo Ge, Mohammed Zidan(参考訳) 従来の量子システム制御手法は、しばしば異なる制約に直面し、限られた資源条件下で漏洩と確率的制御エラーを発生させるのが容易である。 強化学習は、量子システム制御タスクを完了するための効率的な方法として証明されている。 限られた資源条件下で良好な制御戦略を学習するために,強化強化学習(QSC-ERL)に基づく量子システム制御法を提案する。 強化学習における状態と行動は、量子系の量子状態と制御操作にマッピングされる。 新しい強化ニューラルネットワークを用いることで、強化学習は長期累積報酬の最大化を迅速に達成でき、量子状態を初期状態から目標状態に正確に進化させることができる。 候補ユニタリ演算の数に応じて、3スイッチ制御はシミュレーション実験に使用される。 他の方法と比較して、QSC-ERLは量子システムの1倍近い忠実性学習制御を達成し、限られた資源条件下での量子状態の進化のエピソードを少なくする。

Traditional quantum system control methods often face different constraints, and are easy to cause both leakage and stochastic control errors under the condition of limited resources. Reinforcement learning has been proved as an efficient way to complete the quantum system control task. To learn a satisfactory control strategy under the condition of limited resources, a quantum system control method based on enhanced reinforcement learning (QSC-ERL) is proposed. The states and actions in reinforcement learning are mapped to quantum states and control operations in quantum systems. By using new enhanced neural networks, reinforcement learning can quickly achieve the maximization of long-term cumulative rewards, and a quantum state can be evolved accurately from an initial state to a target state. According to the number of candidate unitary operations, the three-switch control is used for simulation experiments. Compared with other methods, the QSC-ERL achieves close to 1 fidelity learning control of quantum systems, and takes fewer episodes to quantum state evolution under the condition of limited resources.
翻訳日:2023-10-08 11:00:08 公開日:2023-09-30
# パウリ群に基づく最大密度符号化のための単元演算子構築法

A Unitary Operator Construction Solution Based on Pauli Group for Maximal Dense Coding ( http://arxiv.org/abs/2310.02923v1 )

ライセンス: Link先を確認
Wenjie Liu, Junxiu Chen, Wenbin Yu, Zhihao Liu and Hanwu Chen(参考訳) 量子高密度符号化は量子暗号通信において重要な役割を担っており、メッセージを符号化する適切なユニタリ演算子のセットを選択する方法が量子通信プロトコルの設計における主要な仕事である。 shuklaらは、乗法の下でポーリ群に基づくユニタリ作用素構築のための予備的手法を提案し、量子対話における高密度符号化に用いられる。 しかし、この方法は実現可能なステップや条件を欠き、可能なユニタリ演算子集合を全て構成することはできない。 本研究では,最小量子ビットを用いてt-量子対称状態のクラスを最大エンコードすることを目的とした,量子超高密度符号化のためのユニタリ演算子セット構築の実現可能な解を提案する。 これらの状態は偶数個の重ね合わせアイテムを持ち、重ね合わせアイテムが互いに直交する少なくとも一組のt/2キュービットが存在する。 まず, 2^t-階乗法修飾一般化パウリ部分群(乗法MGP部分群)の構築手順とそれに対応するアルゴリズムを提案する。 そして、上記の部分群から適切なユニタリ作用素集合を選択するために、t-量子対称状態の2つの条件が与えられる。 最後に, 3-qubit GHZ, 4-qubit W, 4-qubit cluster, 5-qubit cluster state を例に挙げ, 構成解を通した最大密度符号化のためのすべてのユニタリ演算子集合の探索方法を示す。

Quantum dense coding plays an important role in quantum cryptography communication, and how to select a set of appropriate unitary operators to encode message is the primary work in the design of quantum communication protocols. Shukla et al. proposed a preliminary method for unitary operator construction based on Pauli group under multiplication, which is used for dense coding in quantum dialogue. However, this method lacks feasible steps or conditions, and cannot construct all the possible unitary operator sets. In this study, a feasible solution of constructing unitary operator sets for quantum maximal dense coding is proposed, which aims to use minimum qubits to maximally encode a class of t-qubit symmetric states. These states have an even number of superposition items, and there is at least one set of t/2 qubits whose superposition items are orthogonal to each other. Firstly, we propose the procedure and the corresponding algorithm for constructing 2^t-order multiplicative modified generalized Pauli subgroups (multiplicative MGP subgroups). Then, two conditions for t-qubit symmetric states are given to select appropriate unitary operator sets from the above subgroups. Finally, we take 3-qubit GHZ, 4-qubit W, 4-qubit cluster and 5-qubit cluster states as examples, and demonstrate how to find all unitary operator sets for maximal dense coding through our construction solution, which shows that our solution is feasible and convenient.
翻訳日:2023-10-05 14:07:14 公開日:2023-09-30
# 何を学ぶか:モデル適応型データ拡張カリキュラム

When to Learn What: Model-Adaptive Data Augmentation Curriculum ( http://arxiv.org/abs/2309.04747v2 )

ライセンス: Link先を確認
Chengkai Hou, Jieyu Zhang, Tianyi Zhou(参考訳) データ拡張(DA)は、入力データに適用された事前定義された変換に不変性と対称性を強制することにより、ニューラルネットワークの一般化を改善するために広く用いられている。 しかし, 定式化政策は, 異なる訓練段階における各試料に異なる効果を与える可能性があるが, 既存のアプローチでは各試料と訓練モデルに適応する政策を調整できない。 本稿では,モデル適応型データ拡張(madaug, model adaptive data enhancementation)を提案する。 以前の作業とは異なり、madaugはトレーニング段階によって異なるモデル適応ポリシーによって入力画像ごとに拡張演算子を選択し、より良い一般化のために最適化されたデータ拡張カリキュラムを生成する。 MADAugでは、ポリシー生成データ拡張を用いてトレーニングされたモデルの検証セット損失を最小限に抑えるために、二段階最適化方式を用いてポリシーを訓練する。 既存のDA手法と比較して,複数の画像分類タスクやネットワークアーキテクチャ上でMADAugを広範囲に評価する。 madaugは他のベースラインよりも優れており、より公平である。すべてのクラスに改善をもたらし、難しいクラスにも改善をもたらす。 さらに、MADAugの学習ポリシーは、きめ細かいデータセットに転送すると、より良いパフォーマンスを示す。 さらに、MADAugにおける自動最適化政策は、徐々に摂動の増大を導入し、自然に難しいカリキュラムを形成している。

Data augmentation (DA) is widely used to improve the generalization of neural networks by enforcing the invariances and symmetries to pre-defined transformations applied to input data. However, a fixed augmentation policy may have different effects on each sample in different training stages but existing approaches cannot adjust the policy to be adaptive to each sample and the training model. In this paper, we propose Model Adaptive Data Augmentation (MADAug) that jointly trains an augmentation policy network to teach the model when to learn what. Unlike previous work, MADAug selects augmentation operators for each input image by a model-adaptive policy varying between training stages, producing a data augmentation curriculum optimized for better generalization. In MADAug, we train the policy through a bi-level optimization scheme, which aims to minimize a validation-set loss of a model trained using the policy-produced data augmentations. We conduct an extensive evaluation of MADAug on multiple image classification tasks and network architectures with thorough comparisons to existing DA approaches. MADAug outperforms or is on par with other baselines and exhibits better fairness: it brings improvement to all classes and more to the difficult ones. Moreover, MADAug learned policy shows better performance when transferred to fine-grained datasets. In addition, the auto-optimized policy in MADAug gradually introduces increasing perturbations and naturally forms an easy-to-hard curriculum.
翻訳日:2023-10-05 07:21:15 公開日:2023-09-30
# デジタルトレースデータを用いた3つの共通計測手法の同定, 影響, 可能性

Identification, Impacts, and Opportunities of Three Common Measurement Considerations when using Digital Trace Data ( http://arxiv.org/abs/2310.00197v1 )

ライセンス: Link先を確認
Daniel Muise, Nilam Ram, Thomas Robinson, Byron Reeves(参考訳) 特定のURL、投稿、アプリケーションにデジタルトレースを加えることは、メディアの利用とコンテンツ消費を測定するための新しいベストプラクティスである。 しかし、より粒度の大きい明らかな精度にもかかわらず、デジタルトレースはメディア使用の測定に新たな曖昧さと新たなエラーをもたらす可能性がある。 本稿では,Digital Trace Dataを用いた新たな計測フレームワークであるScreenomicsを用いて,モバイル機器とのインタラクションによって得られる個々のスクリーンショットの粒度でメディア使用を記録することで,新たに3つの計測課題を明らかにした。 1) エンタングリング - フォーマットへの露出によってコンテンツへの露出をプロキシすることで生じる一般的な測定誤差、(2) フラット化 - 時間的情報を組み込まずにメディアインタラクションのユニークなセグメントを集約すること、(3) バンドル - メディアインタラクションのセグメントの期間の合計は、メディアセグメント間のばらつきに関して無差別に行われる。

Cataloguing specific URLs, posts, and applications with digital traces is the new best practice for measuring media use and content consumption. Despite the apparent accuracy that comes with greater granularity, however, digital traces may introduce additional ambiguity and new errors into the measurement of media use. In this note, we identify three new measurement challenges when using Digital Trace Data that were recently uncovered using a new measurement framework - Screenomics - that records media use at the granularity of individual screenshots obtained every few seconds as people interact with mobile devices. We label the considerations as follows: (1) entangling - the common measurement error introduced by proxying exposure to content by exposure to format; (2) flattening - aggregating unique segments of media interaction without incorporating temporal information, most commonly intraindividually and (3) bundling - summation of the durations of segments of media interaction, indiscriminate with respect to variations across media segments.
翻訳日:2023-10-05 06:02:38 公開日:2023-09-30
# Sem-Lexベンチマーク: ASL符号のモデル化とその特徴

The Sem-Lex Benchmark: Modeling ASL Signs and Their Phonemes ( http://arxiv.org/abs/2310.00196v1 )

ライセンス: Link先を確認
Lee Kezar, Elana Pontecorvo, Adele Daniels, Connor Baer, Ruth Ferster, Lauren Berger, Jesse Thomason, Zed Sevcikova Sehyr, Naomi Caselli(参考訳) 手話認識と翻訳技術は聴覚障害者の署名コミュニティへのアクセスと包含を増加させる可能性があるが、研究の進展は代表データの欠如によってボトルネックとなっている。 本稿では,ASLモデリングのための新しいリソースであるSem-Lex Benchmarkを紹介する。 Benchmarkは、現在最大規模で、聴覚障害のASL署名者による84万本以上の独立したサイン制作のビデオで構成されている。 人間の専門家はこれらのビデオと、ASL-LEX、SignBank、ASL Citizenといった他の手話リソースを連携させ、手話や音韻的特徴認識に有用な拡張を可能にした。 本稿では,asl-lexにおける言語情報を活用し,sem-lex benchmark for isolated sign recognition (isr)の実用性と公平性を評価する実験スイートを提案する。 SL-GCNモデルを用いて,音韻的特徴が85%の精度で認識でき,ISRの補助的標的として有効であることを示す。 音韻的特徴と光沢を同時に認識する学習は、ショットISRの精度が6%向上し、ISRの精度が2%向上した。 データのダウンロード手順はhttps://github.com/leekezar/SemLex.comで確認できる。

Sign language recognition and translation technologies have the potential to increase access and inclusion of deaf signing communities, but research progress is bottlenecked by a lack of representative data. We introduce a new resource for American Sign Language (ASL) modeling, the Sem-Lex Benchmark. The Benchmark is the current largest of its kind, consisting of over 84k videos of isolated sign productions from deaf ASL signers who gave informed consent and received compensation. Human experts aligned these videos with other sign language resources including ASL-LEX, SignBank, and ASL Citizen, enabling useful expansions for sign and phonological feature recognition. We present a suite of experiments which make use of the linguistic information in ASL-LEX, evaluating the practicality and fairness of the Sem-Lex Benchmark for isolated sign recognition (ISR). We use an SL-GCN model to show that the phonological features are recognizable with 85% accuracy, and that they are effective as an auxiliary target to ISR. Learning to recognize phonological features alongside gloss results in a 6% improvement for few-shot ISR accuracy and a 2% improvement for ISR accuracy overall. Instructions for downloading the data can be found at https://github.com/leekezar/SemLex.
翻訳日:2023-10-05 06:02:16 公開日:2023-09-30
# 手話音韻のモデル化戦略の検討

Exploring Strategies for Modeling Sign Language Phonology ( http://arxiv.org/abs/2310.00195v1 )

ライセンス: Link先を確認
Lee Kezar, Riley Carlin, Tejas Srinivasan, Zed Sehyr, Naomi Caselli, Jesse Thomason(参考訳) 音声と同様に、記号は音素と呼ばれる離散的、再結合可能な特徴からなる。 先行研究では、音素を認識できるモデルは手話認識に優れており、手話音素のモデリング戦略への深い探求が動機となっている。 本研究では,ASL-LEX 2.0における16音素の「タイプ」を認識するために,グラフ畳み込みネットワークを学習する。 具体的には、マルチタスクやカリキュラム学習といった学習戦略が、音素タイプ間の相互に有用な情報を活用して、手話音素のモデリングを改善する方法について検討する。 Sem-Lex Benchmarkの結果、カリキュラム学習はすべての音素タイプで平均87%の精度を示し、ほとんどの音素タイプにおいて微調整とマルチタスクの戦略よりも優れていた。

Like speech, signs are composed of discrete, recombinable features called phonemes. Prior work shows that models which can recognize phonemes are better at sign recognition, motivating deeper exploration into strategies for modeling sign language phonemes. In this work, we learn graph convolution networks to recognize the sixteen phoneme "types" found in ASL-LEX 2.0. Specifically, we explore how learning strategies like multi-task and curriculum learning can leverage mutually useful information between phoneme types to facilitate better modeling of sign language phonemes. Results on the Sem-Lex Benchmark show that curriculum learning yields an average accuracy of 87% across all phoneme types, outperforming fine-tuning and multi-task strategies for most phoneme types.
翻訳日:2023-10-05 06:01:55 公開日:2023-09-30
# 大規模言語モデル構築のための前頭前皮質刺激型アーキテクチャ

A Prefrontal Cortex-inspired Architecture for Planning in Large Language Models ( http://arxiv.org/abs/2310.00194v1 )

ライセンス: Link先を確認
Taylor Webb, Shanka Subhra Mondal, Chi Wang, Brian Krabach, Ida Momennejad(参考訳) 大きな言語モデル(LLM)は、様々なタスクにおいて印象的なパフォーマンスを示すが、多段階の推論や目標指向の計画を必要とするタスクにしばしば苦労する。 そこで我々は,前頭前皮質(PFC)の特別なモジュールの反復的相互作用によって計画が達成される,人間の脳からインスピレーションを得た。 これらのモジュールは競合監視、状態予測、状態評価、タスク分解、タスク調整などの機能を実行する。 LLMは、これらの機能を単独で行うことができる場合もあるが、目標を達成するために自律的に協調するのは難しい。 そこで本研究では,複数のLCM(GPT-4)モジュールを用いたブラックボックスアーキテクチャを提案する。 このアーキテクチャは、特定のPFCにインスパイアされたモジュールの相互作用によって計画を改善し、より大きな問題をLLMへの複数の短時間の自動呼び出しに分解する。 我々は,グラフトラバーサルとハノイのタワーという2つの困難な計画課題におけるアーキテクチャの組み合わせを評価し,標準LLM手法(ゼロショットプロンプトやコンテキスト内学習など)よりも大幅に改善されていることを発見した。 これらの結果は,認知神経科学の知識を活用し,llmの計画を改善することの利点を示す。

Large language models (LLMs) demonstrate impressive performance on a wide variety of tasks, but they often struggle with tasks that require multi-step reasoning or goal-directed planning. To address this, we take inspiration from the human brain, in which planning is accomplished via the recurrent interaction of specialized modules in the prefrontal cortex (PFC). These modules perform functions such as conflict monitoring, state prediction, state evaluation, task decomposition, and task coordination. We find that LLMs are sometimes capable of carrying out these functions in isolation, but struggle to autonomously coordinate them in the service of a goal. Therefore, we propose a black box architecture with multiple LLM-based (GPT-4) modules. The architecture improves planning through the interaction of specialized PFC-inspired modules that break down a larger problem into multiple brief automated calls to the LLM. We evaluate the combined architecture on two challenging planning tasks -- graph traversal and Tower of Hanoi -- finding that it yields significant improvements over standard LLM methods (e.g., zero-shot prompting or in-context learning). These results demonstrate the benefit of utilizing knowledge from cognitive neuroscience to improve planning in LLMs.
翻訳日:2023-10-05 06:01:42 公開日:2023-09-30
# トレーニング時間のためのスケーリングと分布外検出の強化

Scaling for Training Time and Post-hoc Out-of-distribution Detection Enhancement ( http://arxiv.org/abs/2310.00227v1 )

ライセンス: Link先を確認
Kai Xu, Rongyu Chen, Gianni Franchi, Angela Yao(参考訳) サンプルが知識領域内にあるかどうかを判断する現代のディープラーニングシステムの能力は、基本的で重要である。 本稿では,最新のood(state-of-the-art out-distribution)検出法 - 極めてシンプルなアクティベーションシェーピング法 (ash) の考察と分析を行う。 我々は,活性化拡大がOOD検出に有害な影響を及ぼす一方で,活性化スケーリングが促進されることを実証した。 また,OOD検出のための簡易かつ効果的なポストホックネットワーク拡張手法であるSCALEを提案し,その精度を損なうことなく,最先端のOOD検出性能を実現する。 サンプルのID特性を捉えるために,スケーリングの概念をトレーニングプロセスに統合することにより,OOD検出強化を訓練するための軽量な方法であるIntermediate Tensor SHaping(ISH)を提案する。 OpenOOD v1.5 ImageNet-1Kベンチマークで、AUROCスコアは、近OODでは+1.85\%、遠OODデータセットでは+0.74\%である。 私たちのコードとモデルはhttps://github.com/kai422/scaleで利用可能です。

The capacity of a modern deep learning system to determine if a sample falls within its realm of knowledge is fundamental and important. In this paper, we offer insights and analyses of recent state-of-the-art out-of-distribution (OOD) detection methods - extremely simple activation shaping (ASH). We demonstrate that activation pruning has a detrimental effect on OOD detection, while activation scaling enhances it. Moreover, we propose SCALE, a simple yet effective post-hoc network enhancement method for OOD detection, which attains state-of-the-art OOD detection performance without compromising in-distribution (ID) accuracy. By integrating scaling concepts into the training process to capture a sample's ID characteristics, we propose Intermediate Tensor SHaping (ISH), a lightweight method for training time OOD detection enhancement. We achieve AUROC scores of +1.85\% for near-OOD and +0.74\% for far-OOD datasets on the OpenOOD v1.5 ImageNet-1K benchmark. Our code and models are available at https://github.com/kai422/SCALE.
翻訳日:2023-10-05 05:54:07 公開日:2023-09-30
# Steered Diffusion: プラグアンドプレイ条件画像合成のための一般化されたフレームワーク

Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis ( http://arxiv.org/abs/2310.00224v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Anoop Cherian, Suhas Lohit, Ye Wang, Toshiaki Koike-Akino, Vishal M. Patel, Tim K. Marks(参考訳) 条件付き生成モデルは通常、高品質な合成を達成するために大きな注釈付きトレーニングセットを要求する。 その結果、プラグアンドプレイ生成を行うモデル、すなわち、生成タスクで明示的に訓練されていない事前定義されたまたは事前訓練されたモデルを使用して、生成プロセス(例えば、言語を使用して)を導くモデルの設計に大きな関心が寄せられている。 しかし、このようなガイダンスは、画像から画像への翻訳タスクのように細かな詳細を編集するよりも、高レベルの意味論の合成にのみ有用である。 この目的のために,最近の拡散ベース生成モデルが提供する強力な細粒度生成制御を活かし,無条件生成を訓練した拡散モデルを用いて,フォトリアリスティックなゼロショット条件付き画像生成のための一般化フレームワークであるステアレート拡散を提案する。 鍵となるアイデアは、条件付きタスクを特徴付ける事前訓練された逆モデルを用いて損失を設計することにより、推論時に拡散モデルのイメージ生成を制御することだ。 この損失は拡散プロセスのサンプリング軌道を変調する。 我々のフレームワークは推論中に容易に複数の条件を組み込むことができる。 塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。 以上の結果から,現状の拡散型プラグ・アンド・プレイモデルに対する質的,定量的な改善が得られた。

Conditional generative models typically demand large annotated training sets to achieve high-quality synthesis. As a result, there has been significant interest in designing models that perform plug-and-play generation, i.e., to use a predefined or pretrained model, which is not explicitly trained on the generative task, to guide the generative process (e.g., using language). However, such guidance is typically useful only towards synthesizing high-level semantics rather than editing fine-grained details as in image-to-image translation tasks. To this end, and capitalizing on the powerful fine-grained generative control offered by the recent diffusion-based generative models, we introduce Steered Diffusion, a generalized framework for photorealistic zero-shot conditional image generation using a diffusion model trained for unconditional generation. The key idea is to steer the image generation of the diffusion model at inference time via designing a loss using a pre-trained inverse model that characterizes the conditional task. This loss modulates the sampling trajectory of the diffusion process. Our framework allows for easy incorporation of multiple conditions during inference. We present experiments using steered diffusion on several tasks including inpainting, colorization, text-guided semantic editing, and image super-resolution. Our results demonstrate clear qualitative and quantitative improvements over state-of-the-art diffusion-based plug-and-play models while adding negligible additional computational cost.
翻訳日:2023-10-05 05:53:44 公開日:2023-09-30
# ランダムノイズを超えて:潜在帯域研究からの匿名化戦略の考察

Beyond Random Noise: Insights on Anonymization Strategies from a Latent Bandit Study ( http://arxiv.org/abs/2310.00221v1 )

ライセンス: Link先を確認
Alexander Galozy, Sadi Alawadi, Victor Kebande, S{\l}awomir Nowaczyk(参考訳) 本稿では,レコメンデーションタスクの知識を共有する学習シナリオにおけるプライバシの問題について検討する。 我々の研究は、プライバシ保護機械学習の研究に寄与し、一大のソリューションに頼るのではなく、特定の攻撃パターンに対処する適切なプライバシ技術の必要性を強調している。 提案手法は,平均化,最寄り,クラスタ化,ノイズインジェクションといった様々な集約戦略を用いて,プライバシとレコメンダのパフォーマンスとのトレードオフを評価するために潜在バンディット設定を用いる。 より具体的には、敵が取得した公開補助情報を利用したリンク攻撃シナリオをシミュレートする。 3つのオープンな実世界のデータセットの結果から、個々のユーザのデータレコードにLaplaceメカニズムを使用してノイズを追加することは、不十分な選択であることがわかった。 これは、匿名化確率とADS測定値と比較して、あらゆるノイズレベルに対して最も残念な結果となる。 その代わり、ノイズと適切な集約戦略を組み合わせるべきです。 例えば、異なるサイズのクラスタからの平均の使用は、ノイズの量だけを変えるだけでは実現できない柔軟性を提供する。 一般的に、1つのアグリゲーション戦略は、望ましいプライバシーレベルに対する最適な後悔を一貫して達成できない。

This paper investigates the issue of privacy in a learning scenario where users share knowledge for a recommendation task. Our study contributes to the growing body of research on privacy-preserving machine learning and underscores the need for tailored privacy techniques that address specific attack patterns rather than relying on one-size-fits-all solutions. We use the latent bandit setting to evaluate the trade-off between privacy and recommender performance by employing various aggregation strategies, such as averaging, nearest neighbor, and clustering combined with noise injection. More specifically, we simulate a linkage attack scenario leveraging publicly available auxiliary information acquired by the adversary. Our results on three open real-world datasets reveal that adding noise using the Laplace mechanism to an individual user's data record is a poor choice. It provides the highest regret for any noise level, relative to de-anonymization probability and the ADS metric. Instead, one should combine noise with appropriate aggregation strategies. For example, using averages from clusters of different sizes provides flexibility not achievable by varying the amount of noise alone. Generally, no single aggregation strategy can consistently achieve the optimum regret for a given desired level of privacy.
翻訳日:2023-10-05 05:53:20 公開日:2023-09-30
# LSOR: 縦貫した自己組織的表現学習

LSOR: Longitudinally-Consistent Self-Organized Representation Learning ( http://arxiv.org/abs/2310.00213v1 )

ライセンス: Link先を確認
Jiahong Ouyang, Qingyu Zhao, Ehsan Adeli, Wei Peng, Greg Zaharchuk, Kilian M. Pohl(参考訳) 長手脳MRIにディープラーニングモデルを適用する場合、解釈可能性が重要な問題である。 この問題に対処する一つの方法は、自己組織化マップ(SOM)を介してディープラーニングによって生成される高次元潜在空間を可視化することである。 SOMは潜在空間をクラスタに分離し、クラスタ中心をクラスタ間の高次元関係を保存する離散(典型的には2D)グリッドにマッピングする。 しかし、高次元の潜在空間におけるSOMの学習は不安定になりがちである。 さらに、学習したSOMグリッドは、必ずしも脳年齢などの臨床的に興味深い情報をキャプチャするとは限らない。 これらの課題を解決するために,縦型脳MRI(人口統計学的・認知的情報を持たない)のみに基づいて,脳年齢によって階層化された高次元の解釈可能な表現を導出する最初の自己教師型SOMアプローチを提案する。 LSOR(Longitudinally-Consistent Self-Organized Representation Learning)と呼ばれるこの手法は、ソフトクラスタリング(例えば既存のSOMが使用するハードクラスタ割り当て)に依存するため、訓練中に安定している。 さらに, 縦方向mriから推定される軌跡を対応するsomクラスタに関連する基準ベクトルに整合させることにより, 脳年齢に応じた潜在空間を生成する。 アルツハイマー病神経画像イニシアチブ(ADNI, N=632)の縦方向MRIに応用すると、LSORは解釈可能な潜伏空間を生成し、分類(静的対進行性軽度認知障害)と回帰(全被験者のADAS-Cogスコアを決定する)の下流タスクに対して最先端の表現と同等または高い精度を達成する。 コードはhttps://github.com/ouyangjiahong/longitudinal-som-single-modalityで入手できる。

Interpretability is a key issue when applying deep learning models to longitudinal brain MRIs. One way to address this issue is by visualizing the high-dimensional latent spaces generated by deep learning via self-organizing maps (SOM). SOM separates the latent space into clusters and then maps the cluster centers to a discrete (typically 2D) grid preserving the high-dimensional relationship between clusters. However, learning SOM in a high-dimensional latent space tends to be unstable, especially in a self-supervision setting. Furthermore, the learned SOM grid does not necessarily capture clinically interesting information, such as brain age. To resolve these issues, we propose the first self-supervised SOM approach that derives a high-dimensional, interpretable representation stratified by brain age solely based on longitudinal brain MRIs (i.e., without demographic or cognitive information). Called Longitudinally-consistent Self-Organized Representation learning (LSOR), the method is stable during training as it relies on soft clustering (vs. the hard cluster assignments used by existing SOM). Furthermore, our approach generates a latent space stratified according to brain age by aligning trajectories inferred from longitudinal MRIs to the reference vector associated with the corresponding SOM cluster. When applied to longitudinal MRIs of the Alzheimer's Disease Neuroimaging Initiative (ADNI, N=632), LSOR generates an interpretable latent space and achieves comparable or higher accuracy than the state-of-the-art representations with respect to the downstream tasks of classification (static vs. progressive mild cognitive impairment) and regression (determining ADAS-Cog score of all subjects). The code is available at https://github.com/ouyangjiahong/longitudinal-som-single-modality.
翻訳日:2023-10-05 05:53:02 公開日:2023-09-30
# pairwise proximal policy optimization: 相対フィードバックを利用したllmアライメント

Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for LLM Alignment ( http://arxiv.org/abs/2310.00212v1 )

ライセンス: Link先を確認
Tianhao Wu, Banghua Zhu, Ruoyu Zhang, Zhaojin Wen, Kannan Ramchandran, Jiantao Jiao(参考訳) 大規模言語モデル(LLM)は,大規模コーパスの事前学習を通じて,広範な世界知識を習得することができる。 しかし、低品質データに曝露されるため、LLMは人的価値に合わせることなく有害な行動を示す可能性がある。 有益な行動に向けてLLMを操る主要なアプローチは、RLHF(Reinforcement Learning with Human Feedback)であり、PPO(Proximal Policy Optimization)がデフォルトのRLオプティマイザとして機能する。 効果にもかかわらず、PPOは比較に基づく損失から訓練された報酬を最適化する際に制限がある。 主に、PPOは報酬尺度を校正する必要があるため、同一の嗜好情報を含む等価報酬関数に不変ではない。 さらに、トークンワイズ更新に必要なPPOは、トラジェクトリワイズ最適化と比較して関数近似とアルゴリズム設計の両方の複雑さをもたらす。 本稿では, 相対フィードバックを用いた強化学習と, 比較報酬に基づいて直接行動する新しい軌道方向政策勾配アルゴリズム, pairwise proximal policy optimization (p3o)を提案する。 理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。 実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。 要約すると、本研究は相対的なフィードバックを通じて、LLMを人間の好みに合わせるためのよりシンプルで効果的なアプローチを導入している。

Large Language Models (LLMs) can acquire extensive world knowledge through pre-training on large corpora. However, due to exposure to low-quality data, LLMs may exhibit harmful behavior without aligning with human values. The dominant approach for steering LLMs towards beneficial behavior involves Reinforcement Learning with Human Feedback (RLHF), with Proximal Policy Optimization (PPO) serving as the default RL optimizer. Despite its effectiveness, PPO has limitations when optimizing rewards trained from comparison-based loss. Primarily, PPO is not invariant to equivalent reward functions containing identical preference information due to the need to calibrate the reward scale. Additionally, PPO's necessity for token-wise updates introduces complexity in both function approximation and algorithm design compared to trajectory-wise optimization. This paper proposes a new framework, reinforcement learning with relative feedback, and a novel trajectory-wise policy gradient algorithm, Pairwise Proximal Policy Optimization (P3O) that operates directly on comparative rewards. We show theoretically that P3O is invariant to equivalent rewards and avoids the complexity of PPO. Empirical evaluations demonstrate that P3O outperforms PPO in the KL-Reward trade-off and can align with human preferences as well as or better than prior methods. In summary, this work introduces a simpler yet effective approach for aligning LLMs to human preferences through relative feedback.
翻訳日:2023-10-05 05:52:29 公開日:2023-09-30
# 中性子誘電体モーメントの量子不確かさについて

On the Quantum Uncertainty of the Neutron Electric Dipole Moment ( http://arxiv.org/abs/2310.00208v1 )

ライセンス: Link先を確認
Octavio Guerrero, Libertad Barr\'on-Palos and Daniel Sudarsky(参考訳) 中性子の電気双極子モーメント(EDM)に境界を置くことへの継続的な関心は、強い相互作用の特性、特にCP対称性の下での挙動に関係しているためである。 そこで本研究では,電流境界と期待量子不確かさとの間に約13桁のマグニチュードの差から生じる明らかな緊張について考察する。 オークリッジ国立研究所のスパレーション中性子源におけるnEDM実験を考慮し, 対応する形式主義のバージョンを用いて, 弱い測定概念の「プッズル」の解法を提案する。

The continued interest in placing bounds on the neutron's Electric Dipole Moment (EDM) is due to the implications regarding the characteristics of the strong interaction and, in particular, its behavior under the CP symmetry. In this work, we discuss the apparent tension resulting from the discrepancy of about 13 orders of magnitude between the current bounds and the expected quantum uncertainty in the relevant quantity. We offer a resolution of the ``puzzle" in terms of the notion of a weak measurement, using a version of the corresponding formalism adapted to consideration of the nEDM experiment at the Spallation Neutron Source at the Oak Ridge National Laboratory.
翻訳日:2023-10-05 05:52:04 公開日:2023-09-30
# アメリカ手話における見当たらない多語表現の検出

Detecting Unseen Multiword Expressions in American Sign Language ( http://arxiv.org/abs/2310.00207v1 )

ライセンス: Link先を確認
Lee Kezar, Aryan Shukla(参考訳) マルチワード表現は多くの翻訳タスクにおいて固有の課題を示す。 アメリカの手話翻訳に最終的に多語表現検出システムを適用する試みとして,lexemeの単語埋め込みが多語表現を合成するか否かを判断するためにglobから単語埋め込みを適用する2つのシステムを構築し,テストを行った。 単語埋め込みは、適切な精度で非結合性を検出できるデータを持っていることが明らかとなった。

Multiword expressions present unique challenges in many translation tasks. In an attempt to ultimately apply a multiword expression detection system to the translation of American Sign Language, we built and tested two systems that apply word embeddings from GloVe to determine whether or not the word embeddings of lexemes can be used to predict whether or not those lexemes compose a multiword expression. It became apparent that word embeddings carry data that can detect non-compositionality with decent accuracy.
翻訳日:2023-10-05 05:51:54 公開日:2023-09-30
# 学際的差異の発見

Finding Pragmatic Differences Between Disciplines ( http://arxiv.org/abs/2310.00204v1 )

ライセンス: Link先を確認
Lee Kezar, Jay Pujara(参考訳) 学術文書は、内容(意味論)と構造(実用論)の両面で大きなバリエーションを持っている。 学術文書理解における先行研究は、文書要約とコーパストピックモデリングを通じて意味論を強調するが、文書の組織化やフローのような実用性を省略する傾向がある。 19分野にわたる学術文書のコーパスと最先端の言語モデリング技術を用いて、文書セクションのドメインに依存しない記述子の固定セットを学習し、これらの記述子(正規化とも呼ばれる)にコーパスを「再適合」する。 そして,これらの記述子の位置と順序を文書間で分析し,規律と構造の関係を理解する。 我々は,学内構造アーチタイプ,変動性,学際間比較を報告し,その大きさ,多様性,広さに関わらず,学術的なコミュニティが自分たちの作品を表現するための類似の道筋を共有しているという仮説を裏付ける。 本研究は,研究の質,ドメインスタイルの移譲,さらに実践的な分析を行うための基礎となるものである。

Scholarly documents have a great degree of variation, both in terms of content (semantics) and structure (pragmatics). Prior work in scholarly document understanding emphasizes semantics through document summarization and corpus topic modeling but tends to omit pragmatics such as document organization and flow. Using a corpus of scholarly documents across 19 disciplines and state-of-the-art language modeling techniques, we learn a fixed set of domain-agnostic descriptors for document sections and "retrofit" the corpus to these descriptors (also referred to as "normalization"). Then, we analyze the position and ordering of these descriptors across documents to understand the relationship between discipline and structure. We report within-discipline structural archetypes, variability, and between-discipline comparisons, supporting the hypothesis that scholarly communities, despite their size, diversity, and breadth, share similar avenues for expressing their work. Our findings lay the foundation for future work in assessing research quality, domain style transfer, and further pragmatic analysis.
翻訳日:2023-10-05 05:51:44 公開日:2023-09-30
# DeformUX-Net:Depthwise deformable Convolutionによる医用画像分割のための3Dファウンデーションバックボーンの探索

DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image Segmentation with Depthwise Deformable Convolution ( http://arxiv.org/abs/2310.00199v1 )

ライセンス: Link先を確認
Ho Hin Lee, Quan Liu, Qi Yang, Xin Yu, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) 医用画像のセグメンテーションへの3D ViTsの応用は、Convolutional Neural Network(CNN)ベースのモデルで誕生する進歩の影をかいくぐっている。 大きなカーネル奥行きの畳み込みは有望な技術として現れ、階層的なトランスフォーマーに似た能力を示し、密度の予測に不可欠な拡張有効受容場(ERF)を促進する。 それにもかかわらず、グローバルローカルな注意から大きなカーネル畳み込みまで、既存のコアオペレータは固有のトレードオフと制限を示します(例えば、グローバルローカルな範囲のトレードオフ、注意深い特徴の集約)。 変形可能な畳み込みは、従来の演算子の利点をすべて組み合わせるための探索的な代替であり、長距離依存、適応的な空間集約、計算効率を基礎バックボーンとして提供すると仮定する。 本研究では,従来のvitsや大規模カーネル畳み込みに伴う欠点を巧みにナビゲートする,先駆的なボリューム型cnnモデルである3d deformux-netを紹介する。 具体的には, 長距離依存性を計算効率に適合させるために, 体積変形可能な畳み込みを奥行き方向に再検討する。 畳み込み核重みに対する構造的再パラメータ化の概念に触発されて、並列分岐(1\times1\times1$畳み込みから開始)を適用して変形可能な三平面オフセットを生成し、全てのチャネルに適応的な空間集約を提供する。 3d deformux-netは,臓器(kits: 0.680 - 0.720, msd pancreas: 0.676 - 0.717, amos: 0.871 - 0.902)から平均ダイス(msd 肝血管: 0.635 - 0.671)までのさまざまなスケールにまたがる,既存の最先端のvitsおよび大規模カーネル畳み込みモデルに一貫して勝っていることが明らかになった。

The application of 3D ViTs to medical image segmentation has seen remarkable strides, somewhat overshadowing the budding advancements in Convolutional Neural Network (CNN)-based models. Large kernel depthwise convolution has emerged as a promising technique, showcasing capabilities akin to hierarchical transformers and facilitating an expansive effective receptive field (ERF) vital for dense predictions. Despite this, existing core operators, ranging from global-local attention to large kernel convolution, exhibit inherent trade-offs and limitations (e.g., global-local range trade-off, aggregating attentional features). We hypothesize that deformable convolution can be an exploratory alternative to combine all advantages from the previous operators, providing long-range dependency, adaptive spatial aggregation and computational efficiency as a foundation backbone. In this work, we introduce 3D DeformUX-Net, a pioneering volumetric CNN model that adeptly navigates the shortcomings traditionally associated with ViTs and large kernel convolution. Specifically, we revisit volumetric deformable convolution in depth-wise setting to adapt long-range dependency with computational efficiency. Inspired by the concepts of structural re-parameterization for convolution kernel weights, we further generate the deformable tri-planar offsets by adapting a parallel branch (starting from $1\times1\times1$ convolution), providing adaptive spatial aggregation across all channels. Our empirical evaluations reveal that the 3D DeformUX-Net consistently outperforms existing state-of-the-art ViTs and large kernel convolution models across four challenging public datasets, spanning various scales from organs (KiTS: 0.680 to 0.720, MSD Pancreas: 0.676 to 0.717, AMOS: 0.871 to 0.902) to vessels (e.g., MSD hepatic vessels: 0.635 to 0.671) in mean Dice.
翻訳日:2023-10-05 05:51:21 公開日:2023-09-30
# 不均一誘導クライアントサンプリングによる非IIDフェデレーション学習の高速化

Accelerating Non-IID Federated Learning via Heterogeneity-Guided Client Sampling ( http://arxiv.org/abs/2310.00198v1 )

ライセンス: Link先を確認
Huancheng Chen, Haris Vikalo(参考訳) 統合学習システム(FL)におけるクライアントデバイスに存在するデータの統計的不均一性は、そのようなシステムにおけるグローバルモデルのトレーニングを困難にしている。 特に難しいのは、リソースの制約のため、FLの任意のラウンドに少数のクライアントしか参加できないような設定です。 非IIDデータを用いたFLシステムにおけるグローバルモデルトレーニングへの最近のアプローチは、より情報的なモデル更新でクライアントをサンプリングすることを目的としたクライアント選択手法の開発に焦点を当てている。 しかし、既存のクライアント選択技術は、計算オーバーヘッドを大幅に導入するか、クライアントが同様の不均一プロファイルを持つデータを持つシナリオでのみうまく機能する。 本稿では,hics-fl (federated learning via hierarchical clustered sampling)を提案する。クライアントの出力層の更新を用いて,サーバがクライアントのデータの統計的不均一性を推定し,この情報をクライアントのクラスタ化とサンプリングに活用する新しいクライアント選択手法である。 提案手法を用いて,異なるデータセットの均一性を比較検討し,導入したクライアント選択手法をデプロイするトレーニングプロセスの収束性を特徴付ける。 非IID環境でのHiCS-FLは、最先端のFLクライアント選択方式よりも高速な収束と訓練の分散を実現する。 特に、hics-flは既存の選択方式に比べて計算コストを劇的に削減し、異なる異質性シナリオに適応できる。

Statistical heterogeneity of data present at client devices in a federated learning (FL) system renders the training of a global model in such systems difficult. Particularly challenging are the settings where due to resource constraints only a small fraction of clients can participate in any given round of FL. Recent approaches to training a global model in FL systems with non-IID data have focused on developing client selection methods that aim to sample clients with more informative updates of the model. However, existing client selection techniques either introduce significant computation overhead or perform well only in the scenarios where clients have data with similar heterogeneity profiles. In this paper, we propose HiCS-FL (Federated Learning via Hierarchical Clustered Sampling), a novel client selection method in which the server estimates statistical heterogeneity of a client's data using the client's update of the network's output layer and relies on this information to cluster and sample the clients. We analyze the ability of the proposed techniques to compare heterogeneity of different datasets, and characterize convergence of the training process that deploys the introduced client selection method. Extensive experimental results demonstrate that in non-IID settings HiCS-FL achieves faster convergence and lower training variance than state-of-the-art FL client selection schemes. Notably, HiCS-FL drastically reduces computation cost compared to existing selection schemes and is adaptable to different heterogeneity scenarios.
翻訳日:2023-10-05 05:50:35 公開日:2023-09-30
# 通信ネットワークにおける情報ルーティングのための国家強化政策の学習

Learning State-Augmented Policies for Information Routing in Communication Networks ( http://arxiv.org/abs/2310.00248v1 )

ライセンス: Link先を確認
Sourajit Das, Navid NaderiAlizadeh, Alejandro Ribeiro(参考訳) 本稿では,ローカル情報のみにアクセスできる制約付き統計学習問題として定式化できる大規模通信ネットワークにおける情報ルーティングの問題について検討する。 本稿では,通信ネットワークのトポロジカルリンク上にグラフ畳み込みを配置することにより,gnn(graph neural network)アーキテクチャを用いて,ソースノードの集約情報を最大化する新しい状態拡張(sa)戦略を示す。 提案手法では,各ノードで利用可能なローカル情報のみを利用し,所望の情報を効率的に宛先ノードにルーティングする。 教師なし学習手法を利用して、GNNアーキテクチャの出力を最適情報ルーティング戦略に変換する。 実験では,実時間ネットワークトポロジの評価を行い,アルゴリズムの有効性を検証する。 数値シミュレーションでは,GNNパラメータ化学習における提案手法の性能向上をベースラインアルゴリズムと比較した。

This paper examines the problem of information routing in a large-scale communication network, which can be formulated as a constrained statistical learning problem having access to only local information. We delineate a novel State Augmentation (SA) strategy to maximize the aggregate information at source nodes using graph neural network (GNN) architectures, by deploying graph convolutions over the topological links of the communication network. The proposed technique leverages only the local information available at each node and efficiently routes desired information to the destination nodes. We leverage an unsupervised learning procedure to convert the output of the GNN architecture to optimal information routing strategies. In the experiments, we perform the evaluation on real-time network topologies to validate our algorithms. Numerical simulations depict the improved performance of the proposed method in training a GNN parameterization as compared to baseline algorithms.
翻訳日:2023-10-05 05:42:11 公開日:2023-09-30
# 基礎モデルと異種連携学習のギャップを埋める

Bridging the Gap Between Foundation Models and Heterogeneous Federated Learning ( http://arxiv.org/abs/2310.00247v1 )

ライセンス: Link先を確認
Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari(参考訳) federated learning(fl)は、プライバシ保護の分散機械学習を提供し、プライベートデータを共有せずにエッジクライアントでモデルを最適化する。 同時に、ファンデーションモデル(FM)は人工知能(AI)コミュニティにおいて、様々なタスクにまたがる例外的なパフォーマンスのために注目を集めている。 しかし、FMをFLに組み込むことは、主な原因は、その相当なサイズと集中的なリソース要求のためである。 これは、エッジFLシステムの資源不均一性を考える際に特に当てはまる。 本稿では,これらの課題に対処するためにraffm(resource-aware federated foundation models)の適応フレームワークを提案する。 raffmでは、salientパラメータの優先順位付けや高性能サブネットワーク抽出など、flシナリオ用に最適化された専用モデル圧縮アルゴリズムを導入している。 これらのアルゴリズムは、FLの最適化とデプロイメントの段階で、トランスフォーマーベースのFMを動的にスケーリングすることで、異種リソース制約をネットワークエッジに適合させることができる。 実験の結果,RaFFMは資源利用効率が著しく優れており,FMをFLに展開するリソースが少ないことがわかった。 リソース消費が低いにもかかわらず、RaFFMによって最適化されたターゲットモデルは、フルサイズのFMに適用された従来のFLメソッドと同等のパフォーマンスを達成する。 これは自然言語処理とコンピュータビジョンドメインの両方のタスクで明らかである。

Federated learning (FL) offers privacy-preserving decentralized machine learning, optimizing models at edge clients without sharing private data. Simultaneously, foundation models (FMs) have gained traction in the artificial intelligence (AI) community due to their exceptional performance across various tasks. However, integrating FMs into FL presents challenges, primarily due to their substantial size and intensive resource requirements. This is especially true when considering the resource heterogeneity in edge FL systems. We present an adaptive framework for Resource-aware Federated Foundation Models (RaFFM) to address these challenges. RaFFM introduces specialized model compression algorithms tailored for FL scenarios, such as salient parameter prioritization and high-performance subnetwork extraction. These algorithms enable dynamic scaling of given transformer-based FMs to fit heterogeneous resource constraints at the network edge during both FL's optimization and deployment stages. Experimental results demonstrate that RaFFM shows significant superiority in resource utilization efficiency and uses fewer resources to deploy FMs to FL. Despite the lower resource consumption, target models optimized by RaFFM achieve performance on par with traditional FL methods applied to full-sized FMs. This is evident across tasks in both natural language processing and computer vision domains.
翻訳日:2023-10-05 05:41:57 公開日:2023-09-30
# クラウドにおける人間中心パラダイムのためのハイブリッド量子古典型条件生成逆ネットワークアルゴリズム

A hybrid quantum-classical conditional generative adversarial network algorithm for human-centered paradigm in cloud ( http://arxiv.org/abs/2310.00246v1 )

ライセンス: Link先を確認
Wenjie Liu, Ying Zhang, Zhiliang Deng, Jiaojiao Zhao, Lian Tong(参考訳) 人間の活動とコンピューティングシステム、クラウド、エッジにおける人間中心コンピューティング(hcc)のギャップを埋めることを目的とした新興分野として、fogは人工知能アルゴリズムに大きな影響を与えてきた。 量子生成逆数ネットワーク(QGAN)は、優れた応用可能性を持つ量子機械学習アルゴリズムの1つであると考えられており、人間中心のパラダイムに適合するように改善されるべきである。 QGANの生成プロセスは比較的ランダムであり、生成されたモデルは人間中心の概念に適合しないため、実際のシナリオには適していない。 これらの問題を解決するために,クラウドに実装可能な知識駆動型ヒューマンコンピュータインタラクションコンピューティングモードであるqcgan(quantum-classical conditional generative adversarial network)アルゴリズムを提案する。 生成過程の安定化と人間と計算プロセスの相互作用の実現は、生成器と判別器に人工条件情報を入力することで達成される。 ジェネレータは、全対全連結トポロジーを持つパラメータ化量子回路を使用し、トレーニングプロセス中にネットワークパラメータのチューニングを容易にする。 この判別器は古典的ニューラルネットワークを使用し、量子機械学習の「入力ボトルネック」を効果的に回避する。 最後に、量子クラウドコンピューティングプラットフォームで実験を行うために、BASトレーニングセットが選択される。 その結果,qcganアルゴリズムはトレーニング後のnash平衡点に効果的に収束し,人間中心の分類生成タスクを実行できることがわかった。

As an emerging field that aims to bridge the gap between human activities and computing systems, human-centered computing (HCC) in cloud, edge, fog has had a huge impact on the artificial intelligence algorithms. The quantum generative adversarial network (QGAN) is considered to be one of the quantum machine learning algorithms with great application prospects, which also should be improved to conform to the human-centered paradigm. The generation process of QGAN is relatively random and the generated model does not conform to the human-centered concept, so it is not quite suitable for real scenarios. In order to solve these problems, a hybrid quantum-classical conditional generative adversarial network (QCGAN) algorithm is proposed, which is a knowledge-driven human-computer interaction computing mode that can be implemented in cloud. The purposes of stabilizing the generation process and realizing the interaction between human and computing process are achieved by inputting artificial conditional information in the generator and discriminator. The generator uses the parameterized quantum circuit with an all-to-all connected topology, which facilitates the tuning of network parameters during the training process. The discriminator uses the classical neural network, which effectively avoids the "input bottleneck" of quantum machine learning. Finally, the BAS training set is selected to conduct experiment on the quantum cloud computing platform. The result shows that the QCGAN algorithm can effectively converge to the Nash equilibrium point after training and perform human-centered classification generation tasks.
翻訳日:2023-10-05 05:41:39 公開日:2023-09-30
# 歩行 = 移動可能? 閉塞下での複数物体追跡によるトラバーサビリティ予測

Walking = Traversable? : Traversability Prediction via Multiple Human Object Tracking under Occlusion ( http://arxiv.org/abs/2310.00242v1 )

ライセンス: Link先を確認
Jonathan Tay Yu Liang, Kanji Tanaka(参考訳) 新たに出現する「floor plan from human trails (pfh)」技術は、遮蔽床のトラバーサビリティを予測して屋内ロボットナビゲーションを改善する大きな可能性を秘めている。 本研究では、観察ロボットに搭載された3人称単眼カメラに、一対一のセンサーを代替する革新的なアプローチを提案する。 このアプローチは、複数の人間から測定値を収集し、その適用範囲を広げる。 鍵となるアイデアは、SLAMとMOTという2種類のトラッカーを使って静止物体を監視し、人間を動かし、相互作用を評価することである。 本手法は,オクルージョン,非線形視点,深度不確実性,複数の人間を含む交差点などの難解な視覚シナリオにおいても,トラバーサビリティの安定な予測を実現する。 さらに,マップ品質指標を拡張してトラバーサビリティマップに適用し,今後の研究を促進する。 提案手法は,融合と既存の技術との比較により検証する。

The emerging ``Floor plan from human trails (PfH)" technique has great potential for improving indoor robot navigation by predicting the traversability of occluded floors. This study presents an innovative approach that replaces first-person-view sensors with a third-person-view monocular camera mounted on the observer robot. This approach can gather measurements from multiple humans, expanding its range of applications. The key idea is to use two types of trackers, SLAM and MOT, to monitor stationary objects and moving humans and assess their interactions. This method achieves stable predictions of traversability even in challenging visual scenarios, such as occlusions, nonlinear perspectives, depth uncertainty, and intersections involving multiple humans. Additionally, we extend map quality metrics to apply to traversability maps, facilitating future research. We validate our proposed method through fusion and comparison with established techniques.
翻訳日:2023-10-05 05:41:13 公開日:2023-09-30
# ゼロショットセグメンテーションのためのマスク対応CLIP表現の学習

Learning Mask-aware CLIP Representations for Zero-Shot Segmentation ( http://arxiv.org/abs/2310.00240v1 )

ライセンス: Link先を確認
Siyu Jiao, Yunchao Wei, Yaowei Wang, Yao Zhao, Humphrey Shi(参考訳) 近年,ゼロショットセグメンテーション課題に取り組むために,事前学習された視覚言語モデルがますます利用されている。 典型的なソリューションは、最初にマスクの提案を生成し、それらを分類するためにCLIPを採用するパラダイムに従っている。 CLIPのゼロショット転送性を維持するために、以前のプラクティスはトレーニング中にCLIPを凍結することを好んでいる。 しかし,本論文では,CLIPは異なるマスク提案に敏感であり,同一画像の様々なマスク提案に対して同様の予測を行う傾向があることを明らかにした。 この感度はマスクの提案を分類する際に多くの偽陽性をもたらす。 この問題は主に、CLIPがイメージレベルの監視でトレーニングされているという事実に関連している。 この問題を軽減するために,Mask-aware Fine-tuning (MAFT) というシンプルな手法を提案する。 具体的には、画像プロポーサルCLIPエンコーダ(IP-CLIPエンコーダ)を提案し、任意の数の画像とマスクの提案を同時に処理する。 次に、マスク認識損失と自己蒸留損失を設計し、IP-CLIPエンコーダを微調整し、CLIPが転送性を犠牲にすることなく異なるマスク提案に応答することを保証する。 このように、マスク対応表現は、真の正を際立たせるために容易に学習することができる。 特に、我々のソリューションは、微調整プロセス中に新しいパラメータを導入することなく、ほとんどの既存のメソッドにシームレスにプラグインできます。 我々は、人気のあるゼロショットベンチマークで広範な実験を行う。 MAFTでは、最先端の手法のパフォーマンスはCOCOで50.4%(+8.2%)、Pascal-VOCで81.8%(+3.2%)、ADE20KでmIoUで8.7%(+4.3%)という大きなマージンで促進されている。 コードはhttps://github.com/jiaosiyu1999/maft.gitで入手できる。

Recently, pre-trained vision-language models have been increasingly used to tackle the challenging zero-shot segmentation task. Typical solutions follow the paradigm of first generating mask proposals and then adopting CLIP to classify them. To maintain the CLIP's zero-shot transferability, previous practices favour to freeze CLIP during training. However, in the paper, we reveal that CLIP is insensitive to different mask proposals and tends to produce similar predictions for various mask proposals of the same image. This insensitivity results in numerous false positives when classifying mask proposals. This issue mainly relates to the fact that CLIP is trained with image-level supervision. To alleviate this issue, we propose a simple yet effective method, named Mask-aware Fine-tuning (MAFT). Specifically, Image-Proposals CLIP Encoder (IP-CLIP Encoder) is proposed to handle arbitrary numbers of image and mask proposals simultaneously. Then, mask-aware loss and self-distillation loss are designed to fine-tune IP-CLIP Encoder, ensuring CLIP is responsive to different mask proposals while not sacrificing transferability. In this way, mask-aware representations can be easily learned to make the true positives stand out. Notably, our solution can seamlessly plug into most existing methods without introducing any new parameters during the fine-tuning process. We conduct extensive experiments on the popular zero-shot benchmarks. With MAFT, the performance of the state-of-the-art methods is promoted by a large margin: 50.4% (+ 8.2%) on COCO, 81.8% (+ 3.2%) on Pascal-VOC, and 8.7% (+4.3%) on ADE20K in terms of mIoU for unseen classes. The code is available at https://github.com/jiaosiyu1999/MAFT.git.
翻訳日:2023-10-05 05:41:00 公開日:2023-09-30
# AdaptNet:物理に基づく文字制御のためのポリシー適応

AdaptNet: Policy Adaptation for Physics-Based Character Control ( http://arxiv.org/abs/2310.00239v1 )

ライセンス: Link先を確認
Pei Xu, Kaixiang Xie, Sheldon Andrews, Paul G. Kry, Michael Neff, Morgan McGuire, Ioannis Karamouzas, Victor Zordan(参考訳) そこで本研究では,既存の政策の潜伏空間を改良し,新しい行動がスクラッチから学習するのに比べて,タスクから素早く学習できるようにするアプローチであるAdaptNetを提案する。 AdaptNetは、与えられた強化学習コントローラの上に構築され、元の状態の埋め込みを強化する2層階層を使用して、振る舞いの穏やかな変更をサポートし、さらにポリシーネットワーク層を変更して、より実質的な変更を行う。 この技術は、既存の物理系コントローラを、移動、新しいタスクターゲット、キャラクター形態の変化、環境の変化など、幅広い新しいスタイルに適応させるのに有効であることが示されている。 さらに、スクラッチからのトレーニングや、既存のポリシーを変更する他のアプローチを使用する場合と比較して、トレーニング時間の大幅な短縮が示されるように、学習効率が大幅に向上する。

Motivated by humans' ability to adapt skills in the learning of new ones, this paper presents AdaptNet, an approach for modifying the latent space of existing policies to allow new behaviors to be quickly learned from like tasks in comparison to learning from scratch. Building on top of a given reinforcement learning controller, AdaptNet uses a two-tier hierarchy that augments the original state embedding to support modest changes in a behavior and further modifies the policy network layers to make more substantive changes. The technique is shown to be effective for adapting existing physics-based controllers to a wide range of new styles for locomotion, new task targets, changes in character morphology and extensive changes in environment. Furthermore, it exhibits significant increase in learning efficiency, as indicated by greatly reduced training times when compared to training from scratch or using other approaches that modify existing policies.
翻訳日:2023-10-05 05:40:29 公開日:2023-09-30
# 画像操作位置推定のための画素不整合モデリング

Pixel-Inconsistency Modeling for Image Manipulation Localization ( http://arxiv.org/abs/2310.00234v1 )

ライセンス: Link先を確認
Chenqi Kong, Anwei Luo, Shiqi Wang, Haoliang Li, Anderson Rocha, Alex C. Kot(参考訳) デジタル画像法医学は画像認証と操作のローカライゼーションにおいて重要な役割を担っている。 ディープニューラルネットワークによる進歩にもかかわらず、既存の偽造ローカライズ手法は、見えないデータセットや摂動画像(実世界のアプリケーションに対する一般化と堅牢性の欠如)にデプロイする際の制限を示している。 そこで本稿では,これらの問題を回避し,画像の完全性を支援するため,画素不整合アーティファクトの分析を通して一般化し,ロバストな操作定位モデルを提案する。 この理論的根拠は、ほとんどの画像信号プロセッサ(ISP)が、プリスタン画像に画素相関を導入する復調処理を伴っているという観察に基づいている。 さらに、スプライシング、コピー・ムーブ、インペイントなどの操作操作は、そのようなピクセル規則性に直接影響を及ぼす。 そこで我々は,まず入力画像を複数のブロックに分割し,入力画像のグローバル画素依存性をモデル化するマスク付き自己照応機構を設計した。 同時に、別のローカルピクセル依存ストリームを最適化し、入力偽造画像内のローカル操作ヒントをマイニングする。 さらに,2つのストリームの機能を組み合わせた新しいLWM(Learning-to-Weight Modules)を設計し,最終的なフォージェリーローカライゼーション性能を向上させる。 学習プロセスを改善するために,新たなピクセル非一貫性データ拡張(pida)戦略を提案し,意味的偽造トレースをマイニングするのではなく,固有のピクセルレベルのアーティファクトをキャプチャすることに注力する。 この研究は、12データセットに15の代表的な検出モデルを統合する包括的なベンチマークを確立する。 広汎な実験により,本手法は固有画素不整合偽指紋の抽出に成功し,画像操作のローカライゼーションにおける最先端の一般化と堅牢性を達成できた。

Digital image forensics plays a crucial role in image authentication and manipulation localization. Despite the progress powered by deep neural networks, existing forgery localization methodologies exhibit limitations when deployed to unseen datasets and perturbed images (i.e., lack of generalization and robustness to real-world applications). To circumvent these problems and aid image integrity, this paper presents a generalized and robust manipulation localization model through the analysis of pixel inconsistency artifacts. The rationale is grounded on the observation that most image signal processors (ISP) involve the demosaicing process, which introduces pixel correlations in pristine images. Moreover, manipulating operations, including splicing, copy-move, and inpainting, directly affect such pixel regularity. We, therefore, first split the input image into several blocks and design masked self-attention mechanisms to model the global pixel dependency in input images. Simultaneously, we optimize another local pixel dependency stream to mine local manipulation clues within input forgery images. In addition, we design novel Learning-to-Weight Modules (LWM) to combine features from the two streams, thereby enhancing the final forgery localization performance. To improve the training process, we propose a novel Pixel-Inconsistency Data Augmentation (PIDA) strategy, driving the model to focus on capturing inherent pixel-level artifacts instead of mining semantic forgery traces. This work establishes a comprehensive benchmark integrating 15 representative detection models across 12 datasets. Extensive experiments show that our method successfully extracts inherent pixel-inconsistency forgery fingerprints and achieve state-of-the-art generalization and robustness performances in image manipulation localization.
翻訳日:2023-10-05 05:40:13 公開日:2023-09-30
# SLM: 音声とテキスト基礎モデルの薄いギャップを埋める

SLM: Bridge the thin gap between speech and text foundation models ( http://arxiv.org/abs/2310.00230v1 )

ライセンス: Link先を確認
Mingqiu Wang, Wei Han, Izhak Shafran, Zelin Wu, Chung-Cheng Chiu, Yuan Cao, Yongqiang Wang, Nanxin Chen, Yu Zhang, Hagen Soltau, Paul Rubenstein, Lukas Zilka, Dian Yu, Zhong Meng, Golan Pundak, Nikhil Siddhartha, Johan Schalkwyk, Yonghui Wu(参考訳) 本稿では,事前訓練された基礎言語モデルと言語モデルを活用するマルチタスク,多言語モデル,およびデュアルモーダルモデルであるSLM(Joint Speech and Language Model)を提案する。 SLMはトレーニング済みの基礎モデルを凍結し、その能力を最大限に保存し、基礎モデルのパラメータのたった1\% (156M)の単純なアダプタを訓練する。 この適応により、SLMは、音声認識(ASR)や音声翻訳(AST)といった従来のタスクにおいて強力なパフォーマンスを達成するだけでなく、より多様なタスクに対してゼロショットの指示追従機能を導入することができる。 提案手法は,事前学習した音声と言語モデルとの表現的ギャップが期待するよりも狭く,単純な適応機構によって橋渡しできることを示す。 結果として、SLMは訓練に効率的であるだけでなく、異なるモダリティの基盤モデルで既に獲得されている強力な能力を継承する。

We present a joint Speech and Language Model (SLM), a multitask, multilingual, and dual-modal model that takes advantage of pretrained foundational speech and language models. SLM freezes the pretrained foundation models to maximally preserves their capabilities, and only trains a simple adapter with just 1\% (156M) of the foundation models' parameters. This adaptation not only leads SLM to achieve strong performance on conventional tasks such as speech recognition (ASR) and speech translation (AST), but also introduces the novel capability of zero-shot instruction-following for more diverse tasks: given a speech input and a text instruction, SLM is able to perform unseen generation tasks including contextual biasing ASR using real-time context, dialog generation, speech continuation, and question answering, etc. Our approach demonstrates that the representational gap between pretrained speech and language models might be narrower than one would expect, and can be bridged by a simple adaptation mechanism. As a result, SLM is not only efficient to train, but also inherits strong capabilities already acquired in foundation models of different modalities.
翻訳日:2023-10-05 05:39:23 公開日:2023-09-30
# 空間的抽象化と時間的抽象化を併用した一般化計画

Combining Spatial and Temporal Abstraction in Planning for Better Generalization ( http://arxiv.org/abs/2310.00229v1 )

ライセンス: Link先を確認
Mingde Zhao, Safa Alver, Harm van Seijen, Romain Laroche, Doina Precup, Yoshua Bengio(参考訳) 人間の意識的計画に触発されて,空間的および時間的抽象化を用いて新たな状況における学習スキルを一般化したモデルベース強化学習エージェントskipperを提案する。 タスクを小規模で管理しやすいサブタスクに自動的に分解し、スパースな意思決定を可能にし、その計算を環境の関連部分にフォーカスする。 これは有向グラフとして表現されるハイレベルなプロキシ問題の定義に依存しており、頂点と辺は後見を使ってエンドツーエンドで学習される。 我々の理論分析は、適切な仮定の下で性能保証を提供し、我々のアプローチがどこに役立つかを確立する。 一般化にフォーカスした実験は、ゼロショット一般化におけるskipperの大きな利点を、既存の最先端の階層的計画法と比較して検証する。

Inspired by human conscious planning, we propose Skipper, a model-based reinforcement learning agent that utilizes spatial and temporal abstractions to generalize learned skills in novel situations. It automatically decomposes the task at hand into smaller-scale, more manageable subtasks and hence enables sparse decision-making and focuses its computation on the relevant parts of the environment. This relies on the definition of a high-level proxy problem represented as a directed graph, in which vertices and edges are learned end-to-end using hindsight. Our theoretical analyses provide performance guarantees under appropriate assumptions and establish where our approach is expected to be helpful. Generalization-focused experiments validate Skipper's significant advantage in zero-shot generalization, compared to existing state-of-the-art hierarchical planning methods.
翻訳日:2023-10-05 05:39:01 公開日:2023-09-30
# 生成データ拡張のための統一フレームワーク: 総合的な調査

A Unified Framework for Generative Data Augmentation: A Comprehensive Survey ( http://arxiv.org/abs/2310.00277v1 )

ライセンス: Link先を確認
Yunhao Chen and Zihui Yan and Yunjie Zhu(参考訳) ジェネレイティブデータ拡張(gda)は、機械学習アプリケーションにおけるデータの不足を緩和するための有望な技術として登場した。 本論文は,gda景観の包括的調査と統一的枠組みを提案する。 まず、GDAの概要を説明し、その動機、分類、および合成データ生成との大きな違いについて論じる。 次に,gdaの重要側面である生成モデルの選択,それらを利用する手法,データ選択手法,検証手法,多様な応用について体系的に分析する。 提案する統一フレームワークは,GDAの広範な文献を分類し,普遍ベンチマークの欠如などのギャップを明らかにする。 この論文は、有効なデータ選択、GDAにおける大規模モデルの応用の理論開発、GDAのベンチマークの確立など、有望な研究方向性を要約している。 この論文は、構造的基盤を築き、より密着的な発達を育み、生成的データ増強の重要な領域の進展を加速することを目的としている。

Generative data augmentation (GDA) has emerged as a promising technique to alleviate data scarcity in machine learning applications. This thesis presents a comprehensive survey and unified framework of the GDA landscape. We first provide an overview of GDA, discussing its motivation, taxonomy, and key distinctions from synthetic data generation. We then systematically analyze the critical aspects of GDA - selection of generative models, techniques to utilize them, data selection methodologies, validation approaches, and diverse applications. Our proposed unified framework categorizes the extensive GDA literature, revealing gaps such as the lack of universal benchmarks. The thesis summarises promising research directions, including , effective data selection, theoretical development for large-scale models' application in GDA and establishing a benchmark for GDA. By laying a structured foundation, this thesis aims to nurture more cohesive development and accelerate progress in the vital arena of generative data augmentation.
翻訳日:2023-10-05 05:34:19 公開日:2023-09-30
# afrispeech-200:臨床および一般ドメインasrのためのパンアフリカアクセント音声データセット

AfriSpeech-200: Pan-African Accented Speech Dataset for Clinical and General Domain ASR ( http://arxiv.org/abs/2310.00274v1 )

ライセンス: Link先を確認
Tobi Olatunji, Tejumade Afonja, Aditya Yadavalli, Chris Chinenye Emezue, Sahib Singh, Bonaventure F.P. Dossou, Joanne Osuchukwu, Salomey Osei, Atnafu Lambebo Tonja, Naome Etori, Clinton Mbataku(参考訳) アフリカは医師対患者比率がとても低い。 非常に忙しい診療所では、1日30人以上の患者が診られる可能性があるが、医療自動音声認識(ASR)などの生産性ツールが不足している。 しかし、先進国でも臨床 ASR が成熟し、臨床が報告した商業 ASR システムの性能は概ね良好である。 さらに、最近の一般ドメインASRの性能は人間の精度に近づいている。 しかし、いくつかのギャップが存在する。 いくつかの出版物は、音声からテキストへのアルゴリズムによる人種的バイアスを強調し、少数派アクセントのパフォーマンスは著しく遅れている。 我々の知る限り、アクセント付きアフリカ臨床ASRに関する公開研究やベンチマークは行われておらず、アフリカのアクセントの大半で音声データは存在しない。 AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 native accents from 13 countries for clinical and general domain ASR, a benchmark test set, with public-trained model with SOTA performance on the AfriSpeech benchmark。

Africa has a very low doctor-to-patient ratio. At very busy clinics, doctors could see 30+ patients per day -- a heavy patient burden compared with developed countries -- but productivity tools such as clinical automatic speech recognition (ASR) are lacking for these overworked clinicians. However, clinical ASR is mature, even ubiquitous, in developed nations, and clinician-reported performance of commercial clinical ASR systems is generally satisfactory. Furthermore, the recent performance of general domain ASR is approaching human accuracy. However, several gaps exist. Several publications have highlighted racial bias with speech-to-text algorithms and performance on minority accents lags significantly. To our knowledge, there is no publicly available research or benchmark on accented African clinical ASR, and speech data is non-existent for the majority of African accents. We release AfriSpeech, 200hrs of Pan-African English speech, 67,577 clips from 2,463 unique speakers across 120 indigenous accents from 13 countries for clinical and general domain ASR, a benchmark test set, with publicly available pre-trained models with SOTA performance on the AfriSpeech benchmark.
翻訳日:2023-10-05 05:34:03 公開日:2023-09-30
# 思考連鎖プロンプトによるリフレクティブ評価手法における大規模言語モデルの有効性の検討

Investigating the Efficacy of Large Language Models in Reflective Assessment Methods through Chain of Thoughts Prompting ( http://arxiv.org/abs/2310.00272v1 )

ライセンス: Link先を確認
Baphumelele Masikisiki, Vukosi Marivate, Yvette Hlope(参考訳) GPT-3(Generative Pre-trained Transformer 3)のような大規模言語モデルは、広範なテキストデータの解析を通じて言語を理解するために開発され、単語間のパターンや接続を識別できるようになった。 LLMは様々なテキスト関連タスクで顕著なパフォーマンスを示してきたが、推論に関連するタスクでは課題に直面している。 この課題に対処するために、数学用語の解法や論理的な議論的推論に基づく質問に答えるといった複雑な推論タスクにおけるllmsの習熟度を高める手段として、思考連鎖(cot)促進法が提案されている。 本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。 評価は、CoTプロンプトを用いた批判的思考スキルの評価を特に対象とする。 この研究は、これまで訓練されていないデータセットから反射エッセイを評価するためにモデルを指導するプロセスの導入と教育、大規模なモデルを訓練して特定のタスクを実行するための指導的アプローチとしてCoTプロンプトの使用を例示する。 以上の結果から,llama-7bは最も効果的に動作せず,平均二乗誤差が最も高いことを示唆する。 逆にChatGPTは優れたモデルとして登場し、コーエン・カッパのスコアは0.53である。 最後に重要なのは、選択したモデルがユーザのプライバシを優先して、ユーザが自身の操作した会話を削除できるようにすることです。

Large Language Models, such as Generative Pre-trained Transformer 3 (aka. GPT-3), have been developed to understand language through the analysis of extensive text data, allowing them to identify patterns and connections between words. While LLMs have demonstrated impressive performance across various text-related tasks, they encounter challenges in tasks associated with reasoning. To address this challenge, Chain of Thought(CoT) prompting method has been proposed as a means to enhance LLMs' proficiency in complex reasoning tasks like solving math word problems and answering questions based on logical argumentative reasoning. The primary aim of this research is to assess how well four language models can grade reflective essays of third-year medical students. The assessment will specifically target the evaluation of critical thinking skills using CoT prompting. The research will provide the following contributions; to introduce and educate on the process of instructing models to evaluate reflective essays from a dataset they have not been previously trained on; to illustrate the use of CoT prompting as an instructional approach for training large models to carry out particular tasks. Our results suggest that among all the models, Llama-7b performs the least effectively, displaying the highest mean squared error. Conversely, ChatGPT emerges as the superior model, boasting a higher Cohen kappa score value of 0.53. Lastly, it's important to note that the selected models do prioritise user privacy by allowing users to delete their own conducted conversations.
翻訳日:2023-10-05 05:33:37 公開日:2023-09-30
# SpaceRank:時空間データに基づくNDCG最適化による都市イベントランキング

SpatialRank: Urban Event Ranking with NDCG Optimization on Spatiotemporal Data ( http://arxiv.org/abs/2310.00270v1 )

ライセンス: Link先を確認
Bang An, Xun Zhou, Yongjian Zhong, Tianbao Yang(参考訳) 都市イベントランキングの問題は、交通事故や犯罪などの将来のイベントの最もリスクの高い場所を予測することを目的としている。 この問題は公共の安全と都市行政にとって、特に資源が限られている場合には、重要な問題である。 しかし、この問題は、場所間の複雑でダイナミックな時空間相関、空間における都市イベントの不均一な分布、および類似した特徴で近くの場所を正しくランク付けすることが難しいため、困難である。 イベント予測に関する先行研究は主に、すべての場所における実際のリスクスコアやイベントのカウントを正確に予測することを目的としている。 このようなランク付けは通常、予測誤差により品質が低い。 正規化カウント累積ゲイン (NDCG) などの手法を直接最適化する学習 to ランク法は, 場所間の時空間自己相関を扱えない。 本稿では,空間ランクと呼ばれる新しい空間イベントランキング手法を提案することで,そのギャップを橋渡しする。 spatialrankは適応型グラフ畳み込み層を特徴とし、データから場所間の時空間依存性を動的に学習する。 さらに, このモデルでは, NDCGのハイブリッド損失を空間成分で補うことで, 近傍の空間位置のランク付けを最適化する。 トレーニング中の損失を効果的に評価するために,空間フィルタリングアルゴリズムを用いた重要サンプリングを設計する。 3つの実世界のデータセットに関する総合的な実験により、SpatialRankは犯罪や交通事故の最も危険な場所を効果的に特定でき、NDCGの観点では最先端の手法を最大12.7%上回っている。

The problem of urban event ranking aims at predicting the top-k most risky locations of future events such as traffic accidents and crimes. This problem is of fundamental importance to public safety and urban administration especially when limited resources are available. The problem is, however, challenging due to complex and dynamic spatio-temporal correlations between locations, uneven distribution of urban events in space, and the difficulty to correctly rank nearby locations with similar features. Prior works on event forecasting mostly aim at accurately predicting the actual risk score or counts of events for all the locations. Rankings obtained as such usually have low quality due to prediction errors. Learning-to-rank methods directly optimize measures such as Normalized Discounted Cumulative Gain (NDCG), but cannot handle the spatiotemporal autocorrelation existing among locations. In this paper, we bridge the gap by proposing a novel spatial event ranking approach named SpatialRank. SpatialRank features adaptive graph convolution layers that dynamically learn the spatiotemporal dependencies across locations from data. In addition, the model optimizes through surrogates a hybrid NDCG loss with a spatial component to better rank neighboring spatial locations. We design an importance-sampling with a spatial filtering algorithm to effectively evaluate the loss during training. Comprehensive experiments on three real-world datasets demonstrate that SpatialRank can effectively identify the top riskiest locations of crimes and traffic accidents and outperform state-of-art methods in terms of NDCG by up to 12.7%.
翻訳日:2023-10-05 05:33:08 公開日:2023-09-30
# Unravel 異常: 時系列異常検出のためのエンドツーエンドの季節トレンド分解手法

Unravel Anomalies: An End-to-end Seasonal-Trend Decomposition Approach for Time Series Anomaly Detection ( http://arxiv.org/abs/2310.00268v1 )

ライセンス: Link先を確認
Zhenwei Zhang, Ruiqi Wang, Ran Ding, Yuantao Gu(参考訳) 従来の時系列異常検出(TAD)法は、複雑な時系列データと多様な異常データの組み合わせの性質に苦慮することが多い。 tadnetは,様々な種類の異常を特定の分解成分に関連付け,複雑な時系列の分析を簡素化し,検出性能を向上させるために,季節分解を利用するエンドツーエンドtadモデルである。 合成データセットの事前学習と微調整を併用したトレーニング手法は,効率的な分解と高精度な異常検出のバランスを崩す。 実世界のデータセットに対する実験的検証は、さまざまな異常領域にわたるTADNetの最先端のパフォーマンスを確認する。

Traditional Time-series Anomaly Detection (TAD) methods often struggle with the composite nature of complex time-series data and a diverse array of anomalies. We introduce TADNet, an end-to-end TAD model that leverages Seasonal-Trend Decomposition to link various types of anomalies to specific decomposition components, thereby simplifying the analysis of complex time-series and enhancing detection performance. Our training methodology, which includes pre-training on a synthetic dataset followed by fine-tuning, strikes a balance between effective decomposition and precise anomaly detection. Experimental validation on real-world datasets confirms TADNet's state-of-the-art performance across a diverse range of anomalies.
翻訳日:2023-10-05 05:32:39 公開日:2023-09-30
# 選好の物理:磁化ダイナミクスによるヒト選好の不正確さの証明

The Physics of Preference: Unravelling Imprecision of Human Preferences through Magnetisation Dynamics ( http://arxiv.org/abs/2310.00267v1 )

ライセンス: Link先を確認
Ivan S. Maksymov and Ganna Pogrebna(参考訳) 選好反転のようなパラドックス的意思決定行動は、しばしば不正確または騒々しい人間の選好から生じる。 電流駆動の強磁性ナノ構造における磁化反転の物理原理を利用して,人間の意思決定力学を深く反映したモデルを開発した。 心理データのスペクトルに対してテストした結果、われわれのモデルは個々の選択に固有の複雑さをうまく捉えている。 この物理と心理学の融合は、人間の意思決定プロセスを理解する新しい視点への道を開く。

Paradoxical decision-making behaviours such as preference reversal often arise from imprecise or noisy human preferences. By harnessing the physical principle of magnetisation reversal in ferromagnetic nanostructures driven by electric current, we developed a model that closely reflects human decision-making dynamics. Tested against a spectrum of psychological data, our model adeptly captures the complexities inherent in individual choices. This blend of physics and psychology paves the way for fresh perspectives on understanding human decision-making processes.
翻訳日:2023-10-05 05:32:27 公開日:2023-09-30
# Sinkhornのアルゴリズムと選択モデルについて

On Sinkhorn's Algorithm and Choice Modeling ( http://arxiv.org/abs/2310.00260v1 )

ライセンス: Link先を確認
Zhaonan Qu, Alfred Galichon, Johan Ugander(参考訳) Bradley-Terry-Luce モデルや Plackett--Luce モデルを含む、Luce の選択公理に基づく幅広い選択とランク付けモデルに対して、関連する最大推定問題は、ターゲット行と列和との古典的行列バランス問題と等価であることを示す。 この視点は、一見無関係な2つの研究領域の間の扉を開き、Sinkhornの行列バランスのための有名なアルゴリズムの特別な例またはアナログとして、文献をモデル化する選択において既存のアルゴリズムを統合することを可能にする。 これらの関係から着想を得て,sinkhornのアルゴリズムの研究において重要なオープン問題を解決した。 まず,非負行列に対するシンクホーンアルゴリズムの大域的線形収束を,行列バランス問題に対する有限解が存在する場合に証明する。 データから構築された二部グラフの代数的接続性の観点から,この収束率を特徴付ける。 次に、我々は線形収束の鋭い漸近的速度(2008年のナイトの古典的な結果を一般化する)を導出するが、本質的な直交構造を利用するより明示的な分析を行う。 我々の知る限りでは、これらは一般の非負行列と正の辺数に対するシンクホーンのアルゴリズムに対する最初の定量的線形収束結果である。 行列のバランスと選択モデルの間の関係は、アイデアのさらなる伝達と両方の方向における興味深い結果の動機付けに役立つだろう。

For a broad class of choice and ranking models based on Luce's choice axiom, including the Bradley--Terry--Luce and Plackett--Luce models, we show that the associated maximum likelihood estimation problems are equivalent to a classic matrix balancing problem with target row and column sums. This perspective opens doors between two seemingly unrelated research areas, and allows us to unify existing algorithms in the choice modeling literature as special instances or analogs of Sinkhorn's celebrated algorithm for matrix balancing. We draw inspirations from these connections and resolve important open problems on the study of Sinkhorn's algorithm. We first prove the global linear convergence of Sinkhorn's algorithm for non-negative matrices whenever finite solutions to the matrix balancing problem exist. We characterize this global rate of convergence in terms of the algebraic connectivity of the bipartite graph constructed from data. Next, we also derive the sharp asymptotic rate of linear convergence, which generalizes a classic result of Knight (2008), but with a more explicit analysis that exploits an intrinsic orthogonality structure. To our knowledge, these are the first quantitative linear convergence results for Sinkhorn's algorithm for general non-negative matrices and positive marginals. The connections we establish in this paper between matrix balancing and choice modeling could help motivate further transmission of ideas and interesting results in both directions.
翻訳日:2023-10-05 05:32:19 公開日:2023-09-30
# autohall: 大きな言語モデルのための自動幻覚データセット生成

AutoHall: Automated Hallucination Dataset Generation for Large Language Models ( http://arxiv.org/abs/2310.00259v1 )

ライセンス: Link先を確認
Zouying Cao, Yifei Yang, Hai Zhao(参考訳) 大規模言語モデル(LLM)は、言語理解と生成能力の強化により、様々な領域に広範に応用されているが、LLMが生成する非現実的あるいは幻覚的コンテンツの検出は依然として不十分である。 現在,幻覚検出における重要な課題は,幻覚発生の経時的かつ高価な手作業による注釈作成である。 本稿ではまず,既存のファクトチェックデータセットであるautohallに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。 さらに,自己コントラストに基づくゼロリソース・ブラックボックス幻覚検出法を提案する。 オープン/クローズド・ソース LLM に対して実験を行い,既存のベースラインと比較して幻覚検出性能が優れていることを示す。 さらに,実験により異なるモデル間の幻覚の比率とタイプの変化が明らかになった。

While Large language models (LLMs) have garnered widespread applications across various domains due to their powerful language understanding and generation capabilities, the detection of non-factual or hallucinatory content generated by LLMs remains scarce. Currently, one significant challenge in hallucination detection is the laborious task of time-consuming and expensive manual annotation of the hallucinatory generation. To address this issue, this paper first introduces a method for automatically constructing model-specific hallucination datasets based on existing fact-checking datasets called AutoHall. Furthermore, we propose a zero-resource and black-box hallucination detection method based on self-contradiction. We conduct experiments towards prevalent open-/closed-source LLMs, achieving superior hallucination detection performance compared to extant baselines. Moreover, our experiments reveal variations in hallucination proportions and types among different models.
翻訳日:2023-10-05 05:31:49 公開日:2023-09-30
# 効率的かつ効果的な知識蒸留のためのアンリーシュデータ生成

Unleash Data Generation for Efficient and Effective Data-free Knowledge Distillation ( http://arxiv.org/abs/2310.00258v1 )

ライセンス: Link先を確認
Minh-Tuan Tran, Trung Le, Xuan-May Le, Mehrtash Harandi, Quan Hung Tran, and Dinh Phung(参考訳) Data-Free Knowledge Distillation (DFKD)は、教師のニューラルネットワークから学生のニューラルネットワークに、元のデータにアクセスすることなく知識を移行するという、その基本原則によって、最近顕著な進歩を遂げた。 それでも、ランダムなノイズ入力からサンプルを生成しようとすると、既存のアプローチは大きな課題に直面する。 結果として、これらのモデルは、このノイズを地中サンプル分布に効果的にマッピングすることに苦労し、その結果、低品質のデータを生成し、ジェネレータのトレーニングに十分な時間要件を課すことになる。 本稿では,入力から雑音層へランダムなソースを移動させ,有意義なラベルテキスト埋め込み(LTE)を入力として利用する,新しいノイズ層生成法(NAYER)を提案する。 LTEの重要性は、重要なクラス間情報を含む能力にあるため、少数のトレーニングステップだけで高品質なサンプルを生成することができる。 同時に、モデルが制約ラベル情報を過度に強調することを防止することにより、サンプル生成における多様性の問題に対処する上で、ノイズ層が重要な役割を果たす。 各イテレーションでノイズ層を再起動することにより、LTEによる学習の容易さにより、メソッドの効率を保ちながら多様なサンプルの生成を容易にすることを目指している。 複数のデータセットで行った実験により、NAYERは最先端の手法より優れているだけでなく、従来の手法よりも5倍から15倍高速であることが示された。

Data-Free Knowledge Distillation (DFKD) has recently made remarkable advancements with its core principle of transferring knowledge from a teacher neural network to a student neural network without requiring access to the original data. Nonetheless, existing approaches encounter a significant challenge when attempting to generate samples from random noise inputs, which inherently lack meaningful information. Consequently, these models struggle to effectively map this noise to the ground-truth sample distribution, resulting in the production of low-quality data and imposing substantial time requirements for training the generator. In this paper, we propose a novel Noisy Layer Generation method (NAYER) which relocates the randomness source from the input to a noisy layer and utilizes the meaningful label-text embedding (LTE) as the input. The significance of LTE lies in its ability to contain substantial meaningful inter-class information, enabling the generation of high-quality samples with only a few training steps. Simultaneously, the noisy layer plays a key role in addressing the issue of diversity in sample generation by preventing the model from overemphasizing the constrained label information. By reinitializing the noisy layer in each iteration, we aim to facilitate the generation of diverse samples while still retaining the method's efficiency, thanks to the ease of learning provided by LTE. Experiments carried out on multiple datasets demonstrate that our NAYER not only outperforms the state-of-the-art methods but also achieves speeds 5 to 15 times faster than previous approaches.
翻訳日:2023-10-05 05:31:26 公開日:2023-09-30
# MMPI:多重平面画像ブレンディングによるフレキシブル放射場表現

MMPI: a Flexible Radiance Field Representation by Multiple Multi-plane Images Blending ( http://arxiv.org/abs/2310.00249v1 )

ライセンス: Link先を確認
Yuze He, Peng Wang, Yubin Hu, Wang Zhao, Ran Yi, Yong-Jin Liu, Wenping Wang(参考訳) 本稿では,多面体画像(MPI)に基づく,複雑なシーンの高画質なビュー合成のためのフレキシブルな神経放射場表現を提案する。 正規化デバイスコーディネート(NDC)パラメータ化を用いたMPIは、単純な定義、簡単な計算、非有界シーンを表現する強力な能力のために、NeRF学習で広く利用されている。 しかし、新しいビュー合成のためにMPI表現を採用した既存のNeRFは、入力カメラが全て同じ方向を小さな相対変換で観察している単純な前方非有界シーンしか処理できない。 したがって、これらのMPIベースの手法を、広い範囲や360度のシーンのようなより複雑なシーンに拡張することは非常に困難である。 本稿では,MPIの可能性を探求し,MPIが複雑なシーンの高品質な新規ビューを多種多様なカメラ分布とビュー方向で合成できることを示し,これは単純な前方シーンに限らない。 我々のキーとなる考え方は、複数のMPIが異なる方向を向いている神経放射界を符号化し、それらを適応的なブレンディング操作でブレンドすることである。 シーンの各領域において、ブレンディング操作は、有利なmpisに対してより強い局所表現能力を持つ混合重みを与え、より弱い表現能力を持つものには低い重みを与える。 このようなブレンディング操作は、複数のMPIを自動的に変調し、多様な局所密度と色情報を適切に表現する。 kittiデータセットとscannetデータセットを用いた実験により,提案するmmpiは,様々なカメラポーズ分布から高品質な画像を合成し,トレーニングが高速であることを示す。 さらに、MMPIは、非常に長い軌跡を符号化し、新しいビューレンダリングを生成できることを示し、自動運転のようなアプリケーションにおけるその可能性を示す。

This paper presents a flexible representation of neural radiance fields based on multi-plane images (MPI), for high-quality view synthesis of complex scenes. MPI with Normalized Device Coordinate (NDC) parameterization is widely used in NeRF learning for its simple definition, easy calculation, and powerful ability to represent unbounded scenes. However, existing NeRF works that adopt MPI representation for novel view synthesis can only handle simple forward-facing unbounded scenes, where the input cameras are all observing in similar directions with small relative translations. Hence, extending these MPI-based methods to more complex scenes like large-range or even 360-degree scenes is very challenging. In this paper, we explore the potential of MPI and show that MPI can synthesize high-quality novel views of complex scenes with diverse camera distributions and view directions, which are not only limited to simple forward-facing scenes. Our key idea is to encode the neural radiance field with multiple MPIs facing different directions and blend them with an adaptive blending operation. For each region of the scene, the blending operation gives larger blending weights to those advantaged MPIs with stronger local representation abilities while giving lower weights to those with weaker representation abilities. Such blending operation automatically modulates the multiple MPIs to appropriately represent the diverse local density and color information. Experiments on the KITTI dataset and ScanNet dataset demonstrate that our proposed MMPI synthesizes high-quality images from diverse camera pose distributions and is fast to train, outperforming the previous fast-training NeRF methods for novel view synthesis. Moreover, we show that MMPI can encode extremely long trajectories and produce novel view renderings, demonstrating its potential in applications like autonomous driving.
翻訳日:2023-10-05 05:30:39 公開日:2023-09-30
# 生成軌道モデリングによる環境設計の階層的アプローチ

A Hierarchical Approach to Environment Design with Generative Trajectory Modeling ( http://arxiv.org/abs/2310.00301v1 )

ライセンス: Link先を確認
Dexun Li, Pradeep Varakantham(参考訳) Unsupervised Environment Design (UED) は、ゼロショット転送性能を達成するための一般的なエージェントを訓練するためのパラダイムである。 このパラダイムは、トレーニング環境のカリキュラムを自動的に生成する。 UEDの主要なアプローチは、エージェントをトレーニングするためにランダムに生成された環境インスタンスを使用する。 これらの手法はゼロショット転送性能に優れるが,大規模な設計空間を効果的に探索したり,従来発見されていた構造を活用したりする上での課題にしばしば遭遇し,これらの課題に対処するため,階層mdp(markov decision process)に基づく新しい枠組みを提案する。 提案手法では,上級教員のMDPが,学生のパフォーマンスを指導する下級MDP学生エージェントを訓練する役割を担っている。 上層部MDPの学習を迅速化するために, 生成モデリングの最近の進歩を活用して, 教師エージェントを訓練するための合成経験データセットを生成する。 我々のアルゴリズムは、SHED(Synthetically-enhanced Hierarchical Environment Design)と呼ばれ、エージェントと環境の間のリソース集約的な相互作用を著しく低減する。 shedの有効性を検証するために,限られた訓練資源で効率的でロバストなエージェントを開発することを目的として,様々な領域で実証実験を行った。 本結果は,SHEDの多様体的優位性を示し,UEDフレームワーク内でのカリキュラムベース学習の強力な手段としての有効性を強調した。 この研究は、より広範囲にわたる複雑なタスクを適切に処理できる次世代のrlエージェントの探索に寄与する。

Unsupervised Environment Design (UED) is a paradigm for training generally capable agents to achieve good zero-shot transfer performance. This paradigm hinges on automatically generating a curriculum of training environments. Leading approaches for UED predominantly use randomly generated environment instances to train the agent. While these methods exhibit good zero-shot transfer performance, they often encounter challenges in effectively exploring large design spaces or leveraging previously discovered underlying structures, To address these challenges, we introduce a novel framework based on Hierarchical MDP (Markov Decision Processes). Our approach includes an upper-level teacher's MDP responsible for training a lower-level MDP student agent, guided by the student's performance. To expedite the learning of the upper leavel MDP, we leverage recent advancements in generative modeling to generate synthetic experience dataset for training the teacher agent. Our algorithm, called Synthetically-enhanced Hierarchical Environment Design (SHED), significantly reduces the resource-intensive interactions between the agent and the environment. To validate the effectiveness of SHED, we conduct empirical experiments across various domains, with the goal of developing an efficient and robust agent under limited training resources. Our results show the manifold advantages of SHED and highlight its effectiveness as a potent instrument for curriculum-based learning within the UED framework. This work contributes to exploring the next generation of RL agents capable of adeptly handling an ever-expanding range of complex tasks.
翻訳日:2023-10-05 05:21:27 公開日:2023-09-30
# RelBERT: 言語モデルとの関係を埋め込む

RelBERT: Embedding Relations with Language Models ( http://arxiv.org/abs/2310.00299v1 )

ライセンス: Link先を確認
Asahi Ushio, Jose Camacho-Collados, Steven Schockaert(参考訳) 多くのアプリケーションは、異なる概念とエンティティがどのように関連しているかに関する背景知識にアクセスする必要がある。 知識グラフ(KG)とLarge Language Models(LLM)はこのニーズにある程度対処できるが、KGは必然的に不完全であり、その関係スキーマはしばしば粗い粒度であり、LLMは非効率で制御が難しい。 代替として,比較的小さな言語モデルから関係埋め込みを抽出することを提案する。 特に,RoBERTaのようなマスキング言語モデルは,少量のトレーニングデータのみを用いて,この目的のために簡単に微調整できることを示す。 結果として得られたモデルはRelBERTと呼ばれ、驚くほど微細な方法でリレーショナル類似性をキャプチャし、アナログベンチマークで新しい最先端を設定できます。 重要なことは、RelBERTはトレーニング中にモデルが見た以上の関係をモデル化することができる。 例えば、概念間の語彙関係のみを訓練したモデルを用いた名前付きエンティティ間の関係について、強い結果が得られ、RelBERTがそのような例では訓練されていないにもかかわらず、形態的類似を認識できることを示した。 全体として、RelBERTは、最近のGPTベースモデルやオープンソースモデルなど、数桁の規模を持つ言語モデルにより、戦略を著しく上回ります。

Many applications need access to background knowledge about how different concepts and entities are related. Although Knowledge Graphs (KG) and Large Language Models (LLM) can address this need to some extent, KGs are inevitably incomplete and their relational schema is often too coarse-grained, while LLMs are inefficient and difficult to control. As an alternative, we propose to extract relation embeddings from relatively small language models. In particular, we show that masked language models such as RoBERTa can be straightforwardly fine-tuned for this purpose, using only a small amount of training data. The resulting model, which we call RelBERT, captures relational similarity in a surprisingly fine-grained way, allowing us to set a new state-of-the-art in analogy benchmarks. Crucially, RelBERT is capable of modelling relations that go well beyond what the model has seen during training. For instance, we obtained strong results on relations between named entities with a model that was only trained on lexical relations between concepts, and we observed that RelBERT can recognise morphological analogies despite not being trained on such examples. Overall, we find that RelBERT significantly outperforms strategies based on prompting language models that are several orders of magnitude larger, including recent GPT-based models and open source models.
翻訳日:2023-10-05 05:21:04 公開日:2023-09-30
# 繰り返しからの文脈内学習の理解

Understanding In-Context Learning from Repetitions ( http://arxiv.org/abs/2310.00297v1 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Chiyu Song, Chenming Wu, Yafu Li, Yue Zhang(参考訳) 本稿では,Large Language Models (LLMs) における文脈内学習を支える概念的メカニズムについて考察する。 我々の研究は、表面繰り返しのレンズを通してコンテキスト内学習を調べることによって、新しい視点を提供する。 テキスト生成における表層特徴の役割を定量的に検討し,文脈的共起に基づいて2つのトークン間の関係を強める原理である<emph{token co-occurrence reinforcement} の存在を実証的に確立する。 これらの特徴の二重的影響を調査することにより、本研究は、文脈内学習の内部動作を照らし、その失敗の原因について解説する。 本稿では,文脈内学習とその潜在的な限界を理解する上で重要な貢献をし,このエキサイティングな能力について新たな視点を提供する。

This paper explores the elusive mechanism underpinning in-context learning in Large Language Models (LLMs). Our work provides a novel perspective by examining in-context learning via the lens of surface repetitions. We quantitatively investigate the role of surface features in text generation, and empirically establish the existence of \emph{token co-occurrence reinforcement}, a principle that strengthens the relationship between two tokens based on their contextual co-occurrences. By investigating the dual impacts of these features, our research illuminates the internal workings of in-context learning and expounds on the reasons for its failures. This paper provides an essential contribution to the understanding of in-context learning and its potential limitations, providing a fresh perspective on this exciting capability.
翻訳日:2023-10-05 05:20:40 公開日:2023-09-30
# quiz: 医用画像登録のための任意のボリュームポイントマッチング手法

QUIZ: An Arbitrary Volumetric Point Matching Method for Medical Image Registration ( http://arxiv.org/abs/2310.00296v1 )

ライセンス: Link先を確認
Lin Liu, Xinxin Fan, Haoyang Liu, Chulong Zhang, Weibin Kong, Jingjing Dai, Yuming Jiang, Yaoqin Xie, Xiaokun Liang(参考訳) 局所的グローバルマッチングやその他の大きな変形シナリオを含む厳格な事前登録は不可欠である。 現在の一般的な方法は、灰色スケールの類似性に基づく教師なし学習に依存しているが、異なるポーズが組織構造を変化させる状況や画質が悪い状況下では、不安定さや不正確さを示す傾向がある。 本研究では,クエリポイント・キッザ (QUIZ) と呼ばれる,任意のボクセル点の興味マッチングに基づく医用画像登録手法を提案する。 quizは局所的グローバルマッチングポイント間の対応に注目し、特にcnnを特徴抽出に、トランスフォーマーアーキテクチャをグローバルポイントマッチングクエリに活用し、さらに局所的画像剛性変換に平均変位を適用する。 本研究は, 頸部がん患者の大変形データセットを用いて本手法の有効性を検証した。 注目すべきは、クロスモダリティの主題であっても、現在の最先端技術を上回る結果が得られることだ。

Rigid pre-registration involving local-global matching or other large deformation scenarios is crucial. Current popular methods rely on unsupervised learning based on grayscale similarity, but under circumstances where different poses lead to varying tissue structures, or where image quality is poor, these methods tend to exhibit instability and inaccuracies. In this study, we propose a novel method for medical image registration based on arbitrary voxel point of interest matching, called query point quizzer (QUIZ). QUIZ focuses on the correspondence between local-global matching points, specifically employing CNN for feature extraction and utilizing the Transformer architecture for global point matching queries, followed by applying average displacement for local image rigid transformation. We have validated this approach on a large deformation dataset of cervical cancer patients, with results indicating substantially smaller deviations compared to state-of-the-art methods. Remarkably, even for cross-modality subjects, it achieves results surpassing the current state-of-the-art.
翻訳日:2023-10-05 05:20:27 公開日:2023-09-30
# 自己回帰型時系列データに対する完全予測型貯留層計算の数学的構造

Mathematical structure of perfect predictive reservoir computing for autoregressive type of time series data ( http://arxiv.org/abs/2310.00290v1 )

ライセンス: Link先を確認
Tsuyoshi Yoneda(参考訳) Reservoir Computing(RC)は再帰的ニューラルネットワーク(RNN)の一種であり、RCがトレーニングコストが低く、高速で計算能力の高い時系列データの将来の予測モデルを構築するために、より広く使われるようになることは疑いない。 しかし,rcニューラルネットワークの数学的構造に関する研究が最近始まったばかりである。 Bollt (2021) は、RCニューラルネットワークの数学的構造に関する洞察を得るために自己回帰(AR)モデルの必要性を明らかにし、Wold分解定理がこれらの理解のマイルストーンであることを示した。 そこで本研究では,rcニューラルネットワークにおける入力重み行列と再帰重み行列の隠れた構造を念頭に置いて,これらの構造がar型時系列データの完全な予測を実現することを示す。

Reservoir Computing (RC) is a type of recursive neural network (RNN), and there can be no doubt that the RC will be more and more widely used for building future prediction models for time-series data, with low training cost, high speed and high computational power. However, research into the mathematical structure of RC neural networks has only recently begun. Bollt (2021) clarified the necessity of the autoregressive (AR) model for gaining the insight into the mathematical structure of RC neural networks, and indicated that the Wold decomposition theorem is the milestone for understanding of these. Keeping this celebrated result in mind, in this paper, we clarify hidden structures of input and recurrent weight matrices in RC neural networks, and show that such structures attain perfect prediction for the AR type of time series data.
翻訳日:2023-10-05 05:20:10 公開日:2023-09-30
# バイレベル経路注意を考慮した完全変圧器を用いたpubic symphysis-fetal head segmentation

Pubic Symphysis-Fetal Head Segmentation Using Full Transformer with Bi-level Routing Attention ( http://arxiv.org/abs/2310.00289v1 )

ライセンス: Link先を確認
Pengzhou Cai(参考訳) 本稿では,pubic symphysis-fetal head segmentationタスクを解決するbrau-netという手法を提案する。 この方法は、u-netライクな純粋トランスフォーマーアーキテクチャを採用し、バイレベルルーティングの注意とスキップ接続を持ち、局所的グローバル意味情報を効果的に学習する。 提案するbrau-netは,pubic symphysis-fetal head segmentation and angle of progression (fh-ps-aop) challengeから得られた経会陰超音波画像データを用いて評価した。 その結果,提案したBRAU-Netは最終スコアに匹敵する結果を得た。 コードはhttps://github.com/caipengzhou/brau-netで入手できる。

In this paper, we propose a method, named BRAU-Net, to solve the pubic symphysis-fetal head segmentation task. The method adopts a U-Net-like pure Transformer architecture with bi-level routing attention and skip connections, which effectively learns local-global semantic information. The proposed BRAU-Net was evaluated on transperineal Ultrasound images dataset from the pubic symphysis-fetal head segmentation and angle of progression (FH-PS-AOP) challenge. The results demonstrate that the proposed BRAU-Net achieves comparable a final score. The codes will be available at https://github.com/Caipengzhou/BRAU-Net.
翻訳日:2023-10-05 05:19:54 公開日:2023-09-30
# InFER: マルチエスニックなインド顔表情認識データセット

InFER: A Multi-Ethnic Indian Facial Expression Recognition Dataset ( http://arxiv.org/abs/2310.00287v1 )

ライセンス: Link先を確認
Syed Sameen Ahmad Rizvi, Preyansh Agrawal, Jagat Sesh Challa and Pratik Narang(参考訳) 過去10年間のディープラーニングの急速な進歩は、既存の手工芸技術を上回る新しい手法が提案され、顔表情認識(FER)システムに変化をもたらした。 しかし、このような教師付き学習アプローチでは、可能なすべてのシナリオをカバーする十分な大規模なトレーニングデータセットが必要です。 そして、ほとんどの人は年齢、性別、民族に基づく表情を示すので、多様な表情データセットが必要である。 これは、多民族の多様な集団からなるインド亜大陸のFERシステムを開発する際にさらに重要となる。 本研究では,7つの表情の10,200画像と4,200ショートビデオからなる実世界の多民族インド顔表情認識データセットであるInFERを提案する。 このデータセットは、600人の被験者の表現と、インターネットからクラウドソースされた6000枚の画像の自然発生/実行表現を提示している。 われわれの知る限りでは、InFERはインド亜大陸の非常に多様な民族から600人の被験者が撮影した最初の画像だ。 また,本データセット上でのベースラインおよびディープFER手法の実験結果について,実運用におけるユーザビリティを実証する。

The rapid advancement in deep learning over the past decade has transformed Facial Expression Recognition (FER) systems, as newer methods have been proposed that outperform the existing traditional handcrafted techniques. However, such a supervised learning approach requires a sufficiently large training dataset covering all the possible scenarios. And since most people exhibit facial expressions based upon their age group, gender, and ethnicity, a diverse facial expression dataset is needed. This becomes even more crucial while developing a FER system for the Indian subcontinent, which comprises of a diverse multi-ethnic population. In this work, we present InFER, a real-world multi-ethnic Indian Facial Expression Recognition dataset consisting of 10,200 images and 4,200 short videos of seven basic facial expressions. The dataset has posed expressions of 600 human subjects, and spontaneous/acted expressions of 6000 images crowd-sourced from the internet. To the best of our knowledge InFER is the first of its kind consisting of images from 600 subjects from very diverse ethnicity of the Indian Subcontinent. We also present the experimental results of baseline & deep FER methods on our dataset to substantiate its usability in real-world practical applications.
翻訳日:2023-10-05 05:19:39 公開日:2023-09-30
# 多体量子メソロジーにおける最適局所測定

Optimal Local Measurements in Many-body Quantum Metrology ( http://arxiv.org/abs/2310.00285v1 )

ライセンス: Link先を確認
Jia-Xuan Liu, Jing Yang, Hai-Long Shi, and Sixia Yu(参考訳) 量子計測は量子力学の鍵となる。 実験能力に制約され、多数の気象プローブのコピーの集合的な測定は重大な課題を引き起こす。 したがって、量子測定における局所性を考慮する必要がある。 本研究では,量子クレーア・ラオ結合(qcrb)を飽和させる古典的通信を伴わずに最適な局所的測定の基盤構造を明らかにするための「イテレーティブ行列分割」手法を提案する。 さらに、全ての2キュービット純状態に対して正確な飽和が可能であるが、多キュービット純状態に対しては汎用的に制限される。 しかし、初期状態が分離可能でハミルトニアンが相互作用を許す限り、適応的コヒーレント制御によりqCRBを近似的に普遍的に飽和させることができることを示す。 この結果は,多体メロロジーにおける理論的提案と実験のギャップを埋めるものであり,ノイズの多い中間スケール量子デバイスですぐに応用できる。

Quantum measurements are key to quantum metrology. Constrained by experimental capabilities, collective measurements on a large number of copies of metrological probes can pose significant challenges. Therefore, the locality in quantum measurements must be considered. In this work, we propose a method dubbed as the "iterative matrix partition" approach to elucidate the underlying structures of optimal local measurements, with and without classical communications, that saturate the quantum Cram\'er-Rao Bound (qCRB). Furthermore, we find that while exact saturation is possible for all two-qubit pure states, it is generically restrictive for multi-qubit pure states. However, we demonstrate that the qCRB can be universally saturated in an approximate manner through adaptive coherent controls, as long as the initial state is separable and the Hamiltonian allows for interaction. Our results bridge the gap between theoretical proposals and experiments in many-body metrology and can find immediate applications in noisy intermediate-scale quantum devices.
翻訳日:2023-10-05 05:19:23 公開日:2023-09-30
# アクティブ学習による音声感情認識のためのファインチューニングフレームワーク

Active Learning Based Fine-Tuning Framework for Speech Emotion Recognition ( http://arxiv.org/abs/2310.00283v1 )

ライセンス: Link先を確認
Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura(参考訳) 音声感情認識(ser)は、人間と機械の相互作用におけるその応用に注目が集まっている。 しかし、既存のSER手法では、事前学習した音声認識タスクと下流SERタスクとの間の情報ギャップを無視し、準最適性能をもたらす。 さらに、個々の音声データセットを微調整するのに多くの時間を必要とし、大規模ノイズデータによる実世界のシーンでの効率を制限する。 これらの課題に対処するために,タスク適応事前学習(TAPT)とAL手法を活用した能動学習(AL)に基づくSERのためのファインチューニングフレームワークを提案する。 具体的には、まずTAPTを使用して、事前学習と下流タスク間の情報ギャップを最小化する。 次に、alメソッドは、最も有益で多様なサンプルのサブセットを反復的に選択して微調整し、時間の消費を減らすために使用される。 実験では20 %ptしか使用していない。 サンプルは 8.45\%pt を改善する。 精度は79\%ptである。 時間の消費です

Speech emotion recognition (SER) has drawn increasing attention for its applications in human-machine interaction. However, existing SER methods ignore the information gap between the pre-training speech recognition task and the downstream SER task, leading to sub-optimal performance. Moreover, they require much time to fine-tune on each specific speech dataset, restricting their effectiveness in real-world scenes with large-scale noisy data. To address these issues, we propose an active learning (AL) based Fine-Tuning framework for SER that leverages task adaptation pre-training (TAPT) and AL methods to enhance performance and efficiency. Specifically, we first use TAPT to minimize the information gap between the pre-training and the downstream task. Then, AL methods are used to iteratively select a subset of the most informative and diverse samples for fine-tuning, reducing time consumption. Experiments demonstrate that using only 20\%pt. samples improves 8.45\%pt. accuracy and reduces 79\%pt. time consumption.
翻訳日:2023-10-05 05:19:03 公開日:2023-09-30
# Corex: 複数モデルコラボレーションによる複雑な推論の境界を押し上げる

Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration ( http://arxiv.org/abs/2310.00280v1 )

ライセンス: Link先を確認
Qiushi Sun, Zhangyue Yin, Xiang Li, Zhiyong Wu, Xipeng Qiu, Lingpeng Kong(参考訳) 大規模言語モデル(LLM)は前例のないペースで進化しており、世界的知識を持つ自然言語処理(NLP)の領域でかなりの能力を発揮している。 超大規模トレーニングコーパスの恩恵を受け、単一のLCMは典型的なNLPタスクを能動的に管理できる。 しかし、推論タスクの実行におけるパフォーマンスは、内部表現の制限によって制限されている。 この境界をさらに推し進めるために、複雑なタスク解決のための多モデルコラボレーションを開拓する自律エージェントにLSMを変換する新しい汎用戦略スイートであるCorexを紹介する。 人間の行動にインスパイアされたコークスは、議論、レビュー、検索モードなどの多様なコラボレーションパラダイムによって構成され、事実性、忠実性、推論プロセスの信頼性の向上に一括して取り組んでいる。 これらのパラダイムは、LCMが「箱の外を考えて」、幻覚を克服しより良いソリューションを提供できるようなタスクに依存しないアプローチを促進する。 4種類の推論タスクにまたがる広範囲な実験を通して,複数のLDMを協調して協調作業を行うことは,既存の手法に比べてかなり優れた性能を示すことを示した。 さらに,本手法の費用対効果,異なるllm間のコラボレーションの促進,アノテーションの効率向上を実証し,詳細な分析を行った。

Large Language Models (LLMs) are evolving at an unprecedented pace and have exhibited considerable capability in the realm of natural language processing (NLP) with world knowledge. Benefiting from ultra-large-scale training corpora, a single LLM can manage typical NLP tasks competently. However, its performance in executing reasoning tasks is still confined by the limitations of its internal representations. To push this boundary further, we introduce Corex in this paper, a suite of novel general-purpose strategies that transform LLMs into autonomous agents pioneering multi-model collaborations for complex task-solving. Inspired by human behaviors, Corex is constituted by diverse collaboration paradigms including Debate, Review, and Retrieve modes, which collectively work towards enhancing the factuality, faithfulness, and reliability of the reasoning process. These paradigms foster task-agnostic approaches that enable LLMs to ''think outside the box,'' thereby overcoming hallucinations and providing better solutions. Through extensive experiments across four different types of reasoning tasks, we demonstrate that orchestrating multiple LLMs to work in concert yields substantially better performance compared to existing methods. Further results and in-depth analysis demonstrate the cost-effectiveness of our method, facilitating collaboration among different LLMs and promoting annotation efficiency.
翻訳日:2023-10-05 05:18:47 公開日:2023-09-30
# デプロイメント補正:フロンティアaiモデルのためのインシデント対応フレームワーク

Deployment Corrections: An incident response framework for frontier AI models ( http://arxiv.org/abs/2310.00328v1 )

ライセンス: Link先を確認
Joe O'Brien, Shaun Ee, Zoe Williams(参考訳) aiモデルによる破滅的なリスクに対処するための包括的なアプローチは、モデルライフサイクル全体をカバーするべきである。 本稿では,デプロイ前のリスク管理が不足する場合の緊急計画について検討する。 極めて危険なモデルがデプロイされる場合や,デプロイされたモデルが非常に危険になる場合です。 サイバーセキュリティを含む業界からのインシデント対応のプラクティスによって、私たちは、AI開発者が、デプロイ後に開発または検出されるAIモデルの危険な機能、行動、ユースケースに対応するために使用できるデプロイメント修正ツールキットを記述します。 AI開発者がこのツールキットを準備し実装するためのフレームワークも提供しています。 我々は,(1)モデルアクセスのコントロールを維持すること,(2)インシデント対応計画を含むデプロイメント修正プロセスの設計とメンテナンスを行う専用のチームを確立すること,(3)ダウンストリームユーザによる許容可能なアクションとして,これらのデプロイメント修正を確立することを推奨する。 さらに私たちは、フロンティアAI開発者や標準設定組織、規制当局が協力して、インシデント対応におけるデプロイメント修正の使用に対する業界全体の標準アプローチを定義することを推奨しています。 Caveat: この作業は、AI開発者または他のアップストリームパーティがアクセス制御(GPT-4やClaudeなど)を維持する手段を提供するインターフェース(APIなど)を通じて利用可能な、フロンティアAIモデルに適用されます。 オープンソースのモデル(例えばBLOOMやLlama-2)による破滅的なリスクの管理には適用されない。

A comprehensive approach to addressing catastrophic risks from AI models should cover the full model lifecycle. This paper explores contingency plans for cases where pre-deployment risk management falls short: where either very dangerous models are deployed, or deployed models become very dangerous. Informed by incident response practices from industries including cybersecurity, we describe a toolkit of deployment corrections that AI developers can use to respond to dangerous capabilities, behaviors, or use cases of AI models that develop or are detected after deployment. We also provide a framework for AI developers to prepare and implement this toolkit. We conclude by recommending that frontier AI developers should (1) maintain control over model access, (2) establish or grow dedicated teams to design and maintain processes for deployment corrections, including incident response plans, and (3) establish these deployment corrections as allowable actions with downstream users. We also recommend frontier AI developers, standard-setting organizations, and regulators should collaborate to define a standardized industry-wide approach to the use of deployment corrections in incident response. Caveat: This work applies to frontier AI models that are made available through interfaces (e.g., API) that provide the AI developer or another upstream party means of maintaining control over access (e.g., GPT-4 or Claude). It does not apply to management of catastrophic risk from open-source models (e.g., BLOOM or Llama-2), for which the restrictions we discuss are largely unenforceable.
翻訳日:2023-10-05 05:13:19 公開日:2023-09-30
# ニューラルネットワークによる記憶 : 最悪のケースを超えて

Memorization with neural nets: going beyond the worst case ( http://arxiv.org/abs/2310.00327v1 )

ライセンス: Link先を確認
Sjoerd Dirksen and Patrick Finke and Martin Genzel(参考訳) 実際には、ディープニューラルネットワークはトレーニングデータを簡単に補間できることが多い。 この現象を理解するために、多くの研究はニューラルネットワークアーキテクチャの記憶容量を定量化することを目的としている。 しかし、実世界のデータでは、直感的に良性構造の存在を期待するので、補間は記憶能力よりも小さいネットワークサイズで既に発生している。 本稿では,インスタンス固有の視点を用いた補間について検討する。 2つのクラスを持つ固定有限データセットが与えられた場合、多項式時間で3層ニューラルネットワークを補間する確率の高い単純なランダム化アルゴリズムを導入する。 必要なパラメータ数は、2つのクラスの幾何学的性質とそれらの相互配列に関連付けられる。 その結果,サンプル数に依存しない保証が得られ,最悪の記憶能力限界を超えて移動することがわかった。 本研究では,非病理学的状況におけるアルゴリズムの有効性を広範囲な数値実験で示し,その知見を理論的結果に結びつける。

In practice, deep neural networks are often able to easily interpolate their training data. To understand this phenomenon, many works have aimed to quantify the memorization capacity of a neural network architecture: the largest number of points such that the architecture can interpolate any placement of these points with any assignment of labels. For real-world data, however, one intuitively expects the presence of a benign structure so that interpolation already occurs at a smaller network size than suggested by memorization capacity. In this paper, we investigate interpolation by adopting an instance-specific viewpoint. We introduce a simple randomized algorithm that, given a fixed finite dataset with two classes, with high probability constructs an interpolating three-layer neural network in polynomial time. The required number of parameters is linked to geometric properties of the two classes and their mutual arrangement. As a result, we obtain guarantees that are independent of the number of samples and hence move beyond worst-case memorization capacity bounds. We illustrate the effectiveness of the algorithm in non-pathological situations with extensive numerical experiments and link the insights back to the theoretical results.
翻訳日:2023-10-05 05:12:52 公開日:2023-09-30
# red teaming game: red teaming language modelのためのゲーム理論フレームワーク

Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models ( http://arxiv.org/abs/2310.00322v1 )

ライセンス: Link先を確認
Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao, Xuehai Pan, Yaodong Yang(参考訳) デプロイ可能な大規模言語モデル(LLM)は、有用性と無害性の基準に従わなければならない。 赤いチームのテクニックは、この基準に対する重要な方法です。 既存の作業は、手作業による赤チーム設計と、脆弱性検出と最適化のためのヒューリスティックな敵意に基づくものだ。 これらの手法は厳密な数学的定式化を欠き、定量化尺度における多様な攻撃戦略の探索と収束保証の下でのLLMの最適化を制限している。 本稿では,手動アノテーションのない汎用ゲーム理論フレームワークである red-teaming game (rtg) を提案する。 RTGは、レッドチーム言語モデル(RLM)とブルーチーム言語モデル(BLM)のマルチターン攻撃と防御相互作用を分析するように設計されている。 RTG内では,意味空間の多様性を指標としたGamified Red-teaming Solver (GRTS)を提案する。 GRTSはメタゲーム解析によりRTGをナッシュ平衡へ向けた自動レッドチーム化技術であり、理論的に保証された RLM と BLM の最適化方向に対応する。 rlmsによるマルチターン攻撃の結果、grtsは様々な攻撃戦略を自律的に発見し、llmのセキュリティを効果的に改善し、既存のヒューリスティックなレッドチーム設計よりも優れていた。 全体として、rtgはレッドチームタスクの基礎フレームワークを確立し、アライメントのための新しいスケーラブルな監視テクニックを構築した。

Deployable Large Language Models (LLMs) must conform to the criterion of helpfulness and harmlessness, thereby achieving consistency between LLMs outputs and human values. Red-teaming techniques constitute a critical way towards this criterion. Existing work rely solely on manual red team designs and heuristic adversarial prompts for vulnerability detection and optimization. These approaches lack rigorous mathematical formulation, thus limiting the exploration of diverse attack strategy within quantifiable measure and optimization of LLMs under convergence guarantees. In this paper, we present Red-teaming Game (RTG), a general game-theoretic framework without manual annotation. RTG is designed for analyzing the multi-turn attack and defense interactions between Red-team language Models (RLMs) and Blue-team Language Model (BLM). Within the RTG, we propose Gamified Red-teaming Solver (GRTS) with diversity measure of the semantic space. GRTS is an automated red teaming technique to solve RTG towards Nash equilibrium through meta-game analysis, which corresponds to the theoretically guaranteed optimization direction of both RLMs and BLM. Empirical results in multi-turn attacks with RLMs show that GRTS autonomously discovered diverse attack strategies and effectively improved security of LLMs, outperforming existing heuristic red-team designs. Overall, RTG has established a foundational framework for red teaming tasks and constructed a new scalable oversight technique for alignment.
翻訳日:2023-10-05 05:12:35 公開日:2023-09-30
# 相対的自己スーパービジョンと潜時拡散を用いた脳活動からのリアル画像の復号

Decoding Realistic Images from Brain Activity with Contrastive Self-supervision and Latent Diffusion ( http://arxiv.org/abs/2310.00318v1 )

ライセンス: Link先を確認
Jingyuan Sun, Mingxiao Li, Marie-Francine Moens(参考訳) 人間の脳活動から視覚刺激を再構築することは、脳の視覚システムとそのコンピュータビジョンモデルとの関連性を理解するための有望な機会となる。 このタスクには深層生成モデルが採用されているが、正確な意味を持つ高品質な画像を生成するという課題は、脳信号の複雑な基盤表現と並列データの可用性の制限のため継続される。 本稿では,FMRI(Function Magnetic resonance imaging)記録から現実像をデコードするContrast and Diffuse(CnD)という2相フレームワークを提案する。 第1フェーズでは,自己教師付きコントラスト学習によりfmriデータの表現を得る。 第2フェーズでは、符号化されたfMRI表現が拡散モデルに条件付けされ、提案手法により視覚刺激を再構成する。 実験結果から,CnDは難解なベンチマークで高可塑性画像を再構成した。 また、潜在拡散モデル(ldm)成分と人間の脳の視覚系との関係を定量的に解釈する。 本稿では,人間の脳活動に基づいて視覚刺激を再構成する効果的なアプローチを提案し,拡散モデルと脳視覚システムとの関係を理解するための新しい枠組みを提案する。

Reconstructing visual stimuli from human brain activities provides a promising opportunity to advance our understanding of the brain's visual system and its connection with computer vision models. Although deep generative models have been employed for this task, the challenge of generating high-quality images with accurate semantics persists due to the intricate underlying representations of brain signals and the limited availability of parallel data. In this paper, we propose a two-phase framework named Contrast and Diffuse (CnD) to decode realistic images from functional magnetic resonance imaging (fMRI) recordings. In the first phase, we acquire representations of fMRI data through self-supervised contrastive learning. In the second phase, the encoded fMRI representations condition the diffusion model to reconstruct visual stimulus through our proposed concept-aware conditioning method. Experimental results show that CnD reconstructs highly plausible images on challenging benchmarks. We also provide a quantitative interpretation of the connection between the latent diffusion model (LDM) components and the human brain's visual system. In summary, we present an effective approach for reconstructing visual stimuli based on human brain activity and offer a novel framework to understand the relationship between the diffusion model and the human brain visual system.
翻訳日:2023-10-05 05:12:09 公開日:2023-09-30
# 大規模言語モデルにおけるインテクスト学習 : 表現の神経科学による分析

In-Context Learning in Large Language Models: A Neuroscience-inspired Analysis of Representations ( http://arxiv.org/abs/2310.00313v1 )

ライセンス: Link先を確認
Safoora Yousefi, Leo Betthauser, Hosein Hasanbeig, Akanksha Saran, Rapha\"el Milli\`ere, Ida Momennejad(参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)により、入力中のタスク固有の例を活用することにより、顕著なパフォーマンス向上を示す。 しかし、この改善のメカニズムはいまだ解明されていない。 本研究では,llm埋め込みとアテンション表現が文脈内学習によってどのように変化し,これらの変化が行動改善を媒介するかについて検討する。 我々は,表現類似度分析(RSA)などの神経科学に触発された手法を採用し,Llama-270BとVicuna 13Bのパラメータ化探索と,関連情報に対する注意度測定のための新しい手法を提案する。 本研究は,3つの条件,すなわち読解理解,線形回帰,対向的プロンプトインジェクションの3つのタスクを設計した。 埋め込みや注意の潜伏変化を調べるために,タスク表現における期待される類似性について仮説を立てた。 ICL後の行動特性の改善とともに,埋め込みと注意表現の両方の変化に有意な相関が認められた。 この実証的なフレームワークは、潜伏表現がICLの有無にかかわらずLLMの振る舞いにどのように影響するかを微妙に理解し、将来の研究や実用化に有用なツールと洞察を提供する。

Large language models (LLMs) exhibit remarkable performance improvement through in-context learning (ICL) by leveraging task-specific examples in the input. However, the mechanisms behind this improvement remain elusive. In this work, we investigate how LLM embeddings and attention representations change following in-context-learning, and how these changes mediate improvement in behavior. We employ neuroscience-inspired techniques such as representational similarity analysis (RSA) and propose novel methods for parameterized probing and measuring ratio of attention to relevant vs. irrelevant information in Llama-2 70B and Vicuna 13B. We designed three tasks with a priori relationships among their conditions: reading comprehension, linear regression, and adversarial prompt injection. We formed hypotheses about expected similarities in task representations to investigate latent changes in embeddings and attention. Our analyses revealed a meaningful correlation between changes in both embeddings and attention representations with improvements in behavioral performance after ICL. This empirical framework empowers a nuanced understanding of how latent representations affect LLM behavior with and without ICL, offering valuable tools and insights for future research and practical applications.
翻訳日:2023-10-05 05:11:49 公開日:2023-09-30
# 潜時拡散による効率的な計画法

Efficient Planning with Latent Diffusion ( http://arxiv.org/abs/2310.00311v1 )

ライセンス: Link先を確認
Wenhao Li(参考訳) 時間的抽象化と効率的な計画は、主に時間的拡張タスクとスパース報酬の遅延を含むドメインを扱う場合、オフライン強化学習において重大な課題となる。 既存の方法は、通常、生のアクション空間で計画し、非効率で非柔軟である。 潜在アクション空間はより柔軟なパラダイムを提供し、行動ポリシーサポート内で可能なアクションのみをキャプチャし、計画とモデリングの間の時間構造を分離する。 しかし、現在の潜在アクションベースの手法は離散空間に限定され、高価な計画を必要とする。 本稿では,持続的潜在的行動空間表現の学習と計画のための,潜在的スコアベース拡散モデルを活用した統一フレームワークを提案する。 我々は,遅延行動空間における計画と事前学習拡散モデルによるエネルギー誘導サンプリングの理論的等価性を確立し,新しいシーケンスレベルの精密サンプリング手法を取り入れた。 提案手法は,低次元移動制御タスクにおける競合性能を実証し,高次元タスクにおける既存手法を克服する。

Temporal abstraction and efficient planning pose significant challenges in offline reinforcement learning, mainly when dealing with domains that involve temporally extended tasks and delayed sparse rewards. Existing methods typically plan in the raw action space and can be inefficient and inflexible. Latent action spaces offer a more flexible paradigm, capturing only possible actions within the behavior policy support and decoupling the temporal structure between planning and modeling. However, current latent-action-based methods are limited to discrete spaces and require expensive planning. This paper presents a unified framework for continuous latent action space representation learning and planning by leveraging latent, score-based diffusion models. We establish the theoretical equivalence between planning in the latent action space and energy-guided sampling with a pretrained diffusion model and incorporate a novel sequence-level exact sampling method. Our proposed method, $\texttt{LatentDiffuser}$, demonstrates competitive performance on low-dimensional locomotion control tasks and surpasses existing methods in higher-dimensional tasks.
翻訳日:2023-10-05 05:11:25 公開日:2023-09-30
# 簡単なゼロショット学習の組み合わせ:テクスチャ感性セマンティックセマンティックセグメンテーションIceHrNetと高度なスタイル移行学習戦略

An easy zero-shot learning combination: Texture Sensitive Semantic Segmentation IceHrNet and Advanced Style Transfer Learning Strategy ( http://arxiv.org/abs/2310.00310v1 )

ライセンス: Link先を確認
Zhiyong Yang and Yuelong Zhu and Xiaoqin Zeng and Jun Zong and Xiuheng Liu and Ran Tao and Xiaofei Cong and Yufeng Yu(参考訳) スタイル転送を用いたゼロショットセマンティックセグメンテーションの簡易な手法を提案する。 今回我々は,川氷セマンティクスセグメンテーションのモデルを訓練するために,医用画像データセット(血液細胞画像)を用いた。 まず,固定カメラを用いて河川氷のセマンティックセグメンテーションデータセットIPC_RI_SEGを構築し,河川の融解過程全体をカバーした。 次にicehrnetと呼ばれる高分解能テクスチャ融合セマンティクスセグメンテーションネットワークを提案する。 このネットワークはHRNetをバックボーンとして使用し、ASPPとDecoderセグメンテーションヘッドを追加し、セマンティックセグメンテーションのための低レベルのテクスチャ機能を保持した。 最後に, 河川氷のセマンティックセマンティックセグメンテーションに87% mIoU の実用的効果を目標トレーニングデータセットなしで達成し, クロスドメインセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスに基づいてゼロショットトランスファー学習を行うことが可能な, 単純かつ効果的な高度トランスファー学習戦略を提案し, 従来型スタイライズでは65% mIoU, 従来型スタイライズでは22%向上した。 実験により,icehrnetはテクスチャ中心のデータセット ipc_ri_seg において最先端の手法を上回り,形状中心の川氷データセットにおいて優れた結果を得た。 ゼロショットトランスファー学習では、IceHrNetは他の手法に比べて2パーセント増加した。 私たちのコードとモデルはhttps://github.com/pl23k/icehrnetで公開しています。

We proposed an easy method of Zero-Shot semantic segmentation by using style transfer. In this case, we successfully used a medical imaging dataset (Blood Cell Imagery) to train a model for river ice semantic segmentation. First, we built a river ice semantic segmentation dataset IPC_RI_SEG using a fixed camera and covering the entire ice melting process of the river. Second, a high-resolution texture fusion semantic segmentation network named IceHrNet is proposed. The network used HRNet as the backbone and added ASPP and Decoder segmentation heads to retain low-level texture features for fine semantic segmentation. Finally, a simple and effective advanced style transfer learning strategy was proposed, which can perform zero-shot transfer learning based on cross-domain semantic segmentation datasets, achieving a practical effect of 87% mIoU for semantic segmentation of river ice without target training dataset (25% mIoU for None Stylized, 65% mIoU for Conventional Stylized, our strategy improved by 22%). Experiments showed that the IceHrNet outperformed the state-of-the-art methods on the texture-focused dataset IPC_RI_SEG, and achieved an excellent result on the shape-focused river ice datasets. In zero-shot transfer learning, IceHrNet achieved an increase of 2 percentage points compared to other methods. Our code and model are published on https://github.com/PL23K/IceHrNet.
翻訳日:2023-10-05 05:11:08 公開日:2023-09-30
# 弱教師付き意味セグメンテーションのためのデュアルオーグメンテーショントランスフォーマネットワーク

Dual-Augmented Transformer Network for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2310.00307v1 )

ライセンス: Link先を確認
Jingliang Deng, Zonghan Li(参考訳) 弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。 従来の手法ではcnnベースのネットワークを採用し、クラスアクティベーションマップ(cam)戦略を使用してオブジェクト領域を検出する。 しかし、そのような手法は対象の最も差別的な領域にのみ焦点をあて、不完全セグメンテーションをもたらす。 別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。 しかし、オブジェクトへのトランスダクティブバイアスの欠如は、ViTの欠陥である。 本稿では,WSSS の自己正規化制約を考慮した二層変圧器ネットワークについて検討する。 具体的には,相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用した2つのネットワークを提案する。 PASCAL VOC 2012ベンチマークにおける大規模システム評価は,従来の最先端手法よりも優れていることを示す。

Weakly supervised semantic segmentation (WSSS), a fundamental computer vision task, which aims to segment out the object within only class-level labels. The traditional methods adopt the CNN-based network and utilize the class activation map (CAM) strategy to discover the object regions. However, such methods only focus on the most discriminative region of the object, resulting in incomplete segmentation. An alternative is to explore vision transformers (ViT) to encode the image to acquire the global semantic information. Yet, the lack of transductive bias to objects is a flaw of ViT. In this paper, we explore the dual-augmented transformer network with self-regularization constraints for WSSS. Specifically, we propose a dual network with both CNN-based and transformer networks for mutually complementary learning, where both networks augment the final output for enhancement. Massive systemic evaluations on the challenging PASCAL VOC 2012 benchmark demonstrate the effectiveness of our method, outperforming previous state-of-the-art methods.
翻訳日:2023-10-05 05:10:33 公開日:2023-09-30
# 階層的ステップバイステッププロンプト法によるニュースクレームのllmに基づく事実検証

Towards LLM-based Fact Verification on News Claims with a Hierarchical Step-by-Step Prompting Method ( http://arxiv.org/abs/2310.00305v1 )

ライセンス: Link先を確認
Xuan Zhang and Wei Gao(参考訳) 大規模な事前学習型言語モデル(LLM)は、様々なNLPタスクにおいてその印象的な能力を示してきたが、偽情報領域では未探索である。 本稿では,ニュースクレーム検証のためのインコンテキスト学習(icl)を用いたllmについて検討し,4ショットの実演例のみを用いて,複数のプロンプト手法の性能を従来の教師付きモデルと比較できることを示す。 性能をさらに向上するため,階層的なステップ・バイ・ステップ(HiSS)プロンプト手法を導入し,複数のサブ条件に分割し,複数の質問応答ステップを段階的に検証する。 2つの公開誤報データセットの実験結果から、HiSSのプロンプトは最先端の完全教師付きアプローチと強力なICL対応ベースラインを上回っている。

While large pre-trained language models (LLMs) have shown their impressive capabilities in various NLP tasks, they are still under-explored in the misinformation domain. In this paper, we examine LLMs with in-context learning (ICL) for news claim verification, and find that only with 4-shot demonstration examples, the performance of several prompting methods can be comparable with previous supervised models. To further boost performance, we introduce a Hierarchical Step-by-Step (HiSS) prompting method which directs LLMs to separate a claim into several subclaims and then verify each of them via multiple questions-answering steps progressively. Experiment results on two public misinformation datasets show that HiSS prompting outperforms state-of-the-art fully-supervised approach and strong few-shot ICL-enabled baselines.
翻訳日:2023-10-05 05:10:15 公開日:2023-09-30
# 安全な量子通信タスクにおける軌道角運動量状態の必須性

Indispensability of orbital angular momentum states in secure quantum communication tasks ( http://arxiv.org/abs/2310.00304v1 )

ライセンス: Link先を確認
Rajni Bala and Sooryansh Asthana(参考訳) 量子鍵分布プロトコルは多次元交絡および分離可能な軌道角運動量状態(Phys. A 97, 032312 (2018), Int. J. Theor. Phys. 62, 104 (2023)]を用いた層状ネットワークのために設計されている。 安全な量子通信タスクの文脈では、軌道角運動量状態は単に代替物として振る舞うのか、あるいは必要不可欠な資源として振舞うのか? まず、層状ネットワークにおける量子鍵分布のタスクは、偏光量子ビットのような低次元状態のいくつかのコピーで達成できることを示す。 このため、軌道角運動量状態は層状量子鍵分布に固有の優位性を与えない。 OAM状態の可能性は、鍵発生率の増大と量子通信タスクの統合化に現れ、本稿で紹介する。 これらのタスクは、高次元のOAM絡み合った状態でのみ実装できる。 実際、軌道角運動量状態の雇用は、リソース集約型である絡み合った状態測定の必要性をなくすことを示している。 本研究は,多次元oam状態が不可欠な資源として機能する複数の量子情報処理タスクを設計する可能性を開くものである。

Quantum key distribution protocols have been designed for layered networks employing multidimensional entangled and separable orbital angular momentum states [Phys. Rev. A 97, 032312 (2018), Int. J. Theor. Phys. 62, 104 (2023)]. This paper seeks an answer to the overarching question -- in the context of secure quantum communication tasks, do orbital angular momentum states act merely as an alternative or do they act as an indispensable resource? We start by showing that the task of quantum key distribution in layered networks can also be accomplished with several copies of lower-dimensional states such as polarization qubits. For this reason, orbital angular momentum states do not offer any intrinsic advantage in layered quantum key distribution. The potential of OAM states unveils itself in the enhancement of key generation rates and integrated quantum communication tasks, which we present in this paper. These tasks can be implemented exclusively with high-dimensional OAM entangled states. In fact, we show that the employment of orbital angular momentum states eliminates the need for entangled state measurements, whose implementation is resource-intensive. We believe that this study opens up a possibility for designing several quantum information processing tasks in which multidimensional OAM states act as an indispensable resource.
翻訳日:2023-10-05 05:09:49 公開日:2023-09-30
# アンロックバイアス検出:コンテンツ分析のためのトランスフォーマーモデルを活用する

Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis ( http://arxiv.org/abs/2310.00347v1 )

ライセンス: Link先を確認
Shaina Raza, Oluwanifemi Bamgbose, Veronica Chatrath, Yan Sidyakin, Shardul Ghuge, Abdullah Y Muaad(参考訳) テキストのバイアスを検出することは、有害なステレオタイプを永続させ、誤情報を広げ、意思決定に影響を与える可能性があるために重要である。 既存の言語モデルは、トレーニングデータ以上の一般化に苦慮することが多い。 この課題に対処するために,コンテキストトランスとエンティティトランスという2つの相互接続トランスネットワークを利用して,テキストのバイアスを検出するcbdt(contextized bi-directional dual transformer)分類器を提案する。 多様なデータセットに対する実験結果は、偏りのある文や非偏りのある文を正確に分類し、特定の偏りのある単語やフレーズを識別するCBDT分類器の優位性を示す。 ベースラインよりも約2~4%のパフォーマンス向上が得られます。 将来の研究は、モデルを異なる言語と文化的文脈に拡張できる

Detecting bias in text is crucial due to its potential implications in perpetuating harmful stereotypes, spreading misinformation, and influencing decision-making. Existing language models often struggle to generalize beyond their training data. To address this challenge, we propose the Contextualized Bi-Directional Dual Transformer (CBDT) Classifier that leverages two interconnected transformer networks, the Context Transformer and the Entity Transformer, to detect bias in text. Experimental results on diverse datasets demonstrate the superiority of the CBDT classifier in accurately classifying biased and non-biased sentences, as well as identifying specific biased words and phrases. We get a performance gain of about 2-4% over the baselines. Future research can extend the model to different languages and cultural contexts
翻訳日:2023-10-05 05:01:12 公開日:2023-09-30
# インテリジェンスを用いた新しい垂直および水平iotアプリケーションの開発

Fostering new Vertical and Horizontal IoT Applications with Intelligence Everywhere ( http://arxiv.org/abs/2310.00346v1 )

ライセンス: Link先を確認
Hung Cao, Monica Wachowicz, Rene Richard, Ching-Hsien Hsu(参考訳) intelligence everywhereは、分散機械学習モデルのオーケストレーションに依存するエッジ・ツー・クラウド連続体を通じて、大量のデータストリームを多くのコンピューティングリソースに輸送するiotネットワークのシームレスな統合を前提としている。 その結果は、デバイス、システム、サービス、ユーザが協力してIoTアプリケーションをサポートする、相互接続された、集合的なインテリジェントなエコシステムになります。 本稿では、知的社会の文脈における、デジタルヘルス、インフラストラクチャー、トランスポーテーション/モビリティといった垂直分野におけるIoTアプリケーションを強化するための、最先端の研究と、インテリジェンス・エベレスト・フレームワークの原則について論じる(Society 5.0)。 また、さまざまなIoTネットワーク上で動作し、さまざまな分野にわたる集合的インテリジェンスを育むことができる水平IoTアプリケーションを開発するための、新たな視点も導入されている。 最後に、リアルタイムの洞察から集合的知識を活用するための課題と機会に関する総合的な洞察を提供し、最適化されたプロセスにつながり、さまざまなiot分野にわたる全体的なコラボレーションを改善する。

Intelligence Everywhere is predicated on the seamless integration of IoT networks transporting a vast amount of data streams through many computing resources across an edge-to-cloud continuum, relying on the orchestration of distributed machine learning models. The result is an interconnected and collective intelligent ecosystem where devices, systems, services, and users work together to support IoT applications. This paper discusses the state-of-the-art research and the principles of the Intelligence Everywhere framework for enhancing IoT applications in vertical sectors such as Digital Health, Infrastructure, and Transportation/Mobility in the context of intelligent society (Society 5.0). It also introduces a novel perspective for the development of horizontal IoT applications, capable of running across various IoT networks while fostering collective intelligence across diverse sectors. Finally, this paper provides comprehensive insights into the challenges and opportunities for harnessing collective knowledge from real-time insights, leading to optimised processes and better overall collaboration across different IoT sectors.
翻訳日:2023-10-05 05:00:55 公開日:2023-09-30
# Harmony World Models: モデルベース強化学習におけるサンプル効率の向上

Harmony World Models: Boosting Sample Efficiency for Model-based Reinforcement Learning ( http://arxiv.org/abs/2310.00344v1 )

ライセンス: Link先を確認
Haoyu Ma, Jialong Wu, Ningya Feng, Jianmin Wang, Mingsheng Long(参考訳) モデルベース強化学習(MBRL)は、環境がどのように機能するかをモデル化し、典型的には2つのタスク、すなわち観察モデリングと報酬モデリングを包含する世界モデルを活用することで、サンプル効率の学習を約束する。 本稿では,世界モデルにおいて各タスクが果たす役割を深く理解し,観察と報酬モデリングの干渉を調和させることにより,より効率的なMBRLの可能性を明らかにする。 我々の重要な洞察は、明示的なMBRLの一般的なアプローチは、観測モデルを通して環境の豊富な詳細を復元しようとするが、環境の複雑さと限られたモデル容量のために困難であるということである。 一方で、暗黙のmbrlで支配し、タスク中心のダイナミクスの学習に長けている報酬モデルは、よりリッチな学習信号なしでサンプル効率のよい学習には不十分である。 これらの知見と発見を活かし、世界モデル学習における2つのタスク間の動的均衡を維持するための軽量調和器を導入する、単純で効果的なharmonywm(harmonywm)を提案する。 3つの視覚制御領域に対する実験により, HarmonyWM をベースとした MBRL 法では, 絶対性能が10%-55% 向上した。

Model-based reinforcement learning (MBRL) holds the promise of sample-efficient learning by utilizing a world model, which models how the environment works and typically encompasses components for two tasks: observation modeling and reward modeling. In this paper, through a dedicated empirical investigation, we gain a deeper understanding of the role each task plays in world models and uncover the overlooked potential of more efficient MBRL by harmonizing the interference between observation and reward modeling. Our key insight is that while prevalent approaches of explicit MBRL attempt to restore abundant details of the environment through observation models, it is difficult due to the environment's complexity and limited model capacity. On the other hand, reward models, while dominating in implicit MBRL and adept at learning task-centric dynamics, are inadequate for sample-efficient learning without richer learning signals. Capitalizing on these insights and discoveries, we propose a simple yet effective method, Harmony World Models (HarmonyWM), that introduces a lightweight harmonizer to maintain a dynamic equilibrium between the two tasks in world model learning. Our experiments on three visual control domains show that the base MBRL method equipped with HarmonyWM gains 10%-55% absolute performance boosts.
翻訳日:2023-10-05 05:00:34 公開日:2023-09-30
# RGB-Dオブジェクト検出のためのRBF重み付きハイパーインボリューション

RBF Weighted Hyper-Involution for RGB-D Object Detection ( http://arxiv.org/abs/2310.00342v1 )

ライセンス: Link先を確認
Mehfuz A Rahman, Jiju Peethambaran, Neil London(参考訳) 従来の拡張現実デバイスのほとんどは深度センサーを搭載している。 このようなセンサによって生成された深度画像は、カラー画像を使用する際に、オブジェクト検出のための補完情報を含む。 この利点にもかかわらず、深度画像と色画像の即時差により、光度と深度の特徴をリアルタイムで抽出する作業は、依然として複雑である。 さらに、標準畳み込み演算は、非効率な深さの中間表現につながる生深度画像から直接情報を抽出するのに十分ではない。 この問題に対処するために,リアルタイムと2つのストリームrgbdオブジェクト検出モデルを提案する。 提案モデルでは,生深度マップの空間的相互作用パターンに基づいて動的に適応する深度誘導ハイパーインボリューションと,抽出した深度とカラー画像の特徴を組み合わせたアップサンプリングに基づくトレーニング可能な融合層とを,情報伝達をブロックすることなく構成する。 提案モデルは,NYU Depth v2データセットで他のRGB-Dベースオブジェクト検出モデルよりも優れており,SUN RGB-Dで比較した(第2位)結果が得られることを示す。 さらに,提案モデルが他のモデルより優れる屋外RGB-Dオブジェクト検出データセットを導入する。 CADモデルと画像から生成した多様な合成データの性能評価は,拡張現実に基づくアプリケーションに適用可能なモデルの可能性を示している。

A vast majority of conventional augmented reality devices are equipped with depth sensors. Depth images produced by such sensors contain complementary information for object detection when used with color images. Despite the benefits, it remains a complex task to simultaneously extract photometric and depth features in real time due to the immanent difference between depth and color images. Moreover, standard convolution operations are not sufficient to properly extract information directly from raw depth images leading to intermediate representations of depth which is inefficient. To address these issues, we propose a real-time and two stream RGBD object detection model. The proposed model consists of two new components: a depth guided hyper-involution that adapts dynamically based on the spatial interaction pattern in the raw depth map and an up-sampling based trainable fusion layer that combines the extracted depth and color image features without blocking the information transfer between them. We show that the proposed model outperforms other RGB-D based object detection models on NYU Depth v2 dataset and achieves comparable (second best) results on SUN RGB-D. Additionally, we introduce a new outdoor RGB-D object detection dataset where our proposed model outperforms other models. The performance evaluation on diverse synthetic data generated from CAD models and images shows the potential of the proposed model to be adapted to augmented reality based applications.
翻訳日:2023-10-05 05:00:10 公開日:2023-09-30
# 位相変化記憶型アナログハードウェアにおける重みの自己補正を容易にするディープニューラルネットワークの量子化

Quantization of Deep Neural Networks to facilitate self-correction of weights on Phase Change Memory-based analog hardware ( http://arxiv.org/abs/2310.00337v1 )

ライセンス: Link先を確認
Arseni Ivanov(参考訳) 近年、ハードウェアアクセラレーションによるニューラルネットワークがエッジコンピューティングアプリケーションで注目を集めている。 様々なハードウェアオプションのうち、クロスバーアレイは、ニューラルネットワーク重みの効率的なストレージと操作のための有望な手段を提供する。 しかし、訓練済み浮動小数点モデルからハードウェア制約付きアナログアーキテクチャへの移行は依然として課題である。 本研究では,このようなアーキテクチャを念頭に設計された量子化手法と,新しい自己補正機構を組み合わせる。 重みの正と負の両方を表現するために二重クロスバー接続を利用することにより,乗法重みの組を近似するアルゴリズムを開発した。 これらの重みは、それらの違いとともに、元のネットワークの重みを表し、パフォーマンスの損失を最小限に抑えることを目的としている。 我々は,IBMのaihwkitを用いてモデルを実装し,その有効性を評価する。 その結果、オンチップパルス発生器と組み合わせると、私たちの自己補正ニューラルネットワークはアナログ認識アルゴリズムで訓練されたものと同等に機能することがわかった。

In recent years, hardware-accelerated neural networks have gained significant attention for edge computing applications. Among various hardware options, crossbar arrays, offer a promising avenue for efficient storage and manipulation of neural network weights. However, the transition from trained floating-point models to hardware-constrained analog architectures remains a challenge. In this work, we combine a quantization technique specifically designed for such architectures with a novel self-correcting mechanism. By utilizing dual crossbar connections to represent both the positive and negative parts of a single weight, we develop an algorithm to approximate a set of multiplicative weights. These weights, along with their differences, aim to represent the original network's weights with minimal loss in performance. We implement the models using IBM's aihwkit and evaluate their efficacy over time. Our results demonstrate that, when paired with an on-chip pulse generator, our self-correcting neural network performs comparably to those trained with analog-aware algorithms.
翻訳日:2023-10-05 04:59:21 公開日:2023-09-30
# DURENDAL:時間的異種ネットワークのためのグラフ深層学習フレームワーク

DURENDAL: Graph deep learning framework for temporal heterogeneous networks ( http://arxiv.org/abs/2310.00336v1 )

ライセンス: Link先を確認
Manuel Dileo, Matteo Zignani and Sabrina Gaito(参考訳) 時間的異種ネットワーク(THN)は、引用やイベントネットワーク、レコメンダシステム、知識グラフなど、多くの現実世界の応用を特徴付ける進化型ネットワークである。 異なるグラフニューラルネットワーク(GNN)が動的グラフにうまく適用されているが、そのほとんどは同種グラフをサポートしていないか、特定のTHN予測タスクに大きく影響されたモデル設計に悩まされている。 さらに、現在の標準グラフベンチマークデータセットには、時間的ヘテロジニアスなネットワークデータが欠如している。 そこで本研究では,THNのためのグラフ深層学習フレームワークであるDURENDALを提案する。 DURENDALは、スナップショットベースとマルチリレーショナルなメッセージパッシンググラフ学習モデルの設計原則を組み合わせることで、異種グラフ学習モデルを進化するネットワークに容易に再利用することができる。 thnの埋め込み表現を更新するための2つの異なるスキームを導入し、両方の戦略の長所と短所について論じる。 また,新たなWeb3プラットフォームと確立されたeコマースWebサイトから得られた2つの新しい高分解能時間的異種グラフデータセットを導入することで,TNHのベンチマークも拡張する。 全体として,データの進化的性質を考慮した評価設定において,将来のリンク予測タスクにおける4つの時間的異種ネットワークデータセットに対するフレームワークの実験的評価を行った。 実験では、DURENDALの予測能力と、進化と動的グラフに対する現在の解、およびモデル設計の有効性を示す。

Temporal heterogeneous networks (THNs) are evolving networks that characterize many real-world applications such as citation and events networks, recommender systems, and knowledge graphs. Although different Graph Neural Networks (GNNs) have been successfully applied to dynamic graphs, most of them only support homogeneous graphs or suffer from model design heavily influenced by specific THNs prediction tasks. Furthermore, there is a lack of temporal heterogeneous networked data in current standard graph benchmark datasets. Hence, in this work, we propose DURENDAL, a graph deep learning framework for THNs. DURENDAL can help to easily repurpose any heterogeneous graph learning model to evolving networks by combining design principles from snapshot-based and multirelational message-passing graph learning models. We introduce two different schemes to update embedding representations for THNs, discussing the strengths and weaknesses of both strategies. We also extend the set of benchmarks for TNHs by introducing two novel high-resolution temporal heterogeneous graph datasets derived from an emerging Web3 platform and a well-established e-commerce website. Overall, we conducted the experimental evaluation of the framework over four temporal heterogeneous network datasets on future link prediction tasks in an evaluation setting that takes into account the evolving nature of the data. Experiments show the prediction power of DURENDAL compared to current solutions for evolving and dynamic graphs, and the effectiveness of its model design.
翻訳日:2023-10-05 04:59:06 公開日:2023-09-30
# 生成型逆ネットワークを用いた発電プラントの異常検出

Anomaly Detection in Power Generation Plants with Generative Adversarial Networks ( http://arxiv.org/abs/2310.00335v1 )

ライセンス: Link先を確認
Marcellin Atemkeng and Toheeb Aduramomi Jimoh(参考訳) 異常検出は、事前に定義されたパターンから逸脱するデータポイントの識別を含む重要なタスクであり、不正検出や関連する活動に役立ちます。 異常検出には様々な手法が用いられているが、近年の研究により、複雑なデータパターンを識別する深層学習手法が好適であることが示されている。 本研究では, 発電プラントの異常検出にGAN(Generative Adversarial Networks)を用いることを検討した。 本研究で使用するデータセットは、電気通信会社が運用する発電プラントから取得した燃料消費記録を含む。 このデータは当初、同社の基地局にある発電装置の燃料消費パターンの異常が観測されたことに反応して収集された。 データセットは、特定の変数に基づいて異常と通常のデータポイントに分割され、64.88%が正常、35.12%が異常に分類された。 ランダム森林分類器を用いた特徴量分析の結果,ランニングタイム・パー・デイが最も重要であったことが明らかとなった。 GANsモデルは、データセットのサイズを拡大してパフォーマンスを向上させることを目的として、データ拡張と不要の両方でトレーニングされ、微調整された。 生成器モデルは,tanh活性化関数を用いた5層密集層で構成され,判別器は6層密集層で構成された。 データ拡張後、モデルは98.99%の精度を達成し、拡張前の66.45%と比較した。 このことは, モデルがほぼ完全に分類されたデータから, 異常検出におけるGANの性能を著しく向上させ, 正常, 異常なカテゴリを指していることを示している。 そこで本研究では,特に大規模データセットを効果的に検出するためのGANの使用を推奨する。

Anomaly detection is a critical task that involves the identification of data points that deviate from a predefined pattern, useful for fraud detection and related activities. Various techniques are employed for anomaly detection, but recent research indicates that deep learning methods, with their ability to discern intricate data patterns, are well-suited for this task. This study explores the use of Generative Adversarial Networks (GANs) for anomaly detection in power generation plants. The dataset used in this investigation comprises fuel consumption records obtained from power generation plants operated by a telecommunications company. The data was initially collected in response to observed irregularities in the fuel consumption patterns of the generating sets situated at the company's base stations. The dataset was divided into anomalous and normal data points based on specific variables, with 64.88% classified as normal and 35.12% as anomalous. An analysis of feature importance, employing the random forest classifier, revealed that Running Time Per Day exhibited the highest relative importance. A GANs model was trained and fine-tuned both with and without data augmentation, with the goal of increasing the dataset size to enhance performance. The generator model consisted of five dense layers using the tanh activation function, while the discriminator comprised six dense layers, each integrated with a dropout layer to prevent overfitting. Following data augmentation, the model achieved an accuracy rate of 98.99%, compared to 66.45% before augmentation. This demonstrates that the model nearly perfectly classified data points into normal and anomalous categories, with the augmented data significantly enhancing the GANs' performance in anomaly detection. Consequently, this study recommends the use of GANs, particularly when using large datasets, for effective anomaly detection.
翻訳日:2023-10-05 04:58:39 公開日:2023-09-30
# MFLデータ前処理とCNNに基づくパイプライン欠陥検出

MFL Data Preprocessing and CNN-based Oil Pipeline Defects Detection ( http://arxiv.org/abs/2310.00332v1 )

ライセンス: Link先を確認
Iurii Katser, Vyacheslav Kozitsin, Igor Mozolin(参考訳) 近年,いくつかの産業分野でコンピュータビジョンの異常検出への応用が注目されている。 重要な例は石油パイプラインの欠陥検出である。 1つのパイプラインの故障は、輸送システム全体の運用を中断したり、広範囲の故障を引き起こす可能性がある。 自動欠陥検出は検査時間と関連するコストを大幅に削減する可能性がある。 しかし、この課題に対処する上では、関連文献にギャップがある。 既存の研究は、磁束漏洩データと、利用可能なデータによって設定される制限を克服できる前処理技術の研究を十分にカバーしていない。 この仕事はこれらの問題を緩和することに焦点を当てている。 さらに,近年の畳み込みニューラルネットワーク構造を利用して,関連する指標を考慮に入れた高性能化を目指して,堅牢なアプローチを提案する。 提案手法と適用性は実世界データを用いて検証した。

Recently, the application of computer vision for anomaly detection has been under attention in several industrial fields. An important example is oil pipeline defect detection. Failure of one oil pipeline can interrupt the operation of the entire transportation system or cause a far-reaching failure. The automated defect detection could significantly decrease the inspection time and the related costs. However, there is a gap in the related literature when it comes to dealing with this task. The existing studies do not sufficiently cover the research of the Magnetic Flux Leakage data and the preprocessing techniques that allow overcoming the limitations set by the available data. This work focuses on alleviating these issues. Moreover, in doing so, we exploited the recent convolutional neural network structures and proposed robust approaches, aiming to acquire high performance considering the related metrics. The proposed approaches and their applicability were verified using real-world data.
翻訳日:2023-10-05 04:58:10 公開日:2023-09-30
# 修正3dプリンタを用いた超伝導量子ビット自動キャラクタリゼーションプラットフォーム

Automated Superconducting Qubit Characterisation Platform Based on a Modified 3D Printer ( http://arxiv.org/abs/2310.00331v1 )

ライセンス: Link先を確認
Haochen Li, Soe Gon Yee Thant, Rainer Dumke(参考訳) ジョセフソン接合は超伝導量子ビットの重要な構成要素である。 量子ビットのエネルギーレベル間隔にアンハーモニック性を導入し、2つのユニークな量子エネルギー状態の計算を可能にする。 同じ所望のパラメータの範囲内で複数のジャンクションを作るのは難しい。 したがって、接合のキャラクタリゼーションは製造後の必要なステップである。 特に、接合の臨界電流は、それらの正常状態抵抗を測定することによって決定される。 これは、特にウェハスケールの製造において、時間を要する手動プローブステーションでの2点または4点抵抗測定によって行われる。 このボトルネックは、オブジェクト検出による自動化によって回避できる。 自動プローブステーションのベースは、複数のarduino unoマイクロコントローラと電動リニアステージを備えた3dプリンタである。 自動化プロセスは、プローブの自動アライメントと自動測定手順によって達成される。 その結果、完全に自動化されたプロセスは、1つの接合の抵抗を測定するのに約27-29秒かかり、これは手動のプローブステーションと比較して28-51%の時間を節約し、教師なしである。 商用3Dプリンターの再利用により、このシステムのコストは800 SGDであり、同等の商用ソリューションよりもはるかに少ない。

Josephson Junctions are important components in superconducting qubits. It introduces anharmonicity to the energy level spacings of the qubit which allow us to identify two unique quantum energy states for computing. It is difficult to fabricate multiple junctions within the same desired parameter range. Characterisation of the junctions is, therefore, a necessary step after fabrication. In particular, the critical current of the junctions is determined by measuring their normal state resistance. This is done via two-point or four-point resistance measurement at a manual probe station which is a time-consuming process, especially for wafer-scale fabrication. This bottleneck can be circumvented by automation with object detection. The base of the automated probe station is a 3D printer modified with multiple Arduino Uno microcontrollers and motorised linear stages. The automation process is achieved via auto-alignment of the probes and an automatic measurement procedure. As a result, the fully automated process will take about 27-29 seconds to measure the resistance of one junction which saves 28-51% of the time compared to the manual probe station and can be unsupervised. Due to the reuse of a commercial 3D printer, the cost of this system is 800 SGD which is much less than comparable commercial solutions.
翻訳日:2023-10-05 04:57:58 公開日:2023-09-30
# 近赤外域における電磁真空の3次非線形相関

Third order nonlinear correlation of the electromagnetic vacuum at near-infrared frequencies ( http://arxiv.org/abs/2310.00364v1 )

ライセンス: Link先を確認
Francesca Fabiana Settembrini, Alexa Herter, J\`er\^ome Faist(参考訳) 近年、電磁モードと位相整合型超短パルスプローブとの間のポッケル効果に基づく電気光学サンプリングが、特に中赤外およびテラヘルツ周波数範囲における光の広帯域量子状態の研究に広く用いられている。 近赤外線周波数での2つの遅延フェムト秒パルスの使用により、異なる時空点における量子電磁放射の測定が可能となる。 これらの相関により、フーリエ変換後のテラヘルツ周波数における広帯域量子状態のスペクトルコンテンツに直接アクセスすることができる。 本研究では, 強集束コヒーレント型超短絡プローブを用いた場合, 近赤外帯におけるプローブの電界の3次非線形混合の存在によって, 電気光学サンプリング技術が影響を受けることを実験的, 理論的に証明する。 さらに、これらの3階非線形現象は、量子電磁放射の相関測定にも影響を及ぼすことを示す。 我々は、コヒーレントプローブの電場と電磁真空の近赤外周波数での4波混合により、高次非線形相関項が生成されることを証明する。 後者は実験的に特徴づけられ、2つのプローブの物理的重複を必要とする局所的性質が証明される。 テラヘルツ放射の電気光学的相関に対して高次非線形相関が支配的なパラメータ構造を提供する。

In recent years, electro-optic sampling, which is based on Pockel's effect between an electromagnetic mode and a copropagating, phase-matched ultrashort probe, has been largely used for the investigation of broadband quantum states of light, especially in the mid-infrared and terahertz frequency range. The use of two mutually delayed femtosecond pulses at near-infrared frequencies allows the measurement of quantum electromagnetic radiation in different space-time points. Their correlation allows therefore direct access to the spectral content of a broadband quantum state at terahertz frequencies after Fourier transformation. In this work, we will prove experimentally and theoretically that when using strongly focused coherent ultrashort probes, the electro-optic sampling technique can be affected by the presence of a third-order nonlinear mixing of the probes' electric field at near-infrared frequencies. Moreover, we will show that these third-order nonlinear phenomena can also influence correlation measurements of the quantum electromagnetic radiation. We will prove that the four-wave mixing of the coherent probes' electric field with their own electromagnetic vacuum at near-infrared frequencies results in the generation of a higher-order nonlinear correlation term. The latter will be characterized experimentally, proving its local nature requiring the physical overlap of the two probes. The parameters regime where higher order nonlinear correlation results predominant with respect to electro-optic correlation of terahertz radiation is provided.
翻訳日:2023-10-05 04:51:56 公開日:2023-09-30
# 曖昧性を考慮した逆レンダリングのための拡散後方照明

Diffusion Posterior Illumination for Ambiguity-aware Inverse Rendering ( http://arxiv.org/abs/2310.00362v1 )

ライセンス: Link先を確認
Linjie Lyu, Ayush Tewari, Marc Habermann, Shunsuke Saito, Michael Zollh\"ofer, Thomas Leimk\"uhler, and Christian Theobalt(参考訳) 画像からシーン特性を推定する逆レンダリングは、困難な逆問題である。 多くの異なるシーン構成が同じイメージを生み出す可能性があるため、タスクは不適切です。 既存のほとんどのソリューションは、可算解を促進するために、事前を逆レンダリングパイプラインに組み込むが、それらは固有の曖昧さや可能な分解のマルチモーダル分布を考慮しない。 本研究では,自然照明マップ上で事前学習した拡散確率モデルを,微分可能な経路トレーサを含む最適化フレームワークに統合する手法を提案する。 提案手法では, 画像観察を自然かつ説明し, 照明と空間変動した表面材料の組み合わせからサンプリングすることが可能である。 さらに、従来の逆レンダリングにおける照明に関する様々な先行について広範な比較研究を行う。 本手法は, 画像の照度を忠実に説明できる, 素材の回収と, 環境マップの高現実的, 多様なサンプルの作成に優れる。

Inverse rendering, the process of inferring scene properties from images, is a challenging inverse problem. The task is ill-posed, as many different scene configurations can give rise to the same image. Most existing solutions incorporate priors into the inverse-rendering pipeline to encourage plausible solutions, but they do not consider the inherent ambiguities and the multi-modal distribution of possible decompositions. In this work, we propose a novel scheme that integrates a denoising diffusion probabilistic model pre-trained on natural illumination maps into an optimization framework involving a differentiable path tracer. The proposed method allows sampling from combinations of illumination and spatially-varying surface materials that are, both, natural and explain the image observations. We further conduct an extensive comparative study of different priors on illumination used in previous work on inverse rendering. Our method excels in recovering materials and producing highly realistic and diverse environment map samples that faithfully explain the illumination of the input images.
翻訳日:2023-10-05 04:51:36 公開日:2023-09-30
# 射影量子核のトレーニング性に及ぼす交互層状アンサーゼの影響

Effect of alternating layered ansatzes on trainability of projected quantum kernel ( http://arxiv.org/abs/2310.00361v1 )

ライセンス: Link先を確認
Yudai Suzuki, Muyuan Li(参考訳) 量子カーネル法は、機械学習タスクにおける量子優位性の可能性のため、理論的および実践的な観点から積極的に検討されている。 特定の問題に対する微調整量子カーネルの証明可能な利点にもかかわらず、量子カーネル法を広く実用化するには、いわゆる消滅する類似性の問題を解決する必要がある。 本研究では,交互に層状アンサtzeを持つ投影量子カーネルにおける消滅する類似性の問題について解析的および数値的に検討する。 回路の深さ, 局所的なユニタリブロックの大きさ, 初期状態に依存することが判明し, 浅い交互層状アンサーゼを用い, 初期状態が強く絡み合っていない場合, 問題は回避可能であることを示す。 我々の研究は、投影量子カーネルの設計原理に関する洞察を提供し、量子カーネルベースの学習モデルへの入力として高度に絡み合った状態を使用する場合の注意の必要性を示唆する。

Quantum kernel methods have been actively examined from both theoretical and practical perspectives due to the potential of quantum advantage in machine learning tasks. Despite a provable advantage of fine-tuned quantum kernels for specific problems, widespread practical usage of quantum kernel methods requires resolving the so-called vanishing similarity issue, where exponentially vanishing variance of the quantum kernels causes implementation infeasibility and trainability problems. In this work, we analytically and numerically investigate the vanishing similarity issue in projected quantum kernels with alternating layered ansatzes. We find that variance depends on circuit depth, size of local unitary blocks and initial state, indicating the issue is avoidable if shallow alternating layered ansatzes are used and initial state is not highly entangled. Our work provides some insights into design principles of projected quantum kernels and implies the need for caution when using highly entangled states as input to quantum kernel-based learning models.
翻訳日:2023-10-05 04:51:20 公開日:2023-09-30
# 深部情報分解によるクロスデータセットディープフェイク検出の改善

Improving Cross-dataset Deepfake Detection with Deep Information Decomposition ( http://arxiv.org/abs/2310.00359v1 )

ライセンス: Link先を確認
Shanmin Yang, Shu Hu, Bin Zhu, Ying Fu, Siwei Lyu, Xi Wu, Xin Wang(参考訳) ディープフェイク技術は、セキュリティと社会的信頼に大きな脅威をもたらす。 既存の検出方法は、トレーニングやテストに同じテクニックを使用してデータセット内の偽造を識別する上で高いパフォーマンスを示しているが、見当たらないdeepfakeテクニックをテストするクロスデータセットシナリオに直面すると、パフォーマンスが著しく低下する。 この課題に対処するため,本稿では,深層情報分解(DID)フレームワークを提案する。 既存のdeepfake検出手法とは異なり、フレームワークはビジュアルアーティファクトよりもハイレベルなセマンティクス機能を優先しています。 具体的には、顔の特徴をディープフェイク関連および無関係な情報に分解し、リアル/フェイク識別のためのディープフェイク情報を他の要因とは独立に最適化する。 提案手法は,無関係な情報変化に対するディープフェイク検出の堅牢性を向上し,未知の偽造法を検出するフレームワークの一般化能力を向上する。 既存の最先端検出手法との比較により, クロスデータセット深度検出におけるDIDフレームワークの有効性と優位性を検証した。

Deepfake technology poses a significant threat to security and social trust. Although existing detection methods have demonstrated high performance in identifying forgeries within datasets using the same techniques for training and testing, they suffer from sharp performance degradation when faced with cross-dataset scenarios where unseen deepfake techniques are tested. To address this challenge, we propose a deep information decomposition (DID) framework in this paper. Unlike most existing deepfake detection methods, our framework prioritizes high-level semantic features over visual artifacts. Specifically, it decomposes facial features into deepfake-related and irrelevant information and optimizes the deepfake information for real/fake discrimination to be independent of other factors. Our approach improves the robustness of deepfake detection against various irrelevant information changes and enhances the generalization ability of the framework to detect unseen forgery methods. Extensive experimental comparisons with existing state-of-the-art detection methods validate the effectiveness and superiority of the DID framework on cross-dataset deepfake detection.
翻訳日:2023-10-05 04:51:02 公開日:2023-09-30
# 自己教師付き表現学習のための構造的敵意

Structural Adversarial Objectives for\\Self-Supervised Representation Learning ( http://arxiv.org/abs/2310.00357v1 )

ライセンス: Link先を確認
Xiao Zhang, Michael Maire(参考訳) 我々は,gans(generative adversarial networks)の枠組みの中で,自己教師あり表現学習のための識別子を付加的な構造的モデリング責任を通じてタスクする目的を提案する。 ネットワーク上の効率的なスムーズな正規化器と組み合わせて、これらの目的は、ドメインからサンプリング可能なジェネレータを維持しながら、識別器に情報表現を抽出することを学ぶ。 具体的には, 識別者に対して, 平均分布や分散分布などの分布特性を粗いスケールで調整し, 細かなスケールで局所クラスタに分類する, という2段階の粒度で特徴を構造化することを奨励する。 GANフレームワーク内の機能学習者としての運用は、コントラストのある表現学習方法にまたがる手作りのデータ拡張スキームへの依存から、自己管理システムを解放する。 CIFAR-10/100 と ImageNet のサブセットを通じて、GAN を自己指導対象に合わせることで、表現学習の観点から評価された差別化要因が、対照的な学習アプローチによって訓練されたネットワークと競合することを示す。

Within the framework of generative adversarial networks (GANs), we propose objectives that task the discriminator for self-supervised representation learning via additional structural modeling responsibilities. In combination with an efficient smoothness regularizer imposed on the network, these objectives guide the discriminator to learn to extract informative representations, while maintaining a generator capable of sampling from the domain. Specifically, our objectives encourage the discriminator to structure features at two levels of granularity: aligning distribution characteristics, such as mean and variance, at coarse scales, and grouping features into local clusters at finer scales. Operating as a feature learner within the GAN framework frees our self-supervised system from the reliance on hand-crafted data augmentation schemes that are prevalent across contrastive representation learning methods. Across CIFAR-10/100 and an ImageNet subset, experiments demonstrate that equipping GANs with our self-supervised objectives suffices to produce discriminators which, evaluated in terms of representation learning, compete with networks trained by contrastive learning approaches.
翻訳日:2023-10-05 04:50:44 公開日:2023-09-30
# 学習者の視線駆動文の簡易化:理解と可読性の向上

Gaze-Driven Sentence Simplification for Language Learners: Enhancing Comprehension and Readability ( http://arxiv.org/abs/2310.00355v1 )

ライセンス: Link先を確認
Taichi Higasa, Keitaro Tanaka, Qi Feng, Shigeo Morishima(参考訳) 言語学習者は、学習ルーチンの一部として、挑戦的な資料を読むことに従事するべきである。 それでも辞書を常に参照することは時間と注意をそらす。 本稿では,コンテンツに焦点をあてつつ,読みやすさを高めるために,新しい視線駆動文簡略化システムを提案する。 本システムでは、個々の学習者に適した機械学習モデルを導入し、視線特徴と言語特徴を組み合わせて文理解を評価する。 システムが理解の困難を識別すると、複雑な語彙や文法をgpt-3.5経由でより単純な代替語に置き換え、単純化されたバージョンを提供する。 19名の英語学習者を対象に,英語テキストを読みながら眼球運動のデータ収集実験を行った。 その結果,本システムは文レベルの理解を正確に推定できることがわかった。 さらに,gpt-3.5の簡易化により,従来の可読性指標や個々の単語難易度の観点からの可読性が向上した。

Language learners should regularly engage in reading challenging materials as part of their study routine. Nevertheless, constantly referring to dictionaries is time-consuming and distracting. This paper presents a novel gaze-driven sentence simplification system designed to enhance reading comprehension while maintaining their focus on the content. Our system incorporates machine learning models tailored to individual learners, combining eye gaze features and linguistic features to assess sentence comprehension. When the system identifies comprehension difficulties, it provides simplified versions by replacing complex vocabulary and grammar with simpler alternatives via GPT-3.5. We conducted an experiment with 19 English learners, collecting data on their eye movements while reading English text. The results demonstrated that our system is capable of accurately estimating sentence-level comprehension. Additionally, we found that GPT-3.5 simplification improved readability in terms of traditional readability metrics and individual word difficulty, paraphrasing across different linguistic levels.
翻訳日:2023-10-05 04:50:23 公開日:2023-09-30
# AI-Dentify: 噛みつくX線による近位線検出のための深層学習 -- HUNT4経口健康研究

AI-Dentify: Deep learning for proximal caries detection on bitewing x-ray -- HUNT4 Oral Health Study ( http://arxiv.org/abs/2310.00354v1 )

ライセンス: Link先を確認
Javier P\'erez de Frutos, Ragnhild Holden Helland, Shreya Desai, Line Cathrine Nymoen, Thomas Lang{\o}, Theodor Remman, Abhijit Sen(参考訳) 背景: デンタル・カリーズ診断では, 患者の咬合像を手作業で検査し, 目視検査を行い, 潜在的な病変を指摘し, 臨床検査を行った。 しかし、人工知能の使用、特にディープラーニングは、噛まれた画像の迅速かつ情報的な分析を提供することで、診断を助ける可能性がある。 方法: HUNT4 Oral Health Studyの13,887個の噛み付きデータセットを6つの専門家によって個別に注釈付けし、RetinaNet(ResNet50)、YOLOv5(Mサイズ)、EfficientDet(D0とD1サイズ)という3つの異なるオブジェクト検出ディープラーニングアーキテクチャをトレーニングした。 同じ6人の歯科医が共同で注釈を付けた197枚の画像のコンセンサスデータセットを用いて評価を行った。 AIモデルの性能を評価するために、5倍のクロスバリデーションスキームが用いられた。 結果: 訓練したモデルでは, 歯科臨床医に対して, 平均精度, f1スコア, 偽陰性率の低下がみられた。 3つのアーキテクチャのうち、YOLOv5は最大の改善を示し、平均精度0.647、F1スコア0.548、偽陰率0.149を報告している。 それぞれの指標の注釈は0.299, 0.495, 0.164であった。 結論: 深層学習モデルは, ケーリーの診断において歯科専門医を支援する可能性を示している。 しかし、その作業は噛み付くのに自然な人工物のため、依然として挑戦的だ。

Background: Dental caries diagnosis requires the manual inspection of diagnostic bitewing images of the patient, followed by a visual inspection and probing of the identified dental pieces with potential lesions. Yet the use of artificial intelligence, and in particular deep-learning, has the potential to aid in the diagnosis by providing a quick and informative analysis of the bitewing images. Methods: A dataset of 13,887 bitewings from the HUNT4 Oral Health Study were annotated individually by six different experts, and used to train three different object detection deep-learning architectures: RetinaNet (ResNet50), YOLOv5 (M size), and EfficientDet (D0 and D1 sizes). A consensus dataset of 197 images, annotated jointly by the same six dentist, was used for evaluation. A five-fold cross validation scheme was used to evaluate the performance of the AI models. Results: the trained models show an increase in average precision and F1-score, and decrease of false negative rate, with respect to the dental clinicians. Out of the three architectures studied, YOLOv5 shows the largest improvement, reporting 0.647 mean average precision, 0.548 mean F1-score, and 0.149 mean false negative rate. Whereas the best annotators on each of these metrics reported 0.299, 0.495, and 0.164 respectively. Conclusion: Deep-learning models have shown the potential to assist dental professionals in the diagnosis of caries. Yet, the task remains challenging due to the artifacts natural to the bitewings.
翻訳日:2023-10-05 04:50:07 公開日:2023-09-30
# 量子ウォークに基づく探索アルゴリズムにおける量子資源の進化

Evolution of Quantum Resources in Quantum-walk-based Search Algorithm ( http://arxiv.org/abs/2310.00352v1 )

ライセンス: Link先を確認
Meng Li, Xian Shi(参考訳) 量子ウォークは多くの量子アルゴリズムを設計するのに基礎がある。 ここでは、完全二部グラフ上の量子ウォーク探索に対する量子コヒーレンスと量子絡み合いの効果について考察する。 まず,成功確率と2つの量子資源(量子コヒーレンスと量子絡み合い)の相補関係を数値的に示す。 また,漸近的シナリオにおける理論的解析も提供する。 最後に, 一般化された非分極ノイズが果たす役割について考察し, 理論的導出と数値シミュレーションにより示される成功確率と量子コヒーレンスのダイナミクスに影響を及ぼすことを見出した。

Quantum walk is fundamental to designing many quantum algorithms. Here we consider the effects of quantum coherence and quantum entanglement for the quantum walk search on the complete bipartite graph. First, we numerically show the complementary relationship between the success probability and the two quantum resources (quantum coherence and quantum entanglement). We also provide theoretical analysis in the asymptotic scenarios. At last, we discuss the role played by generalized depolarizing noises and find that it would influence the dynamics of success probability and quantum coherence sharply, which is demonstrated by theoretical derivation and numerical simulation.
翻訳日:2023-10-05 04:49:37 公開日:2023-09-30
# 人-ロボット協調における神経適応

Neuroadaptation in Physical Human-Robot Collaboration ( http://arxiv.org/abs/2310.00351v1 )

ライセンス: Link先を確認
Avinash Singh, Dikai Liu, Chin-Teng Lin(参考訳) 物理的ロボット協調(pHRC)システムのためのロボットは、人間の同僚のパフォーマンスや意図、衝突回避やロボット操作の特異性における異なる人間の共同作業者の能力など、いくつかの要因を考慮して、その動作や動作方法を変更する必要がある。 システムのアドミタンスがワークスペース全体にわたって可変になるにつれて、潜在的な解決策は相互作用力をチューニングし、オペレータの要求に基づいてパラメータを制御することである。 この問題を克服するために,我々は,pHRCのための新しいクローズドループニューラプティブフレームワークを実証した。 我々は、強化学習の助けを借りて、認知衝突情報をクローズドループ方式で適用し、ロボット戦略に適応し、これをオープンループ設定と比較した。 実験の結果, クローズドループに基づくニューロアダプティブ・フレームワークは, pHRC中の認知的対立のレベルを効果的に低減し, それによって人間とロボットの協調の滑らかさと直感性を増大させることがわかった。 これらの結果は、脳波信号による将来のpHRC制御系に対する神経適応的アプローチの可能性を示している。

Robots for physical Human-Robot Collaboration (pHRC) systems need to change their behavior and how they operate in consideration of several factors, such as the performance and intention of a human co-worker and the capabilities of different human-co-workers in collision avoidance and singularity of the robot operation. As the system's admittance becomes variable throughout the workspace, a potential solution is to tune the interaction forces and control the parameters based on the operator's requirements. To overcome this issue, we have demonstrated a novel closed-loop-neuroadaptive framework for pHRC. We have applied cognitive conflict information in a closed-loop manner, with the help of reinforcement learning, to adapt to robot strategy and compare this with open-loop settings. The experiment results show that the closed-loop-based neuroadaptive framework successfully reduces the level of cognitive conflict during pHRC, consequently increasing the smoothness and intuitiveness of human-robot collaboration. These results suggest the feasibility of a neuroadaptive approach for future pHRC control systems through electroencephalogram (EEG) signals.
翻訳日:2023-10-05 04:49:26 公開日:2023-09-30
# 偏極社会における視覚的政治コミュニケーション : Instagramにおけるブラジル大統領選挙の縦断的研究

Visual Political Communication in a Polarized Society: A Longitudinal Study of Brazilian Presidential Elections on Instagram ( http://arxiv.org/abs/2310.00349v1 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos, Isabella Gon\c{c}alves, Marcos G. Quiles, Lucia Mesquita, Wilson Ceron(参考訳) 今日のデジタル時代、画像は政治家がソーシャルメディアプラットフォームで有権者と交流するための強力なツールとして現れてきた。 ビジュアルコンテンツはユニークな感情的な魅力を持ち、しばしばユーザーのエンゲージメントを高める。 しかし、特にグローバル・サウスでは、視覚コミュニケーションの研究は比較的限られている。 この研究は、2018年と2022年のブラジル大統領候補19名による11,263件のInstagram投稿のデータセットで使用される視覚コミュニケーション戦略を、計算手法と質的なアプローチを組み合わせることで、このギャップを埋めることを目的としている。 2つの研究を通して、視覚的政治的コミュニケーションの利用において、これらの候補間で一貫したパターンが観察された。 特に,祝いとポジティブなトーン画像の有病率について検討した。 彼らはまた、強いパーソナライズ感を示し、より感情的なレベルで有権者と結びついた候補者を描いている。 我々の研究は、ブラジルの政治情勢に特有の独自の文脈ニュアンスも明らかにしている。 われわれはニュースサイトや他のソーシャルメディアプラットフォームからスクリーンショットが大量に投稿されていることに注目する。 さらに、描写のあるテキスト編集画像が目立った特徴として出現する。 これらの結果を踏まえて,視覚的な政治コミュニケーションの幅広い分野に対する意味に関する議論を行う。 この記事は、Instagramが2つの激しい偏極化ブラジル選挙の物語を形作る上で果たした重要な役割の証しであり、デジタル時代における視覚的政治的コミュニケーションの絶え間なく進化するダイナミクスに光を当てている。 最後に,視覚政治コミュニケーションの分野における今後の研究への道筋を提案する。

In today's digital age, images have emerged as powerful tools for politicians to engage with their voters on social media platforms. Visual content possesses a unique emotional appeal that often leads to increased user engagement. However, research on visual communication remains relatively limited, particularly in the Global South. This study aims to bridge this gap by employing a combination of computational methods and qualitative approach to investigate the visual communication strategies employed in a dataset of 11,263 Instagram posts by 19 Brazilian presidential candidates in 2018 and 2022 national elections. Through two studies, we observed consistent patterns across these candidates on their use of visual political communication. Notably, we identify a prevalence of celebratory and positively toned images. They also exhibit a strong sense of personalization, portraying candidates connected with their voters on a more emotional level. Our research also uncovers unique contextual nuances specific to the Brazilian political landscape. We note a substantial presence of screenshots from news websites and other social media platforms. Furthermore, text-edited images with portrayals emerge as a prominent feature. In light of these results, we engage in a discussion regarding the implications for the broader field of visual political communication. This article serves as a testament to the pivotal role that Instagram has played in shaping the narrative of two fiercely polarized Brazilian elections, casting a revealing light on the ever-evolving dynamics of visual political communication in the digital age. Finally, we propose avenues for future research in the realm of visual political communication.
翻訳日:2023-10-05 04:49:07 公開日:2023-09-30
# monogae: グラウンドアウェア埋め込みによる道路サイドのモノクロ3dオブジェクト検出

MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware Embeddings ( http://arxiv.org/abs/2310.00400v1 )

ライセンス: Link先を確認
Lei Yang, Jiaxin Yu, Xinyu Zhang, Jun Li, Li Wang, Yi Huang, Chuang Zhang, Hong Wang, Yiming Li(参考訳) 最近の自動運転システムの大部分は、自走車センサーに基づく知覚方法の開発に集中しているが、視覚範囲を超えて自走車認識能力を拡張するために、インテリジェントな路面カメラを活用するという、見過ごされがちなアプローチがある。 既存のモノキュラー3d物体検出器のほとんどは、カメラの光軸が地面と平行であるという事前の仮定に依存していることが判明した。 しかし、道端カメラはピッチ角のついたポールに設置されており、既存の方法は道端のシーンに最適ではない。 本稿では,モノガエ(MonoGAE)という,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。 特に、地上の飛行機は、道路脇のシナリオにカメラが固定されているため、以前の知識が安定しており、強い。 地盤形状情報と高次元画像特徴との領域ギャップを低減するために,地上平面を用いた教師付き訓練パラダイムを用いて,高次元地盤認識埋め込みの予測を行う。 これらの埋め込みはその後、クロスアテンション機構を通じて画像特徴と統合される。 さらに, カメラの設置姿勢のばらつきに対する検出器の堅牢性を向上させるため, 地平面深度マップを新しいピクセルレベルの精細な地平面方程式マップに置き換える。 提案手法は,道路カメラ用3d検出ベンチマークにおいて,従来のモノキュラー3d物体検出装置よりも優れた性能を示す。 コードと事前訓練されたモデルはまもなくリリースされる。

Although the majority of recent autonomous driving systems concentrate on developing perception methods based on ego-vehicle sensors, there is an overlooked alternative approach that involves leveraging intelligent roadside cameras to help extend the ego-vehicle perception ability beyond the visual range. We discover that most existing monocular 3D object detectors rely on the ego-vehicle prior assumption that the optical axis of the camera is parallel to the ground. However, the roadside camera is installed on a pole with a pitched angle, which makes the existing methods not optimal for roadside scenes. In this paper, we introduce a novel framework for Roadside Monocular 3D object detection with ground-aware embeddings, named MonoGAE. Specifically, the ground plane is a stable and strong prior knowledge due to the fixed installation of cameras in roadside scenarios. In order to reduce the domain gap between the ground geometry information and high-dimensional image features, we employ a supervised training paradigm with a ground plane to predict high-dimensional ground-aware embeddings. These embeddings are subsequently integrated with image features through cross-attention mechanisms. Furthermore, to improve the detector's robustness to the divergences in cameras' installation poses, we replace the ground plane depth map with a novel pixel-level refined ground plane equation map. Our approach demonstrates a substantial performance advantage over all previous monocular 3D object detectors on widely recognized 3D detection benchmarks for roadside cameras. The code and pre-trained models will be released soon.
翻訳日:2023-10-05 04:41:14 公開日:2023-09-30
# InstructCV:ビジョンジェネラリストとしてのインストラクション付きテキスト-画像拡散モデル

InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists ( http://arxiv.org/abs/2310.00390v1 )

ライセンス: Link先を確認
Yulu Gan, Sungwoo Park, Alexander Schubert, Anthony Philippakis, Ahmed M. Alaa(参考訳) 近年の生成拡散モデルの進歩により、テキスト制御によるリアルで多彩な画像の合成が可能となった。 これらの顕著な進歩にもかかわらず、標準的な視覚認識タスクに対するコンピュータビジョンにおけるテキストから画像への生成モデルの適用は限られている。 これらのタスクの現在の事実上のアプローチは、そのタスクに合わせたモデルアーキテクチャと損失関数を設計することである。 本稿では,タスク固有の設計選択を抽象化し,自然言語命令に従うことでタスク実行を可能にする,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 提案手法では,複数のコンピュータビジョンタスクをテキスト対画像生成問題としてキャストする。 ここで、テキストはタスクを記述する命令を表し、その結果の画像は視覚的にコード化されたタスク出力である。 モデルをトレーニングするために、セグメンテーション、オブジェクト検出、深さ推定、分類など、さまざまなタスクをカバーする一般的なコンピュータビジョンデータセットをプールします。 そこで我々は,各画像上で実行すべき特定のタスクを伝達するテンプレートのプロンプトを,大規模言語モデルで表現し,このプロセスを通じて,入力および出力画像と注釈付き指示を含むマルチモーダル・マルチタスク訓練データセットを作成する。 InstructPix2Pixアーキテクチャに従うと、構築したデータセットを用いて、命令チューニングをテキストから画像への拡散モデルに適用し、その機能を生成モデルから命令誘導型マルチタスク視覚学習者へ誘導する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能することを示した。 さらに、見えないデータ、カテゴリ、ユーザー指示に対する説得力のある一般化機能を示す。

Recent advances in generative diffusion models have enabled text-controlled synthesis of realistic and diverse images with impressive quality. Despite these remarkable advances, the application of text-to-image generative models in computer vision for standard visual recognition tasks remains limited. The current de facto approach for these tasks is to design model architectures and loss functions that are tailored to the task at hand. In this paper, we develop a unified language interface for computer vision tasks that abstracts away task-specific design choices and enables task execution by following natural language instructions. Our approach involves casting multiple computer vision tasks as text-to-image generation problems. Here, the text represents an instruction describing the task, and the resulting image is a visually-encoded task output. To train our model, we pool commonly-used computer vision datasets covering a range of tasks, including segmentation, object detection, depth estimation, and classification. We then use a large language model to paraphrase prompt templates that convey the specific tasks to be conducted on each image, and through this process, we create a multi-modal and multi-task training dataset comprising input and output images along with annotated instructions. Following the InstructPix2Pix architecture, we apply instruction-tuning to a text-to-image diffusion model using our constructed dataset, steering its functionality from a generative model to an instruction-guided multi-task vision learner. Experiments demonstrate that our model, dubbed InstructCV, performs competitively compared to other generalist and task-specific vision models. Moreover, it exhibits compelling generalization capabilities to unseen data, categories, and user instructions.
翻訳日:2023-10-05 04:40:52 公開日:2023-09-30
# 順序保存型GFlowNets

Order-Preserving GFlowNets ( http://arxiv.org/abs/2310.00386v1 )

ライセンス: Link先を確認
Yihang Chen, Lukas Mauch(参考訳) Generative Flow Networks (GFlowNets) は、与えられた報酬に比例した確率を持つ様々な候補をサンプリングする方法として導入された。 しかし、GFlowNetsは、例えばマルチオブジェクト最適化(MOO)タスクの場合、計算コストがかかるか直接アクセスできないかのいずれかで、事前に定義されたスカラー報酬でのみ使用できる。 さらに、上位候補の特定を優先するために、従来の手法では、異なる環境にまたがる最適な選択である、より高い指数に対する報酬を上げる。 これらの問題に対処するため,提案手法では,学習報酬関数に比例する確率で,候補に与えられた(部分的な)順序と一致し,報酬関数の明示的な定式化を不要とした順序保存型gflownets(op-gfns)を提案する。 我々は,OP-GFNの学習過程が,単目的最大化タスクにおいて学習された報酬の景観を徐々に分散させることを理論的に証明する。 スパシフィケーションは、順序付けにおける上位階層の候補に集中し、開始時の探索を確実にし、訓練の終了に向けて搾取する。 OP-GFNの最先端性能を,合成データセット,分子生成,ニューラルアーキテクチャ探索など,単目的最大化(totally order)および多目的パレートフロント近似(partial order)タスクで実証する。

Generative Flow Networks (GFlowNets) have been introduced as a method to sample a diverse set of candidates with probabilities proportional to a given reward. However, GFlowNets can only be used with a predefined scalar reward, which can be either computationally expensive or not directly accessible, in the case of multi-objective optimization (MOO) tasks for example. Moreover, to prioritize identifying high-reward candidates, the conventional practice is to raise the reward to a higher exponent, the optimal choice of which may vary across different environments. To address these issues, we propose Order-Preserving GFlowNets (OP-GFNs), which sample with probabilities in proportion to a learned reward function that is consistent with a provided (partial) order on the candidates, thus eliminating the need for an explicit formulation of the reward function. We theoretically prove that the training process of OP-GFNs gradually sparsifies the learned reward landscape in single-objective maximization tasks. The sparsification concentrates on candidates of a higher hierarchy in the ordering, ensuring exploration at the beginning and exploitation towards the end of the training. We demonstrate OP-GFN's state-of-the-art performance in single-objective maximization (totally ordered) and multi-objective Pareto front approximation (partially ordered) tasks, including synthetic datasets, molecule generation, and neural architecture search.
翻訳日:2023-10-05 04:40:26 公開日:2023-09-30
# インコンテキスト学習のための動的デモンストレーションコントローラ

Dynamic Demonstrations Controller for In-Context Learning ( http://arxiv.org/abs/2310.00385v1 )

ライセンス: Link先を確認
Fei Zhao, Taotian Pang, Zhen Wu, Zheng Ma, Shujian Huang, Xinyu Dai(参考訳) In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大きな言語モデル(LLM)が少数のデモとテストインスタンスを入力として観察し、モデルパラメータを更新せずに直接予測する。 これまでの研究では、iclはデモの選択と順序に敏感であることが示されている。 しかし,実演数とモデル性能は正の相関関係にあると一般的に信じられているため,llmの限られた入力長内でのicl性能に対する実演数の影響についてはほとんど研究されていない。 本稿では,この結論が必ずしも真ではないことを見出した。 実験の結果,実演数の増加が必ずしも性能向上につながるとは限らないことがわかった。 この知見に基づいて,動的デモの数を動的に調整することでICL性能を向上させる動的デモ制御器(D$^2$Controller)を提案する。 実験の結果、D$^2$Controllerは10個のデータセットにまたがる8種類のLLMに対して5.4%の相対的な改善をもたらすことが示された。 さらに,本手法を従来のiclモデルにも拡張し,競争結果を得る。

In-Context Learning (ICL) is a new paradigm for natural language processing (NLP), where a large language model (LLM) observes a small number of demonstrations and a test instance as its input, and directly makes predictions without updating model parameters. Previous studies have revealed that ICL is sensitive to the selection and the ordering of demonstrations. However, there are few studies regarding the impact of the demonstration number on the ICL performance within a limited input length of LLM, because it is commonly believed that the number of demonstrations is positively correlated with model performance. In this paper, we found this conclusion does not always hold true. Through pilot experiments, we discover that increasing the number of demonstrations does not necessarily lead to improved performance. Building upon this insight, we propose a Dynamic Demonstrations Controller (D$^2$Controller), which can improve the ICL performance by adjusting the number of demonstrations dynamically. The experimental results show that D$^2$Controller yields a 5.4% relative improvement on eight different sizes of LLMs across ten datasets. Moreover, we also extend our method to previous ICL models and achieve competitive results.
翻訳日:2023-10-05 04:39:58 公開日:2023-09-30
# 識別器批判ギャップによる言語モデルにおける価値理解の測定

Measuring Value Understanding in Language Models through Discriminator-Critique Gap ( http://arxiv.org/abs/2310.00378v1 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang(参考訳) 近年,Large Language Models (LLMs) の進歩により,人的価値との相違に対する懸念が高まっている。 しかし、これらの値の把握は複雑で適応性が高いため複雑である。 LLMの真に理解するためには、"know what"と"know why"の両方を考慮する必要があります。 この目的のために,人間の価値観に関する差別的批判的ギャップを測定することで,「何を知るか」と「なぜ知るか」の両方を定量的に評価する価値理解計測(VUM)フレームワークを提案する。 シュワルツ値サーベイを用いて評価値を特定し,GPT-4を用いた1000レベル対話データセットを開発する。 本評価では,LCMの出力値の基準値に対するアライメントと,LCMの応答がGPT-4のアノテーションに対する値認識の理由とどのように一致しているかを考察する。 我々は,5つの代表LSMを評価し,スケーリング法則が「何を知るか」に大きく影響しているが,高い水準を維持している「なぜ知るか」にはあまり影響しないことを示す。 このことは、LLMが提供されたコンテキストに基づいて、その固有の価値を真に理解せず、潜在的なリスクを示す、もっともらしい説明を行うかもしれないことを示唆している。

Recent advancements in Large Language Models (LLMs) have heightened concerns about their potential misalignment with human values. However, evaluating their grasp of these values is complex due to their intricate and adaptable nature. We argue that truly understanding values in LLMs requires considering both "know what" and "know why". To this end, we present the Value Understanding Measurement (VUM) framework that quantitatively assess both "know what" and "know why" by measuring the discriminator-critique gap related to human values. Using the Schwartz Value Survey, we specify our evaluation values and develop a thousand-level dialogue dataset with GPT-4. Our assessment looks at both the value alignment of LLM's outputs compared to baseline answers and how LLM responses align with reasons for value recognition versus GPT-4's annotations. We evaluate five representative LLMs and provide strong evidence that the scaling law significantly impacts "know what" but not much on "know why", which has consistently maintained a high level. This may further suggest that LLMs might craft plausible explanations based on the provided context without truly understanding their inherent value, indicating potential risks.
翻訳日:2023-10-05 04:39:38 公開日:2023-09-30
# インシデント相関がパートベース学習に及ぼす影響について

Mitigating the Effect of Incidental Correlations on Part-based Learning ( http://arxiv.org/abs/2310.00377v1 )

ライセンス: Link先を確認
Gaurav Bhatt, Deepayan Das, Leonid Sigal, Vineeth N Balasubramanian(参考訳) インテリジェントシステムには、複雑な問題を小さな再利用可能なコンポーネントや部品に分割し、これらの部分表現を使って新しいタスクに調整する重要な特徴がある。 しかし、現在のパートリーナーは、特定の配置または特定の背景でのみ現れる物体の限られた観察から生じる偶発的相関を扱うのに困難に直面する。 これらの付随的相関は、学習された部分表現の一般化と解釈可能性に有害な影響を与える可能性がある。 本研究は, 2つの革新的正規化手法を用いて, 部分的表現をより解釈可能で, 限られたデータでより一般化できることを示す。 第1の正規化は、前景と背景情報の生成過程を、一意の混合による定式化によって分離する。 前景と背景の混合部が軟質で物体に依存しないマスクを伴っていることを保証し、弱制御された損失を用いて部品に構造的制約を課す。 第2の正則化は蒸留損失の形を仮定し、学習された部分の非分散を付随的な背景相関に保証する。 さらに,高品質な部分表現の学習を容易にするために,スパース制約と直交制約を取り入れた。 学習部位に付随する背景相関の影響を低減し,MiniImagenet,TieredImageNet,FC100などのベンチマークデータセット上の数ショット学習タスクに対して,最先端(SoTA)性能を示す。 我々はまた、ImageNet-9データセットの背景のドメインシフトや一般的なデータ破損であっても、アプローチによって得られた部分ベースの表現が既存の技術よりも一般化できることを実証した。 実装はGitHubで入手できる。 https://github.com/GauravBh1010tt/DPViT.git

Intelligent systems possess a crucial characteristic of breaking complicated problems into smaller reusable components or parts and adjusting to new tasks using these part representations. However, current part-learners encounter difficulties in dealing with incidental correlations resulting from the limited observations of objects that may appear only in specific arrangements or with specific backgrounds. These incidental correlations may have a detrimental impact on the generalization and interpretability of learned part representations. This study asserts that part-based representations could be more interpretable and generalize better with limited data, employing two innovative regularization methods. The first regularization separates foreground and background information's generative process via a unique mixture-of-parts formulation. Structural constraints are imposed on the parts using a weakly-supervised loss, guaranteeing that the mixture-of-parts for foreground and background entails soft, object-agnostic masks. The second regularization assumes the form of a distillation loss, ensuring the invariance of the learned parts to the incidental background correlations. Furthermore, we incorporate sparse and orthogonal constraints to facilitate learning high-quality part representations. By reducing the impact of incidental background correlations on the learned parts, we exhibit state-of-the-art (SoTA) performance on few-shot learning tasks on benchmark datasets, including MiniImagenet, TieredImageNet, and FC100. We also demonstrate that the part-based representations acquired through our approach generalize better than existing techniques, even under domain shifts of the background and common data corruption on the ImageNet-9 dataset. The implementation is available on GitHub: https://github.com/GauravBh1010tt/DPViT.git
翻訳日:2023-10-05 04:39:16 公開日:2023-09-30
# Coordinated Pausing:フロンティアAI開発者のための評価に基づくコーディネーションスキーム

Coordinated pausing: An evaluation-based coordination scheme for frontier AI developers ( http://arxiv.org/abs/2310.00374v1 )

ライセンス: Link先を確認
Jide Alaga and Jonas Schuett(参考訳) 人工知能(AI)モデルがスケールアップされるにつれて、新しい機能は意図せず、予測不能に出現する可能性がある。 これに対し、新たなリスク評価ツールとして、危険な能力評価が登場している。 しかし、十分に危険な能力が発見されれば、フロンティアai開発者は何をするべきか? 本稿では, 1 つの可能な応答について考察する。 1)フロンティアAIモデルは危険な能力に対して評価される。 2) モデルが評価のセットに失敗するたびに、開発者は特定の研究や開発活動を一時停止する。 (3) 危険な機能を持つモデルが発見されたら、他の開発者に通知する。 また、研究・開発活動も停止した。 (4) 検出した能力を分析し, 適切な安全対策を行う。 (5) 一定の安全閾値に達した場合のみ、開発者は停止したアクティビティを再開する。 論文は、そのスキームの4つの具体的なバージョンについても論じている。 最初のバージョンでは、パウジングは完全に自発的であり、開発者への圧力に依存している。 第2バージョンでは、参加する開発者は、特定の条件下で一時停止することに同意している。 第3のバージョンでは、1つの監査官が、モデルが一連の評価に失敗した場合、一時停止に同意した複数の開発者のモデルを評価する。 4番目のバージョンでは、開発者は法的に評価を実行し、危険な能力が見つかった場合停止する必要がある。 最後に,提案する協調方式の望ましさと実現可能性について述べる。 コーディネート舗装は、フロンティアAIモデルから生まれるリスクに対処するための有望なメカニズムである、と結論付けている。 しかし、特に反トラスト法違反を避けるには、多くの実践的および法的障害を克服する必要がある。

As artificial intelligence (AI) models are scaled up, new capabilities can emerge unintentionally and unpredictably, some of which might be dangerous. In response, dangerous capabilities evaluations have emerged as a new risk assessment tool. But what should frontier AI developers do if sufficiently dangerous capabilities are in fact discovered? This paper focuses on one possible response: coordinated pausing. It proposes an evaluation-based coordination scheme that consists of five main steps: (1) Frontier AI models are evaluated for dangerous capabilities. (2) Whenever, and each time, a model fails a set of evaluations, the developer pauses certain research and development activities. (3) Other developers are notified whenever a model with dangerous capabilities has been discovered. They also pause related research and development activities. (4) The discovered capabilities are analyzed and adequate safety precautions are put in place. (5) Developers only resume their paused activities if certain safety thresholds are reached. The paper also discusses four concrete versions of that scheme. In the first version, pausing is completely voluntary and relies on public pressure on developers. In the second version, participating developers collectively agree to pause under certain conditions. In the third version, a single auditor evaluates models of multiple developers who agree to pause if any model fails a set of evaluations. In the fourth version, developers are legally required to run evaluations and pause if dangerous capabilities are discovered. Finally, the paper discusses the desirability and feasibility of our proposed coordination scheme. It concludes that coordinated pausing is a promising mechanism for tackling emerging risks from frontier AI models. However, a number of practical and legal obstacles need to be overcome, especially how to avoid violations of antitrust law.
翻訳日:2023-10-05 04:38:48 公開日:2023-09-30
# オブジェクト検出における騒がしいoracleによるディープラーニング

Deep Active Learning with Noisy Oracle in Object Detection ( http://arxiv.org/abs/2310.00372v1 )

ライセンス: Link先を確認
Marius Schubert and Tobias Riedlinger and Karsten Kahl and Matthias Rottmann(参考訳) オブジェクト検出などの複雑なコンピュータビジョンタスクに対するアノテーションの取得は、多くのヒューマンワーカーや専門家の意見を含む、高価で時間的な取り組みである。 アルゴリズム性能を維持するために必要なアノテーションの量を減らすことは、機械学習の実践者にとって望ましいものであり、アクティブな学習アルゴリズムによって達成されている。 しかし、モデル性能に影響を与えるアノテーションの量だけでなく、アノテーションの品質も考慮すべきである。 実際には、新しいアノテーションを問い合わせるオラクルは、しばしばかなりの量のノイズを含んでいる。 そのため、ラベルのレビューや修正には、しばしばクリーニング手順が必要である。 このプロセスは、ヒューマンワーカーやドメインエキスパートを必要とするため、初期アノテーションそのものと同じ予算を課されます。 本稿では,ディープオブジェクト検出のためのラベルレビューモジュールを含む複合能動学習フレームワークを提案する。 特に不確実性に基づくクエリ戦略と組み合わさった場合,アノテーション予算の一部をアクティブデータセットの一部でノイズの少ないアノテーションを修正すれば,モデルパフォーマンスが早期に向上することを示す。 ラベルエラー提案の精度はラベルレビューの効果に有意な影響を与えている。 実験では,同等のアノテーション予算でラベルレビューを組み込むことで,オブジェクト検出性能の最大4.5マップポイントの改善を実現する。

Obtaining annotations for complex computer vision tasks such as object detection is an expensive and time-intense endeavor involving a large number of human workers or expert opinions. Reducing the amount of annotations required while maintaining algorithm performance is, therefore, desirable for machine learning practitioners and has been successfully achieved by active learning algorithms. However, it is not merely the amount of annotations which influences model performance but also the annotation quality. In practice, the oracles that are queried for new annotations frequently contain significant amounts of noise. Therefore, cleansing procedures are oftentimes necessary to review and correct given labels. This process is subject to the same budget as the initial annotation itself since it requires human workers or even domain experts. Here, we propose a composite active learning framework including a label review module for deep object detection. We show that utilizing part of the annotation budget to correct the noisy annotations partially in the active dataset leads to early improvements in model performance, especially when coupled with uncertainty-based query strategies. The precision of the label error proposals has a significant influence on the measured effect of the label review. In our experiments we achieve improvements of up to 4.5 mAP points of object detection performance by incorporating label reviews at equal annotation budget.
翻訳日:2023-10-05 04:38:26 公開日:2023-09-30
# インダクティブバイアスの蒸留 : モデル圧縮以上の知識蒸留

Distilling Inductive Bias: Knowledge Distillation Beyond Model Compression ( http://arxiv.org/abs/2310.00369v1 )

ライセンス: Link先を確認
Gousia Habib, Tausifa Jan Saleem, Brejesh Lall(参考訳) コンピュータビジョンの急速な発展に伴い、ヴィジュアルトランスフォーマー(vits)は視覚領域とテキスト領域をまたいだ統一的な情報処理を実現する。 しかし、ViTに固有の誘導バイアスがないため、トレーニングには膨大な量のデータが必要である。 そこで本研究では, 共用軽量教師モデルからの帰納バイアスを蒸留する, アンサンブルに基づく蒸留手法を提案する。 以前の制度は畳み込みに基づく教育のみに頼っていた。 しかし, この手法では, コンボリューションやインボリューションなど, 異なる建築的傾向を持つ軽量教師のアンサンブルが組み込まれ, 学生トランスフォーマーを共同で指導する。 このような独特な帰納バイアスのため、インストラクターは容易に識別可能な記憶されたデータセットからでも幅広い知識を蓄積することができ、学生のパフォーマンスが向上する。 提案フレームワークでは,事前計算と事前保存,基本的にモデルの非正規化予測も含んでいる。 この最適化は、知識蒸留中の繰り返し前方通過の必要性をなくし、計算負荷を大幅に削減し、効率を向上させることにより、蒸留プロセスを加速することができる。

With the rapid development of computer vision, Vision Transformers (ViTs) offer the tantalizing prospect of unified information processing across visual and textual domains. But due to the lack of inherent inductive biases in ViTs, they require enormous amount of data for training. To make their applications practical, we introduce an innovative ensemble-based distillation approach distilling inductive bias from complementary lightweight teacher models. Prior systems relied solely on convolution-based teaching. However, this method incorporates an ensemble of light teachers with different architectural tendencies, such as convolution and involution, to instruct the student transformer jointly. Because of these unique inductive biases, instructors can accumulate a wide range of knowledge, even from readily identifiable stored datasets, which leads to enhanced student performance. Our proposed framework also involves precomputing and storing logits in advance, essentially the unnormalized predictions of the model. This optimization can accelerate the distillation process by eliminating the need for repeated forward passes during knowledge distillation, significantly reducing the computational burden and enhancing efficiency.
翻訳日:2023-10-05 04:38:08 公開日:2023-09-30
# AutomaTikZ:TikZによる科学ベクトルグラフのテキストガイド合成

AutomaTikZ: Text-Guided Synthesis of Scientific Vector Graphics with TikZ ( http://arxiv.org/abs/2310.00367v1 )

ライセンス: Link先を確認
Jonas Belouadi, Anne Lauscher, Steffen Eger(参考訳) テキストからビットマップグラフィックスを生成することは注目されているが、科学的にはベクトルグラフィックスが好まれる。 ベクトルグラフィックスは一般に低レベルのグラフィックスプリミティブを使って符号化されるので、直接生成するのは困難である。 これを解決するために,ベクトルグラフィックスにコンパイル可能なよく知られた抽象グラフィック言語であるTikZを,科学図形の中間表現として用いることを提案する。 TikZは、人間指向の高レベルなコマンドを提供し、大きな言語モデルで条件付き言語モデリングを容易にする。 この目的のために,120kのTikZ図面をキャプションに整列させた最初の大規模TikZデータセットであるDaTikZを紹介した。 DaTikZ上でLLaMAを微調整し、マルチモーダルCLIP埋め込みでLLaMAを増強する新しいモデルCLiMAと組み合わせる。 ヒトおよび自動評価では、CLiMAとLLaMAは、人造図形と類似性の観点から、商用のGPT-4とClaude 2を上回り、テキスト画像アライメントも改善した。 詳細な分析により、全てのモデルがよく一般化され、暗記の影響を受けないことが示された。 しかし、GPT-4とClaude 2は、人間と我々のモデルの両方と比較して、より単純な数値を生成する傾向にある。 当社のフレームワークであるAutomaTikZとモデルウェイトとデータセットを公開しています。

Generating bitmap graphics from text has gained considerable attention, yet for scientific figures, vector graphics are often preferred. Given that vector graphics are typically encoded using low-level graphics primitives, generating them directly is difficult. To address this, we propose the use of TikZ, a well-known abstract graphics language that can be compiled to vector graphics, as an intermediate representation of scientific figures. TikZ offers human-oriented, high-level commands, thereby facilitating conditional language modeling with any large language model. To this end, we introduce DaTikZ the first large-scale TikZ dataset, consisting of 120k TikZ drawings aligned with captions. We fine-tune LLaMA on DaTikZ, as well as our new model CLiMA, which augments LLaMA with multimodal CLIP embeddings. In both human and automatic evaluation, CLiMA and LLaMA outperform commercial GPT-4 and Claude 2 in terms of similarity to human-created figures, with CLiMA additionally improving text-image alignment. Our detailed analysis shows that all models generalize well and are not susceptible to memorization. GPT-4 and Claude 2, however, tend to generate more simplistic figures compared to both humans and our models. We make our framework, AutomaTikZ, along with model weights and datasets, publicly available.
翻訳日:2023-10-05 04:37:48 公開日:2023-09-30
# PixArt-$\alpha$:フォトリアリスティックテキスト・画像合成のための拡散変換器の高速訓練

PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis ( http://arxiv.org/abs/2310.00426v1 )

ライセンス: Link先を確認
Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li(参考訳) 最も先進的なテキスト・ツー・イメージ(T2I)モデルでは、膨大なトレーニングコスト(GPU時間など)が必要であり、AIGCコミュニティの根本的な革新を著しく妨げつつ、CO2排出量を増大させる。 本稿では,最新の画像生成装置 (imagen, sdxl, midjourney など) と画像生成品質が競合するトランスフォーマチックなt2i拡散モデルpixart-$\alpha$について紹介する。 さらに、図1と2に示すように、トレーニングコストの低い1024pxまでの高解像度画像合成をサポートする。 To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. その結果、PIXART-$\alpha$のトレーニング速度は既存の大規模T2Iモデルを大きく上回り、例えば、PIXART-$\alpha$は安定拡散v1.5のトレーニング時間(675対6,250 A100 GPU日)の10.8%しか必要とせず、300,000ドル近く節約でき(26,000対320,000ドル)、90%のCO2排出量を削減できる。 さらに、より大きなSOTAモデルであるRAPHAELと比較して、トレーニングコストは1%に過ぎません。 大規模な実験により、PIXART-$\alpha$は画質、芸術性、セマンティックコントロールに優れていた。 PIXART-$\alpha$はAIGCコミュニティとスタートアップに新たな洞察を与えて、高品質で低コストな生成モデルをスクラッチから構築することを願っている。

The most advanced text-to-image (T2I) models require significant training costs (e.g., millions of GPU hours), seriously hindering the fundamental innovation for the AIGC community while increasing CO2 emissions. This paper introduces PIXART-$\alpha$, a Transformer-based T2I diffusion model whose image generation quality is competitive with state-of-the-art image generators (e.g., Imagen, SDXL, and even Midjourney), reaching near-commercial application standards. Additionally, it supports high-resolution image synthesis up to 1024px resolution with low training cost, as shown in Figure 1 and 2. To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. As a result, PIXART-$\alpha$'s training speed markedly surpasses existing large-scale T2I models, e.g., PIXART-$\alpha$ only takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU days), saving nearly \$300,000 (\$26,000 vs. \$320,000) and reducing 90% CO2 emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training cost is merely 1%. Extensive experiments demonstrate that PIXART-$\alpha$ excels in image quality, artistry, and semantic control. We hope PIXART-$\alpha$ will provide new insights to the AIGC community and startups to accelerate building their own high-quality yet low-cost generative models from scratch.
翻訳日:2023-10-05 04:31:31 公開日:2023-09-30
# クラスタ化マルチタスク圧縮センシングのための効率的アルゴリズム

An Efficient Algorithm for Clustered Multi-Task Compressive Sensing ( http://arxiv.org/abs/2310.00420v1 )

ライセンス: Link先を確認
Alexander Lin and Demba Ba(参考訳) 本稿では,共有情報を利用するタスクのクラスタを見つけ,相互に信号再構成を改善する階層モデルであるクラスタ化マルチタスク圧縮センシングについて検討する。 このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。 主なボトルネックは、複数の大きな共分散行列に対する繰り返し行列反転と対数行列計算である。 本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。 提案手法はモンテカルロサンプリングと反復線形解法を組み合わせたものである。 実験の結果,既存のベースラインと比較して,アルゴリズムは最大で数千倍高速で,メモリ効率は桁違いに高いことがわかった。

This paper considers clustered multi-task compressive sensing, a hierarchical model that solves multiple compressive sensing tasks by finding clusters of tasks that leverage shared information to mutually improve signal reconstruction. The existing inference algorithm for this model is computationally expensive and does not scale well in high dimensions. The main bottleneck involves repeated matrix inversion and log-determinant computation for multiple large covariance matrices. We propose a new algorithm that substantially accelerates model inference by avoiding the need to explicitly compute these covariance matrices. Our approach combines Monte Carlo sampling with iterative linear solvers. Our experiments reveal that compared to the existing baseline, our algorithm can be up to thousands of times faster and an order of magnitude more memory-efficient.
翻訳日:2023-10-05 04:30:51 公開日:2023-09-30
# 制約付き強凸下におけるPIコンセンサスアルゴリズムの線形収束

Linear Convergence of Pre-Conditioned PI Consensus Algorithm under Restricted Strong Convexity ( http://arxiv.org/abs/2310.00419v1 )

ライセンス: Link先を確認
Kushal Chakrabarti and Mayank Baranwal(参考訳) 本稿では,ピアツーピアマルチエージェントネットワークにおける分散凸最適化問題について考察する。 ネットワークは同期で接続されていると仮定される。 比例積分 (PI) 制御戦略を用いて, 固定段数をもつ様々なアルゴリズムを開発した。 最も初期のものはPIコンセンサスアルゴリズムである。 リアプノフ理論を用いて,各局所コスト関数の凸性を必要とすることなく,速度マッチング離散化を伴う制限付き強凸関数に対するpiコンセンサスアルゴリズムの指数収束を初めて保証する。 PIコンセンサスアルゴリズムを高速化するため,定数正定行列の形で局所的プレコンディショニングを導入し,その効率を分散凸最適化アルゴリズムと比較して数値的に検証する。 従来のプレコンディショニングとは異なり,提案するプレコンディショニングは勾配とコンセンサス項の両方を修飾し,piコンセンサスアルゴリズムにおけるエージェント間の通信グラフの効果を制御する。

This paper considers solving distributed convex optimization problems in peer-to-peer multi-agent networks. The network is assumed to be synchronous and connected. By using the proportional-integral (PI) control strategy, various algorithms with fixed stepsize have been developed. The earliest among them is the PI consensus algorithm. Using Lyapunov theory, we guarantee exponential convergence of the PI consensus algorithm for restricted strongly convex functions with rate-matching discretization, without requiring convexity of individual local cost functions, for the first time. In order to accelerate the PI consensus algorithm, we incorporate local pre-conditioning in the form of constant positive definite matrices and numerically validate its efficiency compared to the prominent distributed convex optimization algorithms. Unlike classical pre-conditioning, where only the gradients are multiplied by a pre-conditioner, the proposed pre-conditioning modifies both the gradients and the consensus terms, thereby controlling the effect of the communication graph between the agents on the PI consensus algorithm.
翻訳日:2023-10-05 04:30:40 公開日:2023-09-30
# mvc:胸部x線画像からのcovid-19診断のためのマルチタスクビジョントランスフォーマーネットワーク

MVC: A Multi-Task Vision Transformer Network for COVID-19 Diagnosis from Chest X-ray Images ( http://arxiv.org/abs/2310.00418v1 )

ライセンス: Link先を確認
Huyen Tran, Duc Thanh Nguyen, John Yearwood(参考訳) コンピュータベースのアルゴリズムを用いた医用画像解析は研究コミュニティからかなりの注目を集め、この10年で大きな進歩を遂げた。 近年の計算資源の進歩と大規模医用画像データセットの可用性により、医療画像からの疾患診断のために多くのディープラーニングモデルが開発されている。 しかし、既存の技術はサブタスク、例えば病気の分類と識別を個別に重視する一方で、マルチタスクの診断を可能にする統一されたフレームワークが欠如している。 本稿では,局所的およびグローバルな表現学習における視覚変換器の機能に着想を得て,胸部X線画像を同時に分類し,入力データから影響領域を識別するマルチタスク視覚変換器(MVC)を提案する。 本手法はVision Transformer上に構築されているが,マルチタスク設定で学習能力を拡張している。 提案手法を評価し,covid-19胸部x線画像のベンチマークデータセットで既存のベースラインと比較した。 実験により,画像分類と影響領域識別タスクの双方において,提案手法がベースラインよりも優れていることを確認した。

Medical image analysis using computer-based algorithms has attracted considerable attention from the research community and achieved tremendous progress in the last decade. With recent advances in computing resources and availability of large-scale medical image datasets, many deep learning models have been developed for disease diagnosis from medical images. However, existing techniques focus on sub-tasks, e.g., disease classification and identification, individually, while there is a lack of a unified framework enabling multi-task diagnosis. Inspired by the capability of Vision Transformers in both local and global representation learning, we propose in this paper a new method, namely Multi-task Vision Transformer (MVC) for simultaneously classifying chest X-ray images and identifying affected regions from the input data. Our method is built upon the Vision Transformer but extends its learning capability in a multi-task setting. We evaluated our proposed method and compared it with existing baselines on a benchmark dataset of COVID-19 chest X-ray images. Experimental results verified the superiority of the proposed method over the baselines on both the image classification and affected region identification tasks.
翻訳日:2023-10-05 04:30:23 公開日:2023-09-30
# 統計的実践のための社会正義・倫理・asa倫理ガイドラインの交点における指導

Teaching at the Intersection of Social Justice, Ethics, and the ASA Ethical Guidelines for Statistical Practice ( http://arxiv.org/abs/2310.00417v1 )

ライセンス: Link先を確認
Rochelle E Tractenberg(参考訳) ケーススタディは一般的に「倫理」を教えるために使用されるが、コースの内容が式と証明に焦点を当てている場合、ケース分析と必要な知識、スキル、能力が気を散らす可能性がある。 さらに、ケース分析は通常、同意を得ること、研究チームメンバーとの取引、および/または研究方針違反など、研究課題に絞られている。 数学、統計学、データサイエンス、コンピューティングの倫理的な実践は、学習者のキャリア計画に関係なく重要なトピックである。 「社会的正義」を「倫理的実践」の代理として扱うのは誤りであるが、「社会的正義」の話題は学生とインストラクターの両方にとってより興味深いものかもしれない。 本稿では,新しい知識,スキル,能力の負担を制限しつつ,再現可能かつ実行可能な評価を支援する方法で,社会正義のコンテンツを定量的なコースに統合するための具体的な勧告を提供する。 5つのツールを用いて、社会正義をコースに統合し、「倫理」の統合を呼び掛け、インストラクターが新しい素材や課題を作成・評価する負担を最小化し、学習者がケース分析を完了するためのスキルセットを開発することの負担を最小化し、倫理内容が学習者の認知表現に組み込まれる可能性を最小限にすることができる。 これらのツールは a. カリキュラム開発ガイドライン b. 7 タスク統計とデータサイエンスパイプライン c. 統計的実践のための倫理ガイドライン d.株主分析 e. 6 段階の倫理的推論パラダイム この論文では、定量的なコースでこれらのツールを使用する方法について論じる。 ツールとフレームワークは構造を提供し、どんなコースでも変更が評価可能であり、学習者に対して実行可能なアセスメントを生成することを容易にします。

Case studies are typically used to teach 'ethics', but when the content of a course is focused on formulae and proofs, a case analysis and the knowledge, skills, and abilities they require can be distracting. Moreover, case analyses are typically focused narrowly on research issues: obtaining consent, dealing with research team members, and/or research policy violations. Not all students in quantitative courses plan to become researchers, and ethical practice of mathematics, statistics, data science, and computing is an essential topic regardless of the learner's career plans. While it is incorrect to treat 'social justice' as a proxy for 'ethical practice', the topic of 'social justice' may be more interesting to both students and instructors. This paper offers concrete recommendations for integrating social justice content into quantitative courses in ways that limit the burden of new knowledge, skills, and abilities but also support reproducible and actionable assessments. Five tools can be utilized to integrate social justice into a course in a way that also meets calls to integrate 'ethics'; minimizes the burden on instructors to create and grade new materials and assignments; minimizes the burden on learners to develop the skill set to complete a case analysis; and maximizes the likelihood that the ethics content will be embedded in the learners' cognitive representation of the knowledge being taught in the quantitative course. These tools are: a. Curriculum Development Guidelines b. 7-task Statistics and Data Science Pipeline c. ASA Ethical Guidelines for Statistical Practice d. Stakeholder Analysis e. 6-step Ethical Reasoning paradigm This paper discusses how to use these tools in quantitative courses. The tools and frameworks offer structure, and facilitate ensuring that changes made to any course are evaluable and generate actionable assessments for learners.
翻訳日:2023-10-05 04:30:03 公開日:2023-09-30
# XAIのShapley値の難読化 - さらなる証拠

Refutation of Shapley Values for XAI -- Additional Evidence ( http://arxiv.org/abs/2310.00416v1 )

ライセンス: Link先を確認
Xuanxiang Huang, Joao Marques-Silva(参考訳) 近年の研究は、説明可能な人工知能(XAI)におけるシェープリー値の不適切さを実証している。 理論を否定するためには、一つの反例が十分であるが、初期の研究に対する批判は、焦点がブール分類にのみ焦点をあてることである。 このような批判に対処するため,本論文では,特徴がブール的でなく,複数のクラスを選択できる分類器の族に対して,シャプリー値が不十分であることを示す。 さらに本論文は, 最小の$l_0$距離逆例で変化した特徴が無関係な特徴を含まないことを示し, xai のシェープリー値の不備に関するさらなる議論を提供する。

Recent work demonstrated the inadequacy of Shapley values for explainable artificial intelligence (XAI). Although to disprove a theory a single counterexample suffices, a possible criticism of earlier work is that the focus was solely on Boolean classifiers. To address such possible criticism, this paper demonstrates the inadequacy of Shapley values for families of classifiers where features are not boolean, but also for families of classifiers for which multiple classes can be picked. Furthermore, the paper shows that the features changed in any minimal $l_0$ distance adversarial examples do not include irrelevant features, thus offering further arguments regarding the inadequacy of Shapley values for XAI.
翻訳日:2023-10-05 04:29:31 公開日:2023-09-30
# SSIF:空間スペクトル超解のための連続画像表現学習

SSIF: Learning Continuous Image Representation for Spatial-Spectral Super-Resolution ( http://arxiv.org/abs/2310.00413v1 )

ライセンス: Link先を確認
Gengchen Mai, Ni Lao, Weiwei Sun, Yuchi Ma, Jiaming Song, Chenlin Meng, Hongxu Ma, Jinmeng Rao, Ziyuan Li, Stefano Ermon(参考訳) 既存のデジタルセンサーは、固定された空間分解能とスペクトル分解能(例えば、RGB、マルチスペクトル、ハイパースペクトル画像)で画像をキャプチャし、それぞれの組み合わせはbespoke機械学習モデルを必要とする。 ニューラルインプリシット関数は、画像を解像度に依存しない方法で表現することで、空間分解能の課題を部分的に克服する。 しかし、それらはまだ、予め定義されたスペクトル分解能で動作している。 この課題に対処するために,空間領域における連続画素座標とスペクトル領域における連続波長の両方の関数として画像を表すニューラル暗黙モデルであるSpatial-Spectral Implicit Function (SSIF)を提案する。 SSIFの2つの挑戦スペクトル超解像ベンチマークにおける有効性を実証的に実証した。 我々は、ベースラインがスペクトル分解能ごとに別々のモデルを訓練できる場合でも、ssifは最先端のベースラインを一貫して上回っていることを観察する。 SSIFは空間分解能とスペクトル分解能の両方によく対応していることを示す。 さらに、SSIFは下流タスク(例えば土地利用分類)の性能を1.7%-7%向上させる高解像度画像を生成することができる。

Existing digital sensors capture images at fixed spatial and spectral resolutions (e.g., RGB, multispectral, and hyperspectral images), and each combination requires bespoke machine learning models. Neural Implicit Functions partially overcome the spatial resolution challenge by representing an image in a resolution-independent way. However, they still operate at fixed, pre-defined spectral resolutions. To address this challenge, we propose Spatial-Spectral Implicit Function (SSIF), a neural implicit model that represents an image as a function of both continuous pixel coordinates in the spatial domain and continuous wavelengths in the spectral domain. We empirically demonstrate the effectiveness of SSIF on two challenging spatio-spectral super-resolution benchmarks. We observe that SSIF consistently outperforms state-of-the-art baselines even when the baselines are allowed to train separate models at each spectral resolution. We show that SSIF generalizes well to both unseen spatial resolutions and spectral resolutions. Moreover, SSIF can generate high-resolution images that improve the performance of downstream tasks (e.g., land use classification) by 1.7%-7%.
翻訳日:2023-10-05 04:29:19 公開日:2023-09-30
# オープンドメイン対話品質評価:ターンレベルスコアからNuggetレベルスコアを導出する

Open-Domain Dialogue Quality Evaluation: Deriving Nugget-level Scores from Turn-level Scores ( http://arxiv.org/abs/2310.00410v1 )

ライセンス: Link先を確認
Rikiya Takehi, Akihisa Watanabe and Tetsuya Sakai(参考訳) 既存の対話品質評価システムは、あるシステムに対するスコアを特定の視点、例えば係合性から返却することができる。 しかし,システム内の潜在的な問題の正確な位置を特定することで対話システムを改善するためには,よりきめ細かい評価が必要である。 そこで,既存のターンレベル評価システムを利用して,ターンをナゲット(対話行為に関連する表現)に分解し,ナゲットレベルの評価を可能にする評価手法を提案する。 本評価手法の有効性を事例研究を通して実証する。

Existing dialogue quality evaluation systems can return a score for a given system turn from a particular viewpoint, e.g., engagingness. However, to improve dialogue systems by locating exactly where in a system turn potential problems lie, a more fine-grained evaluation may be necessary. We therefore propose an evaluation approach where a turn is decomposed into nuggets (i.e., expressions associated with a dialogue act), and nugget-level evaluation is enabled by leveraging an existing turn-level evaluation system. We demonstrate the potential effectiveness of our evaluation method through a case study.
翻訳日:2023-10-05 04:28:58 公開日:2023-09-30
# 深部強化学習によるニューラルスタイルの伝達制御

Controlling Neural Style Transfer with Deep Reinforcement Learning ( http://arxiv.org/abs/2310.00405v1 )

ライセンス: Link先を確認
Chengming Feng, Jing Hu, Xin Wang, Shu Hu, Bin Zhu, Xi Wu, Hongtu Zhu and Siwei Lyu(参考訳) ニューラルスタイルトランスファー(nst)のスタイライゼーションの程度を制御するのは、通常ハイパーパラメータのハンドエンジニアリングを必要とするため、少々難しい。 本稿では,nstタスクのためのステップワイズプロセスにワンステップスタイル転送を分割した,最初の深層強化学習(rl)ベースのアーキテクチャを提案する。 rlベースの手法では,コンテンツ画像の詳細と構造を早期に保存し,後段でより多くのスタイルパターンを合成する傾向がある。 ユーザが容易に制御できるスタイル転送方式である。 さらに、我々のRLベースのモデルは、段階的にスタイリングを行うため、軽量であり、既存の1ステップのディープラーニング(DL)モデルよりも計算複雑性が低い。 実験の結果,本手法の有効性とロバスト性が示された。

Controlling the degree of stylization in the Neural Style Transfer (NST) is a little tricky since it usually needs hand-engineering on hyper-parameters. In this paper, we propose the first deep Reinforcement Learning (RL) based architecture that splits one-step style transfer into a step-wise process for the NST task. Our RL-based method tends to preserve more details and structures of the content image in early steps, and synthesize more style patterns in later steps. It is a user-easily-controlled style-transfer method. Additionally, as our RL-based model performs the stylization progressively, it is lightweight and has lower computational complexity than existing one-step Deep Learning (DL) based models. Experimental results demonstrate the effectiveness and robustness of our method.
翻訳日:2023-10-05 04:28:49 公開日:2023-09-30
# 高レベル意味関係概念を推論するより良い状況グラフ

Better Situational Graphs by Inferring High-level Semantic-Relational Concepts ( http://arxiv.org/abs/2310.00401v1 )

ライセンス: Link先を確認
Jose Andres Millan-Romera, Hriday Bavle, Muhammad Shaheer, Martin R. Oswald, Holger Voos, and Jose Luis Sanchez-Lopez(参考訳) SLAMの最近の研究は、それらの間の関係を利用した高レベルな意味概念によるポーズグラフを拡張し、状況/環境のより豊かな表現を提供するだけでなく、その推定精度を向上させる。 具体的には、因子最適化プロセスにおける意味的関係を共同で活用する先駆者であり、数学的に定義されている壁面や部屋のような意味的実体に依存している。 それでも、低レベルなファクタグラフのみに依存するこれらのハイレベルな概念の抜粋は依然として課題であり、現在アドホックなアルゴリズムで行われている。 この制限を克服するため,本研究では,低レベル因子グラフから推測可能な高レベル意味関係概念を学習するためのグラフニューラルネットワーク(gnn)を提案する。 我々は,部屋のエンティティとマッピングされた壁面との関係を,ベースラインアルゴリズムよりも正確に,より計算効率良く推測できることを実証した。 さらに,提案手法の汎用性を示すために,新たな意味概念,すなわち壁とその壁面との関係について述べる。 提案手法はS-Graphs+に統合され,シミュレーションと実データの両方で検証されている。 私たちのソフトウェアを使ったDockerコンテナは、科学コミュニティで利用できます。

Recent works on SLAM extend their pose graphs with higher-level semantic concepts exploiting relationships between them, to provide, not only a richer representation of the situation/environment but also to improve the accuracy of its estimation. Concretely, our previous work, Situational Graphs (S-Graphs), a pioneer in jointly leveraging semantic relationships in the factor optimization process, relies on semantic entities such as wall surfaces and rooms, whose relationship is mathematically defined. Nevertheless, excerpting these high-level concepts relying exclusively on the lower-level factor-graph remains a challenge and it is currently done with ad-hoc algorithms, which limits its capability to include new semantic-relational concepts. To overcome this limitation, in this work, we propose a Graph Neural Network (GNN) for learning high-level semantic-relational concepts that can be inferred from the low-level factor graph. We have demonstrated that we can infer room entities and their relationship to the mapped wall surfaces, more accurately and more computationally efficient than the baseline algorithm. Additionally, to demonstrate the versatility of our method, we provide a new semantic concept, i.e. wall, and its relationship with its wall surfaces. Our proposed method has been integrated into S-Graphs+, and it has been validated in both simulated and real datasets. A docker container with our software will be made available to the scientific community.
翻訳日:2023-10-05 04:28:36 公開日:2023-09-30
# 二層ネットワークにおけるinfoganの目的関数平等性

The objective function equality property of infoGAN for two-layer network ( http://arxiv.org/abs/2310.00443v1 )

ライセンス: Link先を確認
Mahmud Hasan(参考訳) information maximizing generative adversarial network (infogan) は、2つのネットワーク(識別器と相互情報機能を持つ生成器)を含むミニマックス問題として理解することができる。 infoGANは、潜伏変数、相互情報、目的関数など、様々なコンポーネントを組み込んでいる。 本研究は,インフォGANの2つの目的関数が,識別器とジェネレータのサンプルサイズが無限大に近づくと等価になることを示す。 この等価性は、目的関数の経験的バージョンと人口的バージョンの違いを考慮して確立される。 この差分のバウンドは、判別器と生成関数クラスのラデマッハ複雑性によって決定される。 さらに、リプシッツと非減少活性化関数を特徴とする判別器とジェネレータの両方に二層ネットワークを利用することにより、この等価性を検証する。

Information Maximizing Generative Adversarial Network (infoGAN) can be understood as a minimax problem involving two networks: discriminators and generators with mutual information functions. The infoGAN incorporates various components, including latent variables, mutual information, and objective function. This research demonstrates that the two objective functions in infoGAN become equivalent as the discriminator and generator sample size approaches infinity. This equivalence is established by considering the disparity between the empirical and population versions of the objective function. The bound on this difference is determined by the Rademacher complexity of the discriminator and generator function class. Furthermore, the utilization of a two-layer network for both the discriminator and generator, featuring Lipschitz and non-decreasing activation functions, validates this equality
翻訳日:2023-10-05 04:20:25 公開日:2023-09-30
# 人為的な逆転例

Human-Producible Adversarial Examples ( http://arxiv.org/abs/2310.00438v1 )

ライセンス: Link先を確認
David Khachaturov, Yue Gao, Ilia Shumailov, Robert Mullins, Ross Anderson, Kassem Fawaz(参考訳) これまでは、デジタル世界ではピクセルレベルの画像操作に制限されていたり、2Dや3Dプリンターのような高度な機器を物理的に制作する必要があった。 我々は,マーカーペンほど複雑ではない実世界に対して,人為的に生成可能な敵の例を生成する手法を初めて提示する。 これを $\textbf{adversarial tags}$ と呼ぶ。 まず、差分レンダリングの上に構築することで、直列で強力な逆例を構築することができることを示す。 わずか4ドルのラインを引けば、YOLOベースのモデルを54.8 %のケースで破壊でき、これを9 ドルに増やすと、テストされたケースの81.8 %のケースが破壊される。 次に,線配置を人間の描画誤差に不変にするための改良手法を提案する。 デジタルとアナログの両方の世界でシステムを徹底的に評価し,訓練を受けていない人間がタグを適用できることを実証する。 本手法は,デジタル同義語をガイドとして印刷画像の描画を依頼したユーザ調査を行い,実世界の対向例作成手法の有効性を実証する。 我々はさらに,標的攻撃と非標的攻撃の両方の有効性を評価し,様々なトレードオフと方法の限界,および我々の仕事の実用的および倫理的影響について論じる。 ソースコードは公開される予定だ。

Visual adversarial examples have so far been restricted to pixel-level image manipulations in the digital world, or have required sophisticated equipment such as 2D or 3D printers to be produced in the physical real world. We present the first ever method of generating human-producible adversarial examples for the real world that requires nothing more complicated than a marker pen. We call them $\textbf{adversarial tags}$. First, building on top of differential rendering, we demonstrate that it is possible to build potent adversarial examples with just lines. We find that by drawing just $4$ lines we can disrupt a YOLO-based model in $54.8\%$ of cases; increasing this to $9$ lines disrupts $81.8\%$ of the cases tested. Next, we devise an improved method for line placement to be invariant to human drawing error. We evaluate our system thoroughly in both digital and analogue worlds and demonstrate that our tags can be applied by untrained humans. We demonstrate the effectiveness of our method for producing real-world adversarial examples by conducting a user study where participants were asked to draw over printed images using digital equivalents as guides. We further evaluate the effectiveness of both targeted and untargeted attacks, and discuss various trade-offs and method limitations, as well as the practical and ethical implications of our work. The source code will be released publicly.
翻訳日:2023-10-05 04:20:13 公開日:2023-09-30
# 著者識別における表現一般化の促進

Enhancing Representation Generalization in Authorship Identification ( http://arxiv.org/abs/2310.00436v1 )

ライセンス: Link先を確認
Haining Wang(参考訳) 著者の識別は、原典が不明な文章の著者名を確認するものである。 その作者識別技術は、作者のスタイルが適切に捉えられ表現されているという事実から、確実に機能する。 現代の著者識別法は長年にわたって大きく進化し、著者のスタイルを区別するのに有効であることが証明されてきたが、ドメイン間の様式的特徴の一般化は体系的に検討されていない。 著者識別におけるスタイリスティックな表現の一般化,特にトレーニングとテストの相違点がある場合の課題に対処する。 経験的研究の包括的レビューを行い,著者のスタイル表現における様々な様式的特徴とその効果について考察した。 トピックやジャンル、書き方に対するレジスタといった影響要因も検討され、その影響を緩和する戦略も検討された。 文字のn-gramや関数の単語のようなスタイル的特徴は頑健で差別的であることが証明されているが、コンテンツの単語のような他の特徴はバイアスをもたらし、ドメイン間の一般化を妨げることがある。 深層学習モデルを用いて学習した表現、特に文字n-gramと構文情報を組み込んだ表現は、表現の一般化の促進を約束する。 この発見は、特にクロスドメインシナリオにおいて、著者の識別に適切なスタイル的特徴を選択することの重要性を強調している。 様々な言語的特徴の強みと弱さの認識は、様々な文脈においてより正確な著者識別の道を開く。

Authorship identification ascertains the authorship of texts whose origins remain undisclosed. That authorship identification techniques work as reliably as they do has been attributed to the fact that authorial style is properly captured and represented. Although modern authorship identification methods have evolved significantly over the years and have proven effective in distinguishing authorial styles, the generalization of stylistic features across domains has not been systematically reviewed. The presented work addresses the challenge of enhancing the generalization of stylistic representations in authorship identification, particularly when there are discrepancies between training and testing samples. A comprehensive review of empirical studies was conducted, focusing on various stylistic features and their effectiveness in representing an author's style. The influencing factors such as topic, genre, and register on writing style were also explored, along with strategies to mitigate their impact. While some stylistic features, like character n-grams and function words, have proven to be robust and discriminative, others, such as content words, can introduce biases and hinder cross-domain generalization. Representations learned using deep learning models, especially those incorporating character n-grams and syntactic information, show promise in enhancing representation generalization. The findings underscore the importance of selecting appropriate stylistic features for authorship identification, especially in cross-domain scenarios. The recognition of the strengths and weaknesses of various linguistic features paves the way for more accurate authorship identification in diverse contexts.
翻訳日:2023-10-05 04:19:50 公開日:2023-09-30
# 非マルコフ的再帰を前提とした異時優先対象の一貫性集約

Consistent Aggregation of Objectives with Diverse Time Preferences Requires Non-Markovian Rewards ( http://arxiv.org/abs/2310.00435v1 )

ライセンス: Link先を確認
Silviu Pitis(参考訳) 人工エージェントの能力が向上するにつれて、さまざまな目的や利害関係者にサービスを提供することがますます増えている。 しかし、これらの目的の合成は、明確な正当化なしにしばしばアドホックに行われる。 本稿では,多目的機関への規範的アプローチについて述べる。直観的にアピールする公理の集合から,各目的に対する時間的選好(計数因子)が変化する場合,マルコフ報酬関数のマルコフ集約は不可能であることが示されている。 最適な多目的エージェントは、個々の目的に関してマルコフ的でない報酬を承認しなければならない。 この目的のために、目的ごとに1つのパラメータを追加するだけで不可能を克服する実用的な非マルコフ集約スキームが提案されている。 この研究は、シーケンシャルで多目的的なエージェンシーと時間的選択に関する新たな洞察を提供し、異なる時間的嗜好を持つ複数の世代のプリンシパルにサービスを提供するためにデプロイされるAIシステムの設計に実践的な意味を持つ。

As the capabilities of artificial agents improve, they are being increasingly deployed to service multiple diverse objectives and stakeholders. However, the composition of these objectives is often performed ad hoc, with no clear justification. This paper takes a normative approach to multi-objective agency: from a set of intuitively appealing axioms, it is shown that Markovian aggregation of Markovian reward functions is not possible when the time preference (discount factor) for each objective may vary. It follows that optimal multi-objective agents must admit rewards that are non-Markovian with respect to the individual objectives. To this end, a practical non-Markovian aggregation scheme is proposed, which overcomes the impossibility with only one additional parameter for each objective. This work offers new insights into sequential, multi-objective agency and intertemporal choice, and has practical implications for the design of AI systems deployed to serve multiple generations of principals with varying time preference.
翻訳日:2023-10-05 04:19:29 公開日:2023-09-30
# DiffPoseTalk: 拡散モデルによる音声駆動型3次元顔アニメーションと頭部電位生成

DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models ( http://arxiv.org/abs/2310.00434v1 )

ライセンス: Link先を確認
Zhiyao Sun, Tian Lv, Sheng Ye, Matthieu Gaetan Lin, Jenny Sheng, Yu-Hui Wen, Minjing Yu, Yong-jin Liu(参考訳) 音声によって駆動されるスタイリスティックな3次元顔アニメーションの生成は、音声、スタイル、およびそれに対応する自然な顔の動きの多対多マッピングを学習する必要があるため、大きな課題となる。 しかし,既存の手法では,音声と動きのマッピングに決定論的モデルを用いるか,ワンホット符号化方式を用いてそのスタイルを符号化する。 特に、ワンホット符号化アプローチは、スタイルの複雑さを捉えず、一般化能力を制限する。 本稿では,拡散モデルに基づく生成フレームワークdiffposetalkと,短い参照ビデオからスタイル埋め込みを抽出するスタイルエンコーダを組み合わせることを提案する。 推論中,音声とスタイルに基づく生成過程を指導するために,分類子なし指導を用いる。 我々はこれをヘッドポーズの生成を含むように拡張し、ユーザ認知を高める。 さらに,高品質な映像データセットから再構成された3DMMパラメータをモデルにトレーニングすることで,3D音声データ不足に対処する。 我々の広範な実験とユーザスタディは、我々のアプローチが最先端の手法より優れていることを示した。 コードとデータセットは一般公開される予定だ。

The generation of stylistic 3D facial animations driven by speech poses a significant challenge as it requires learning a many-to-many mapping between speech, style, and the corresponding natural facial motion. However, existing methods either employ a deterministic model for speech-to-motion mapping or encode the style using a one-hot encoding scheme. Notably, the one-hot encoding approach fails to capture the complexity of the style and thus limits generalization ability. In this paper, we propose DiffPoseTalk, a generative framework based on the diffusion model combined with a style encoder that extracts style embeddings from short reference videos. During inference, we employ classifier-free guidance to guide the generation process based on the speech and style. We extend this to include the generation of head poses, thereby enhancing user perception. Additionally, we address the shortage of scanned 3D talking face data by training our model on reconstructed 3DMM parameters from a high-quality, in-the-wild audio-visual dataset. Our extensive experiments and user study demonstrate that our approach outperforms state-of-the-art methods. The code and dataset will be made publicly available.
翻訳日:2023-10-05 04:19:11 公開日:2023-09-30
# 移動マニピュレーションのためのアクティブ・パーセプティブ・モーション・ジェネレーション

Active-Perceptive Motion Generation for Mobile Manipulation ( http://arxiv.org/abs/2310.00433v1 )

ライセンス: Link先を確認
Snehal Jauhri, Sophie Lueth, Georgia Chalvatzaki(参考訳) モバイル操作(moma, mobile manipulation)システムは、移動や環境とのインタラクションが可能な空間の拡大によって、モビリティとデクスタリティのメリットを取り入れている。 MoMaロボットは、内蔵カメラなどの搭載センサーを備えた場合、環境を継続的に知覚することができる。 しかし,非構造的・乱雑な家庭環境における課題関連視覚情報の抽出は依然として課題である。 本研究では,移動マニピュレータのためのアクティブな知覚パイプラインを導入し,まずは未知のシーンの把握などの操作作業に対して情報を提供する動作を生成する。 提案手法であるActPerMoMaは,視覚情報ゲインを最大化し,タスク指向の目的,例えば,到達度を効率的に最大化して成功を把握し,未知のシーンを相互に再構成するロボット軌道を生成する。 本手法は,2本腕のティアーゴ++モマロボットによるシミュレーション実験において,ごちゃごちゃした場面での移動把持と,その経路が外的障害物によって妨害された場合の有効性を実証する。 我々は,様々なユーティリティやハイパーパラメータの寄与を実証的に分析し,アクティブな知覚目標の有無に関わらず,代表的なベースラインと比較する。 最後に,実世界への移動把握戦略の移転を実証し,アクティブ・パーセプティブなMoMaの方向性を示す。

Mobile Manipulation (MoMa) systems incorporate the benefits of mobility and dexterity, thanks to the enlarged space in which they can move and interact with their environment. MoMa robots can also continuously perceive their environment when equipped with onboard sensors, e.g., an embodied camera. However, extracting task-relevant visual information in unstructured and cluttered environments such as households remains a challenge. In this work, we introduce an active perception pipeline for mobile manipulators to generate motions that are informative toward manipulation tasks such as grasping, in initially unknown, cluttered scenes. Our proposed approach ActPerMoMa generates robot trajectories in a receding horizon fashion, sampling trajectories and computing path-wise utilities that trade-off reconstructing the unknown scene by maximizing the visual information gain and the taskoriented objective, e.g., grasp success by maximizing grasp reachability efficiently. We demonstrate the efficacy of our method in simulated experiments with a dual-arm TIAGo++ MoMa robot performing mobile grasping in cluttered scenes and when its path is obstructed by external obstacles. We empirically analyze the contribution of various utilities and hyperparameters, and compare against representative baselines both with and without active perception objectives. Finally, we demonstrate the transfer of our mobile grasping strategy to the real world, showing a promising direction for active-perceptive MoMa.
翻訳日:2023-10-05 04:18:52 公開日:2023-09-30
# 光子は、送信前に原子励起としてどのくらいの時間を費やしますか?

How much time does a photon spend as an atomic excitation before being transmitted? ( http://arxiv.org/abs/2310.00432v1 )

ライセンス: Link先を確認
Kyle Thompson, Kehui Li, Daniela Angulo, Vida-Michelle Nixon, Josiah Sinclair, Amal Vijayalekshmi Sivakumar, Howard M. Wiseman, Aephraim M. Steinberg(参考訳) 単一の光子が2レベルの原子の雲を横切ると、原子を弱く探すことによって測定された原子励起としての平均時間は、光子がサイドモードに散乱する確率によって乗算される原子の自然寿命であることが示される。 平均散乱光子は原子励起として1つの自然寿命を過ごし、送信される光子は原子励起としてゼロ時間を使用する。 しかし、最近のいくつかの研究[prx quantum 3, 010314 (2022)]は、この直観を反論している。 この問題を弱値形式を用いて検討し、送信された光子が原子励起として使う時間は、正あるいは負の値を取ることができる群遅延と等しいことを示す。 また、散乱光子の対応する時間を決定し、群遅延とウィグナー時間遅延と呼ばれる弾性散乱に関連する時間遅延からなる散乱光子パルスの時間遅延と等しくなることを見出した。 この研究は、吸収性媒体を移動する光子の複雑で驚くべき歴史に関する新たな洞察を提供する。

When a single photon traverses a cloud of 2-level atoms, the average time it spends as an atomic excitation -- as measured by weakly probing the atoms -- can be shown to be the spontaneous lifetime of the atoms multiplied by the probability of the photon being scattered into a side mode. A tempting inference from this is that an average scattered photon spends one spontaneous lifetime as an atomic excitation, while photons that are transmitted spend zero time as atomic excitations. However, recent experimental work by some of us [PRX Quantum 3, 010314 (2022)] refutes this intuition. We examine this problem using the weak-value formalism and show that the time a transmitted photon spends as an atomic excitation is equal to the group delay, which can take on positive or negative values. We also determine the corresponding time for scattered photons and find that it is equal to the time delay of the scattered photon pulse, which consists of a group delay and a time delay associated with elastic scattering, known as the Wigner time delay. This work provides new insight into the complex and surprising histories of photons travelling through absorptive media.
翻訳日:2023-10-05 04:18:25 公開日:2023-09-30
# ResolvNet: マルチスケール一貫性を備えたグラフ畳み込みネットワーク

ResolvNet: A Graph Convolutional Network with multi-scale Consistency ( http://arxiv.org/abs/2310.00431v1 )

ライセンス: Link先を確認
Christian Koke, Abhishek Saroha, Yuesong Shen, Marvin Eisenberger, Daniel Cremers(参考訳) 現在、グラフ学習コミュニティでよく知られている事実として、ボトルネックの存在は、グラフニューラルネットワークが長距離情報を伝播する能力を著しく制限している。 今のところ評価されていないのは、直観的には、強い連結されたサブグラフの存在が、共通のアーキテクチャにおける情報フローを厳しく制限する可能性があることだ。 この観測により,マルチスケール一貫性の概念が導入された。 ノードレベルでは、この概念は与えられたグラフ上で接続が変化しても接続された伝播グラフの保持を指す。 グラフレベルでは、マルチスケールの一貫性は、異なる解像度で同じオブジェクトを記述する異なるグラフが同様の特徴ベクトルを割り当てるべきという事実を指す。 このように、両方の特性は、多面グラフニューラルネットワークアーキテクチャでは満足できない。 これらの欠点を補うために,リゾルダーの数学的概念に基づくフレキシブルグラフニューラルネットワークResolvNetを導入する。 このResolvNetアーキテクチャに基づくネットワークは、多くのタスク、すなわちマルチスケール設定の内外において、はるかに高いパフォーマンスのベースラインを誇示しています。

It is by now a well known fact in the graph learning community that the presence of bottlenecks severely limits the ability of graph neural networks to propagate information over long distances. What so far has not been appreciated is that, counter-intuitively, also the presence of strongly connected sub-graphs may severely restrict information flow in common architectures. Motivated by this observation, we introduce the concept of multi-scale consistency. At the node level this concept refers to the retention of a connected propagation graph even if connectivity varies over a given graph. At the graph-level, multi-scale consistency refers to the fact that distinct graphs describing the same object at different resolutions should be assigned similar feature vectors. As we show, both properties are not satisfied by poular graph neural network architectures. To remedy these shortcomings, we introduce ResolvNet, a flexible graph neural network based on the mathematical concept of resolvents. We rigorously establish its multi-scale consistency theoretically and verify it in extensive experiments on real world data: Here networks based on this ResolvNet architecture prove expressive; out-performing baselines significantly on many tasks; in- and outside the multi-scale setting.
翻訳日:2023-10-05 04:18:06 公開日:2023-09-30
# 2023 ABOファイングラニュラーセマンティックセマンティックセグメンテーションコンペティションの実施報告

Technical Report of 2023 ABO Fine-grained Semantic Segmentation Competition ( http://arxiv.org/abs/2310.00427v1 )

ライセンス: Link先を確認
Zeyu Dong(参考訳) 本報告では,2023 abo細粒度セマンティックセグメンテーションコンペティションへの提案について,チーム"zeyu\_dong"(ユーザ名:zeyudong)による技術的詳細について述べる。 そのタスクは、オンラインで購入可能な実製品の高品質で標準化された3dモデルで構成される5つのカテゴリーの凸形のセマンティックラベルを述語することである。 dgcnnをバックボーンとして5つのクラスの異なる構造を分類することにより,様々な実験を行い,ウォームリスタートを伴う学習率の確率的勾配降下を見出し,様々なカテゴリの因子の割合を設定させることが,モデルの性能に大きく寄与することを示した。 適切な方法は、2023年のICCV 3DVeComm Workshop ChallengeのDevフェーズで3位になるのに役立つ。

In this report, we describe the technical details of our submission to the 2023 ABO Fine-grained Semantic Segmentation Competition, by Team "Zeyu\_Dong" (username:ZeyuDong). The task is to predicate the semantic labels for the convex shape of five categories, which consist of high-quality, standardized 3D models of real products available for purchase online. By using DGCNN as the backbone to classify different structures of five classes, We carried out numerous experiments and found learning rate stochastic gradient descent with warm restarts and setting different rate of factors for various categories contribute most to the performance of the model. The appropriate method helps us rank 3rd place in the Dev phase of the 2023 ICCV 3DVeComm Workshop Challenge.
翻訳日:2023-10-05 04:17:28 公開日:2023-09-30
# 1$\delta-\delta^{\prime}$ミラーの非対称力学カシミール効果における干渉現象

Interference phenomena in the asymmetric dynamical Casimir effect for a single $\delta-\delta^{\prime}$ mirror ( http://arxiv.org/abs/2310.00474v1 )

ライセンス: Link先を確認
Matthew J. Gorban, William D. Julius, Ramesh Radhakrishnan, and Gerald B. Cleaver(参考訳) 量子真空と時間依存境界の間の相互作用は、動的カシミール効果によって粒子を生成することができる。 非対称カシミール系では、境界の両側に粒子生成の不均衡が存在することが知られている。 ここでは、時間依存特性を持つ運動する$\delta-\delta^{\prime}$ミラーと相互作用する1+1次元の真の質量を持たないスカラー場を考える。 スペクトル分布と粒子生成速度は計算され、現在では、建設的または破壊的な方法でスペクトルの異なる部分に影響を及ぼす追加の干渉項を含む。 鏡面の両側に生じる粒子スペクトルの差を解析し, 系の非対称性について検討した。 さらに、複数の揺らぎ源を対象とする静止$\delta-\delta^{\prime}$ミラーの文脈におけるスペクトルとその非対称性の強化についても検討する。

The interaction between the quantum vacuum and time-dependent boundaries can produce particles via the dynamical Casimir effect. It is known that, for asymmetric Casimir systems, there is an imbalance in the particle production on either side of the boundary. Here, we consider a real massless scalar field in 1+1 dimensions interacting with a moving $\delta-\delta^{\prime}$ mirror with time-dependent properties. The spectral distribution and particle creation rate are computed, which now include an additional interference term that can affect different parts of the spectrum in a constructive or destructive manner. The asymmetry of the system is investigated by analyzing the difference in particle spectra produced on the two sides of the mirror. Additionally, we also explore enhancement of the spectrum and its asymmetry within the context of a stationary $\delta-\delta^{\prime}$ mirror subject to multiple fluctuation sources.
翻訳日:2023-10-05 04:12:47 公開日:2023-09-30
# 自律性のための推論不可能な行動の促進:観察を伴う繰り返しビマトリクス・スタックルバーグゲーム

Encouraging Inferable Behavior for Autonomy: Repeated Bimatrix Stackelberg Games with Observations ( http://arxiv.org/abs/2310.00468v1 )

ライセンス: Link先を確認
Mustafa O. Karabag, Sophia Smith, David Fridovich-Keil, Ufuk Topcu(参考訳) 他の非競争的な意思決定エージェントと対話する際には、自律的なエージェントが推論不可能な行動をとることが重要である。 例えば、自動運転車の戦略は、車と相互作用する歩行者によって推測されなければならない。 我々は、リーダーとフォロワが繰り返し相互作用する観察を用いて、繰り返しバイマトリックスのstackelbergゲームを用いて推論可能性問題をモデル化する。 対話の間、リーダーは固定された、潜在的に混合された戦略を使用する。 一方、フォロワーはリーダーの戦略を知らないので、リーダーの以前の行動である観察に基づいて動的に反応します。 観察を伴う設定では、リーダーは推測不能な損失、すなわち、リーダーの戦略に関する完全な情報を持っているという設定と比べて、パフォーマンスに苦しむことがある。 推測可能性の損失は,対話数の関数と指導者の戦略の確率レベルによって上限に達し,より低い確率レベルで推論可能な戦略の使用を促す。 逆に、必要な数の相互作用が、所望の推論可能性損失の関数によって限定されるゲームも提供する。

When interacting with other non-competitive decision-making agents, it is critical for an autonomous agent to have inferable behavior: Their actions must convey their intention and strategy. For example, an autonomous car's strategy must be inferable by the pedestrians interacting with the car. We model the inferability problem using a repeated bimatrix Stackelberg game with observations where a leader and a follower repeatedly interact. During the interactions, the leader uses a fixed, potentially mixed strategy. The follower, on the other hand, does not know the leader's strategy and dynamically reacts based on observations that are the leader's previous actions. In the setting with observations, the leader may suffer from an inferability loss, i.e., the performance compared to the setting where the follower has perfect information of the leader's strategy. We show that the inferability loss is upper-bounded by a function of the number of interactions and the stochasticity level of the leader's strategy, encouraging the use of inferable strategies with lower stochasticity levels. As a converse result, we also provide a game where the required number of interactions is lower bounded by a function of the desired inferability loss.
翻訳日:2023-10-05 04:12:33 公開日:2023-09-30
# Diff-DOPE:微分可能なDeep Object Pose推定

Diff-DOPE: Differentiable Deep Object Pose Estimation ( http://arxiv.org/abs/2310.00463v1 )

ライセンス: Link先を確認
Jonathan Tremblay, Bowen Wen, Valts Blukis, Balakumar Sundaralingam, Stephen Tyree, Stan Birchfield(参考訳) Diff-DOPE, 画像入力を行う6-DoFポーズ精細機, オブジェクトの3次元テクスチャモデル, オブジェクトの初期ポーズを紹介する。 この方法は微分可能なレンダリングを使用してオブジェクトのポーズを更新することで、画像とモデルの投影との間の視覚的エラーを最小限に抑える。 このシンプルで効果的なアイデアは,ポーズ推定データセットにおいて最先端の結果が得られることを示す。 提案手法は,大規模合成データセット上で訓練された深層ニューラルネットワークを用いて,入力を改良ステップにマッピングする最近の手法からの脱却である。 むしろ、差別化可能なレンダリングを使用することで、トレーニングを完全に回避できます。 提案手法は,対称オブジェクトや類似の外観,あるいは間違ったステップサイズからの局所的最小値を回避するために,異なるランダム学習率と並列に複数の勾配降下最適化を行う。 例えば、RGB、深さ、強度エッジ、オブジェクトセグメンテーションマスクなどである。 本稿では,RGB画像にオブジェクトマスクと深度画像が伴って最適化プロセスの導出を行う場合に,様々な選択の効果を検証し,最良の結果が得られることを示す。

We introduce Diff-DOPE, a 6-DoF pose refiner that takes as input an image, a 3D textured model of an object, and an initial pose of the object. The method uses differentiable rendering to update the object pose to minimize the visual error between the image and the projection of the model. We show that this simple, yet effective, idea is able to achieve state-of-the-art results on pose estimation datasets. Our approach is a departure from recent methods in which the pose refiner is a deep neural network trained on a large synthetic dataset to map inputs to refinement steps. Rather, our use of differentiable rendering allows us to avoid training altogether. Our approach performs multiple gradient descent optimizations in parallel with different random learning rates to avoid local minima from symmetric objects, similar appearances, or wrong step size. Various modalities can be used, e.g., RGB, depth, intensity edges, and object segmentation masks. We present experiments examining the effect of various choices, showing that the best results are found when the RGB image is accompanied by an object mask and depth image to guide the optimization process.
翻訳日:2023-10-05 04:12:04 公開日:2023-09-30
# 心不全患者の死亡予測の強化:不均衡な臨床データに対する前処理法の検討

Enhancing Mortality Prediction in Heart Failure Patients: Exploring Preprocessing Methods for Imbalanced Clinical Datasets ( http://arxiv.org/abs/2310.00457v1 )

ライセンス: Link先を確認
Hanif Kia, Mansour Vali, Hadi Sabahi(参考訳) 心不全 (hf) は、死亡率の正確な予測が患者の管理決定を導く上で重要な役割を果たす重要な疾患である。 しかし、HFの死亡予測に使用される臨床データセットは、しばしば不均衡なクラスの分布に悩まされ、重大な課題を生じさせる。 本稿では,HF患者における1ヶ月の死亡予測の事前処理方法を検討する。 本稿では,スケーリング,アウトレーヤ処理,再サンプリングなどを含む包括的事前処理フレームワークを提案する。 また,臨床データセットの欠落値を効果的に処理するために,認識符号化手法も採用した。 本研究は,PROVE (Perssian Registry of Cardio Vascular disease) からの包括的データセットを用いた。 適切な前処理技術と機械学習(ML)アルゴリズムを活用することで,HF患者の死亡予測性能を向上させることを目指す。 その結果,木型モデル,特にランダムフォレスト (rf) とxgboost (xgb) では,f1スコアが約3.6%,mccが2.7%向上した。 これは、不均衡臨床データセット(icd)を効果的に処理する前処理アプローチの効率を示す。 本研究は, 医療従事者に対して, HF 管理における意思決定の指導と患者の成果の向上を約束するものである。

Heart failure (HF) is a critical condition in which the accurate prediction of mortality plays a vital role in guiding patient management decisions. However, clinical datasets used for mortality prediction in HF often suffer from an imbalanced distribution of classes, posing significant challenges. In this paper, we explore preprocessing methods for enhancing one-month mortality prediction in HF patients. We present a comprehensive preprocessing framework including scaling, outliers processing and resampling as key techniques. We also employed an aware encoding approach to effectively handle missing values in clinical datasets. Our study utilizes a comprehensive dataset from the Persian Registry Of cardio Vascular disease (PROVE) with a significant class imbalance. By leveraging appropriate preprocessing techniques and Machine Learning (ML) algorithms, we aim to improve mortality prediction performance for HF patients. The results reveal an average enhancement of approximately 3.6% in F1 score and 2.7% in MCC for tree-based models, specifically Random Forest (RF) and XGBoost (XGB). This demonstrates the efficiency of our preprocessing approach in effectively handling Imbalanced Clinical Datasets (ICD). Our findings hold promise in guiding healthcare professionals to make informed decisions and improve patient outcomes in HF management.
翻訳日:2023-10-05 04:11:31 公開日:2023-09-30
# 音楽と歌詞によるダンス合成

Music- and Lyrics-driven Dance Synthesis ( http://arxiv.org/abs/2310.00455v1 )

ライセンス: Link先を確認
Wenjie Yin, Qingyuan Yao, Yi Yu, Hang Yin, Danica Kragic, M{\aa}rten Bj\"orkman(参考訳) 歌詞は、しばしば聴覚の次元を超えた曲に関する情報を伝え、運動の意味と音楽のテーマを豊かにする。 このような洞察は舞踊振り付けの分野で重要である。 しかし、既存のダンス合成手法のほとんどは、意味的な情報を考慮せずに、音楽からダンスへの生成に重点を置いている。 そこで本研究では,音楽と歌詞による3Dダンス動作のマルチモーダルデータセットJustLMDを紹介する。 私たちの知る限りでは、これはダンスモーション、音楽、歌詞を含むトリプルト情報を含む最初のデータセットです。 さらに,音楽や歌詞を条件とした3dダンス動作を生成するクロスモーダル拡散ベースのネットワークも紹介する。 提案されているjustlmdデータセットは、1867年で4.6時間の3dダンスの動きを包含し、音楽のトラックと対応する英語の歌詞を伴っている。

Lyrics often convey information about the songs that are beyond the auditory dimension, enriching the semantic meaning of movements and musical themes. Such insights are important in the dance choreography domain. However, most existing dance synthesis methods mainly focus on music-to-dance generation, without considering the semantic information. To complement it, we introduce JustLMD, a new multimodal dataset of 3D dance motion with music and lyrics. To the best of our knowledge, this is the first dataset with triplet information including dance motion, music, and lyrics. Additionally, we showcase a cross-modal diffusion-based network designed to generate 3D dance motion conditioned on music and lyrics. The proposed JustLMD dataset encompasses 4.6 hours of 3D dance motion in 1867 sequences, accompanied by musical tracks and their corresponding English lyrics.
翻訳日:2023-10-05 04:10:33 公開日:2023-09-30
# unilvseg:sparsely annotated echocardiogram videoを用いた自己教師付きテンポラルマスキングと弱い教師付きトレーニングによる統一左室セグメンテーション

UniLVSeg: Unified Left Ventricular Segmentation with Sparsely Annotated Echocardiogram Videos through Self-Supervised Temporal Masking and Weakly Supervised Training ( http://arxiv.org/abs/2310.00454v1 )

ライセンス: Link先を確認
Fadillah Maani, Asim Ukaye, Nada Saadi, Numan Saeed, Mohammad Yaqub(参考訳) 心エコー検査は、一般的な心臓健康評価に欠かせない臨床画像モダリティとなった。 退院率などのバイオマーカーの計算から患者の心不全の確率まで、心臓とその構造を正確に区分けすることで、医師はより正確に治療を計画し実行することができる。 しかし、正確で堅牢な左室セグメンテーションを実現するには、様々な理由から時間がかかる。 本研究は,左室(lv)セグメンテーションを狭義のアノテート付き心エコービデオから確立するための新しいアプローチを提案する。 本研究では,(1)時間マスキングを用いた自己教師型学習(SSL),(2)弱教師型学習によって実現した。 3次元セグメンテーションと新しい2次元スーパーイメージ(si)の2つの異なるセグメンテーション手法を検討した。 提案手法は,大規模データセット (echonet-dynamic) 上で93.32% (95%ci 93.21-93.43%) diceスコアを効率良く達成することで,最先端ソリューションに勝ることを示す。 提案手法の有効性を示すため,事前学習設定や各種深層学習バックボーンなど,広範囲にわたるアブレーション研究を行った。 さらに,本提案手法がトレーニングプロセスにラベルなしフレームを組み込むことで高データ活用を実現する方法について考察する。 医療コミュニティにおけるAIを支援するため、ソースコードによる完全なソリューションは、受諾時に公開されます。

Echocardiography has become an indispensable clinical imaging modality for general heart health assessment. From calculating biomarkers such as ejection fraction to the probability of a patient's heart failure, accurate segmentation of the heart and its structures allows doctors to plan and execute treatments with greater precision and accuracy. However, achieving accurate and robust left ventricle segmentation is time-consuming and challenging due to different reasons. This work introduces a novel approach for consistent left ventricular (LV) segmentation from sparsely annotated echocardiogram videos. We achieve this through (1) self-supervised learning (SSL) using temporal masking followed by (2) weakly supervised training. We investigate two different segmentation approaches: 3D segmentation and a novel 2D superimage (SI). We demonstrate how our proposed method outperforms the state-of-the-art solutions by achieving a 93.32% (95%CI 93.21-93.43%) dice score on a large-scale dataset (EchoNet-Dynamic) while being more efficient. To show the effectiveness of our approach, we provide extensive ablation studies, including pre-training settings and various deep learning backbones. Additionally, we discuss how our proposed methodology achieves high data utility by incorporating unlabeled frames in the training process. To help support the AI in medicine community, the complete solution with the source code will be made publicly available upon acceptance.
翻訳日:2023-10-05 04:10:17 公開日:2023-09-30
# ファウショット学習におけるメタ学習モデルにおける神経崩壊の役割について

On the Role of Neural Collapse in Meta Learning Models for Few-shot Learning ( http://arxiv.org/abs/2310.00451v1 )

ライセンス: Link先を確認
Saaketh Medepalli and Naren Doraiswamy(参考訳) 数少ない学習のためのメタ学習フレームワークは、新しいスキルを学習したり、いくつかのトレーニング例で新しい環境に素早く適応できるモデルを学ぶことを目的としている。 このことが、少数のラベル付きサンプルを持つ新しいクラスに対する開発モデルの一般化につながった。 しかし、これらのネットワークはブラックボックスモデルと見なされ、異なる学習シナリオで学習される表現を理解することは重要である。 神経崩壊(neural collapse) (\mathcal{nc}$)は、ネットワークの損失ゼロに向けたユニークな特性を示す、最近発見された現象である。 入力特徴は各クラス手段に崩壊し、クラス手段は、クラス手段が最大距離で直線的に分離可能な簡易等角的タイトフレーム(ETF)を形成し、その分類器は、単純な近接した隣接分類器として機能する。 これらの現象は、単純な分類ネットワークで観察されているが、この研究は、少数の学習のためのメタ学習フレームワークにおける神経崩壊の性質を探求し理解する最初の方法である。 我々は,オムニグロットデータセットを数ショット設定で研究し,神経崩壊現象を研究する。 学習した特徴は、特にモデルのサイズが大きくなるにつれて神経崩壊の傾向を持つが、$\mathcal{NC}$プロパティによって測定されるような完全な崩壊を示すとは限らない。

Meta-learning frameworks for few-shot learning aims to learn models that can learn new skills or adapt to new environments rapidly with a few training examples. This has led to the generalizability of the developed model towards new classes with just a few labelled samples. However these networks are seen as black-box models and understanding the representations learnt under different learning scenarios is crucial. Neural collapse ($\mathcal{NC}$) is a recently discovered phenomenon which showcases unique properties at the network proceeds towards zero loss. The input features collapse to their respective class means, the class means form a Simplex equiangular tight frame (ETF) where the class means are maximally distant and linearly separable, and the classifier acts as a simple nearest neighbor classifier. While these phenomena have been observed in simple classification networks, this study is the first to explore and understand the properties of neural collapse in meta learning frameworks for few-shot learning. We perform studies on the Omniglot dataset in the few-shot setting and study the neural collapse phenomenon. We observe that the learnt features indeed have the trend of neural collapse, especially as model size grows, but to do not necessarily showcase the complete collapse as measured by the $\mathcal{NC}$ properties.
翻訳日:2023-10-05 04:09:29 公開日:2023-09-30
# ナノ秒パルス状態における自由空間におけるウォークオフ補償の構成による波長変換の最適設計

Optimal design for wavelength conversion with a configuration of walk-off compensation in free space in the nanosecond pulsed regime ( http://arxiv.org/abs/2310.00450v1 )

ライセンス: Link先を確認
Chiaki Ohae, Kenji Hasegawa, Masato Nagano, Soma Tahara, and Masayuki Katsuragawa(参考訳) 自由空間に配置された非線形光学結晶の角相整合による標準波長変換に基づいて, ナノ秒系における基本レーザ放射の良好な単一モード特性を維持しつつ, 近接フルエネルギー変換を実現するための最適設計を数値解析および実験的に提示する。

On the basis of standard wavelength conversion by the use of angular phase matching of nonlinear optical crystals arranged in free space, applicable to a wide range of wavelengths and laser intensities, we both numerically and experimentally present an optimal design for achieving near-full energy conversion while maintaining good single-mode properties of fundamental laser radiation in the nanosecond regime.
翻訳日:2023-10-05 04:09:05 公開日:2023-09-30
# 精神保健フォーラムデータを用いた統合失調症症状の質問応答モデルと日常生活への影響

Question-Answering Model for Schizophrenia Symptoms and Their Impact on Daily Life using Mental Health Forums Data ( http://arxiv.org/abs/2310.00448v1 )

ライセンス: Link先を確認
Christian Intern\`o and Eloisa Ambrosini(参考訳) 近年,機械学習技術を用いた医療データのマイニングに重点が置かれている。 一般的な問題として、研究内容に関するノイズのない文書の集合を取得し、特定の医療分野に対する質問回答(QA)モデルを開発することが挙げられる。 本研究の目的は,医学的データセットを構築するための新しい手法を提案し,特定の疾患領域における症状の分析と日常生活への影響に関するQAモデルを得ることである。 統合失調症と異なる精神疾患に苦しむ人々のためのフォーラムである「メンタルヘルス」フォーラムが使用された。 定期的に参加するアクティブユーザーの関連投稿は、プライバシーの問題なく、低バイアスコンテンツを入手する新しい方法を提供している。 さらに、データセットを前処理してQAデータセットに変換する方法も示されている。 The Bidirectional Encoder Representations from Transformers (BERT), DistilBERT, RoBERTa, BioBERT model was fine-tuned and evaluation through F1-Score, Exact Match, Precision and Recall。 正確な実験により,QAモデル実装のための正確なデータセットを得るための提案手法の有効性が実証された。 また,BioBERT QAモデルを微調整し,F1スコア0.885を達成し,精神疾患領域の最先端モデルよりも高い精度で改善した。

In recent years, there is strong emphasis on mining medical data using machine learning techniques. A common problem is to obtain a noiseless set of textual documents, with a relevant content for the research question, and developing a Question Answering (QA) model for a specific medical field. The purpose of this paper is to present a new methodology for building a medical dataset and obtain a QA model for analysis of symptoms and impact on daily life for a specific disease domain. The ``Mental Health'' forum was used, a forum dedicated to people suffering from schizophrenia and different mental disorders. Relevant posts of active users, who regularly participate, were extrapolated providing a new method of obtaining low-bias content and without privacy issues. Furthermore, it is shown how to pre-process the dataset to convert it into a QA dataset. The Bidirectional Encoder Representations from Transformers (BERT), DistilBERT, RoBERTa, and BioBERT models were fine-tuned and evaluated via F1-Score, Exact Match, Precision and Recall. Accurate empirical experiments demonstrated the effectiveness of the proposed method for obtaining an accurate dataset for QA model implementation. By fine-tuning the BioBERT QA model, we achieved an F1 score of 0.885, showing a considerable improvement and outperforming the state-of-the-art model for mental disorders domain.
翻訳日:2023-10-05 04:08:56 公開日:2023-09-30
# FragQC: 量子回路フラグメンテーションを用いた効率的な量子エラー低減手法

FragQC: An Efficient Quantum Error Reduction Technique using Quantum Circuit Fragmentation ( http://arxiv.org/abs/2310.00444v1 )

ライセンス: Link先を確認
Saikat Basu and Arnav Das and Amit Saha and Amlan Chakrabarti and Susmita Sur-Kolay(参考訳) 量子コンピュータは、現実の問題を解決するために、量子ビットの非常に厳密な定性的かつ定量的な要件を満たす必要がある。 量子回路のフラグメンテーション技術は、大きな量子回路を複数のサブ回路に分割し、より小さなノイズの多い量子ハードウェア上で実行できる。 しかし、量子回路の断片化の過程は、指数時間複雑性を持つ理想的なカットを見つけることと、出力を再構築するために必要な古典的な後処理を含む。 本稿では,重み付きグラフを用いた量子回路を表現し,各サブサーキットにおける推定誤差のバランスをとるとともに,サブサーキット間の絡み合いを減少させる効率的なフラグメンテーションを選択する新しい古典グラフ分割アルゴリズムを提案する。 また,このようなカットを求めるグラフ分割の古典的手法と量子的手法の比較研究も行った。 誤差確率が一定の閾値を超えると、量子回路をサブ回路に切断するソフトウェアツールである {\it FragQC} を提示する。 提案手法では,回路を切断することなく,直接実行に比べて忠実度が14.83\%向上し,ベンチマーク回路では8.45\%向上した。

Quantum computers must meet extremely stringent qualitative and quantitative requirements on their qubits in order to solve real-life problems. Quantum circuit fragmentation techniques divide a large quantum circuit into a number of sub-circuits that can be executed on the smaller noisy quantum hardware available. However, the process of quantum circuit fragmentation involves finding an ideal cut that has exponential time complexity, and also classical post-processing required to reconstruct the output. In this paper, we represent a quantum circuit using a weighted graph and propose a novel classical graph partitioning algorithm for selecting an efficient fragmentation that reduces the entanglement between the sub-circuits along with balancing the estimated error in each sub-circuit. We also demonstrate a comparative study over different classical and quantum approaches of graph partitioning for finding such a cut. We present {\it FragQC}, a software tool that cuts a quantum circuit into sub-circuits when its error probability exceeds a certain threshold. With this proposed approach, we achieve an increase of fidelity by 14.83\% compared to direct execution without cutting the circuit, and 8.45\% over the state-of-the-art ILP-based method, for the benchmark circuits.
翻訳日:2023-10-05 04:08:33 公開日:2023-09-30
# 小さなビジュアル言語モデルもオープンエンドのFew-Shot学習者になる

Small Visual Language Models can also be Open-Ended Few-Shot Learners ( http://arxiv.org/abs/2310.00500v1 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees G. M. Snoek, Marcel Worring, Yuki M. Asano(参考訳) 我々は、小さな視覚言語モデルのオープンな数ショットの能力を解放する自己教師型アプローチであるSeCAt(Se-Context Adaptation)を提案する。 提案アルゴリズムは,記号的だが自己指導型訓練タスクから明示的に学習する。 具体的には,大規模な画像プールをクラスタリングした上で,意味不明な名前をクラスタに割り当てることで,イメージキャプションを自己管理的に模倣する。 これにより、画像と擬似キャプションペアのインターリーブされたシーケンスと、適切な擬似キャプションを生成するためにモデルが訓練されたクエリイメージからなるトレーニング信号「self-context」を構築する。 様々な粒度にまたがるマルチモーダルな数ショットデータセット上で,SeCAtの性能と柔軟性を示す。 約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。 SeCAtは、大規模またはプロプライエタリなモデルへのアクセスを必要とするオープンエンドの数発の学習において、新たな可能性を開く。

We present Self-Context Adaptation (SeCAt), a self-supervised approach that unlocks open-ended few-shot abilities of small visual language models. Our proposed adaptation algorithm explicitly learns from symbolic, yet self-supervised training tasks. Specifically, our approach imitates image captions in a self-supervised way based on clustering a large pool of images followed by assigning semantically-unrelated names to clusters. By doing so, we construct the `self-context', a training signal consisting of interleaved sequences of image and pseudo-caption pairs and a query image for which the model is trained to produce the right pseudo-caption. We demonstrate the performance and flexibility of SeCAt on several multimodal few-shot datasets, spanning various granularities. By using models with approximately 1B parameters we outperform the few-shot abilities of much larger models, such as Frozen and FROMAGe. SeCAt opens new possibilities for research in open-ended few-shot learning that otherwise requires access to large or proprietary models.
翻訳日:2023-10-05 04:00:33 公開日:2023-09-30
# 歩行用ソフトロボット四足歩行の自動歩行生成

Automated Gait Generation For Walking, Soft Robotic Quadrupeds ( http://arxiv.org/abs/2310.00498v1 )

ライセンス: Link先を確認
Jake Ketchum, Sophia Schiffer, Muchen Sun, Pranav Kaarthik, Ryan L. Truby, Todd D. Murphey(参考訳) ソフトアクチュエータの非線形ダイナミクスと高次元入力空間のため,ソフトロボットの歩行生成は困難である。 ソフトロボット制御と知覚の制限により、研究者は歩行シーケンスのための手作りのオープンループコントローラに制限を受ける。 さらに、短時間の柔らかいアクチュエータ寿命とアクチュエータ動作の自然な変化は、ロボットの展開と同じ時間スケールで学習できる設定に機械学習技術を制限する。 最後に, ソフトロボット材料の不均一性や非線形性, 摩耗による動的変化などにより, シミュレーションが常に可能であるとは限らない。 極小計算を用いて,サンプル効率のよいシミュレーションフリーなソフトロボット歩行自動生成手法を提案する。 この技術は16個のHSAアクチュエータで構築された4本の脚を使って歩行するモーター化されたソフトロボット四足歩行で実証されている。 探索空間の次元を管理するために、7つの可能なプリミティブから選択された2つの脚の動きからなる。 プリミティブのペアは一度に片足で実行されます。次に、次の脚に移動しながら実行する最善のペアを選択します。 シミュレーションも高度な計算もユーザー入力も使わないこの手法は、4分間のハードウェア実験で優れた翻訳とローテーションの歩行を一貫して生成し、手作りの歩行よりも優れています。 これはソフトロボットにおける完全に自律的な歩行生成の最初のデモンストレーションである。

Gait generation for soft robots is challenging due to the nonlinear dynamics and high dimensional input spaces of soft actuators. Limitations in soft robotic control and perception force researchers to hand-craft open loop controllers for gait sequences, which is a non-trivial process. Moreover, short soft actuator lifespans and natural variations in actuator behavior limit machine learning techniques to settings that can be learned on the same time scales as robot deployment. Lastly, simulation is not always possible, due to heterogeneity and nonlinearity in soft robotic materials and their dynamics change due to wear. We present a sample-efficient, simulation free, method for self-generating soft robot gaits, using very minimal computation. This technique is demonstrated on a motorized soft robotic quadruped that walks using four legs constructed from 16 ``handed shearing auxetic" (HSA) actuators. To manage the dimension of the search space, gaits are composed of two sequential sets of leg motions selected from 7 possible primitives. Pairs of primitives are executed on one leg at a time; we then select the best-performing pair to execute while moving on to subsequent legs. This method -- which uses no simulation, sophisticated computation, or user input -- consistently generates good translation and rotation gaits in as low as 4 minutes of hardware experimentation, outperforming hand-crafted gaits. This is the first demonstration of completely autonomous gait generation in a soft robot.
翻訳日:2023-10-05 04:00:15 公開日:2023-09-30
# sparsityのルーフライン:スパースニューラルネットワークのハードウェア限界を理解する

The Sparsity Roofline: Understanding the Hardware Limits of Sparse Neural Networks ( http://arxiv.org/abs/2310.00496v1 )

ライセンス: Link先を確認
Cameron Shinn, Collin McCarthy, Saurav Muralidharan, Muhammad Osama, John D. Owens(参考訳) 本稿では,ニューラルネットワークの空間性を評価する視覚的パフォーマンスモデルであるSparsity Rooflineを紹介する。 Sparsity Rooflineは、ネットワークの正確性、疎性、予測される推論スピードアップを共同でモデル化する。 提案手法では最適化されたカーネルの実装やベンチマークは必要とせず、予測されたスピードアップは、対応する高密度でスパースなカーネルが等しく最適化された場合の計測値と等しい。 本手法は,スパースネットワーク性能を推定する新たな解析モデルを用いて実現し,複数の実世界のコンピュータビジョンアーキテクチャを用いた予測高速化の検証を行う。 我々は,1) 機械学習研究者が,実装されていない,あるいは最適化されていないブロック構造化された疎結合パターンの性能をいかに予測できるか,(2) ハードウェアデザイナがハードウェアにおける新しい疎結合パターンや疎結合データフォーマットのパフォーマンスに与える影響を予測できるかを示す。 どちらのシナリオにおいても、sparsityのルーフラインはパフォーマンスの専門家がsparsityのレジームを最も高いパフォーマンスの可能性で識別するのに役立つ。

We introduce the Sparsity Roofline, a visual performance model for evaluating sparsity in neural networks. The Sparsity Roofline jointly models network accuracy, sparsity, and predicted inference speedup. Our approach does not require implementing and benchmarking optimized kernels, and the predicted speedup is equal to what would be measured when the corresponding dense and sparse kernels are equally well-optimized. We achieve this through a novel analytical model for predicting sparse network performance, and validate the predicted speedup using several real-world computer vision architectures pruned across a range of sparsity patterns and degrees. We demonstrate the utility and ease-of-use of our model through two case studies: (1) we show how machine learning researchers can predict the performance of unimplemented or unoptimized block-structured sparsity patterns, and (2) we show how hardware designers can predict the performance implications of new sparsity patterns and sparse data formats in hardware. In both scenarios, the Sparsity Roofline helps performance experts identify sparsity regimes with the highest performance potential.
翻訳日:2023-10-05 03:59:50 公開日:2023-09-30
# 言語モデルから命令追従へ:命令チューニング後のllmにおける振る舞いシフトの理解

From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning ( http://arxiv.org/abs/2310.00492v1 )

ライセンス: Link先を確認
Xuansheng Wu, Wenlin Yao, Jianshu Chen, Xiaoman Pan, Xiaoyang Wang, Ninghao Liu, Dong Yu(参考訳) 大規模言語モデル(llm)は目覚ましい成功を収め、様々なタスクにわたる強力な命令追従能力を示している。 インストラクションの微調整は、LLMがユーザの意図と整合し、効果的に指示に従うことを可能にするために重要である。 本研究は,教師認識と知識進化という2つの視点に焦点をあて,事前学習されたモデルをどのように微調整するかを検討する。 LLMの動作変化を研究するために,入力出力属性の勾配に基づくアプローチや,自己注意層やフィードフォワード層におけるパターンや概念を解釈する手法など,局所的およびグローバルな説明手法を用いた。 以上の結果から,教示微調整の3つの重要な影響が明らかとなった。 1) LLMは、ユーザプロンプトから命令部品をよりよく認識し、高品質な応答生成を容易にし、事前訓練されたモデルで観察された 'lost-in-the-middle'' 問題に対処する。 2)フィードフォワード層に格納された知識をユーザ指向のタスクと整合させ,言語レベルでの最小シフトを示す。 3) 命令動詞との単語関係の学習を、特に下層と中層における自己対応機構を通じて促進し、指示語認識を増強することを示す。 これらの知見は,LLMの微調整後の行動変化のより深い理解に寄与し,様々な用途にLLMを解釈,最適化することを目的とした今後の研究の基盤となる。 まもなくコードとデータをリリースします。

Large Language Models (LLMs) have achieved remarkable success, demonstrating powerful instruction-following capabilities across diverse tasks. Instruction fine-tuning is critical in enabling LLMs to align with user intentions and effectively follow instructions. In this work, we investigate how instruction fine-tuning modifies pre-trained models, focusing on two perspectives: instruction recognition and knowledge evolution. To study the behavior shift of LLMs, we employ a suite of local and global explanation methods, including a gradient-based approach for input-output attribution and techniques for interpreting patterns and concepts in self-attention and feed-forward layers. Our findings reveal three significant impacts of instruction fine-tuning: 1) It empowers LLMs to better recognize the instruction parts from user prompts, thereby facilitating high-quality response generation and addressing the ``lost-in-the-middle'' issue observed in pre-trained models; 2) It aligns the knowledge stored in feed-forward layers with user-oriented tasks, exhibiting minimal shifts across linguistic levels. 3) It facilitates the learning of word-word relations with instruction verbs through the self-attention mechanism, particularly in the lower and middle layers, indicating enhanced recognition of instruction words. These insights contribute to a deeper understanding of the behavior shifts in LLMs after instruction fine-tuning and lay the groundwork for future research aimed at interpreting and optimizing LLMs for various applications. We will release our code and data soon.
翻訳日:2023-10-05 03:59:30 公開日:2023-09-30
# 解釈可能な模倣学習のための動的DAG探索

Dynamic DAG Discovery for Interpretable Imitation Learning ( http://arxiv.org/abs/2310.00489v1 )

ライセンス: Link先を確認
ianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong Chen, Yanchi Liu, Wei Cheng, Haifeng Chen(参考訳) 専門家のデモンストレーションを模倣してエージェントポリシーを学ぶImitation Learningは、医療制度や自動運転車など多くの応用において有望な結果を示している。 しかし,エージェントが学習した制御方針を解釈することは依然として難しい課題である。 困難は主に2つの側面から生じる。 1)模倣学習のエージェントは通常,ブラックボックスモデルであり,解釈性に欠けるディープニューラルネットワークとして実装される。 2) エージェントの判断の背景にある因果的メカニズムは, 時間経過を通じて静的に留まるのではなく, 軌道に沿って変化する可能性がある。 透明性を高め,ニューラルネットワークの解釈可能性を高めるために,ノードが動作し,状態変数とエッジが予測の背後にある因果関係を示すような,有向非巡回因果グラフの形で取得した知識を公開することを提案する。 さらに,この因果発見プロセスを状態依存的に設計し,潜在因果グラフのダイナミクスをモデル化する。 具体的には, グレンジャー因果関係の観点から因果関係の発見を行い, 自己説明可能な模倣学習フレームワーク, {\method} を提案する。 提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。 モデルが学習されると、その決定の背後にある状態と行動変数間の因果関係が得られ、そこから学んだポリシーを公開する。 合成および実世界の両方のデータセットに対する実験結果から,提案手法の動的因果グラフ学習における有効性を示し,予測精度を高く保ちながら模倣学習の意思決定を理解する。

Imitation learning, which learns agent policy by mimicking expert demonstration, has shown promising results in many applications such as medical treatment regimes and self-driving vehicles. However, it remains a difficult task to interpret control policies learned by the agent. Difficulties mainly come from two aspects: 1) agents in imitation learning are usually implemented as deep neural networks, which are black-box models and lack interpretability; 2) the latent causal mechanism behind agents' decisions may vary along the trajectory, rather than staying static throughout time steps. To increase transparency and offer better interpretability of the neural agent, we propose to expose its captured knowledge in the form of a directed acyclic causal graph, with nodes being action and state variables and edges denoting the causal relations behind predictions. Furthermore, we design this causal discovery process to be state-dependent, enabling it to model the dynamics in latent causal graphs. Concretely, we conduct causal discovery from the perspective of Granger causality and propose a self-explainable imitation learning framework, {\method}. The proposed framework is composed of three parts: a dynamic causal discovery module, a causality encoding module, and a prediction module, and is trained in an end-to-end manner. After the model is learned, we can obtain causal relations among states and action variables behind its decisions, exposing policies learned by it. Experimental results on both synthetic and real-world datasets demonstrate the effectiveness of the proposed {\method} in learning the dynamic causal graphs for understanding the decision-making of imitation learning meanwhile maintaining high prediction accuracy.
翻訳日:2023-10-05 03:59:02 公開日:2023-09-30
# シャープネス認識の最小化における記憶とプライバシーリスクについて

On Memorization and Privacy risks of Sharpness Aware Minimization ( http://arxiv.org/abs/2310.00488v1 )

ライセンス: Link先を確認
Young In Kim, Pratiksha Agrawal, Johannes O. Royset, Rajiv Khanna(参考訳) 近年の多くの研究において、ニューラルネットワーク損失最適化のためのフラットな最適化を求めるアルゴリズムの設計に焦点が当てられている。 本研究では,オーバーパラメータモデルにおけるデータ記憶のレンズを通して,これらの性能向上を解析する。 バニラSGDと比較して、より平坦な最適解を求めるアルゴリズムがどのデータポイントに特化しているかを特定するのに役立つ新しい指標を定義する。 Sharpness Aware Minimization (SAM) によって達成される一般化の利点は、特に記憶を必要とする非定型データポイントに対して顕著である。 この洞察はSAMに関連する高いプライバシーリスクを明らかにするのに役立ち、徹底的な経験的評価を通じて検証する。 最後に、より望ましい精度とプライバシーのトレードオフを達成するための緩和戦略を提案する。

In many recent works, there is an increased focus on designing algorithms that seek flatter optima for neural network loss optimization as there is empirical evidence that it leads to better generalization performance in many datasets. In this work, we dissect these performance gains through the lens of data memorization in overparameterized models. We define a new metric that helps us identify which data points specifically do algorithms seeking flatter optima do better when compared to vanilla SGD. We find that the generalization gains achieved by Sharpness Aware Minimization (SAM) are particularly pronounced for atypical data points, which necessitate memorization. This insight helps us unearth higher privacy risks associated with SAM, which we verify through exhaustive empirical evaluations. Finally, we propose mitigation strategies to achieve a more desirable accuracy vs privacy tradeoff.
翻訳日:2023-10-05 03:58:35 公開日:2023-09-30
# 主観的である必要がある:ゼロショット密度推定によるヒューマンアノテータシミュレーション

It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation ( http://arxiv.org/abs/2310.00486v1 )

ライセンス: Link先を確認
Wen Wu, Wenlin Chen, Chao Zhang, Philip C. Woodland(参考訳) 人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。 人間評価中の人間の知覚と行動は、様々な認知過程と主観的解釈によって固有の変動を示し、人々が世界と知覚し相互作用する方法をよりよく模倣するためにモデリングにおいて考慮されるべきである。 本稿では,hasをゼロショット密度推定問題として扱う新しいメタ学習フレームワークを提案する。 この枠組みでは,順序的アノテーションとカテゴリー的アノテーションをそれぞれ考慮し,条件付き整数フローと条件付きソフトマックスフローという2つの新しいモデルクラスを提案する。 提案手法は実世界の3つの人的評価課題に基づいて評価され,人間のアノテーションの集合的挙動を予測し,人間のアノテーションの分布と一致し,アノテーション間の不一致をシミュレートするための優れた能力と効率を示す。

Human annotator simulation (HAS) serves as a cost-effective substitute for human evaluation such as data annotation and system assessment. Human perception and behaviour during human evaluation exhibit inherent variability due to diverse cognitive processes and subjective interpretations, which should be taken into account in modelling to better mimic the way people perceive and interact with the world. This paper introduces a novel meta-learning framework that treats HAS as a zero-shot density estimation problem, which incorporates human variability and allows for the efficient generation of human-like annotations for unlabelled test inputs. Under this framework, we propose two new model classes, conditional integer flows and conditional softmax flows, to account for ordinal and categorical annotations, respectively. The proposed method is evaluated on three real-world human evaluation tasks and shows superior capability and efficiency to predict the aggregated behaviours of human annotators, match the distribution of human annotations, and simulate the inter-annotator disagreements.
翻訳日:2023-10-05 03:58:23 公開日:2023-09-30
# コードを解釈してQuixbugs関数でより良いユニットテストを書く

Prompting Code Interpreter to Write Better Unit Tests on Quixbugs Functions ( http://arxiv.org/abs/2310.00483v1 )

ライセンス: Link先を確認
Vincent Li, Nick Doiron(参考訳) 単体テストは、書かれたコードの正確性と堅牢性をテストするために、ソフトウェア工学で一般的に使用されるアプローチである。 ユニットテストは、個々の機能やメソッドなど、コードベースの小さなコンポーネントを独立した形でテストするように設計されたテストである。 単体テストは歴史的に人間のプログラマによって書かれてきたが、近年のAIの進歩、特にLLMは自動単体テスト生成の進歩を示している。 本研究では,コードインタプリタであるgpt-4ベースのllmが,quixbugsデータセットが提供するpython関数に対して,さまざまなプロンプトがユニットテストの品質に与える影響を検討する。 生成されたユニットテストの品質は、提供されたプロンプトの細部の変更に敏感でないことが分かりました。 しかし、Code Interpreterは、しばしば、それが書いたコードの誤りを効果的に識別し、修正できるので、アウトプットの正確性をチェックするために実行可能なコードを提供することは、既に正しく整形されたユニットテストを生成することができると認識しているにもかかわらず、有益である。 この結果から,コードインタプリタに似たモデルをプロンプトする場合,ユニットテスト生成に必要な基本的な情報を含めることが重要であるが,詳細はそれほど重要ではないことが示唆された。

Unit testing is a commonly-used approach in software engineering to test the correctness and robustness of written code. Unit tests are tests designed to test small components of a codebase in isolation, such as an individual function or method. Although unit tests have historically been written by human programmers, recent advancements in AI, particularly LLMs, have shown corresponding advances in automatic unit test generation. In this study, we explore the effect of different prompts on the quality of unit tests generated by Code Interpreter, a GPT-4-based LLM, on Python functions provided by the Quixbugs dataset, and we focus on prompting due to the ease with which users can make use of our findings and observations. We find that the quality of the generated unit tests is not sensitive to changes in minor details in the prompts provided. However, we observe that Code Interpreter is often able to effectively identify and correct mistakes in code that it writes, suggesting that providing it runnable code to check the correctness of its outputs would be beneficial, even though we find that it is already often able to generate correctly-formatted unit tests. Our findings suggest that, when prompting models similar to Code Interpreter, it is important to include the basic information necessary to generate unit tests, but minor details are not as important.
翻訳日:2023-10-05 03:58:06 公開日:2023-09-30
# 運動的拘束モデルにおける多体局在の増強

Enhanced many-body localization in a kinetically constrained model ( http://arxiv.org/abs/2310.00482v1 )

ライセンス: Link先を確認
Karl Royen, Suman Mondal, Frank Pollmann and Fabian Heidrich-Meisner(参考訳) 閉じた量子系の熱化の研究において、時間的ダイナミクスと最終的な熱化に対する速度論的制約の役割は大きな関心を集めている。 運動的制約は通常、初期条件によって長寿命の準安定状態につながる。 本研究では,ガラス力学を高密度で捉えるために考案された動的制約を加味したハードコアボソンの相互作用モデルを考える。 その結果,本システムは非相関性障害の存在下での局在性が高いことが示された。 障害の追加は、密度自己相関の時間発展において証明されるように、すぐに長寿命のダイナミクスを引き起こす。 さらに, 運動論的制約は, 多体局所化相への有限サイズの遷移が, 運動論的制約を伴わない同一モデルよりもずっと低い障害強度で起こる固有状態においても局所化が好まれる。 我々の研究は、運動的制約と局所化の複雑な相互作用に光を当て、時間領域における多体局所化位相のさらなる制御を提供するかもしれない。

In the study of the thermalization of closed quantum systems, the role of kinetic constraints on the temporal dynamics and the eventual thermalization is attracting significant interest. Kinetic constraints typically lead to long-lived metastable states depending on initial conditions. We consider a model of interacting hardcore bosons with an additional kinetic constraint that was originally devised to capture glassy dynamics at high densities. As a main result, we demonstrate that the system is highly prone to localization in the presence of uncorrelated disorder. Adding disorder quickly triggers long-lived dynamics as evidenced in the time evolution of density autocorrelations. Moreover, the kinetic constraint favors localization also in the eigenstates, where a finite-size transition to a many-body localized phase occurs for much lower disorder strengths than for the same model without a kinetic constraint. Our work sheds light on the intricate interplay of kinetic constraints and localization and may provide additional control over many-body localized phases in the time domain.
翻訳日:2023-10-05 03:57:41 公開日:2023-09-30
# 深拡散言語モデルを用いた無機化合物の創製

Generative Design of inorganic compounds using deep diffusion language models ( http://arxiv.org/abs/2310.00475v1 )

ライセンス: Link先を確認
Rongzhi Dong, Nihang Fu, dirisuriya M. D. Siriwardane, Jianjun Hu(参考訳) 広大な化学空間のため、特定の機能を持つ物質の発見は困難である。 化学式は電荷中立性、平衡電気陰性度、合成可能性、機械的安定性といった一連の厳密な基準に従う義務がある。 本研究は, 物質組成と構造設計を学習し, 暗黙的・暗黙的な化学知識を生かし, 深層学習に基づく生成モデルを提案する。 我々のパイプラインは、まず、合成のジェネレータとして深拡散言語モデルを使用し、その後、テンプレートベースの結晶構造予測アルゴリズムを適用して、対応する構造を予測し、続いて、普遍グラフニューラルネットワークベースのポテンシャルを用いて構造緩和を行う。 生成エネルギーの密度汎関数理論 (DFT) 計算とエネルギー-重み付け解析を用いて, パイプラインから生成した新しい構造を検証した。 DFT計算の結果から,Ti2HfO5,TaNbP,YMoN2,TaReO4,HfTiO2,HfMnO2の6つの新物質が検出された。 注目すべきことに、Ti2$HfO5、TaNbP、YMoN2、TaReO4の4つの材料は、エネルギー0.3eV以下である。 これらの結果は我々のアプローチの有効性を証明した。

Due to the vast chemical space, discovering materials with a specific function is challenging. Chemical formulas are obligated to conform to a set of exacting criteria such as charge neutrality, balanced electronegativity, synthesizability, and mechanical stability. In response to this formidable task, we introduce a deep learning-based generative model for material composition and structure design by learning and exploiting explicit and implicit chemical knowledge. Our pipeline first uses deep diffusion language models as the generator of compositions and then applies a template-based crystal structure prediction algorithm to predict their corresponding structures, which is then followed by structure relaxation using a universal graph neural network-based potential. The density functional theory (DFT) calculations of the formation energies and energy-above-the-hull analysis are used to validate new structures generated through our pipeline. Based on the DFT calculation results, six new materials, including Ti2HfO5, TaNbP, YMoN2, TaReO4, HfTiO2, and HfMnO2, with formation energy less than zero have been found. Remarkably, among these, four materials, namely Ti2$HfO5, TaNbP, YMoN2, and TaReO4, exhibit an e-above-hull energy of less than 0.3 eV. These findings have proved the effectiveness of our approach.
翻訳日:2023-10-05 03:57:24 公開日:2023-09-30
# 照明システムの強化学習適応ファジィ制御:航空機キャビンへの適用

Reinforcement learning adaptive fuzzy controller for lighting systems: application to aircraft cabin ( http://arxiv.org/abs/2310.00525v1 )

ライセンス: Link先を確認
Kritika Vashishtha, Anas Saad, Reza Faieghi, Fengfeng Xi(参考訳) 照明要件は主観的であり、1つの照明設定は全く機能しない。 しかし、ユーザの好みに適応できるスマート照明アルゴリズムの開発には、ほとんど取り組んでいない。 このギャップに対処するために,ファジィ論理と強化学習を用いて適応照明アルゴリズムを開発した。 特に,ドメイン知識を用いたベースラインファジィ推論システム(FIS)を開発した。 我々は既存の文献を用いて,環境条件,すなわち毎日のグレア指標,および年齢,活動,クロノタイプを含むユーザ情報に基づいて照明設定レコメンデーションを生成するfisを作成する。 フィードバック機構を通じて、ユーザはアルゴリズムと対話し、アルゴリズムの出力を好みに補正する。 我々は、これらの修正をQ学習エージェントの報酬と解釈し、FISパラメータをオンラインで調整してユーザの好みにマッチさせる。 このアルゴリズムを航空機のキャビンのモックアップに実装し,アルゴリズムの有効性を評価し,その学習行動を理解するために広範なユーザ調査を行った。 その結果,本アルゴリズムは幅広い環境条件とユーザ特性に適応しながら,ユーザの好みを学習する能力を有することがわかった。 様々な環境条件やユーザー特性に対応できます これは、高度な学習機能を備えたインテリジェントな光管理のための強力なソリューションとして、その実現可能性を強調している。

The lighting requirements are subjective and one light setting cannot work for all. However, there is little work on developing smart lighting algorithms that can adapt to user preferences. To address this gap, this paper uses fuzzy logic and reinforcement learning to develop an adaptive lighting algorithm. In particular, we develop a baseline fuzzy inference system (FIS) using the domain knowledge. We use the existing literature to create a FIS that generates lighting setting recommendations based on environmental conditions i.e. daily glare index, and user information including age, activity, and chronotype. Through a feedback mechanism, the user interacts with the algorithm, correcting the algorithm output to their preferences. We interpret these corrections as rewards to a Q-learning agent, which tunes the FIS parameters online to match the user preferences. We implement the algorithm in an aircraft cabin mockup and conduct an extensive user study to evaluate the effectiveness of the algorithm and understand its learning behavior. Our implementation results demonstrate that the developed algorithm possesses the capability to learn user preferences while successfully adapting to a wide range of environmental conditions and user characteristics. and can deal with a diverse spectrum of environmental conditions and user characteristics. This underscores its viability as a potent solution for intelligent light management, featuring advanced learning capabilities.
翻訳日:2023-10-05 03:50:48 公開日:2023-09-30
# 量子状態トモグラフィのための情報的潜在表現の学習

Learning Informative Latent Representation for Quantum State Tomography ( http://arxiv.org/abs/2310.00518v1 )

ライセンス: Link先を確認
Hailan Ma, Zhenhong Sun, Daoyi Dong, Dong Gong(参考訳) 量子状態トモグラフィー (quantum state tomography, qst) は、量子系の完全な状態(数学的には密度行列として記述される)を一連の異なる測定によって再構成する過程である。 これらの測定は量子系の多くの同一のコピーで行われ、結果が周波数として収集される。 QSTは、測定された周波数から密度行列と量子状態の対応する性質を回復することを目的としている。 情報的に完全な測定セットは、多数の同一コピーを持つ理想的なシナリオで正確に量子状態を特定することができるが、測定と同一コピーの両方が制限され、実用的なシナリオでは不完全なため、QSTは極めて不適切である。 従来のQST法は通常、適切なまたは正確な測定周波数を仮定するか、手動で設計した正規化器を頼りにして、現実的なシナリオにおける限られた応用に苦しむ。 近年のディープニューラルネットワーク(DNN)の進歩は、QSTにおけるディープラーニング(DL)の出現につながった。 しかし、既存のDLベースのQSTアプローチでは、QSTの不完全な条件に最適化されていない一般的なDNNモデルを用いることが多い。 本稿では,不完全な測定データを備えたQSTに適したトランスフォーマーベースのオートエンコーダアーキテクチャを提案する。 提案手法はトランスフォーマーを用いたエンコーダを用いて,不完全な測定データから情報潜在表現(ILR)を抽出し,デコーダを用いてILRに基づく量子状態の予測を行う。 我々は高次元IRRが量子状態に関するより包括的な情報を取得することを期待する。 これを実現するために、測定周波数から高品質な周波数を再構成するプリテキストタスクを用いてエンコーダの事前訓練を行う。 広範囲なシミュレーションと実験は、QSTにおける不完全な測定データを扱うためのIRRの顕著な能力を示している。

Quantum state tomography (QST) is the process of reconstructing the complete state of a quantum system (mathematically described as a density matrix) through a series of different measurements. These measurements are performed on a number of identical copies of the quantum system, with outcomes gathered as frequencies. QST aims to recover the density matrix and the corresponding properties of the quantum state from the measured frequencies. Although an informationally complete set of measurements can specify quantum state accurately in an ideal scenario with a large number of identical copies, both measurements and identical copies are restricted and imperfect in practical scenarios, making QST highly ill-posed. The conventional QST methods usually assume adequate or accurate measured frequencies or rely on manually designed regularizers to handle the ill-posed reconstruction problem, suffering from limited applications in realistic scenarios. Recent advances in deep neural networks (DNNs) led to the emergence of deep learning (DL) in QST. However, existing DL-based QST approaches often employ generic DNN models that are not optimized for imperfect conditions of QST. In this paper, we propose a transformer-based autoencoder architecture tailored for QST with imperfect measurement data. Our method leverages a transformer-based encoder to extract an informative latent representation (ILR) from imperfect measurement data and employs a decoder to predict the quantum states based on the ILR. We anticipate that the high-dimensional ILR will capture more comprehensive information about quantum states. To achieve this, we conduct pre-training of the encoder using a pretext task that involves reconstructing high-quality frequencies from measured frequencies. Extensive simulations and experiments demonstrate the remarkable ability of the ILR in dealing with imperfect measurement data in QST.
翻訳日:2023-10-05 03:50:28 公開日:2023-09-30
# 深層ニューラルネットワークモデルによる黒皮膚病変の一般化可能性の検討

Assessing the Generalizability of Deep Neural Networks-Based Models for Black Skin Lesions ( http://arxiv.org/abs/2310.00517v1 )

ライセンス: Link先を確認
Luana Barros and Levy Chaves and Sandra Avila(参考訳) メラノーマは、転移を引き起こす能力があるため、最も重篤な皮膚がんである。 黒人の方が一般的で、しばしばヤシ、足裏、爪などアクリカルな地域に影響を与える。 ディープニューラルネットワークは、臨床治療と皮膚がんの診断を改善する大きな可能性を示している。 しかしながら、一般的な研究は主に白い肌の色調のデータセットに依存しており、様々な患者皮膚色調の診断結果の報告を怠っている。 本研究では,黒人によく見られる頭蓋領域から抽出された皮膚病変画像における教師付きおよび自己教師付きモデルを評価する。 また,皮膚病変を含むデータセットを精査し,Fitzpatrickスケールに関するデータセットを評価し,黒色皮膚のパフォーマンスを検証した。 以上の結果から,これらのモデルの一般性が低く,白色皮膚病変に対して良好な成績が得られた。 専門的なモデルの開発を必要とする多様なデータセットの作成は受け入れがたい。 ディープニューラルネットワークは、特に皮膚科に限られた人口にとって、診断を改善する大きな可能性を秘めている。 しかし、これらの集団が包括的技術の恩恵を受けるためには、黒い皮膚病変を含む必要がある。

Melanoma is the most severe type of skin cancer due to its ability to cause metastasis. It is more common in black people, often affecting acral regions: palms, soles, and nails. Deep neural networks have shown tremendous potential for improving clinical care and skin cancer diagnosis. Nevertheless, prevailing studies predominantly rely on datasets of white skin tones, neglecting to report diagnostic outcomes for diverse patient skin tones. In this work, we evaluate supervised and self-supervised models in skin lesion images extracted from acral regions commonly observed in black individuals. Also, we carefully curate a dataset containing skin lesions in acral regions and assess the datasets concerning the Fitzpatrick scale to verify performance on black skin. Our results expose the poor generalizability of these models, revealing their favorable performance for lesions on white skin. Neglecting to create diverse datasets, which necessitates the development of specialized models, is unacceptable. Deep neural networks have great potential to improve diagnosis, particularly for populations with limited access to dermatology. However, including black skin lesions is necessary to ensure these populations can access the benefits of inclusive technology.
翻訳日:2023-10-05 03:49:59 公開日:2023-09-30
# 特徴選択によるメモリ型マルウェア分類の効率とプライバシの向上

Enhancing Efficiency and Privacy in Memory-Based Malware Classification through Feature Selection ( http://arxiv.org/abs/2310.00516v1 )

ライセンス: Link先を確認
Salim Sazzed and Sharif Ullah(参考訳) マルウェアは、システムやデータを妥協することで、個人、組織、および重要なインフラストラクチャに重大なセキュリティリスクをもたらす。 コンピュータメモリのスナップショットを提供するメモリダンプの活用は、マルウェアを含む悪意のあるコンテンツの分析と検出に役立つ。 マルウェア分類システムにおける有効性とプライバシー問題に対処するため、最も関連する特徴を識別できるため、特徴の選択が重要な役割を果たすため、分類器に供給されるデータ量を最小限に抑えることができる。 本研究では,メモリの内容から重要な特徴を識別し,分類処理の性能とプライバシを向上させるために,多様な分類器を用いた3つの特徴選択手法を提案する。 総合的な実験は、マルウェア分類の3段階にわたる。 一 バイナリレベルの良性又はマルウェアの分類 二 マルウェアの種類分類(トロイの木馬、ランサムウェア及びスパイウェアを含む。)及び 三 各家族内のマルウェア家族の分類(各種の分類を含む。) その結果、相互情報や他の手法を組み込んだ特徴選択戦略は、すべてのタスクの分類器の性能を高めることが示される。 特に、相互情報を用いて入力特徴の25\%と50\%だけを選択し、ランダムフォレスト分類器を使用することで、最良の結果が得られる。 本研究は,マルウェア分類における特徴選択の重要性を高め,適切なアプローチを特定する上で貴重な知見を提供する。 本研究は,マルウェア分類システムの有効性とプライバシを推し進めることで,悪意あるソフトウェアによるセキュリティ脅威に対する保護に寄与する。

Malware poses a significant security risk to individuals, organizations, and critical infrastructure by compromising systems and data. Leveraging memory dumps that offer snapshots of computer memory can aid the analysis and detection of malicious content, including malware. To improve the efficacy and address privacy concerns in malware classification systems, feature selection can play a critical role as it is capable of identifying the most relevant features, thus, minimizing the amount of data fed to classifiers. In this study, we employ three feature selection approaches to identify significant features from memory content and use them with a diverse set of classifiers to enhance the performance and privacy of the classification task. Comprehensive experiments are conducted across three levels of malware classification tasks: i) binary-level benign or malware classification, ii) malware type classification (including Trojan horse, ransomware, and spyware), and iii) malware family classification within each family (with varying numbers of classes). Results demonstrate that the feature selection strategy, incorporating mutual information and other methods, enhances classifier performance for all tasks. Notably, selecting only 25\% and 50\% of input features using Mutual Information and then employing the Random Forest classifier yields the best results. Our findings reinforce the importance of feature selection for malware classification and provide valuable insights for identifying appropriate approaches. By advancing the effectiveness and privacy of malware classification systems, this research contributes to safeguarding against security threats posed by malicious software.
翻訳日:2023-10-05 03:49:42 公開日:2023-09-30
# コスト感受性分類のための非パラメトリック能動学習

Nonparametric active learning for cost-sensitive classification ( http://arxiv.org/abs/2310.00511v1 )

ライセンス: Link先を確認
Boris Ndjia Njike, Xavier Siebert(参考訳) コストセンシティブ学習(cost-sensitive learning)は、予測の誤りが異なるコストをもたらす一般的な機械学習問題である。 本稿では,コストに敏感な分類のための汎用的非パラメトリックアクティブラーニングアルゴリズムを設計する。 提案アルゴリズムは,各ラベルの予測コスト関数に対する信頼境界の構成に基づいて,最も情報性の高いベクトル点を逐次選択する。 そして、最小の予測コストのみをクエリすることで、それらと対話する。 このアルゴリズムが特徴ベクトル空間との相互作用数の観点から最適収束率を達成することを証明している。 さらに、ツィバコフの雑音仮定の一般的なバージョンでは、対応する受動的学習に対する利得は境界決定の確率質量によって明確に特徴づけられる。 さらに、(対数係数まで)下界のマッチングを提供することにより、得られた上界の至近性を証明する。

Cost-sensitive learning is a common type of machine learning problem where different errors of prediction incur different costs. In this paper, we design a generic nonparametric active learning algorithm for cost-sensitive classification. Based on the construction of confidence bounds for the expected prediction cost functions of each label, our algorithm sequentially selects the most informative vector points. Then it interacts with them by only querying the costs of prediction that could be the smallest. We prove that our algorithm attains optimal rate of convergence in terms of the number of interactions with the feature vector space. Furthermore, in terms of a general version of Tsybakov's noise assumption, the gain over the corresponding passive learning is explicitly characterized by the probability-mass of the boundary decision. Additionally, we prove the near-optimality of obtained upper bounds by providing matching (up to logarithmic factor) lower bounds.
翻訳日:2023-10-05 03:49:19 公開日:2023-09-30
# 未生児: 機械学習による胎児の健康分類の進歩

Unveiling the Unborn: Advancing Fetal Health Classification through Machine Learning ( http://arxiv.org/abs/2310.00505v1 )

ライセンス: Link先を確認
Sujith K Mandala(参考訳) 胎児の健康分類は産科における重要な課題であり、潜在的な健康問題の早期発見と管理を可能にする。 しかし、データの複雑さとラベル付きサンプルの制限のため、依然として難しい。 本稿では,包括的データセット上で訓練されたlightgbm分類器を用いて,胎児の健康分類のための新しい機械学習手法を提案する。 提案したモデルは、テストセットで98.31%の精度を達成する。 以上の結果から, 胎児の健康分類における機械学習の可能性が示され, より客観的かつ正確な評価が可能となった。 特に, 胎児心拍数, 子宮収縮, 母親の血圧などの様々な特徴を組み合わせることで, 包括的評価を行う。 この方法は、胎児の健康上の問題の早期発見と治療の改善を約束し、母親と赤ちゃんの両方により良い結果をもたらす。 高い精度の達成を超えて、我々のアプローチの新規性は、包括的特徴選択と評価手法にあります。 複数のデータポイントを組み込むことで、従来の手法に比べてより包括的かつ信頼性の高い評価を行う。 この研究は産科の分野で重要な意味を持ち、胎児の健康への懸念の早期発見と介入の進歩への道を開く。 将来的には、より大きなデータセット上でモデルを検証し、臨床アプリケーションを開発する。 最終的に、我々の研究は胎児の健康の評価と管理に革命をもたらし、期待されている母親とその赤ちゃんの医療結果の改善に寄与すると予想している。

Fetal health classification is a critical task in obstetrics, enabling early identification and management of potential health problems. However, it remains challenging due to data complexity and limited labeled samples. This research paper presents a novel machine-learning approach for fetal health classification, leveraging a LightGBM classifier trained on a comprehensive dataset. The proposed model achieves an impressive accuracy of 98.31% on a test set. Our findings demonstrate the potential of machine learning in enhancing fetal health classification, offering a more objective and accurate assessment. Notably, our approach combines various features, such as fetal heart rate, uterine contractions, and maternal blood pressure, to provide a comprehensive evaluation. This methodology holds promise for improving early detection and treatment of fetal health issues, ensuring better outcomes for both mothers and babies. Beyond the high accuracy achieved, the novelty of our approach lies in its comprehensive feature selection and assessment methodology. By incorporating multiple data points, our model offers a more holistic and reliable evaluation compared to traditional methods. This research has significant implications in the field of obstetrics, paving the way for advancements in early detection and intervention of fetal health concerns. Future work involves validating the model on a larger dataset and developing a clinical application. Ultimately, we anticipate that our research will revolutionize the assessment and management of fetal health, contributing to improved healthcare outcomes for expectant mothers and their babies.
翻訳日:2023-10-05 03:49:06 公開日:2023-09-30
# 放射線学・病理学における医療セグメンテーション強化のためのSAMアブレーションの探索

Exploring SAM Ablations for Enhancing Medical Segmentation in Radiology and Pathology ( http://arxiv.org/abs/2310.00504v1 )

ライセンス: Link先を確認
Amin Ranem, Niklas Babendererde, Moritz Fuchs, Anirban Mukhopadhyay(参考訳) 医用画像は様々な疾患の診断と治療計画において重要な役割を担い、放射線学と病理学は正確な画像分割に大きく依存している。 segment anything model(sam)は、さまざまなドメインのセグメンテーション問題に対処するための有望なフレームワークとして登場した。 このホワイトペーパーでは、SAMを掘り下げ、基本的なコンポーネントを分解し、それら間の複雑な相互作用を明らかにする。 また,放射線学(特に脳腫瘍のセグメンテーション)と病理学(特に乳癌のセグメンテーション)に焦点をあて,SAMの微調整について検討し,セグメンテーション結果の正確性と信頼性にその影響を深く評価した。 慎重に設計された一連の実験を通して、SAMの医療画像分野への応用の可能性を分析する。 我々は,先進的なセグメンテーション技術と医療要件のギャップを埋めることを目指しており,SAMの変革的能力に光を当てている。

Medical imaging plays a critical role in the diagnosis and treatment planning of various medical conditions, with radiology and pathology heavily reliant on precise image segmentation. The Segment Anything Model (SAM) has emerged as a promising framework for addressing segmentation challenges across different domains. In this white paper, we delve into SAM, breaking down its fundamental components and uncovering the intricate interactions between them. We also explore the fine-tuning of SAM and assess its profound impact on the accuracy and reliability of segmentation results, focusing on applications in radiology (specifically, brain tumor segmentation) and pathology (specifically, breast cancer segmentation). Through a series of carefully designed experiments, we analyze SAM's potential application in the field of medical imaging. We aim to bridge the gap between advanced segmentation techniques and the demanding requirements of healthcare, shedding light on SAM's transformative capabilities.
翻訳日:2023-10-05 03:48:44 公開日:2023-09-30
# 画像活動予測におけるブラックボックス攻撃とその自然言語説明

Black-box Attacks on Image Activity Prediction and its Natural Language Explanations ( http://arxiv.org/abs/2310.00503v1 )

ライセンス: Link先を確認
Alina Elena Baia, Valentina Poggioni, Andrea Cavallaro(参考訳) 説明可能なAI(XAI)手法は、ディープニューラルネットワークの決定プロセスを記述することを目的としている。 初期のXAI手法では視覚的説明が生成され、近年ではテキスト情報や視覚的表現を含むマルチモーダルな説明が生成されている。 Visual XAIの手法はホワイトボックスやグレイボックスの攻撃に対して脆弱であることが示されており、攻撃者はターゲットシステムに対する完全なまたは部分的にの知識とアクセスを持っている。 マルチモーダルXAIモデルの脆弱性は検討されていないため,本稿では,画像ベース行動認識モデルによる自然言語説明のブラックボックス攻撃に対するロバスト性を初めて評価する。 我々は、予測と対応する説明との間の関係を乱し、モデルを誤解して不適切な説明を生成する非制限的、空間的変分な摂動を生成する。 我々は,最終出力にのみアクセスすることで,行動認識モデルの説明を操作できる敵画像を作成することができることを示す。

Explainable AI (XAI) methods aim to describe the decision process of deep neural networks. Early XAI methods produced visual explanations, whereas more recent techniques generate multimodal explanations that include textual information and visual representations. Visual XAI methods have been shown to be vulnerable to white-box and gray-box adversarial attacks, with an attacker having full or partial knowledge of and access to the target system. As the vulnerabilities of multimodal XAI models have not been examined, in this paper we assess for the first time the robustness to black-box attacks of the natural language explanations generated by a self-rationalizing image-based activity recognition model. We generate unrestricted, spatially variant perturbations that disrupt the association between the predictions and the corresponding explanations to mislead the model into generating unfaithful explanations. We show that we can create adversarial images that manipulate the explanations of an activity recognition model by having access only to its final output.
翻訳日:2023-10-05 03:48:26 公開日:2023-09-30
# UPAR: 大規模言語モデル機能向上のためのカンチアンインスパイアされたプロンプトフレームワーク

UPAR: A Kantian-Inspired Prompting Framework for Enhancing Large Language Model Capabilities ( http://arxiv.org/abs/2310.01441v1 )

ライセンス: Link先を確認
Hejia Geng, Boxun Xu, Peng Li(参考訳) 大規模言語モデル (LLM) は、その能力向上に多くの研究努力が費やされ、目覚ましい推論能力を示している。 これらの努力にもかかわらず、統一された認識論的基盤は依然として顕著に欠落している。 カントの先駆的哲学からインスピレーションを得て,LLM内の人間の認知構造をエミュレートするUPARプロンプトフレームワークを提案する。 uparフレームワークは、"understand"、"plan"、"act"、"reflect"の4つのフェーズに分けられ、複雑なコンテキストから構造化された情報を抽出することを可能にする。 この構造は、LLM推論の説明可能性と精度を大幅に向上させ、人間の理解可能で検査可能な推論軌道を生成する。 さらに,本研究は既存のプロンプト技術に対する認識論的基盤を提供し,これらの手法の体系的な統合を可能にする。 GPT-4では、GSM8Kの挑戦的なサブセットではCOTベースラインが22.92%から58.33%、因果判定タスクでは67.91%から75.40%まで精度が向上する。

Large Language Models (LLMs) have demonstrated impressive inferential capabilities, with numerous research endeavors devoted to enhancing this capacity through prompting. Despite these efforts, a unified epistemological foundation is still conspicuously absent. Drawing inspiration from Kant's a priori philosophy, we propose the UPAR prompting framework, designed to emulate the structure of human cognition within LLMs. The UPAR framework is delineated into four phases: "Understand", "Plan", "Act", and "Reflect", enabling the extraction of structured information from complex contexts, prior planning of solutions, execution according to plan, and self-reflection. This structure significantly augments the explainability and accuracy of LLM inference, producing a human-understandable and inspectable inferential trajectory. Furthermore, our work offers an epistemological foundation for existing prompting techniques, allowing for a possible systematic integration of these methods. With GPT-4, our approach elevates the accuracy from COT baseline of 22.92% to 58.33% in a challenging subset of GSM8K, and from 67.91% to 75.40% in the causal judgment task.
翻訳日:2023-10-04 19:58:49 公開日:2023-09-30
# duyingの多くの声--lu xunとzhou zuorenの論争のエッセイを振り返って

The Many Voices of Duying: Revisiting the Disputed Essays Between Lu Xun and Zhou Zuoren ( http://arxiv.org/abs/2310.01440v1 )

ライセンス: Link先を確認
Xin Xie, Jiangqiong Li, Haining Wang(参考訳) ルー・ジュンとジュ・ズーレンは現代中国文学で最も影響力のある作家のひとりである。 兄弟としての家族関係の他に、作家としてのキャリアの初期段階において親密な協力者でもあった。 この研究は、1912年に兄弟が匿名で発表した3つの論争のエッセイを再考する定量的手法を用いている。 文体分析では、解釈可能な著者帰属モデルを用いて、エッセイの著者を調査し、兄弟のそれぞれの執筆スタイルを調べる。 このことから,「中国国を見よ」は,ルー・クンが著したと考えられる。 また、「湯江の人、先祖の指示は忘れなさい」という文言は、周ツーレンが独自に認めた「湯江の地を見よ」のスタイル的類似性から、主にル・クーンによって書かれたか、あるいは広範囲に改訂されたものと思われる。 第3のエッセイ「共和国のキャラクターは誰か」は、徹底的なコラボレーションを示唆する「幻想的な」混成文体を描いている。 我々は、微妙で直感的な理解を促進するために、エッセイの特徴を視覚的に表現する。 我々は、ルクセンが「サイレントな時代」に社会問題と密接な関わりをしていたことを示す証拠を明らかにし、兄弟の形式的な知的軌道についての洞察を提供した。

Lu Xun and Zhou Zuoren stand as two of the most influential writers in modern Chinese literature. Beyond their familial ties as brothers, they were also intimate collaborators during the nascent stages of their writing careers. This research employs quantitative methods to revisit three disputed essays pseudonymously published by the brothers in 1912. Our stylometric analysis uses an interpretable authorship attribution model to investigate the essays' authorship and examine the brothers' respective writing styles. Our findings suggest that 'Looking at the Country of China' was authored by Lu Xun. Moreover, 'People of Yue, Forget Not Your Ancestors' Instructions' seems to be either predominantly authored or extensively revised by Lu Xun given its notable stylistic similarities to 'Looking at the Land of Yue,' a piece Zhou Zuoren recognized as his own, but edited by Lu Xun. The third essay, 'Where Has the Character of the Republic Gone?,' exhibits a 'diluted', mixed writing style, suggesting thorough collaboration. We offer visual representations of essay features to facilitate a nuanced and intuitive understanding. We have uncovered evidence suggesting Lu Xun's covert engagement with social issues during his purported 'silent era' and provided insights into the brothers' formative intellectual trajectories.
翻訳日:2023-10-04 19:58:25 公開日:2023-09-30
# 暗闇の中で友達を作る:部分的な観察可能性の下でのアドホックなチームワーク

Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability ( http://arxiv.org/abs/2310.01439v1 )

ライセンス: Link先を確認
Jo\~ao G. Ribeiroa, Cassandro Martinhoa, Alberto Sardinhaa, and Francisco S. Melo(参考訳) 本稿では,部分的可観測性の下でのアドホックなチームワークの設定を形式的に定義し,事前知識と環境の部分的観察のみに依存する第一原理のモデルベースアプローチを提案し,アドホックなチームワークを行う。 我々は、それを以前の作品、すなわち:を区別する3つの異なる仮定を立てる。 一 環境の状態は常に部分的に観察可能であること 二 チームメイトのアクションは、常にアドホックエージェントに利用できないこと、及び 三 アドホックエージェントは、タスクをスクラッチから学習するために使用できる報酬信号にアクセスできない。 11のドメインから70のpomdpの結果から,未知のタスクを解決する上で,未知のチームメイトを支援するだけでなく,より困難な問題へのスケールアップにも堅牢なアプローチが有効であることが分かりました。

This paper introduces a formal definition of the setting of ad hoc teamwork under partial observability and proposes a first-principled model-based approach which relies only on prior knowledge and partial observations of the environment in order to perform ad hoc teamwork. We make three distinct assumptions that set it apart previous works, namely: i) the state of the environment is always partially observable, ii) the actions of the teammates are always unavailable to the ad hoc agent and iii) the ad hoc agent has no access to a reward signal which could be used to learn the task from scratch. Our results in 70 POMDPs from 11 domains show that our approach is not only effective in assisting unknown teammates in solving unknown tasks but is also robust in scaling to more challenging problems.
翻訳日:2023-10-04 19:57:58 公開日:2023-09-30
# フレキシブル、スケーラブル、マシンラーニング対応のマルチモーダルoncologyデータセットの構築

Building Flexible, Scalable, and Machine Learning-ready Multimodal Oncology Datasets ( http://arxiv.org/abs/2310.01438v1 )

ライセンス: Link先を確認
Aakash Tripathi, Asim Waqas, Kavya Venkatesan, Yasin Yilmaz, Ghulam Rasool(参考訳) データ取得、ストレージ、処理技術の進歩は、異種医療データの急速な成長をもたらした。 放射線スキャン,病理像,分子情報を臨床データと統合することは,疾患の総合的理解と治療の最適化に不可欠である。 複数のソースからのデータを統合する必要性はさらに、精密医療やパーソナライズされた治療を可能にするために、がんなどの複雑な疾患で顕著である。 本研究は,がん研究データコモンズ (CRDC) などの公開ソースからの異種データを相互接続型で患者中心のフレームワークに効率的に融合するための,柔軟でスケーラブルで費用対効果の高いメタデータフレームワークであるマルチモーダル・インテグレーション・オブ・オンコロジー・データ・システム (MINDS) を提案する。 MINDSはデータ型間の関係を探索し、大規模マルチモーダル機械学習モデルを開発するためのコホートを構築するためのインターフェースを提供する。 MINDSはマルチモーダルデータを調和させることで、研究者に診断と予後の洞察を明らかにし、エビデンスベースのパーソナライズされたケアを可能にする分析能力を高めることを目指している。 MINDSは詳細なエンドツーエンドのデータプロファイランスを追跡し、再現性と透明性を確保する。 MINDSのクラウドネイティブアーキテクチャは、大幅なストレージ最適化、レプリケーション回避、動的アクセス機能を確保しながら、安全でコスト最適化された方法で指数関数的なデータ成長を処理することができる。 自動スケーリング、アクセス制御、その他のメカニズムは、パイプラインのスケーラビリティとセキュリティを保証する。 MINDSは、オンコロジーデータ統合の将来に向けた重要なステップである相互運用可能なメタデータ駆動アプローチを通じて、既存のバイオメディカルデータサイロの限界を克服する。

The advancements in data acquisition, storage, and processing techniques have resulted in the rapid growth of heterogeneous medical data. Integrating radiological scans, histopathology images, and molecular information with clinical data is essential for developing a holistic understanding of the disease and optimizing treatment. The need for integrating data from multiple sources is further pronounced in complex diseases such as cancer for enabling precision medicine and personalized treatments. This work proposes Multimodal Integration of Oncology Data System (MINDS) - a flexible, scalable, and cost-effective metadata framework for efficiently fusing disparate data from public sources such as the Cancer Research Data Commons (CRDC) into an interconnected, patient-centric framework. MINDS offers an interface for exploring relationships across data types and building cohorts for developing large-scale multimodal machine learning models. By harmonizing multimodal data, MINDS aims to potentially empower researchers with greater analytical ability to uncover diagnostic and prognostic insights and enable evidence-based personalized care. MINDS tracks granular end-to-end data provenance, ensuring reproducibility and transparency. The cloud-native architecture of MINDS can handle exponential data growth in a secure, cost-optimized manner while ensuring substantial storage optimization, replication avoidance, and dynamic access capabilities. Auto-scaling, access controls, and other mechanisms guarantee pipelines' scalability and security. MINDS overcomes the limitations of existing biomedical data silos via an interoperable metadata-driven approach that represents a pivotal step toward the future of oncology data integration.
翻訳日:2023-10-04 19:57:43 公開日:2023-09-30
# GPT-4を用いたグラフニューラルアーキテクチャ探索

Graph Neural Architecture Search with GPT-4 ( http://arxiv.org/abs/2310.01436v1 )

ライセンス: Link先を確認
Haishuai Wang, Yang Gao, Xin Zheng, Peng Zhang, Hongyang Chen, Jiajun Bu(参考訳) Graph Neural Architecture Search (GNAS)は、グラフニューラルネットワークを自動設計する有望な結果を示している。 しかし、GNASは検索空間と検索戦略を設計するために、豊富なドメイン知識を持つ人的労働力を必要とする。 本稿では,GPT-4をGNASに統合し,GPT-4に基づくグラフニューラルネットワーク探索手法を提案する。 本手法の基本的な考え方は,GPT-4をグラフニューラルアーキテクチャの生成タスクへと導くための新しいプロンプトを設計することである。 プロンプトは、検索空間の記述、検索戦略、およびgnaの検索フィードバックから構成されている。 プロンプトでGPT-4を反復実行することにより、GPT4GNASは高速収束でより正確なグラフニューラルネットワークを生成する。 実験結果から, GPT-4をGNASに埋め込むことは, 最先端のGNAS法よりも優れていることがわかった。

Graph Neural Architecture Search (GNAS) has shown promising results in automatically designing graph neural networks. However, GNAS still requires intensive human labor with rich domain knowledge to design the search space and search strategy. In this paper, we integrate GPT-4 into GNAS and propose a new GPT-4 based Graph Neural Architecture Search method (GPT4GNAS for short). The basic idea of our method is to design a new class of prompts for GPT-4 to guide GPT-4 toward the generative task of graph neural architectures. The prompts consist of descriptions of the search space, search strategy, and search feedback of GNAS. By iteratively running GPT-4 with the prompts, GPT4GNAS generates more accurate graph neural networks with fast convergence. Experimental results show that embedding GPT-4 into GNAS outperforms the state-of-the-art GNAS methods.
翻訳日:2023-10-04 19:57:18 公開日:2023-09-30
# Comfetch: Sketchingによる制約付きクライアント上の大規模ネットワークのフェデレーション学習

Comfetch: Federated Learning of Large Networks on Constrained Clients via Sketching ( http://arxiv.org/abs/2109.08346v2 )

ライセンス: Link先を確認
Tahseen Rabbani, Brandon Feng, Marco Bornstein, Kyle Rui Sang, Yifan Yang, Arjun Rajkumar, Amitabh Varshney, Furong Huang(参考訳) フェデレートラーニング(FL)は、エッジ上でのプライベートおよびコラボレーティブモデルトレーニングの一般的なパラダイムである。 集中型FLでは、グローバルアーキテクチャ(ディープニューラルネットワークなど)のパラメータは、ローカル最適化に基づいてモデル更新(グラディエント)をサーバに送信するクライアントに、中央サーバ/コントローラによって維持および分散される。 多くの努力が勾配送信の通信複雑性の低減に重点を置いているが、圧縮ベースのアルゴリズムの大部分は、各クライアントが現在のパラメータセットとフルセットをダウンロードし、トレーニングすることができると仮定している。 本研究では、クライアントがカウントスケッチを用いてグローバルアーキテクチャの表現を減らし、局所的な計算とメモリコストと双方向通信の複雑さを低減し、大規模ネットワークを訓練することのできる、シンプルで効果的な新しいアルゴリズムComfetchを提案する。 本研究では,非凸収束保証を行い,深部畳み込みネットワークなどの大規模モデルを,スケッチによる連合学習を通じて学習できることを実験的に実証する。 結果のグローバルモデルは、圧縮されていないモデルトレーニングと比較した場合、CIFAR10/100分類よりも競争力のあるテスト精度を示す。

Federated learning (FL) is a popular paradigm for private and collaborative model training on the edge. In centralized FL, the parameters of a global architecture (such as a deep neural network) are maintained and distributed by a central server/controller to clients who transmit model updates (gradients) back to the server based on local optimization. While many efforts have focused on reducing the communication complexity of gradient transmission, the vast majority of compression-based algorithms assume that each participating client is able to download and train the current and full set of parameters, which may not be a practical assumption depending on the resource constraints of smaller clients such as mobile devices. In this work, we propose a simple yet effective novel algorithm, Comfetch, which allows clients to train large networks using reduced representations of the global architecture via the count sketch, which reduces local computational and memory costs along with bi-directional communication complexity. We provide a nonconvex convergence guarantee and experimentally demonstrate that it is possible to learn large models, such as a deep convolutional network, through federated training on their sketched counterparts. The resulting global models exhibit competitive test accuracy over CIFAR10/100 classification when compared against un-compressed model training.
翻訳日:2023-10-03 21:51:28 公開日:2023-09-30
# 少数ショットオープンセット認識のための再構築指導型メタラーニング

Reconstruction guided Meta-learning for Few Shot Open Set Recognition ( http://arxiv.org/abs/2108.00340v4 )

ライセンス: Link先を確認
Sayak Nag, Dripta S. Raychaudhuri, Sujoy Paul, Amit K. Roy-Chowdhury(参考訳) 多くのアプリケーションでは、非常に限られたデータ(フェーショット分類)から分類器を学習することに制約があります。 未知のカテゴリ(オープンセットの分類)からサンプルを識別する必要がある場合、タスクはさらに困難になる。 少数のサンプルを持つクラスのよい抽象化を学ぶことは、特にオープンセットの設定では、非常に難しい。 結果として、オープンセット認識は、数ショット設定で最小限の注目を集めている。 しかし、各クラスのラベル付きサンプル数が限られている環境モニタリングのような多くのアプリケーションでは、これは重要なタスクである。 既存のオープンセット認識(fsosr)法はしきい値スキームに依存しており、オープンクラスサンプルの均一な確率を考慮する人もいる。 しかし、このアプローチはしばしば不正確であり、特に細粒度の分類では、しきい値の選択に非常に敏感である。 これらの問題に対処するため、我々はReconstructing Exemplar-based Few-shot Open-set ClaSsifier (ReFOCS)を提案する。 新規のexemplar reconstruction-based meta-learning strategy refocsを用いて、サンプルの開度を自己認識して学習することにより、注意深く調整された閾値の必要性をなくすfsosrを合理化する。 例題はクラス代表として行動し、トレーニングデータセットで提供されるか、機能ドメインで見積もることができる。 さまざまなデータセットをテストすることで、ReFOCSは複数の最先端手法より優れていることを示す。

In many applications, we are constrained to learn classifiers from very limited data (few-shot classification). The task becomes even more challenging if it is also required to identify samples from unknown categories (open-set classification). Learning a good abstraction for a class with very few samples is extremely difficult, especially under open-set settings. As a result, open-set recognition has received minimal attention in the few-shot setting. However, it is a critical task in many applications like environmental monitoring, where the number of labeled examples for each class is limited. Existing few-shot open-set recognition (FSOSR) methods rely on thresholding schemes, with some considering uniform probability for open-class samples. However, this approach is often inaccurate, especially for fine-grained categorization, and makes them highly sensitive to the choice of a threshold. To address these concerns, we propose Reconstructing Exemplar-based Few-shot Open-set ClaSsifier (ReFOCS). By using a novel exemplar reconstruction-based meta-learning strategy ReFOCS streamlines FSOSR eliminating the need for a carefully tuned threshold by learning to be self-aware of the openness of a sample. The exemplars, act as class representatives and can be either provided in the training dataset or estimated in the feature domain. By testing on a wide variety of datasets, we show ReFOCS to outperform multiple state-of-the-art methods.
翻訳日:2023-10-03 21:51:07 公開日:2023-09-30
# 資源制約下における神経モジュールの特殊化のダイナミクス

Dynamics of specialization in neural modules under resource constraints ( http://arxiv.org/abs/2106.02626v3 )

ライセンス: Link先を確認
Gabriel B\'ena, Dan F. M. Goodman(参考訳) 脳は構造と機能の両方において高度にモジュール化されていると長い間信じられてきたが、最近の証拠は両方のモジュラリティの程度に疑問を呈している。 私たちは、構造的モジュラリティが機能的な特殊化を保証するのに十分であるという仮説をテストするために、人工ニューラルネットワークを使用しました。 次に,環境とネットワークのどの特徴が特殊化の出現に繋がるかを体系的にテストした。 我々は,簡単な玩具環境,タスク,ネットワークを用いて,精密な制御を可能にし,この設定では,いくつかの異なる特殊化尺度が質的に類似した結果をもたらすことを示す。 さらに,(1) 環境の特徴が有意に分離可能な環境でのみ特殊化が実現可能であること,(2) ネットワークのリソース制約が強い場合に優先的に特殊化が生じること,(3) それらの発見は異なるネットワークアーキテクチャ間で質的に類似しているが,量的関係はアーキテクチャタイプに依存している。 最後に,機能的特殊化は時間ごとに動的に変化し,そのダイナミクスがネットワーク内の情報フローのタイミングと帯域に依存することを示した。 構造的モジュラリティに基づく静的な特殊化の概念は、生物学から脳に触発された神経形態学まで、現実世界の複雑さの状況における知性を理解するためのフレームワークとしてあまりにも単純すぎると結論づける。 より複雑なデータ、ネットワークモデル、電気生理学的記録に拡張する前に、単純化されたシナリオで機能的モジュラリティの候補を徹底的にテストすることを提案することは、実りあるアプローチである可能性が高い。

It has long been believed that the brain is highly modular both in terms of structure and function, although recent evidence has led some to question the extent of both types of modularity. We used artificial neural networks to test the hypothesis that structural modularity is sufficient to guarantee functional specialization, and find that in general, this doesn't necessarily hold except at extreme levels. We then systematically tested which features of the environment and network do lead to the emergence of specialization. We used a simple toy environment, task and network, allowing us precise control, and show that in this setup, several distinct measures of specialization give qualitatively similar results. We further find that (1) specialization can only emerge in environments where features of that environment are meaningfully separable, (2) specialization preferentially emerges when the network is strongly resource-constrained, and (3) these findings are qualitatively similar across different network architectures, but the quantitative relationships depends on the architecture type. Finally, we show that functional specialization varies dynamically across time, and demonstrate that these dynamics depend on both the timing and bandwidth of information flow in the network. We conclude that a static notion of specialization, based on structural modularity, is likely too simple a framework for understanding intelligence in situations of real-world complexity, from biology to brain-inspired neuromorphic systems. We propose that thoroughly stress testing candidate definitions of functional modularity in simplified scenarios before extending to more complex data, network models and electrophysiological recordings is likely to be a fruitful approach.
翻訳日:2023-10-03 21:50:34 公開日:2023-09-30
# ガウス操作を伴うガウス状態からの鍵蒸留の基本限界

Fundamental limitations to key distillation from Gaussian states with Gaussian operations ( http://arxiv.org/abs/2010.15729v2 )

ライセンス: Link先を確認
Ludovico Lami and Ladislav Mi\v{s}ta, Jr. and Gerardo Adesso(参考訳) 局所ガウス演算,局所古典処理,公開通信のみを用いて,量子ガウス状態から抽出可能な秘密鍵量の基本上限を確立する。 一方向の公開通信や双方向の公開通信が許されるが、Alice と Bob が最初に破壊的な局所ガウス測度を実行すると、鍵はR'enyi-$2$ガウス交絡(英語版)$E_{F,2}^{\mathrm{\scriptstyle G}}$で有界であることが証明される。 不等式は純粋なガウス状態に対して飽和しているので、これはR\'enyi-$2$エントロピーの操作解釈を、ガウス的操作や一方的な通信にアクセスできる純粋ガウス状態の秘密鍵レートとして得る。 双方向通信と任意の対話プロトコルの一般的な設定において、$2 E_{F,2}^{\mathrm {\scriptstyle G}}$ は抽出可能な鍵の上界である。 これは、$E_{F,2}^{\mathrm {\scriptstyle G}}$がガウス測度および双方向の公開通信の下でのガウス状態の秘密鍵レートと一致することを意味する。 これらの結果を用いて任意の対ガウス演算で得られる秘密鍵レートの差を証明した。 このようなギャップは、2モードの圧縮真空の半分を純損失チャネルに送って生じる状態に対して、十分に低いスクイーズまたは十分な高い透過率の状態で観測される。 最後に、すべての2モード状態を含むガウス状態の幅広いクラスに対して、$E_{F,2}^{\mathrm {\scriptstyle G}}$とガウス固有絡み合いの間の等式に関する最近提案された予想を証明する。 そのような等式から出現する統一エンタングルメント量子化子は、量子テレポーテーションゲームの値として直接操作解釈を与える。

We establish fundamental upper bounds on the amount of secret key that can be extracted from quantum Gaussian states by using only local Gaussian operations, local classical processing, and public communication. For one-way public communication, or when two-way public communication is allowed but Alice and Bob first perform destructive local Gaussian measurements, we prove that the key is bounded by the R\'enyi-$2$ Gaussian entanglement of formation $E_{F,2}^{\mathrm{\scriptscriptstyle G}}$. Since the inequality is saturated for pure Gaussian states, this yields an operational interpretation of the R\'enyi-$2$ entropy of entanglement as the secret key rate of pure Gaussian states that is accessible with Gaussian operations and one-way communication. In the general setting of two-way communication and arbitrary interactive protocols, we argue that $2 E_{F,2}^{\mathrm{\scriptscriptstyle G}}$ is still an upper bound on the extractable key. We conjecture that the factor of $2$ is spurious, which would imply that $E_{F,2}^{\mathrm{\scriptscriptstyle G}}$ coincides with the secret key rate of Gaussian states under Gaussian measurements and two-way public communication. We use these results to prove a gap between the secret key rates obtainable with arbitrary versus Gaussian operations. Such a gap is observed for states produced by sending one half of a two-mode squeezed vacuum through a pure loss channel, in the regime of sufficiently low squeezing or sufficiently high transmissivity. Finally, for a wide class of Gaussian states that includes all two-mode states, we prove a recently proposed conjecture on the equality between $E_{F,2}^{\mathrm{\scriptscriptstyle G}}$ and the Gaussian intrinsic entanglement. The unified entanglement quantifier emerging from such an equality is then endowed with a direct operational interpretation as the value of a quantum teleportation game.
翻訳日:2023-10-03 21:50:03 公開日:2023-09-30
# レグレット型環境設計によるカリキュラムの進化

Evolving Curricula with Regret-Based Environment Design ( http://arxiv.org/abs/2203.01302v3 )

ライセンス: Link先を確認
Jack Parker-Holder, Minqi Jiang, Michael Dennis, Mikayel Samvelyan, Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 一般に有能なエージェントを強化学習(RL)で訓練することは依然として重要な課題である。 rlエージェントのロバスト性を改善するための有望な道は、curriculaを使用することである。 そのような方法の1つは、学生と教師の間のゲームとして環境設計をフレーム化し、後悔に基づく目標を用いて、学生エージェントの能力のフロンティアにおいて環境インスタンス(またはレベル)を生成する。 これらの手法は、その一般性、理論的保証、均衡の恩恵を受けるが、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労する。 対照的に、進化的アプローチは環境の複雑さを漸進的に変化させ、潜在的にオープンエンド学習をもたらすが、しばしばドメイン固有のヒューリスティックや膨大な計算資源に依存している。 本稿では,原則的,後悔に基づくカリキュラムにおける進化の力を活用することを提案する。 我々のアプローチは、Adversarially Compounding Complexity by Editing Levels (ACCEL)と呼ばれ、エージェントの能力の最前線で常にレベルを生成しようとしており、その結果、シンプルに始まり、ますます複雑になる。 ACCELは、過去の後悔に基づく手法の理論的利点を維持し、多様な環境において大きな経験的利益をもたらす。 この論文のインタラクティブバージョンはaccelagent.github.ioで入手できる。

It remains a significant challenge to train generally capable agents with reinforcement learning (RL). A promising avenue for improving the robustness of RL agents is through the use of curricula. One such class of methods frames environment design as a game between a student and a teacher, using regret-based objectives to produce environment instantiations (or levels) at the frontier of the student agent's capabilities. These methods benefit from their generality, with theoretical guarantees at equilibrium, yet they often struggle to find effective levels in challenging design spaces. By contrast, evolutionary approaches seek to incrementally alter environment complexity, resulting in potentially open-ended learning, but often rely on domain-specific heuristics and vast amounts of computational resources. In this paper we propose to harness the power of evolution in a principled, regret-based curriculum. Our approach, which we call Adversarially Compounding Complexity by Editing Levels (ACCEL), seeks to constantly produce levels at the frontier of an agent's capabilities, resulting in curricula that start simple but become increasingly complex. ACCEL maintains the theoretical benefits of prior regret-based methods, while providing significant empirical gains in a diverse set of environments. An interactive version of the paper is available at accelagent.github.io.
翻訳日:2023-10-03 21:39:32 公開日:2023-09-30
# SegTransVAE:ハイブリッドCNN -- 医療画像分割のための正規化トランスフォーマー

SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical image segmentation ( http://arxiv.org/abs/2201.08582v4 )

ライセンス: Link先を確認
Quan-Dung Pham (1), Hai Nguyen-Truong (1, 2 and 3), Nam Nguyen Phuong (1) and Khoa N. A. Nguyen (1, 2 and 3) ((1) VinBrain JSC., Vietnam, (2) University of Science, Ho Chi Minh City, Vietnam, (3) Vietnam National University, Ho Chi Minh City, Vietnam)(参考訳) 医用画像セグメンテーションのためのディープラーニングに関する研究は、グローバルな意味情報や局所的な文脈情報を学ぶ際の限界を明らかにする。 これらの課題に対処するために,SegTransVAEという新しいネットワークを提案する。 SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチによるトランスフォーマーを利用して、セグメント化とともに入力イメージを再構築する。 私たちの知る限りでは、これはCNN、トランスフォーマー、VAEの成功を組み合わせた最初の方法です。 最近導入されたさまざまなデータセットの評価によると、SegTransVAEはDice Scoreの以前のメソッドと9,5\%$-Haudorff Distanceを上回り、単純なCNNベースのアーキテクチャネットワークに匹敵する推論時間を持つ。 ソースコードはhttps://github.com/itruonghai/segtransvae。

Current research on deep learning for medical image segmentation exposes their limitations in learning either global semantic information or local contextual information. To tackle these issues, a novel network named SegTransVAE is proposed in this paper. SegTransVAE is built upon encoder-decoder architecture, exploiting transformer with the variational autoencoder (VAE) branch to the network to reconstruct the input images jointly with segmentation. To the best of our knowledge, this is the first method combining the success of CNN, transformer, and VAE. Evaluation on various recently introduced datasets shows that SegTransVAE outperforms previous methods in Dice Score and $95\%$-Haudorff Distance while having comparable inference time to a simple CNN-based architecture network. The source code is available at: https://github.com/itruonghai/SegTransVAE.
翻訳日:2023-10-03 21:38:09 公開日:2023-09-30
# 光学ボース・アインシュタイン凝縮体におけるアナログ重力レンズ

Analogue gravitational lensing in optical Bose-Einstein condensates ( http://arxiv.org/abs/2112.06235v4 )

ライセンス: Link先を確認
Decheng Ma, Chenglong Jia, Enrique Solano, Lucas Chibebe C\'eleri(参考訳) ボース・アインシュタイン凝縮体(BEC)における非回転渦の存在下でのフォノンの音響伝搬について検討した。 渦は静的な音響ブラックホールをシミュレートするために用いられるため、フォノンは渦コアからかなりの距離でかなりの時空曲率を経験することになる。 フォノンの軌道は渦を通り過ぎた後に曲げられ、フォトニックBECにおけるフォノンの重力レンズのシミュレーションとして使用できる。

We consider acoustic propagation of phonons in the presence of a non-rotating vortex with radial flow in a Bose-Einstein condensate (BEC) of photons. Since the vortex can be used to simulate a static acoustic black hole, the phonon would experience a considerable spacetime curvature at appreciable distance from the vortex core. The trajectory of the phonons is bended after passing by the vortex, which can be used as a simulation of gravitational lensing for phonons in a photonic BEC.
翻訳日:2023-10-03 21:37:50 公開日:2023-09-30
# 期待される後エントロピー収量の最適統計量の最小化

Minimising the Expected Posterior Entropy Yields Optimal Summary Statistics ( http://arxiv.org/abs/2206.02340v2 )

ライセンス: Link先を確認
Till Hoffmann and Jukka-Pekka Onnela(参考訳) 大規模なデータセットから低次元の要約統計を抽出することは、効率的な推論に欠かせない。 我々は,様々な要約のクラスを特徴付け,次元削減アルゴリズムを正しく解析することの重要性を示す。 本稿では,モデルの事前予測分布下での予測後エントロピー(epe)を最小化することで要約を得ることを提案する。 既存の多くのメソッドは、EPEを最小化する特別なケースまたは制限されたケースと同等または同等である。 EPEを最小化する高忠実度サマリーを得る手法を開発し,それをベンチマークや実世界の実例に適用する。 我々は共に、情報的な要約を得るための統一的な視点を提供し、実践者に具体的なレコメンデーションを提供する。

Extracting low-dimensional summary statistics from large datasets is essential for efficient (likelihood-free) inference. We characterise different classes of summaries and demonstrate their importance for correctly analysing dimensionality reduction algorithms. We propose obtaining summaries by minimising the expected posterior entropy (EPE) under the prior predictive distribution of the model. Many existing methods are equivalent to or are special or limiting cases of minimising the EPE. We develop a method to obtain high-fidelity summaries that minimise the EPE; we apply it to benchmark and real-world examples. We both offer a unifying perspective for obtaining informative summaries and provide concrete recommendations for practitioners.
翻訳日:2023-10-03 21:30:04 公開日:2023-09-30
# 正規化フローとカーネル密度推定器を用いたベイズ推論生成物のマージナルポストプロセッシング

Marginal Post Processing of Bayesian Inference Products with Normalizing Flows and Kernel Density Estimators ( http://arxiv.org/abs/2205.12841v4 )

ライセンス: Link先を確認
Harry T. J. Bevins, William J. Handley, Pablo Lemos, Peter H. Sims, Eloy de Lera Acedo, Anastasia Fialkov, Justin Alsing(参考訳) ベイズ解析は、重力波の研究、宇宙マイクロ波背景、宇宙の夜明けからの21cm信号など、多くの異なる宇宙分野において必須のツールとなっている。 この方法は、重要な宇宙学的、天体物理学的な信号と「ニュアサンスパラメーター」でモデル化された一連の汚染信号とインストゥルメンタル効果を記述するデータに複雑なモデルを適合させる方法を提供する。 本稿では,Masked Autoregressive Flows と Kernel Density Estimator を用いて,コア科学パラメータに対応する限界後部密度を学習する手法を要約する。 限界あるいは「ニュアンスフリー」な後部と関連する可能性には、これまで難解であったKulback-Leiblerの発散や、限界ベイズモデル次元の計算、可能性エミュレーション、事前エミュレーションなど、多くの応用がある。 我々は, おもちゃの例, 21cm宇宙論の例, ダークエネルギーサーベイのサンプルを用いて, それぞれのアプリケーションを実演する。 kullback-leibler divergences や bayesian model dimensionalities のような辺縁要約統計を用いて,異なる実験の制約力について検討し,辺縁事前およびラキシブルエミュレータを利用して効率的なジョイント解析を行う方法について検討した。 我々の多目的コードは、より広い科学コミュニティで使用するために、ピップインストール可能なコードマーガリンにパッケージングします。

Bayesian analysis has become an indispensable tool across many different cosmological fields including the study of gravitational waves, the Cosmic Microwave Background and the 21-cm signal from the Cosmic Dawn among other phenomena. The method provides a way to fit complex models to data describing key cosmological and astrophysical signals and a whole host of contaminating signals and instrumental effects modelled with `nuisance parameters'. In this paper, we summarise a method that uses Masked Autoregressive Flows and Kernel Density Estimators to learn marginal posterior densities corresponding to core science parameters. We find that the marginal or 'nuisance-free' posteriors and the associated likelihoods have an abundance of applications including; the calculation of previously intractable marginal Kullback-Leibler divergences and marginal Bayesian Model Dimensionalities, likelihood emulation and prior emulation. We demonstrate each application using toy examples, examples from the field of 21-cm cosmology and samples from the Dark Energy Survey. We discuss how marginal summary statistics like the Kullback-Leibler divergences and Bayesian Model Dimensionalities can be used to examine the constraining power of different experiments and how we can perform efficient joint analysis by taking advantage of marginal prior and likelihood emulators. We package our multipurpose code up in the pip-installable code margarine for use in the wider scientific community.
翻訳日:2023-10-03 21:29:55 公開日:2023-09-30
# 時間から秒:微分顕微鏡による100倍高速な定量位相イメージング

From Hours to Seconds: Towards 100x Faster Quantitative Phase Imaging via Differentiable Microscopy ( http://arxiv.org/abs/2205.11521v3 )

ライセンス: Link先を確認
Udith Haputhanthri, Kithmini Herath, Ramith Hettiarachchi, Hasindu Kariyawasam, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. Wadduwage(参考訳) メタボロミクスから病理組織学まで、定量的位相顕微鏡(qpm)は強力なラベルフリーイメージングモードである。 高速多重撮像センサとディープラーニングに基づく逆解法が大幅に進歩したにもかかわらず、qpmのスループットは電子ハードウェアの速度によって制限されている。 本稿では、スループットをさらに向上するために、既存の電子ハードウェアボトルネックを超えてより多くの情報を転送できるように圧縮された画像を取得することを提案する。 そこで本研究では,コンテンツ固有の特徴を学習可能な光学圧縮圧縮フレームワークを提案する。 提案した定量位相顕微鏡($\partial \mu$)は、まず学習可能な光学的特徴抽出器を画像圧縮機として使用する。 これらのネットワークによって生成される強度表現は、撮像センサによってキャプチャされる。 最後に、電子ハードウェア上で動作する再構成ネットワークは、qpm画像をデ圧縮する。 数値実験では,セル上のSSIMの$\sim 0.90$とPSNRの$\sim 30$dBを維持しながら,$\times$64の圧縮を実現する。 実験によって実証された結果は、前例のないスループット向上をもたらす可能性のある、エンドツーエンド最適化(光学と電子)のコンパクトQPMシステムを実現するための新しい経路を開く。

With applications ranging from metabolomics to histopathology, quantitative phase microscopy (QPM) is a powerful label-free imaging modality. Despite significant advances in fast multiplexed imaging sensors and deep-learning-based inverse solvers, the throughput of QPM is currently limited by the speed of electronic hardware. Complementarily, to improve throughput further, here we propose to acquire images in a compressed form such that more information can be transferred beyond the existing electronic hardware bottleneck. To this end, we present a learnable optical compression-decompression framework that learns content-specific features. The proposed differentiable quantitative phase microscopy ($\partial \mu$) first uses learnable optical feature extractors as image compressors. The intensity representation produced by these networks is then captured by the imaging sensor. Finally, a reconstruction network running on electronic hardware decompresses the QPM images. In numerical experiments, the proposed system achieves compression of $\times$ 64 while maintaining the SSIM of $\sim 0.90$ and PSNR of $\sim 30$ dB on cells. The results demonstrated by our experiments open up a new pathway for achieving end-to-end optimized (i.e., optics and electronic) compact QPM systems that may provide unprecedented throughput improvements.
翻訳日:2023-10-03 21:29:28 公開日:2023-09-30
# データ駆動型アルゴリズム設計のための出力感度ERMに基づく手法

Output-sensitive ERM-based techniques for data-driven algorithm design ( http://arxiv.org/abs/2204.03569v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Christopher Seiler and Dravyansh Sharma(参考訳) データ駆動型アルゴリズム設計は、調整可能なパラメータを持つアルゴリズムの最悪のケース分析を超えた、有望な学習ベースのアプローチである。 重要なオープン問題は、複数のパラメータを持つ組合せアルゴリズムファミリーのための計算効率の良いデータ駆動アルゴリズムの設計である。 問題のインスタンスを修正してパラメータを変更すると、「双対」損失関数は通常、断片的に分解可能な構造を持つ。 本研究では,問題インスタンスの集合に対する和双対損失関数を列挙することにより,データ駆動アルゴリズム設計のための効率的なerm学習アルゴリズムを開発する手法の研究を開始する。 私たちのアプローチの実行時間は、ピース数に対する最悪のケース上限とは対照的に、実際のピース数でスケールします。 計算幾何学のツールを用いて超平面群によって誘導されるポリトープを列挙する出力センシティブアルゴリズムと、アルゴリズムが可能な全てのパラメータ値に対して達成可能な全ての状態をコンパクトに表現する実行グラフである。 提案手法は,価格問題,リンクベースのクラスタリング,動的プログラミングに基づくシーケンスアライメントなどのアルゴリズムを提供することにより,本手法を説明する。

Data-driven algorithm design is a promising, learning-based approach for beyond worst-case analysis of algorithms with tunable parameters. An important open problem is the design of computationally efficient data-driven algorithms for combinatorial algorithm families with multiple parameters. As one fixes the problem instance and varies the parameters, the "dual" loss function typically has a piecewise-decomposable structure, i.e. is well-behaved except at certain sharp transition boundaries. In this work we initiate the study of techniques to develop efficient ERM learning algorithms for data-driven algorithm design by enumerating the pieces of the sum dual loss functions for a collection of problem instances. The running time of our approach scales with the actual number of pieces that appear as opposed to worst case upper bounds on the number of pieces. Our approach involves two novel ingredients -- an output-sensitive algorithm for enumerating polytopes induced by a set of hyperplanes using tools from computational geometry, and an execution graph which compactly represents all the states the algorithm could attain for all possible parameter values. We illustrate our techniques by giving algorithms for pricing problems, linkage-based clustering and dynamic-programming based sequence alignment.
翻訳日:2023-10-03 21:28:24 公開日:2023-09-30
# キャビティオプトマノメカニクスによるマイクロ波光学の絡み合い

Microwave-optics Entanglement via Cavity Optomagnomechanics ( http://arxiv.org/abs/2208.10703v2 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Liu Qiu, Simon Gr\"oblacher, Jie Li(参考訳) マイクロ波光の絡み合いは、ハイブリッド量子ネットワークを構築する上で不可欠な要素である。 本稿では, キャビティオプトマノメカニカルシステムにおいて, マイクロ波と光キャビティの間を定常的に絡み合う新しい機構を提案する。 磁性結晶中のマグノンモードは、磁気双極子相互作用を介してマイクロ波キャビティモードに直接結合し、結晶の変形変形を通じて間接的に光学キャビティに結合する。 機械的変位は磁歪力によって誘導され、放射圧を介して光学キャビティに結合される。 オプトメカニカルカップリングとマグノメカニカルカップリングの両方が分散している。 マグノン・フォノンの絡み合いはマグノメカニカルパラメトリック・ダウンコンバージョン(magnomechanical parametric down-conversion)によって生成され、光機械的ビームスプリッター相互作用と電磁気的状態-スワップ相互作用により、光学およびマイクロ波光子にさらに分散され、定常マイクロ波-光学の絡み合いが生じる。 マイクロ波光の絡み合いは熱雑音に対して堅牢であり、量子ネットワークやハイブリッド量子システムによる量子情報処理において幅広い応用が期待できる。

Microwave-optics entanglement is a vital component for building hybrid quantum networks. Here, a new mechanism for preparing stationary entanglement between microwave and optical cavity fields in a cavity optomagnomechanical system is proposed. It consists of a magnon mode in a ferrimagnetic crystal that couples directly to a microwave cavity mode via the magnetic dipole interaction, and indirectly to an optical cavity through the deformation displacement of the crystal. The mechanical displacement is induced by the magnetostrictive force and coupled to the optical cavity via radiation pressure. Both the opto- and magnomechanical couplings are dispersive. Magnon-phonon entanglement is created via magnomechanical parametric down-conversion, which is further distributed to optical and microwave photons via simultaneous optomechanical beamsplitter interaction and electromagnonic state-swap interaction, yielding stationary microwave-optics entanglement. The microwave-optics entanglement is robust against thermal noise, which will find broad potential applications in quantum networks and quantum information processing with hybrid quantum systems.
翻訳日:2023-10-03 21:19:56 公開日:2023-09-30
# 知識抽出と多モデル融合によるヘテロジニアス連合学習の強化

Enhancing Heterogeneous Federated Learning with Knowledge Extraction and Multi-Model Fusion ( http://arxiv.org/abs/2208.07978v2 )

ライセンス: Link先を確認
Duy Phuong Nguyen, Sixing Yu, J. Pablo Mu\~noz, Ali Jannesari(参考訳) 本稿では,ユーザデータのプライバシに関して,機密データにアクセスせずにエッジデバイス上で機械学習モデルをトレーニングする新しいフェデレーション学習(FL)手法を提案する。 従来のfl法は、プライバシ保護ではあるが、モデルの不均一性を管理しず、集約メソッドに依存するため、高い通信コストを発生させる。 この制限に対処するために,エッジモデルから局所知識を集約し,知識蒸留を通じてロバストなグローバル知識に蒸留する資源認識型fl法を提案する。 この方法は,モデルの不均一性を保ちながら,効率的なマルチモデル知識融合と資源認識モデルの展開を可能にする。 本手法は,既存のFLアルゴリズムと比較して,異種データやモデルにおける通信コストと性能を改善する。 特に、ResNet-32の通信コストを最大50\%、VGG-11を最大10$\times$まで削減し、優れたパフォーマンスを提供する。

Concerned with user data privacy, this paper presents a new federated learning (FL) method that trains machine learning models on edge devices without accessing sensitive data. Traditional FL methods, although privacy-protective, fail to manage model heterogeneity and incur high communication costs due to their reliance on aggregation methods. To address this limitation, we propose a resource-aware FL method that aggregates local knowledge from edge models and distills it into robust global knowledge through knowledge distillation. This method allows efficient multi-model knowledge fusion and the deployment of resource-aware models while preserving model heterogeneity. Our method improves communication cost and performance in heterogeneous data and models compared to existing FL algorithms. Notably, it reduces the communication cost of ResNet-32 by up to 50\% and VGG-11 by up to 10$\times$ while delivering superior performance.
翻訳日:2023-10-03 21:19:34 公開日:2023-09-30
# NAG-GS:半増幅,加速,ロバスト確率最適化

NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer ( http://arxiv.org/abs/2209.14937v2 )

ライセンス: Link先を確認
Valentin Leplat, Daniil Merkulov, Aleksandr Katrutsa, Daniel Bershatsky, Olga Tsymboi, Ivan Oseledets(参考訳) ディープニューラルネットワークのような古典的な機械学習モデルは、通常SGDアルゴリズムを用いて訓練される。 古典的なSGDは確率勾配流の離散化と解釈できる。 本稿では,(1)Nesterov-like Stochastic Differential Equation (SDE) と (2) 半単純ガウス・シーデル型離散化という2つの重要な要素に依存した,新しい,頑健で高速化された確率最適化手法を提案する。 得られた方法の収束と安定性は nag-gs と呼ばれ、二次関数の最小化の場合に初めて広く研究された。 この分析により,NAG-GSの安定性を確保しつつ,収束率の観点から最適な学習率が得られる。 これは,本手法のすべてのハイパーパラメータに対して,反復行列のスペクトル半径と定常な共分散行列を慎重に解析することによって達成される。 さらに,nag-gsは,ロジスティック回帰モデル,標準コンピュータビジョンデータセット上の残留ネットワークモデル,グルーベンチマークのフレーム内のトランスフォーマー,最近のビジョントランスフォーマといった機械学習モデルのトレーニングにおいて,重量減衰を伴う運動量sgdやadamwといった最先端の手法と競合することを示した。

Classical machine learning models such as deep neural networks are usually trained by using Stochastic Gradient Descent-based (SGD) algorithms. The classical SGD can be interpreted as a discretization of the stochastic gradient flow. In this paper we propose a novel, robust and accelerated stochastic optimizer that relies on two key elements: (1) an accelerated Nesterov-like Stochastic Differential Equation (SDE) and (2) its semi-implicit Gauss-Seidel type discretization. The convergence and stability of the obtained method, referred to as NAG-GS, are first studied extensively in the case of the minimization of a quadratic function. This analysis allows us to come up with an optimal learning rate in terms of the convergence rate while ensuring the stability of NAG-GS. This is achieved by the careful analysis of the spectral radius of the iteration matrix and the covariance matrix at stationarity with respect to all hyperparameters of our method. Further, we show that NAG- GS is competitive with state-of-the-art methods such as momentum SGD with weight decay and AdamW for the training of machine learning models such as the logistic regression model, the residual networks models on standard computer vision datasets, Transformers in the frame of the GLUE benchmark and the recent Vision Transformers.
翻訳日:2023-10-03 21:10:44 公開日:2023-09-30
# 機械学習と共有値による群れ赤道プラズマ気泡の予測

Predicting Swarm Equatorial Plasma Bubbles via Machine Learning and Shapley Values ( http://arxiv.org/abs/2209.13482v2 )

ライセンス: Link先を確認
S. A. Reddy, C. Forsyth, A. Aruliah, A. Smith, J. Bortnik, E. Aa, D. O. Kataria, G. Lewis(参考訳) 本研究では,Swarm宇宙船のIonospheric Bubble Index(IBI)を正確に予測できる機械学習モデルである赤道プラズマ気泡のAI予測について述べる。 IBIは、プラズマ密度の摂動と、赤道プラズマ気泡(EPB)の源となる磁場との相関(R^2$)である。 EPBは長年研究されてきたが、その日々の変動により、かなりの課題が予測されている。 IBIを予測するためのアンサンブル機械学習モデルを構築した。 2014-22年のデータを1秒の解像度で使用し、対応するPB$R^2$ (0-1) をラベルとして時系列から6次元空間に変換する。 APEはすべての指標に対してよく機能し、それぞれ0.96、0.98、0.08のスキル、アソシエーション、ルート平均二乗誤差スコアを示す。 このモデルは、アメリカと大西洋のセクター、同軸付近、そして太陽活動が高い場合に、最も優れた日没後処理を行う。 EPBはこれらの期間に発生する可能性が高いため、これは有望である。 シェープ値から、F10.7は予測を駆動する上で最も重要な特徴であるが、緯度は最小である。 分析はまた、epb気候学への新たな洞察を明らかにする機能間の関係についても検討している。 最後に、これらの特徴の選択は、ALPが追加調査の結果、EDBを予測できるように拡張できることを意味している。

In this study we present AI Prediction of Equatorial Plasma Bubbles (APE), a machine learning model that can accurately predict the Ionospheric Bubble Index (IBI) on the Swarm spacecraft. IBI is a correlation ($R^2$) between perturbations in plasma density and the magnetic field, whose source can be Equatorial Plasma Bubbles (EPBs). EPBs have been studied for a number of years, but their day-to-day variability has made predicting them a considerable challenge. We build an ensemble machine learning model to predict IBI. We use data from 2014-22 at a resolution of 1sec, and transform it from a time-series into a 6-dimensional space with a corresponding EPB $R^2$ (0-1) acting as the label. APE performs well across all metrics, exhibiting a skill, association and root mean squared error score of 0.96, 0.98 and 0.08 respectively. The model performs best post-sunset, in the American/Atlantic sector, around the equinoxes, and when solar activity is high. This is promising because EPBs are most likely to occur during these periods. Shapley values reveal that F10.7 is the most important feature in driving the predictions, whereas latitude is the least. The analysis also examines the relationship between the features, which reveals new insights into EPB climatology. Finally, the selection of the features means that APE could be expanded to forecasting EPBs following additional investigations into their onset.
翻訳日:2023-10-03 21:10:18 公開日:2023-09-30
# ビュー合成のための局所統一3次元点雲の学習

Learning A Locally Unified 3D Point Cloud for View Synthesis ( http://arxiv.org/abs/2209.05013v3 )

ライセンス: Link先を確認
Meng You, Mantang Guo, Xianqiang Lyu, Hui Liu, and Junhui Hou(参考訳) 本稿では,分散ソースビューのセットから3次元ポイントクラウド表現に基づくビュー合成の問題を検討する。 この課題に対処するために、ソースビューから局所的に統一された3Dポイントクラウドを学ぶディープラーニングベースのビュー合成パラダイムを提案する。 具体的には、まずソースビューを3次元空間に投影し、深度マップに基づいてサブポイントクラウドを構築する。 そして、局所的に統一された3次元点雲を、部分点雲の結合上に定義された局所近傍の点を適応的に融合させることで学習する。 また、3次元形状誘導画像復元モジュールを提案し、穴を埋め、描画された新規ビューの高周波詳細を復元する。 3つのベンチマークデータセットによる実験結果から,提案手法は4dB以上の平均PSNRを向上し,より正確な視覚的詳細を保存できることを示した。

In this paper, we explore the problem of 3D point cloud representation-based view synthesis from a set of sparse source views. To tackle this challenging problem, we propose a new deep learning-based view synthesis paradigm that learns a locally unified 3D point cloud from source views. Specifically, we first construct sub-point clouds by projecting source views to 3D space based on their depth maps. Then, we learn the locally unified 3D point cloud by adaptively fusing points at a local neighborhood defined on the union of the sub-point clouds. Besides, we also propose a 3D geometry-guided image restoration module to fill the holes and recover high-frequency details of the rendered novel views. Experimental results on three benchmark datasets demonstrate that our method can improve the average PSNR by more than 4 dB while preserving more accurate visual details, compared with state-of-the-art view synthesis methods.
翻訳日:2023-10-03 21:08:54 公開日:2023-09-30
# 非平衡音源分離におけるクロストーク影響空間除算の適用範囲

Application range of crosstalk-affected spatial demultiplexing for resolving separations between unbalanced sources ( http://arxiv.org/abs/2211.09157v2 )

ライセンス: Link先を確認
Tomasz Linowski, Konrad Schlichtholz, Giacomo Sorelli, Manuel Gessner, Mattia Walschaers, Nicolas Treps, {\L}ukasz Rudnicki(参考訳) 超解像は、現代の量子光学とメトロジーの交差における重要な問題の1つである。 近年,2つの平衡源の理想的な場合において,空間モードデマルチプレクシング(SPADE)は,計測クロストークの存在下においても,直接撮像よりも分解能が高いことが示されている[125,100501(2020)]。 本研究では,不均衡な音源を任意に考慮し,spadeから得られた解像度に対するクロストークの影響を体系的に分析する。 この一般化されたシナリオでは、SPADEの有効性はクロストークの強さ、相対的な明るさ、ソース間の分離に依存しない。 特に、任意のソース不均衡に対して、SPADEは、ソース分離を消滅させる漸近的限界において、理想的なダイレクトイメージングよりも悪い。 それでも、クロストークの強さの現実的な値に対して、spadeはソース分離の桁数よりも優れた方法である。

Superresolution is one of the key issues at the crossroads of contemporary quantum optics and metrology. Recently, it was shown that for an idealized case of two balanced sources, spatial mode demultiplexing (SPADE) achieves resolution better than direct imaging even in the presence of measurement crosstalk [Phys. Rev. Lett. 125, 100501 (2020)]. In this work, we consider arbitrarily unbalanced sources and provide a systematic analysis of the impact of crosstalk on the resolution obtained from SPADE. As we dissect, in this generalized scenario, SPADE's effectiveness depends non-trivially on the strength of crosstalk, relative brightness and the separation between the sources. In particular, for any source imbalance, SPADE performs worse than ideal direct imaging in the asymptotic limit of vanishing source separations. Nonetheless, for realistic values of crosstalk strength, SPADE is still the superior method for several orders of magnitude of source separations.
翻訳日:2023-10-03 21:01:05 公開日:2023-09-30
# Augmented Physics-Informed Neural Networks (APINNs): ゲーティングネットワークに基づくソフトドメイン分解手法

Augmented Physics-Informed Neural Networks (APINNs): A gating network-based soft domain decomposition methodology ( http://arxiv.org/abs/2211.08939v3 )

ライセンス: Link先を確認
Zheyuan Hu, Ameya D. Jagtap, George Em Karniadakis, Kenji Kawaguchi(参考訳) 本稿では、拡張PINN(XPINN)とバニラPINN法をさらに改善するために、ソフトで訓練可能なドメイン分解とフレキシブルパラメータ共有を採用した拡張物理情報ニューラルネットワーク(APINN)を提案する。 特に、訓練可能なゲートネットワークを使用してxpinnのハード分解を模倣し、より優れたパーティションを見つけるために柔軟に微調整することができる。 APINNの出力として、いくつかのサブネットを重み付けする。 APINNは複雑なインターフェース条件を必要としない。そのサブネットは、サブドメイン内のトレーニングデータの一部だけでなく、すべてのトレーニングサンプルを利用することができる。 最後に、各サブネットは、分解された各関数の類似コンポーネントをキャプチャするために共通のパラメータの一部を共有する。 さらに、Hu et al の PINN 一般化理論に従う。 2021] 固有ゲートネットワークの初期化と一般ドメインと関数の分解により,apinnは一般化を改善できることを示す。 異なるタイプのPDEに関する大規模な実験は、APINNがPINNとXPINNメソッドをどのように改善するかを示している。 具体的には, XPINN が PINN と似ているか悪いかを示す。 また、すでにXPINNがPINNより優れているケースも示しています。 さらに,最適化されたゲーティングネットワークとその最適化トラジェクトリを可視化し,それらの性能と接続することで,最適分解の発見に役立てる。 興味深いことに、異なる分解によって初期化されると、対応するAPINNのパフォーマンスは大きく異なる可能性がある。 このことは、考慮中の微分方程式問題に対して最適領域分解を設計する可能性を示している。

In this paper, we propose the augmented physics-informed neural network (APINN), which adopts soft and trainable domain decomposition and flexible parameter sharing to further improve the extended PINN (XPINN) as well as the vanilla PINN methods. In particular, a trainable gate network is employed to mimic the hard decomposition of XPINN, which can be flexibly fine-tuned for discovering a potentially better partition. It weight-averages several sub-nets as the output of APINN. APINN does not require complex interface conditions, and its sub-nets can take advantage of all training samples rather than just part of the training data in their subdomains. Lastly, each sub-net shares part of the common parameters to capture the similar components in each decomposed function. Furthermore, following the PINN generalization theory in Hu et al. [2021], we show that APINN can improve generalization by proper gate network initialization and general domain & function decomposition. Extensive experiments on different types of PDEs demonstrate how APINN improves the PINN and XPINN methods. Specifically, we present examples where XPINN performs similarly to or worse than PINN, so that APINN can significantly improve both. We also show cases where XPINN is already better than PINN, so APINN can still slightly improve XPINN. Furthermore, we visualize the optimized gating networks and their optimization trajectories, and connect them with their performance, which helps discover the possibly optimal decomposition. Interestingly, if initialized by different decomposition, the performances of corresponding APINNs can differ drastically. This, in turn, shows the potential to design an optimal domain decomposition for the differential equation problem under consideration.
翻訳日:2023-10-03 21:00:05 公開日:2023-09-30
# 言語モデルは良い病理学者である:wsi分類のための注意に基づくシーケンス縮小とテキスト事前学習トランスフォーマー

Language models are good pathologists: using attention-based sequence reduction and text-pretrained transformers for efficient WSI classification ( http://arxiv.org/abs/2211.07384v2 )

ライセンス: Link先を確認
Juan I. Pisula and Katarzyna Bozek(参考訳) デジタル病理学では、全スライド画像(WSI)解析は通常、多重インスタンス学習(MIL)問題として定式化される。 トランスフォーマーベースのアーキテクチャはwsiの分類に使われてきたが、これらの手法はこの種の画像データの特定の課題に対応するために修正を必要とする。 例えば、WSIを$\times 10$または$\times 20$の倍率で構成できる数千のイメージパッチなどである。 我々は,各WSIを固定および短大のインスタンス列にまとめるマルチヘッドアテンションベースのシーケンス短縮層である‘textit{SeqShort} を導入し,長いシーケンスに対する自己アテンションの計算コストを低減し,他のMILアプローチでは利用できない位置情報を含めることを可能にする。 さらに, 大容量のテキストデータに対して, ダウンストリームトランスフォーマーアーキテクチャを事前学習した場合には, WSI分類性能が向上し, パラメータの0.1\%未満の微調整しかできないことを示す。 リンパ節転移分類および癌サブタイプ分類における本手法の有効性を,WSI固有のトランスフォーマーを設計したり,ドメイン内事前トレーニングを行う必要がなく,計算予算の削減とトレーニング可能なパラメータ数の削減を図った。

In digital pathology, Whole Slide Image (WSI) analysis is usually formulated as a Multiple Instance Learning (MIL) problem. Although transformer-based architectures have been used for WSI classification, these methods require modifications to adapt them to specific challenges of this type of image data. Among these challenges is the amount of memory and compute required by deep transformer models to process long inputs, such as the thousands of image patches that can compose a WSI at $\times 10$ or $\times 20$ magnification. We introduce \textit{SeqShort}, a multi-head attention-based sequence shortening layer to summarize each WSI in a fixed- and short-sized sequence of instances, that allows us to reduce the computational costs of self-attention on long sequences, and to include positional information that is unavailable in other MIL approaches. Furthermore, we show that WSI classification performance can be improved when the downstream transformer architecture has been pre-trained on a large corpus of text data, and only fine-tuning less than 0.1\% of its parameters. We demonstrate the effectiveness of our method in lymph node metastases classification and cancer subtype classification tasks, without the need of designing a WSI-specific transformer nor doing in-domain pre-training, keeping a reduced compute budget and low number of trainable parameters.
翻訳日:2023-10-03 20:59:04 公開日:2023-09-30
# Auxo: スケーラブルクライアントクラスタリングによる効果的なフェデレーション学習

Auxo: Efficient Federated Learning via Scalable Client Clustering ( http://arxiv.org/abs/2210.16656v2 )

ライセンス: Link先を確認
Jiachen Liu, Fan Lai, Yinwei Dai, Aditya Akella, Harsha Madhyastha, Mosharaf Chowdhury(参考訳) Federated Learning(FL)は、ヘテロジニアスエッジデバイスが、生データを論理的に集中したサーバに公開することなく、MLモデルを協調的にトレーニングすることを可能にする、新興機械学習(ML)パラダイムである。 しかし、不均一なデバイス容量を超えると、FL参加者は独立性がなく、同一に分布する(Non-IID)データ分布の違いをしばしば示す。 既存の多くの作業では、低収束、最終精度の低下、flのバイアスといった問題に対処するためのポイントソリューションが提供されている。 本稿では、統計的に類似したデータ分布(コホート)を持つクライアントをグループ化することで、そのような不均一性を緩和する複雑さの付加層について検討する。 本研究では,大規模,低可用性,資源制約のあるFL集団において,これらのコホートを徐々に同定するAuxoを提案する。 auxoは、モデルパフォーマンスを改善し、リソース効率を確保するために、コホート固有のモデルを訓練する方法を適応的に決定する。 我々の広範な評価は、コホートがより小さいコホートを同定し、効率的なコホートベースのトレーニングを行うことで、Auxoは最終的な精度(2.1%から8.2%)、収束時間(2.2倍)、モデルバイアス(4.8%から53.8%)で様々な既存のFLソリューションを強化していることを示している。

Federated learning (FL) is an emerging machine learning (ML) paradigm that enables heterogeneous edge devices to collaboratively train ML models without revealing their raw data to a logically centralized server. However, beyond the heterogeneous device capacity, FL participants often exhibit differences in their data distributions, which are not independent and identically distributed (Non-IID). Many existing works present point solutions to address issues like slow convergence, low final accuracy, and bias in FL, all stemming from client heterogeneity. In this paper, we explore an additional layer of complexity to mitigate such heterogeneity by grouping clients with statistically similar data distributions (cohorts). We propose Auxo to gradually identify such cohorts in large-scale, low-availability, and resource-constrained FL populations. Auxo then adaptively determines how to train cohort-specific models in order to achieve better model performance and ensure resource efficiency. Our extensive evaluations show that, by identifying cohorts with smaller heterogeneity and performing efficient cohort-based training, Auxo boosts various existing FL solutions in terms of final accuracy (2.1% - 8.2%), convergence time (up to 2.2x), and model bias (4.8% - 53.8%).
翻訳日:2023-10-03 20:58:03 公開日:2023-09-30
# ベイズ帯域の連続時間制限

Continuous-in-time Limit for Bayesian Bandits ( http://arxiv.org/abs/2210.07513v3 )

ライセンス: Link先を確認
Yuhua Zhu, Zachary Izzo, Lexing Ying(参考訳) 本稿ではベイズ設定における盗賊問題を再考する。 ベイジアンアプローチは、バンディット問題を最適化問題として定式化し、ベイジアン後悔を最小限に抑える最適なポリシーを見つけることが目的である。 ベイズ的アプローチに直面する主な課題の1つは、最適ポリシーの計算がしばしば難解であることであり、特に問題水平線の長さや武器の数が大きい場合である。 本稿では、まず適切な再スケーリングの下で、ベイジアン・バンディット問題は連続ハミルトン・ヤコビ・ベルマン方程式(HJB)に収束することを示す。 制限HJB方程式の最適ポリシは、いくつかの共通バンディット問題に対して明示的に得ることができ、明示的な解が得られない場合に、HJB方程式を解く数値的な方法を与える。 これらの結果に基づき,ベイズ帯域幅が広いベイズ帯域幅の問題を解くための近似ベイズ最適政策を提案する。 本手法は地平線が大きくなるにつれて計算コストが増大しないという付加的な利点を有する。

This paper revisits the bandit problem in the Bayesian setting. The Bayesian approach formulates the bandit problem as an optimization problem, and the goal is to find the optimal policy which minimizes the Bayesian regret. One of the main challenges facing the Bayesian approach is that computation of the optimal policy is often intractable, especially when the length of the problem horizon or the number of arms is large. In this paper, we first show that under a suitable rescaling, the Bayesian bandit problem converges toward a continuous Hamilton-Jacobi-Bellman (HJB) equation. The optimal policy for the limiting HJB equation can be explicitly obtained for several common bandit problems, and we give numerical methods to solve the HJB equation when an explicit solution is not available. Based on these results, we propose an approximate Bayes-optimal policy for solving Bayesian bandit problems with large horizons. Our method has the added benefit that its computational cost does not increase as the horizon increases.
翻訳日:2023-10-03 20:57:21 公開日:2023-09-30
# NOX誤り低減プロトコルの適用による実時間量子場理論散乱位相シフトの計算

Applying NOX Error Mitigation Protocols to Calculate Real-time Quantum Field Theory Scattering Phase Shifts ( http://arxiv.org/abs/2212.05333v2 )

ライセンス: Link先を確認
Zachary Parks, Arnaud Carignan-Dugas, Erik Gustafson, Yannick Meurice and Patrick Dreher(参考訳) ノイズ中間スケール量子(NISQ)量子コンピュータ上のリアルタイム散乱計算は、回路全体に蓄積される誤差によって破壊される。 このような物理シミュレーションの精度を向上させるために、Noisy Output eXtrapolation (NOX)として知られる最近のエラー軽減戦略で応用回路を補うことができる。 逆フィールドイジングモデルを用いてこれらの誤差軽減プロトコルを検証し, 位相シフトの過去の計算により改善した。 概念実証4ビットアプリケーション回路は、IBMの量子コンピューティングハードウェアアーキテクチャ上で動作した。 回路深さが14から37のハードサイクルで21~74の誤差低減を示す指標を導入し、NOX法が幅広い故障率の回路に適用可能であることを確認した。 異なるクラウドアクセス可能なデバイス上でのこの観察により、NOXが実質的に時間分割されたバッチで回路が実行される発生時においても性能改善を提供することを確認した。 最後に, 緩和結果に対する系統的誤差バーを得るためのヒューリスティックな手法を提案し, 経験的誤差と比較し, 位相シフト推定への影響について考察した。

Real-time scattering calculations on a Noisy Intermediate Scale Quantum (NISQ) quantum computer are disrupted by errors that accumulate throughout the circuits. To improve the accuracy of such physics simulations, one can supplement the application circuits with a recent error mitigation strategy known as Noisy Output eXtrapolation (NOX). We tested these error mitigation protocols on a Transverse Field Ising model and improved upon previous calculations of the phase shift. Our proof-of-concept 4-qubit application circuits were run on several IBM quantum computing hardware architectures. Metrics were introduced that show between 21\% and 74\% error reduction for circuit depths ranging from 14 to 37 hard cycles, confirming that the NOX technique applies to circuits with a broad range of failure rates. This observation on different cloud-accessible devices further confirms that NOX provides performance improvements even in the advent where circuits are executed in substantially time-separated batches. Finally, we provide a heuristic method to obtain systematic error bars on the mitigated results, compare them with empirical errors and discuss their effects on phase shift estimates.
翻訳日:2023-10-03 20:51:04 公開日:2023-09-30
# 非iidデータを用いたナレッジアウェアフェデレーションアクティブラーニング

Knowledge-Aware Federated Active Learning with Non-IID Data ( http://arxiv.org/abs/2211.13579v3 )

ライセンス: Link先を確認
Yu-Tong Cao, Ye Shi, Baosheng Yu, Jingya Wang, Dacheng Tao(参考訳) フェデレーション学習は、複数の分散したクライアントが、ローカルトレーニングデータを共有せずに協調的に学習できるようにする。 しかし、ローカルクライアントでデータラベルを取得するための高価なアノテーションコストは、ローカルデータを利用する際の障害である。 本稿では,分散学習方式でデータプライバシを保護しつつ,限定的なアノテーション予算でグローバルモデルを効率的に学習するための連合型アクティブラーニングパラダイムを提案する。 フェデレートされたアクティブラーニングが直面する主な課題は、サーバ上のグローバルモデルのアクティブサンプリング目標と非同期のローカルクライアントとのミスマッチである。 これは、データがローカルクライアント間で非IIDに分散されたときにさらに重要になる。 上記の課題に対処するため,KSAS (Knowledge-Aware Federated Active Learning) とKCFU (Knowledge-Compensatory Federated Update) からなる知識認識型アクティブラーニング (KAFAL) を提案する。 ksasは連合型アクティブラーニング問題に適した新しいアクティブサンプリング手法である。 ローカルモデルとグローバルモデルの違いに基づいて積極的にサンプリングすることで、ミスマッチの課題に対処する。 KSASは、ローカルクライアントの専門知識を強化し、サンプルデータをローカルクライアントとグローバルモデルの両方に知らせることを保証する。 一方KCFUは、限られたデータと非IIDデータ分散に起因するクライアントの不均一性を扱う。 グローバルモデルの助けを借りて、弱いクラスにおける各クライアントの能力を補う。 連合型アクティブラーニングフレームワークにおけるKSASの最先端のアクティブラーニング手法に対する優位性と,KCFUの効率性を示すため,大規模な実験と分析を行った。

Federated learning enables multiple decentralized clients to learn collaboratively without sharing the local training data. However, the expensive annotation cost to acquire data labels on local clients remains an obstacle in utilizing local data. In this paper, we propose a federated active learning paradigm to efficiently learn a global model with limited annotation budget while protecting data privacy in a decentralized learning way. The main challenge faced by federated active learning is the mismatch between the active sampling goal of the global model on the server and that of the asynchronous local clients. This becomes even more significant when data is distributed non-IID across local clients. To address the aforementioned challenge, we propose Knowledge-Aware Federated Active Learning (KAFAL), which consists of Knowledge-Specialized Active Sampling (KSAS) and Knowledge-Compensatory Federated Update (KCFU). KSAS is a novel active sampling method tailored for the federated active learning problem. It deals with the mismatch challenge by sampling actively based on the discrepancies between local and global models. KSAS intensifies specialized knowledge in local clients, ensuring the sampled data to be informative for both the local clients and the global model. KCFU, in the meantime, deals with the client heterogeneity caused by limited data and non-IID data distributions. It compensates for each client's ability in weak classes by the assistance of the global model. Extensive experiments and analyses are conducted to show the superiority of KSAS over the state-of-the-art active learning methods and the efficiency of KCFU under the federated active learning framework.
翻訳日:2023-10-03 20:49:48 公開日:2023-09-30
# 局所情報の流れをもつ量子理論

Quantum theories with local information flow ( http://arxiv.org/abs/2211.13325v3 )

ライセンス: Link先を確認
Eduarda Fonseca da Nova Cruz, David M\"ockli(参考訳) ベル非局所性(bell non-locality)は、量子力学の特定の修正や解釈に適用される用語である。 しかし、ベルの1964年の最初の定理は、修正されていない量子力学そのものが非局所的であり、局所現実論の解釈は不変であると主張するためにしばしば用いられる。 ベルの元々の不等式に触発され、局所量子力学、超決定論、非局所崩壊量子力学、非局所隠れ変数理論の4つの可能なカテゴリを同定する。 しかし、これらの圏はベルの局所性の定義に制限されない。 現在利用可能なノーゴーの定理に照らして、局所的および決定論的記述は見過ごされ、ベル局所性とより広い局所性の原理との融合である可能性がある。 量子情報の局所的な流れが可能である理論の例を示し、現在の実験的な提案と科学の哲学が解釈を対比し区別できるかどうかを評価する。

Bell non-locality is a term that applies to specific modifications and interpretations of quantum mechanics. Yet, Bell's original 1964 theorem is often used to assert that unmodified quantum mechanics itself is non-local and that local realist interpretations are untenable. Motivated by Bell's original inequality, we identify four viable categories of quantum theories: local quantum mechanics, superdeterminism, non-local collapse quantum mechanics, and non-local hidden variable theories. These categories, however, are not restricted by Bell's definition of locality. In light of currently available no-go theorems, local and deterministic descriptions seem to have been overlooked, and one possible reason for that could be the conflation between Bell-locality and a broader principle of locality. We present examples of theories where a local flow of quantum information is possible, and assess whether current experimental proposals and an improved philosophy of science can contrast interpretations and distinguish between them.
翻訳日:2023-10-03 20:49:18 公開日:2023-09-30
# CV-QKDにおけるコンポーザブルキーレートの改善

Improved composable key rates for CV-QKD ( http://arxiv.org/abs/2301.10270v2 )

ライセンス: Link先を確認
Stefano Pirandola and Panagiotis Papanastasiou(参考訳) 量子鍵分布(QKD)の現代のセキュリティ証明は有限サイズ効果と構成可能な側面を考慮しなければならない。 これは、ボゾンコヒーレント状態の伝達と検出に基づく連続可変(CV)プロトコルのケースでもある。 本稿では, cv-qkdプロトコルの合成可能な鍵レートのより厳密な定式化を提供する領域において, 先行理論を精錬し, 発展させる。 これらの理論的な改良により、我々の一般的な公式は、以前の文献に関してより楽観的な鍵レートを証明できる。

Modern security proofs of quantum key distribution (QKD) must consider finite-size effects and composable aspects. This is also the case for continuous-variable (CV) protocols which are based on the transmission and detection of bosonic coherent states. In this paper, we refine and advance the previous theory in this area providing a more rigorous formulation for the composable key rate of a generic CV-QKD protocol. Thanks to these theoretical refinements, our general formulas allow us to prove more optimistic key rates with respect to previous literature.
翻訳日:2023-10-03 20:39:55 公開日:2023-09-30
# セキュリティチェックポイントにおける複数カメラを用いた乗客・荷物の追跡

Tracking Passengers and Baggage Items using Multiple Overhead Cameras at Security Checkpoints ( http://arxiv.org/abs/2301.00190v2 )

ライセンス: Link先を確認
Abubakar Siddique and Henry Medeiros(参考訳) 我々は,空港の検問所のセキュリティシナリオにおいて,頭上カメラ映像中の複数の物体を追跡するための新しい枠組みを提案する。 オーバヘッド画像からのインスタンスセグメンテーションの不確実性に関するモデル情報を提供するために,自己監視学習(SSL)手法を提案する。 我々のSSLアプローチは、テストタイムデータ拡張と回帰ベースで回転不変な擬似ラベル改善技術を用いてオブジェクト検出を改善する。 擬似ラベル生成法は,畳み込みニューラルネットワーク(cnn)への入力として複数の幾何変換画像を提供し,ネットワークが生成する拡張検出をレグレッションして局所化誤差を低減し,平均シフトアルゴリズムを用いてクラスタ化する。 自己監視検出器モデルは、ターゲットの時間識別子を生成するために、単一カメラ追跡アルゴリズムで使用される。 また,マルチビューの軌跡関連付け機構を組み込んで,カメラビューを横断する乗客の時間的識別子を安定的に保持する。 空港チェックポイント環境における複数のオーバーヘッドカメラから得られた映像の検出,追跡,関連性の評価は,提案手法の有効性を実証する。 その結果, 自己スーパービジョンにより, モデルの推論時間を増加させることなく, 物体検出精度を最大42%向上できることがわかった。 我々のマルチカメラアソシエーション法は,平均計算時間15ドル未満のマルチオブジェクト追跡精度を最大8,9 %まで達成する。

We introduce a novel framework to track multiple objects in overhead camera videos for airport checkpoint security scenarios where targets correspond to passengers and their baggage items. We propose a Self-Supervised Learning (SSL) technique to provide the model information about instance segmentation uncertainty from overhead images. Our SSL approach improves object detection by employing a test-time data augmentation and a regression-based, rotation-invariant pseudo-label refinement technique. Our pseudo-label generation method provides multiple geometrically-transformed images as inputs to a Convolutional Neural Network (CNN), regresses the augmented detections generated by the network to reduce localization errors, and then clusters them using the mean-shift algorithm. The self-supervised detector model is used in a single-camera tracking algorithm to generate temporal identifiers for the targets. Our method also incorporates a multi-view trajectory association mechanism to maintain consistent temporal identifiers as passengers travel across camera views. An evaluation of detection, tracking, and association performances on videos obtained from multiple overhead cameras in a realistic airport checkpoint environment demonstrates the effectiveness of the proposed approach. Our results show that self-supervision improves object detection accuracy by up to $42\%$ without increasing the inference time of the model. Our multi-camera association method achieves up to $89\%$ multi-object tracking accuracy with an average computation time of less than $15$ ms.
翻訳日:2023-10-03 20:37:28 公開日:2023-09-30
# ベクターレグレッションのサポート:リスククワッドローグフレームワーク

Support Vector Regression: Risk Quadrangle Framework ( http://arxiv.org/abs/2212.09178v5 )

ライセンス: Link先を確認
Anton Malandii, Stan Uryasev(参考訳) 本稿では, 最適化, リスク管理, 統計的推定を関連付ける基本リスク二次理論の文脈において, サポートベクトル回帰 (svr) について検討する。 SVR, $\varepsilon$-SVR および $\nu$-SVR の2つの定式化は、それぞれ等価なエラー対策(Vapnik error と CVaR norm)の最小化に対応する。 これらの誤差測度は、対応するリスク二次数を定義する。 SVRに対応する基本リスク四角形を構築することにより、SVRは2つの対称条件量子平均の漸近的に偏りのない推定器であることを示す。 さらに,一般確率環境での$\varepsilon$-SVRと$\nu$-SVRの等価性を証明した。 さらに、SVRは正規化ペナルティを持つ正規偏差最小化問題として定式化される。 最後に、リスク四角形フレームワークにおけるSVRの二重定式化が導出される。

This paper investigates Support Vector Regression (SVR) in the context of the fundamental risk quadrangle theory, which links optimization, risk management, and statistical estimation. It is shown that both formulations of SVR, $\varepsilon$-SVR and $\nu$-SVR, correspond to the minimization of equivalent error measures (Vapnik error and CVaR norm, respectively) with a regularization penalty. These error measures, in turn, define the corresponding risk quadrangles. By constructing the fundamental risk quadrangle, which corresponds to SVR, we show that SVR is the asymptotically unbiased estimator of the average of two symmetric conditional quantiles. Further, we prove the equivalence of the $\varepsilon$-SVR and $\nu$-SVR in a general stochastic setting. Additionally, SVR is formulated as a regular deviation minimization problem with a regularization penalty. Finally, the dual formulation of SVR in the risk quadrangle framework is derived.
翻訳日:2023-10-03 20:36:40 公開日:2023-09-30
# グラフ畳み込みネットワークの無限界安定性

Limitless stability for Graph Convolutional Networks ( http://arxiv.org/abs/2301.11443v3 )

ライセンス: Link先を確認
Christian Koke(参考訳) この研究は、グラフ畳み込みネットワークに対する厳密で斬新で広く適用可能な安定性保証と転送可能性境界を確立する。 重要な点として、グラフシフト演算子(gsos)は必ずしも正常ではないと仮定され、無向グラフと有向グラフの両方でネットワークを扱うことができる。 ノードレベルの摂動に対する安定性は、各層におけるフィルタの「適切な(スペクトル)被覆」特性に関連している。 エッジレベルの摂動に対する安定性は、リプシッツ定数や新しく導入されたフィルタのセミノルムと関連している。 位相摂動に対する安定性に関する結果は、最近開発された数理物理学に基づくツールによって得られる。 グラフ畳み込みネットワークは,gsoがグラフラプラシアンでフィルタが無限に規則的である場合に,グラフコアグライン処理(強連結サブグラフを単一ノードで置き換える)の下で安定であることが,重要かつ斬新な例として示されている。 これらの新しい理論結果は対応する数値的研究によって支持される。

This work establishes rigorous, novel and widely applicable stability guarantees and transferability bounds for graph convolutional networks -- without reference to any underlying limit object or statistical distribution. Crucially, utilized graph-shift operators (GSOs) are not necessarily assumed to be normal, allowing for the treatment of networks on both undirected- and for the first time also directed graphs. Stability to node-level perturbations is related to an 'adequate (spectral) covering' property of the filters in each layer. Stability to edge-level perturbations is related to Lipschitz constants and newly introduced semi-norms of filters. Results on stability to topological perturbations are obtained through recently developed mathematical-physics based tools. As an important and novel example, it is showcased that graph convolutional networks are stable under graph-coarse-graining procedures (replacing strongly-connected sub-graphs by single nodes) precisely if the GSO is the graph Laplacian and filters are regular at infinity. These new theoretical results are supported by corresponding numerical investigations.
翻訳日:2023-10-03 20:28:10 公開日:2023-09-30
# 混合マルコフ決定過程に対する強化学習の最適サンプル複雑性

Optimal Sample Complexity of Reinforcement Learning for Mixing Discounted Markov Decision Processes ( http://arxiv.org/abs/2302.07477v3 )

ライセンス: Link先を確認
Shengbo Wang, Jose Blanchet, and Peter Glynn(参考訳) マルコフ決定過程(MDP)において,無限地平面割引報酬を最大化するための表型強化学習(RL)の最適サンプル複雑性理論を考察する。 この設定において、表のRL問題に対して最適な最悪ケース複雑性の結果が開発され、$\gamma$ と $\epsilon$ の形式である $\tilde \Theta((1-\gamma)^{-3}\epsilon^{-2})$ の複雑さのサンプル依存性が導かれ、$\gamma$ は割引係数を示し、$\epsilon$ は解エラー耐性である。 しかし、多くの利害関係の応用において、最適政策(または全ての政策)は混合を引き起こす。 そのような設定では、最適なサンプル複雑性依存は$\tilde \theta(t_{\text{mix}}(1-\gamma)^{-2}\epsilon^{-2})$であり、ここで$t_{\text{mix}}$は総変動混合時間である。 我々の分析は、一般状態空間 MDP の RL 問題の研究に使用できるため、独立した関心を持つ再生型アイデアに基礎を置いている。

We consider the optimal sample complexity theory of tabular reinforcement learning (RL) for maximizing the infinite horizon discounted reward in a Markov decision process (MDP). Optimal worst-case complexity results have been developed for tabular RL problems in this setting, leading to a sample complexity dependence on $\gamma$ and $\epsilon$ of the form $\tilde \Theta((1-\gamma)^{-3}\epsilon^{-2})$, where $\gamma$ denotes the discount factor and $\epsilon$ is the solution error tolerance. However, in many applications of interest, the optimal policy (or all policies) induces mixing. We establish that in such settings, the optimal sample complexity dependence is $\tilde \Theta(t_{\text{mix}}(1-\gamma)^{-2}\epsilon^{-2})$, where $t_{\text{mix}}$ is the total variation mixing time. Our analysis is grounded in regeneration-type ideas, which we believe are of independent interest, as they can be used to study RL problems for general state space MDPs.
翻訳日:2023-10-03 20:16:07 公開日:2023-09-30
# 拡散によるブラックボックス顔認識モデルの制御可能インバージョン

Controllable Inversion of Black-Box Face Recognition Models via Diffusion ( http://arxiv.org/abs/2303.13006v2 )

ライセンス: Link先を確認
Manuel Kansy, Anton Ra\"el, Graziana Mignone, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber(参考訳) 顔認識モデルは、個人が互いに区別できるアイデンティティ固有の顔の特徴の抽象的なエンコーディングを含む低次元のアイデンティティベクトルに顔画像を埋め込む。 学習済みの顔認識モデルの潜在空間をフルモデルアクセス(ブラックボックス設定)なしで反転させるという課題に対処する。 この課題の文献には様々な方法が提案されているが、現実的なアウトプットの欠如やデータセットに対する強い要求、顔認識モデルのアクセシビリティといった深刻な欠点がある。 ブラックボックス反転問題を解析することにより,条件拡散モデル損失が自然に出現し,同一性特有の損失を伴わずに逆分布から効果的にサンプルできることを示す。 拡散確率モデル (ID3PM) と呼ばれる本手法は, 拡散過程の確率的性質を活用し, 背景, 照明, ポーズ, 表情の異なる高品質な顔画像を生成する。 本手法は,その生成過程を直感的に制御する最初のブラックボックス顔認識モデルインバージョン法である。

Face recognition models embed a face image into a low-dimensional identity vector containing abstract encodings of identity-specific facial features that allow individuals to be distinguished from one another. We tackle the challenging task of inverting the latent space of pre-trained face recognition models without full model access (i.e. black-box setting). A variety of methods have been proposed in literature for this task, but they have serious shortcomings such as a lack of realistic outputs and strong requirements for the data set and accessibility of the face recognition model. By analyzing the black-box inversion problem, we show that the conditional diffusion model loss naturally emerges and that we can effectively sample from the inverse distribution even without an identity-specific loss. Our method, named identity denoising diffusion probabilistic model (ID3PM), leverages the stochastic nature of the denoising diffusion process to produce high-quality, identity-preserving face images with various backgrounds, lighting, poses, and expressions. We demonstrate state-of-the-art performance in terms of identity preservation and diversity both qualitatively and quantitatively, and our method is the first black-box face recognition model inversion method that offers intuitive control over the generation process.
翻訳日:2023-10-03 19:57:02 公開日:2023-09-30
# 深部強化学習における連結超レベル集合とそのミニマックス理論への応用

Connected Superlevel Set in (Deep) Reinforcement Learning and its Application to Minimax Theorems ( http://arxiv.org/abs/2303.12981v3 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 本研究の目的は,強化学習における政策最適化問題に対する最適化環境の理解を深めることである。 具体的には、ポリシーパラメータに関する目的関数の超レベル集合が、表的な設定とニューラルネットワークのクラスによって表されるポリシーの両方で常に連結集合であることを示す。 さらに,政策パラメータと報酬の関数としての最適化目標が,より強い「等価性」特性を満たすことを示す。 私たちの知る限りでは、これらは新しい発見であり、以前は知られていなかった。 本稿では,これらの超レベル集合の連結性を,ロバスト強化学習のためのミニマックス定理の導出に適用する。 一方の面が凸で他方の面が等連結な任意のミニマックス最適化プログラムがミニマックス等価性(すなわちナッシュ平衡)を観測することを示す。 この構造は,敵の報酬攻撃下での興味深い強固な強化学習問題によって示され,そのミニマックス等式の有効性は直ちに従う。 このような結果が文献に定着するのはこれが初めてである。

The aim of this paper is to improve the understanding of the optimization landscape for policy optimization problems in reinforcement learning. Specifically, we show that the superlevel set of the objective function with respect to the policy parameter is always a connected set both in the tabular setting and under policies represented by a class of neural networks. In addition, we show that the optimization objective as a function of the policy parameter and reward satisfies a stronger "equiconnectedness" property. To our best knowledge, these are novel and previously unknown discoveries. We present an application of the connectedness of these superlevel sets to the derivation of minimax theorems for robust reinforcement learning. We show that any minimax optimization program which is convex on one side and is equiconnected on the other side observes the minimax equality (i.e. has a Nash equilibrium). We find that this exact structure is exhibited by an interesting robust reinforcement learning problem under an adversarial reward attack, and the validity of its minimax equality immediately follows. This is the first time such a result is established in the literature.
翻訳日:2023-10-03 19:56:44 公開日:2023-09-30
# 行動保健における個人化介入の政策最適化

Policy Optimization for Personalized Interventions in Behavioral Health ( http://arxiv.org/abs/2303.12206v2 )

ライセンス: Link先を確認
Jackie Baek, Justin J. Boutilier, Vivek F. Farias, Jonas Oddur Jonasson, Erez Yoeli(参考訳) デジタルプラットフォームを通じて提供される行動的健康介入は、教育、モチベーション、リマインダー、アウトリーチを通じて、健康成果を著しく改善する可能性がある。 本研究では,患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討する。 最初のパイロット研究から収集したデータセットが、私たちが活用できると仮定します。 この問題に対する新たなアプローチとして,政策イテレーションの一段階を近似したDecompPIを提案する。 DecompPIの実装は、単にデータセットを使用した予測タスクで構成され、オンライン実験の必要性を軽減する。 DecompPIは、基礎となる患者行動モデルに関係なく使用できる汎用的なモデルフリーアルゴリズムである。 我々は、我々の問題設定を代表するモデルの単純で特別な場合の理論的保証を導出する。 我々は、介入を割り当てないnullポリシーを超えた改善に関して、DecompPIの近似比を確立する。 具体的には、データ収集に使用する初期ポリシーがランダム化されると、初期ポリシーの介入能力が低下するにつれて改善の近似比率が1/2に近づく。 この保証は推定誤差に対して堅牢であることを示す。 我々は, 実世界データを用いた厳密な事例研究を行い, 結核治療の付着性を改善する。 検証されたシミュレーションモデルを用いて、DecompPIは、約半分の介入能力でステータスクオアプローチと同じ効果を提供できることを示した。 DecompPIは,対象とした介入による長期的行動改善を目指す組織に対して,シンプルかつ簡単な実装である。

Behavioral health interventions, delivered through digital platforms, have the potential to significantly improve health outcomes, through education, motivation, reminders, and outreach. We study the problem of optimizing personalized interventions for patients to maximize a long-term outcome, where interventions are costly and capacity-constrained. We assume there exists a dataset collected from an initial pilot study that we can leverage. We present a new approach for this problem that we dub DecompPI, which approximates one step of policy iteration. Implementing DecompPI simply consists of a prediction task using the dataset, alleviating the need for online experimentation. DecompPI is a generic model-free algorithm that can be used irrespective of the underlying patient behavior model. We derive theoretical guarantees on a simple, special case of the model that is representative of our problem setting. We establish an approximation ratio for DecompPI with respect to the improvement beyond a null policy that does not allocate interventions. Specifically, when the initial policy used to collect the data is randomized, the approximation ratio of the improvement approaches 1/2 as the intervention capacity of the initial policy decreases. We show that this guarantee is robust to estimation errors. We conduct a rigorous empirical case study using real-world data from a mobile health platform for improving treatment adherence for tuberculosis. Using a validated simulation model, we demonstrate that DecompPI can provide the same efficacy as the status quo approach with approximately half the capacity of interventions. DecompPI is simple and easy to implement for organizations aiming to improve long-term behavior through targeted interventions, and this paper demonstrates its strong performance both theoretically and empirically.
翻訳日:2023-10-03 19:56:04 公開日:2023-09-30
# ポジトロニウムの重力効果測定のための大運動量移動物質波干渉計

A large-momentum-transfer matter-wave interferometer to measure the effect of gravity on positronium ( http://arxiv.org/abs/2303.11798v2 )

ライセンス: Link先を確認
G. Vinelli, F. Castelli, R. Ferragut, M. Rom\'e, M. Sacerdoti, L. Salvi, V. Toso, M. Giammarchi, G. Rosi and G. M. Tino(参考訳) 本稿では,ポジトロニウムの重力効果を測定するための新しい干渉計構成について報告する。 マッハ・ツェンダー物質波干渉計は単光子遷移で動作し、200eVポジトロニウムビームに高運動量を運ぶように設計されている。 この研究は、干渉計をシミュレートし、実験に要する時間と操作パラメータを推定するために使用される結果と方法を示す。 1年足らずで、物質-反物質対称性を記述する理論モデルにおいて重要となる低傾斜ビームであっても、ポジトロニウム重力加速度の測定において、取得時間は10%の精度に達すると見積もられている。 これらの結果は、高速原子ビームを用いた単一光子遷移大運動量移動干渉法への道を開くものであり、反物質および不安定原子の研究に特に有用である。

This paper reports the study of a new interferometric configuration to measure the effect of gravity on positronium. A Mach-Zehnder matter-wave interferometer has been designed to operate with single-photon transitions and to transfer high momentum to a 200 eV positronium beam. The work shows the results and methods used to simulate the interferometer and estimate the operating parameters and the time needed to perform the experiment. It has been estimated that within less than one year, the acquisition time is sufficient to achieve a 10\% accuracy level in measuring positronium gravitational acceleration, even with a poorly collimated beam, which is significant for theoretical models describing matter-antimatter symmetry. These results pave the way for single photon transition large momentum transfer interferometry with fast atomic beams, which is particularly useful for studies with antimatter and unstable atoms.
翻訳日:2023-10-03 19:55:38 公開日:2023-09-30
# ドメイン知識による疑似擬似スーパービジョン(DIPS)による教師なし画像間翻訳モデルの構築

Domain-knowledge Inspired Pseudo Supervision (DIPS) for Unsupervised Image-to-Image Translation Models to Support Cross-Domain Classification ( http://arxiv.org/abs/2303.10310v4 )

ライセンス: Link先を確認
Firas Al-Hindawi, Md Mahfuzur Rahman Siddiquee, Teresa Wu, Han Hu, Ying Sun(参考訳) イメージを分類する機能は、大きなラベル付きデータセットへのアクセスと、モデルがトレーニング可能な同じドメインからのデータテストに依存する。 分類モデルを再トレーニングするための大きなデータセットの収集、特にラベル付けを行う場合、異なるドメインからの新しいデータを扱う場合には、労働集約的な人的努力が必要になる。 教師なし画像間変換モデルを用いて、ラベルなし領域からラベル付き領域への入力画像の変換により、このデータ領域シフト問題に対処するクロスドメイン分類フレームワークを開発した。 これらの教師なしモデルの問題は、教師なしの性質にある。 アノテーションの欠如のため、従来の教師付きメトリクスを使用してこれらの翻訳モデルを評価し、最良のチェックポイントモデルを選択することはできない。 本稿では,ドメインインフォームドガウス混合モデルを用いて,従来の教師付きメトリクスを用いた擬似アノテーションを生成するdips(domain-knowledge inspired pseudo supervisor)と呼ばれる新しい手法を提案する。 この方法は、人目の観点から生成された画像の品質の観点からモデルを評価するために設計されたFIDのような一般的なメトリクスとは対照的に、クロスドメイン分類アプリケーションをサポートするように設計されている。 DIPSは、最適保存チェックポイントモデルを選択する際に、FIDを含む様々なGAN評価指標よりも優れた性能を示す。 また、真に監督されたメトリクスに対して評価される。 さらに、DIPSは、その堅牢性と解釈可能性を示し、真に監督されたメトリクスと強い相関を示し、既存の最先端の選択肢よりもその優位性を強調している。 結果を複製するためのコードとデータは、公式のgithubリポジトリにある。 https://github.com/hindawi91/dips。

The ability to classify images is dependent on having access to large labeled datasets and testing on data from the same domain that the model can train on. Classification becomes more challenging when dealing with new data from a different domain, where gathering and especially labeling a larger image dataset for retraining a classification model requires a labor-intensive human effort. Cross-domain classification frameworks were developed to handle this data domain shift problem by utilizing unsupervised image-to-image translation models to translate an input image from the unlabeled domain to the labeled domain. The problem with these unsupervised models lies in their unsupervised nature. For lack of annotations, it is not possible to use the traditional supervised metrics to evaluate these translation models to pick the best-saved checkpoint model. This paper introduces a new method called Domain-knowledge Inspired Pseudo Supervision (DIPS) which utilizes domain-informed Gaussian Mixture Models to generate pseudo annotations to enable the use of traditional supervised metrics. This method was designed specifically to support cross-domain classification applications contrary to other typically used metrics such as the FID which were designed to evaluate the model in terms of the quality of the generated image from a human-eye perspective. DIPS proves its effectiveness by outperforming various GAN evaluation metrics, including FID, when selecting the optimal saved checkpoint model. It is also evaluated against truly supervised metrics. Furthermore, DIPS showcases its robustness and interpretability by demonstrating a strong correlation with truly supervised metrics, highlighting its superiority over existing state-of-the-art alternatives. The code and data to replicate the results can be found on the official Github repository: https://github.com/Hindawi91/DIPS
翻訳日:2023-10-03 19:55:23 公開日:2023-09-30
# $\delta$相互作用によるSchr\"{o}dinger演算子について

On Schr\"{o}dinger Operators Modified by $\delta$ Interactions ( http://arxiv.org/abs/2304.01326v4 )

ライセンス: Link先を確認
Kaya G\"uven Akba\c{s}, Fatih Erman, O. Teoman Turgut(参考訳) 我々は、Schr\"{o}dinger 作用素 $H_0$ のスペクトル特性を$\delta$ 相互作用によって修正し、新しいグリーン関数の極が元のグリーン関数の極に対して$H_0$ に対してどのように再配置されるかを明確に示す。 我々は、新しい境界状態エネルギーが古いものとの間を介在し、$\delta$相互作用が魅力的であれば、基底状態エネルギーは常に低下することを示した。 また,若干のヒューリスティックな方法で小さな結合定数の仮定の下で境界状態エネルギーと波動関数を求める代替摂動法も導出する。 さらに,この結果が再正規化処理が必要な場合に拡張可能であることを示す。 結果の多重中心の場合への拡張、曲線上で支持される$\delta$相互作用、および、$\delta$相互作用の影響の下で粒子がコンパクトな2次元多様体内で動く場合について考察する。 最後に、最後の問題の半相対論的拡張が明確に研究されている。

We study the spectral properties of a Schr\"{o}dinger operator $H_0$ modified by $\delta$ interactions and show explicitly how the poles of the new Green's function are rearranged relative to the poles of original Green's function of $H_0$. We prove that the new bound state energies are interlaced between the old ones, and the ground state energy is always lowered if the $\delta$ interaction is attractive. We also derive an alternative perturbative method of finding the bound state energies and wave functions under the assumption of a small coupling constant in a somewhat heuristic manner. We further show that these results can be extended to cases in which a renormalization process is required. We consider the possible extensions of our results to the multi center case, to $\delta$ interaction supported on curves, and to the case, where the particle is moving in a compact two-dimensional manifold under the influence of $\delta$ interaction. Finally, the semi-relativistic extension of the last problem has been studied explicitly.
翻訳日:2023-10-03 19:49:00 公開日:2023-09-30
# 解釈可能なベンチマークを超えて:認知とマルチモーダル知覚によるコンテキスト学習

Beyond Interpretable Benchmarks: Contextual Learning through Cognitive and Multimodal Perception ( http://arxiv.org/abs/2304.00002v2 )

ライセンス: Link先を確認
Nick DiSanto(参考訳) 最先端のモデルが標準ベンチマークで高いパフォーマンスを達成する中、現代の研究パラダイムは永続的な目的として汎用性を強調し続けている。 しかし、この追求は、人工知能と自然知能システムの高レベルのデータ知覚能力の根本的な相違を見落としている。 本研究は、チューリングテストを一般知的な思考の基準として疑問視し、コンピュータシステムを人為的に形作る試みとして誤解されていることを主張する。 その代わり、暗黙の学習を汎用知能の基盤として強調するが、その過度な解釈性は欠如している。 この抽象的な知性は、一般的な経験、道徳的責任、暗黙の優先順位付けといった人間レベルの知覚に不可欠な文脈的認知特性を必要とする。 これらの特徴の欠如は知覚の相違を生じさせ、人工システムの認知能力に制約を与え、環境を効果的に文脈化させる。 さらに本研究は,将来のシステムにおける潜在的なアーキテクチャを広範囲に探求する一方で,このようなモデルがコンテキストデータに対して継続的に吸収・適応する方法についてはほとんど考慮されていないことを裏付ける。 従来のモデルではベンチマークのパフォーマンスが改善され続けているが、これらの文脈的考慮を無視すると、人間のような理解が停滞する。 一般的な知性がタスク固有のドメインから抽象化され、システムが環境から暗黙的に学習できる限り、研究標準はaiが成長する分野を優先すべきである。

With state-of-the-art models achieving high performance on standard benchmarks, contemporary research paradigms continue to emphasize general intelligence as an enduring objective. However, this pursuit overlooks the fundamental disparities between the high-level data perception abilities of artificial and natural intelligence systems. This study questions the Turing Test as a criterion of generally intelligent thought and contends that it is misinterpreted as an attempt to anthropomorphize computer systems. Instead, it emphasizes tacit learning as a cornerstone of general-purpose intelligence, despite its lack of overt interpretability. This abstract form of intelligence necessitates contextual cognitive attributes that are crucial for human-level perception: generalizable experience, moral responsibility, and implicit prioritization. The absence of these features yields undeniable perceptual disparities and constrains the cognitive capacity of artificial systems to effectively contextualize their environments. Additionally, this study establishes that, despite extensive exploration of potential architecture for future systems, little consideration has been given to how such models will continuously absorb and adapt to contextual data. While conventional models may continue to improve in benchmark performance, disregarding these contextual considerations will lead to stagnation in human-like comprehension. Until general intelligence can be abstracted from task-specific domains and systems can learn implicitly from their environments, research standards should instead prioritize the disciplines in which AI thrives.
翻訳日:2023-10-03 19:47:48 公開日:2023-09-30
# ベイジアン階層モデルを用いたアクティブラーニング回帰における動的探索・探索貿易

Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression with Bayesian Hierarchical Modeling ( http://arxiv.org/abs/2304.07665v2 )

ライセンス: Link先を確認
Upala Junaida Islam and Kamran Paynabar and George Runger and Ashif Sikandar Iquebal(参考訳) アクティブラーニングは、未知のブラックボックス関数を学習するための最も有益な実験を適応的にクエリするフレームワークを提供する。 アクティブラーニングの様々なアプローチが文献で提案されているが、それらはデザイン分野における探索と搾取に焦点を当てている。 探索探索を同時に考慮する手法は、最適ではないかもしれないトレードオフを制御するために固定的あるいはアドホックな手段を用いる。 本稿では,BHEEMと呼ばれるベイズ的階層的手法を開発し,より多くのデータポイントがクエリされるにつれて,探索・探索のトレードオフを動的にバランスさせる。 トレードオフパラメータの後方分布から標本化するために,特徴空間における待ち行列データの線形依存性に基づいてベイズ近似計算手法を定式化する。 シミュレーションおよび実世界の例では、提案手法は、それぞれ純粋な探索とエクスプロイト戦略と比較して、少なくとも21%と11%の平均的な改善を達成している。 さらに重要なのは、探索とエクスプロイトのトレードオフを最適にバランスさせることで、BHEEMは純粋な探査と純粋なエクスプロイトの両方と同様に、より良く、少なくともパフォーマンスを向上できるということです。

Active learning provides a framework to adaptively query the most informative experiments towards learning an unknown black-box function. Various approaches of active learning have been proposed in the literature, however, they either focus on exploration or exploitation in the design space. Methods that do consider exploration-exploitation simultaneously employ fixed or ad-hoc measures to control the trade-off that may not be optimal. In this paper, we develop a Bayesian hierarchical approach, referred as BHEEM, to dynamically balance the exploration-exploitation trade-off as more data points are queried. To sample from the posterior distribution of the trade-off parameter, We subsequently formulate an approximate Bayesian computation approach based on the linear dependence of queried data in the feature space. Simulated and real-world examples show the proposed approach achieves at least 21% and 11% average improvement when compared to pure exploration and exploitation strategies respectively. More importantly, we note that by optimally balancing the trade-off between exploration and exploitation, BHEEM performs better or at least as well as either pure exploration or pure exploitation.
翻訳日:2023-10-03 19:37:47 公開日:2023-09-30
# コンセサイテッドシーンにおけるSAMストラグル-「セグメント」に関する実証的研究

SAM Struggles in Concealed Scenes -- Empirical Study on "Segment Anything" ( http://arxiv.org/abs/2304.06022v4 )

ライセンス: Link先を確認
Ge-Peng Ji, Deng-Ping Fan, Peng Xu, Ming-Ming Cheng, Bowen Zhou, Luc Van Gool(参考訳) セグメンテーションは人工知能に向けた画期的なステップであり、SAM(Segment Anything Model)はコンピュータビジョンの基礎モデルを大きく発展させる。 SAMのパフォーマンス特性を調べることに、これ以上興奮することはできませんでした。 特にSAMがうまく機能しない状況の探索は興味深い。 本報告では,隠れた3つのシーン,すなわちカモフラージュされた動物,工業的欠陥,医療的病変を選択し,SAMを未開の環境で評価する。 私たちの主な観察では、SAMは隠されたシーンではスキルがないように見えます。

Segmenting anything is a ground-breaking step toward artificial general intelligence, and the Segment Anything Model (SAM) greatly fosters the foundation models for computer vision. We could not be more excited to probe the performance traits of SAM. In particular, exploring situations in which SAM does not perform well is interesting. In this report, we choose three concealed scenes, i.e., camouflaged animals, industrial defects, and medical lesions, to evaluate SAM under unprompted settings. Our main observation is that SAM looks unskilled in concealed scenes.
翻訳日:2023-10-03 19:36:49 公開日:2023-09-30
# 顔成分関係を用いた交互表現学習

Kinship Representation Learning with Face Componential Relation ( http://arxiv.org/abs/2304.04546v5 )

ライセンス: Link先を確認
Weng-Tai Su, Min-Hung Chen, Chien-Yi Wang, Shang-Hong Lai, Trista Pei-Chun Chen(参考訳) Kinship Recognitionは、2つの顔画像の被験者が近親者なのか非近親者なのかを判断することを目的としている。 しかし,従来の手法では,顔画像間の空間相関を考慮せず,ヒューリスティックな設計に重点を置いている。 本稿では,顔成分(目,鼻など)間の関係情報に埋め込まれた識別的親和性表現を学習することを目的とする。 この目的を達成するために,画像間の顔成分間の関係を交互に学習し,親族認識のための重要な顔領域を自動的に学習する顔成分関係ネットワークを提案する。 さらに,顔成分関係ネットワーク (facornet) を提案し,クロス・アテンションからの指導により損失関数を適用し,より識別的な特徴表現を学習する。 提案されたFaCoRNetは、最大の公的な親族認識FIWベンチマークにおいて、最先端の手法よりも大きなマージンで優れている。

Kinship recognition aims to determine whether the subjects in two facial images are kin or non-kin, which is an emerging and challenging problem. However, most previous methods focus on heuristic designs without considering the spatial correlation between face images. In this paper, we aim to learn discriminative kinship representations embedded with the relation information between face components (e.g., eyes, nose, etc.). To achieve this goal, we propose the Face Componential Relation Network, which learns the relationship between face components among images with a cross-attention mechanism, which automatically learns the important facial regions for kinship recognition. Moreover, we propose Face Componential Relation Network (FaCoRNet), which adapts the loss function by the guidance from cross-attention to learn more discriminative feature representations. The proposed FaCoRNet outperforms previous state-of-the-art methods by large margins for the largest public kinship recognition FIW benchmark.
翻訳日:2023-10-03 19:35:49 公開日:2023-09-30
# 衛星画像を用いた深部畳み込みネットワークを用いた低地衛星軌道決定

Low-Earth Satellite Orbit Determination Using Deep Convolutional Networks with Satellite Imagery ( http://arxiv.org/abs/2305.12286v3 )

ライセンス: Link先を確認
Rohit Khorana(参考訳) 衛星が国防、公衆安全、世界的な通信において果たす重要な役割を考えると、衛星軌道を決定する方法を見つけることは、宇宙の状況認識を改善する上で非常に重要な課題である。 しかし、地球の電離層や磁気圏からの信号の遮断などによって通信する地上局との接続を失うことは、衛星にとってますます一般的になっている。 本研究では,地上局との接点を失う際の軌道予測のために,衛星がリアルタイムで撮影した地球の画像に依存するコンピュータビジョンに基づくアプローチを提案する。 他の研究とは対照的に、画像ベースのデータセット上でニューラルネットワークをトレーニングし、衛星が地上基地との接続を失ったシナリオにおいて、ニューラルネットワークが軌道決定におけるデファクト標準(カルマンフィルタ)より優れていることを示す。 さらに,衛星の状態を知るために$\textit{a priori}$を必要とせず,リアルタイムに撮影した画像を用いて衛星の動作に影響を与える外部要因を考慮に入れる。

Given the critical roles that satellites play in national defense, public safety, and worldwide communications, finding ways to determine satellite trajectories is a crucially important task for improved space situational awareness. However, it is increasingly common for satellites to lose connection to the ground stations with which they communicate due to signal interruptions from the Earth's ionosphere and magnetosphere, among other interferences. In this work, we propose utilizing a computer vision based approach that relies on images of the Earth taken by the satellite in real-time to predict its orbit upon losing contact with ground stations. In contrast with other works, we train neural networks on an image-based dataset and show that the neural networks outperform the de facto standard in orbit determination (the Kalman filter) in the scenario where the satellite has lost connection with its ground-based station. Moreover, our approach does not require $\textit{a priori}$ knowledge of the satellite's state and it takes into account the external factors influencing the satellite's motion using images taken in real-time.
翻訳日:2023-10-03 17:45:45 公開日:2023-09-30
# リモートセンシング時系列用軽量予習変圧器

Lightweight, Pre-trained Transformers for Remote Sensing Timeseries ( http://arxiv.org/abs/2304.14065v3 )

ライセンス: Link先を確認
Gabriel Tseng, Ruben Cartuyvels, Ivan Zvonkov, Mirali Purohit, David Rolnick, Hannah Kerner(参考訳) リモートセンシングデータを解析するための機械学習モデルには、社会的に関係のある幅広い応用があるが、これらのモデルをトレーニングするのに使用されるラベルは、取得が困難または不可能である。 この課題は、ラベル付きデータセットが小さい地理的領域やアプリケーション領域での機械学習の使用を解き放つことを目的とした、リモートセンシングデータの自己教師あり学習の研究を促した。 リモートセンシングデータに対する現在の自己教師付き学習アプローチは、自然画像に適用された技術から大きなインスピレーションを得ている。 しかし、リモートセンシングデータには、自然画像との重要な違いがある。例えば、時間次元は多くのタスクに重要であり、多くの補完センサーからデータを収集する。 我々は,リモートセンシングデータに特化したアーキテクチャと自己教師ありトレーニング手法を設計することで,はるかに小さなパフォーマンスモデルを作成することができることを示す。 本稿では,リモートセンシング画素時系列データに基づくトランスモデルであるPretrained Remote Sensing Transformer(Presto)を紹介する。 Prestoは、多種多様なグローバル分散リモートセンシングタスクに優れ、はるかに少ない計算を必要としながら、はるかに大きなモデルと競争的に機能する。 Prestoは、転送学習や単純なモデルの機能抽出に使用することができ、大規模に効率的にデプロイできる。

Machine learning models for parsing remote sensing data have a wide range of societally relevant applications, but labels used to train these models can be difficult or impossible to acquire. This challenge has spurred research into self-supervised learning for remote sensing data aiming to unlock the use of machine learning in geographies or application domains where labelled datasets are small. Current self-supervised learning approaches for remote sensing data draw significant inspiration from techniques applied to natural images. However, remote sensing data has important differences from natural images -- for example, the temporal dimension is critical for many tasks and data is collected from many complementary sensors. We show we can create significantly smaller performant models by designing architectures and self-supervised training techniques specifically for remote sensing data. We introduce the Pretrained Remote Sensing Transformer (Presto), a transformer-based model pre-trained on remote sensing pixel-timeseries data. Presto excels at a wide variety of globally distributed remote sensing tasks and performs competitively with much larger models while requiring far less compute. Presto can be used for transfer learning or as a feature extractor for simple models, enabling efficient deployment at scale.
翻訳日:2023-10-03 17:44:41 公開日:2023-09-30
# 対称性違反探索のための工学的場非感受性分子時計遷移

Engineering field-insensitive molecular clock transitions for symmetry violation searches ( http://arxiv.org/abs/2304.13817v2 )

ライセンス: Link先を確認
Yuiki Takahashi, Chi Zhang, Arian Jadbabaie, Nicholas R. Hutzler(参考訳) 分子は、大きな増幅因子と体系的エラーに対する堅牢性の両方を提供するため、標準モデルを超えて基本的な対称性の違反を調べる強力なプラットフォームである。 実験感度が向上するにつれて、外部電磁場に対する感度を抑制する新しい手法を開発することが重要である。 そこで本研究では,cp破壊効果の増幅性を維持する無線周波数,マイクロ波,または2光子遷移を用いて,外部磁場と電界の両方に対する感度を同時に抑制できることを示す。 これらの遷移のクロック測定を行うことにより、電子電気双極子モーメント、核シフモーメント、磁気四重極モーメントを含むCP違反可観測物は、外部磁場感度を$\gtrsim$100で抑制し、さらに多くの場合において測定することができる。 さらに、この手法は従来のラムゼー測定と互換性があり、内部のコマグネトメトリーを提供し、核CP-違反の分子探索によく見られる大きな角運動量を持つシステムに有用である。

Molecules are a powerful platform to probe fundamental symmetry violations beyond the Standard Model, as they offer both large amplification factors and robustness against systematic errors. As experimental sensitivities improve, it is important to develop new methods to suppress sensitivity to external electromagnetic fields, as limits on the ability to control these fields are a major experimental concern. Here we show that sensitivity to both external magnetic and electric fields can be simultaneously suppressed using engineered radio frequency, microwave, or two-photon transitions that maintain large amplification of CP-violating effects. By performing a clock measurement on these transitions, CP-violating observables including the electron electric dipole moment, nuclear Schiff moment, and magnetic quadrupole moment can be measured with suppression of external field sensitivity of $\gtrsim$100 generically, and even more in many cases. Furthermore, the method is compatible with traditional Ramsey measurements, offers internal co-magnetometry, and is useful for systems with large angular momentum commonly present in molecular searches for nuclear CP-violation.
翻訳日:2023-10-03 17:44:23 公開日:2023-09-30
# 積分近似の改良による拡散型サンプリングプロセスの高速化について

On Accelerating Diffusion-Based Sampling Process via Improved Integration Approximation ( http://arxiv.org/abs/2304.11328v3 )

ライセンス: Link先を確認
Guoqiang Zhang, Niwa Kenta, W. Bastiaan Kleijn(参考訳) 拡散に基づく生成モデルをサンプリングする一般的なアプローチは、常微分方程式(ODE)を解くことである。 既存のサンプルでは、ODEソルバの係数はODE定式化、逆離散時間ステップ、および使用されるODEメソッドによって事前に決定される。 本稿では,統合近似(IIA)を改良し,特定の係数を最適化することにより,一般的なODEベースのサンプリングプロセス(EDM,DDIM,DPM-Solverを含む)を高速化することを検討する。 本稿では,各時間ステップ毎に選択された係数に対して平均二乗誤差(MSE)関数を最小化する。 MSEは、元のODEソルバを一連の微細な時間ステップに適用し、原理的には次の拡散状態を予測するためのより正確な積分近似を与える。 提案手法では事前学習モデルの変更は必要とせず,2次最適化問題を解くための計算オーバーヘッドが非常に小さいだけである。 神経機能評価(NFE)が小さい場合(25未満)に、IIA-EDM、IIA-DDIM、IIA-DPM-Solverを使用することで、FIDスコアが大幅に向上することを示した。

A popular approach to sample a diffusion-based generative model is to solve an ordinary differential equation (ODE). In existing samplers, the coefficients of the ODE solvers are pre-determined by the ODE formulation, the reverse discrete timesteps, and the employed ODE methods. In this paper, we consider accelerating several popular ODE-based sampling processes (including EDM, DDIM, and DPM-Solver) by optimizing certain coefficients via improved integration approximation (IIA). We propose to minimize, for each time step, a mean squared error (MSE) function with respect to the selected coefficients. The MSE is constructed by applying the original ODE solver for a set of fine-grained timesteps, which in principle provides a more accurate integration approximation in predicting the next diffusion state. The proposed IIA technique does not require any change of a pre-trained model, and only introduces a very small computational overhead for solving a number of quadratic optimization problems. Extensive experiments show that considerably better FID scores can be achieved by using IIA-EDM, IIA-DDIM, and IIA-DPM-Solver than the original counterparts when the neural function evaluation (NFE) is small (i.e., less than 25).
翻訳日:2023-10-03 17:43:36 公開日:2023-09-30
# 未知話者認識におけるエンドツーエンドインポスタ識別のためのメタラーニングフレームワーク

Meta-Learning Framework for End-to-End Imposter Identification in Unseen Speaker Recognition ( http://arxiv.org/abs/2306.00952v2 )

ライセンス: Link先を確認
Ashutosh Chaubey, Sparsh Sinha, Susmita Ghose(参考訳) 話者識別システムは様々な環境に展開され、訓練やテストを行う実験室の状況とは異なることが多い。 本稿では,まず,不確定話者認識における不規則識別のための固定しきい値(eerメトリックを用いて算出した)を用いた一般化の問題を示し,その性能向上のために頑健な話者固有のしきい値化手法を提案する。 第二に、近年の話者認証におけるメタラーニング技術の使用に触発されて、不審話者識別から不審者検出の問題を分離する不審者検出のためのエンドツーエンドのメタラーニングフレームワークを提案する。 そこで,提案するネットワークは,提案する話者の発話を生かして,提案者を検出するためにヒューリスティックな手法を用いていた多くの先行研究とは違って,提案手法を学習する。 さらに、voxceleb1、vctkおよびffsvc 2022データセットにおける提案手法の有効性を示し、ベースラインを最大10%上回った。

Speaker identification systems are deployed in diverse environments, often different from the lab conditions on which they are trained and tested. In this paper, first, we show the problem of generalization using fixed thresholds (computed using EER metric) for imposter identification in unseen speaker recognition and then introduce a robust speaker-specific thresholding technique for better performance. Secondly, inspired by the recent use of meta-learning techniques in speaker verification, we propose an end-to-end meta-learning framework for imposter detection which decouples the problem of imposter detection from unseen speaker identification. Thus, unlike most prior works that use some heuristics to detect imposters, the proposed network learns to detect imposters by leveraging the utterances of the enrolled speakers. Furthermore, we show the efficacy of the proposed techniques on VoxCeleb1, VCTK and the FFSVC 2022 datasets, beating the baselines by up to 10%.
翻訳日:2023-10-03 17:37:05 公開日:2023-09-30
# レコメンダシステムのためのデータ拡張と改良:最大マージン行列分解を用いた半教師付きアプローチ

Data augmentation and refinement for recommender system: A semi-supervised approach using maximum margin matrix factorization ( http://arxiv.org/abs/2306.13050v3 )

ライセンス: Link先を確認
Shamal Shaikh, Venkateswara Rao Kagita, Vikas Kumar, Arun K Pujari(参考訳) 協調フィルタリング(CF)は,過去の嗜好や他ユーザの嗜好情報に基づいて,新たな項目に対するユーザのレーティングを予測するレコメンデータシステム(RS)を開発するための一般的な手法となっている。 CFベースの手法が普及しているにもかかわらず、その性能は観察された項目の幅によって著しく制限されることが多い。 本研究では,MMMF (Maximum Margin Matrix Factorization, MMMF) のデータの増大と改善について検討した。 CFアルゴリズムの特性を利用して個人評価の信頼度を評価し,自己学習に基づく評価向上のための半教師付きアプローチを提案する。 cfアルゴリズムの信頼度の低い予測は、トレーニングデータの不足によるものであると仮定し、体系的データ拡張戦略を採用することにより、アルゴリズムの性能を向上させることができる。 我々は,高い信頼度で予測された評価を反復的に使用し,トレーニングデータを強化し,改良プロセスを通じて信頼性の低い項目を除去した。 このプロセスを繰り返すことで、システムは予測精度を改善することを学ぶ。 本手法は,いくつかの最先端cfアルゴリズムで実験的に評価され,ベースライン手法の性能向上に寄与する。

Collaborative filtering (CF) has become a popular method for developing recommender systems (RSs) where ratings of a user for new items are predicted based on her past preferences and available preference information of other users. Despite the popularity of CF-based methods, their performance is often greatly limited by the sparsity of observed entries. In this study, we explore the data augmentation and refinement aspects of Maximum Margin Matrix Factorization (MMMF), a widely accepted CF technique for rating predictions, which has not been investigated before. We exploit the inherent characteristics of CF algorithms to assess the confidence level of individual ratings and propose a semi-supervised approach for rating augmentation based on self-training. We hypothesize that any CF algorithm's predictions with low confidence are due to some deficiency in the training data and hence, the performance of the algorithm can be improved by adopting a systematic data augmentation strategy. We iteratively use some of the ratings predicted with high confidence to augment the training data and remove low-confidence entries through a refinement process. By repeating this process, the system learns to improve prediction accuracy. Our method is experimentally evaluated on several state-of-the-art CF algorithms and leads to informative rating augmentation, improving the performance of the baseline approaches.
翻訳日:2023-10-03 17:25:28 公開日:2023-09-30
# 群集におけるポーズ推定の再考--発見情報とあいまいさを克服する

Rethinking pose estimation in crowds: overcoming the detection information-bottleneck and ambiguity ( http://arxiv.org/abs/2306.07879v2 )

ライセンス: Link先を確認
Mu Zhou and Lucas Stoffl and Mackenzie Weygandt Mathis and Alexander Mathis(参考訳) 個人間の頻繁な相互作用はポーズ推定アルゴリズムの基本的な課題である。 現在のパイプラインは、ポーズ推定器(トップダウンアプローチ)と共にオブジェクト検出器を使用するか、まずすべての身体部位をローカライズし、それらをリンクして個人のポーズを予測する(ボットアップ)。 しかし、個人が密接な相互作用を行う場合、トップダウンメソッドは重複する個人によって定義が不明確になる。 そこで本研究では,ボトムアップ法とトップダウン法を組み合わせたボトムアップ条件付きトップダウンポーズ推定(buctd)という新しいパイプラインを提案する。 具体的には,ボトムアップモデルを検知器として用いることを提案する。推定境界ボックスに加えて,注意に基づくトップダウンモデルに条件として与えるポーズの提案を行う。 動物および人間のポーズ推定ベンチマークにおけるアプローチの性能と効率を実証する。 CrowdPoseとOCHumanでは、従来の最先端モデルよりも大きなマージンで優れています。 crowdposeでは78.5 ap,ochumanでは48.5 ap,先行技術では8.6%,先行技術では7.8%改善した。 さらに,本手法は魚やサルを含むマルチアニマルベンチマークの性能を強く向上させることを示す。 コードはhttps://github.com/amathislab/buctdで入手できる。

Frequent interactions between individuals are a fundamental challenge for pose estimation algorithms. Current pipelines either use an object detector together with a pose estimator (top-down approach), or localize all body parts first and then link them to predict the pose of individuals (bottom-up). Yet, when individuals closely interact, top-down methods are ill-defined due to overlapping individuals, and bottom-up methods often falsely infer connections to distant bodyparts. Thus, we propose a novel pipeline called bottom-up conditioned top-down pose estimation (BUCTD) that combines the strengths of bottom-up and top-down methods. Specifically, we propose to use a bottom-up model as the detector, which in addition to an estimated bounding box provides a pose proposal that is fed as condition to an attention-based top-down model. We demonstrate the performance and efficiency of our approach on animal and human pose estimation benchmarks. On CrowdPose and OCHuman, we outperform previous state-of-the-art models by a significant margin. We achieve 78.5 AP on CrowdPose and 48.5 AP on OCHuman, an improvement of 8.6% and 7.8% over the prior art, respectively. Furthermore, we show that our method strongly improves the performance on multi-animal benchmarks involving fish and monkeys. The code is available at https://github.com/amathislab/BUCTD
翻訳日:2023-10-03 17:24:21 公開日:2023-09-30
# フィードバックを用いたEVT理論に基づくログベース異常検出

Log-based Anomaly Detection based on EVT Theory with feedback ( http://arxiv.org/abs/2306.05032v2 )

ライセンス: Link先を確認
Jinyang Liu, Junjie Huang, Yintong Huo, Zhihan Jiang, Jiazhen Gu, Zhuangbin Chen, Cong Feng, Minzhi Yan and Michael R. Lyu(参考訳) システムログは、ソフトウェアシステムの信頼性を維持する上で重要な役割を果たす。 実りある研究がログに基づく自動異常検出を探索し、ベンチマークデータセットで注目すべき精度を達成した。 しかし、大規模なクラウドシステムに適用する場合、これらのソリューションは、高いリソース消費とログの進化への適応性の欠如のために制限に直面します。 本稿では,sealogと呼ばれる,正確で軽量で適応的なログに基づく異常検出フレームワークを提案する。 本稿では,リアルタイム異常検出に軽量で動的に成長する三重構造を用いたTrie-based Detection Agent (TDA)を提案する。 ログデータの進化に対応するTDAの精度を高めるため,専門家からのフィードバックを受信することができる。 興味深いことに、ChatGPTのような現代の大規模言語モデルは、人間の専門家に匹敵する一貫性のレベルでフィードバックを提供することができ、手動検証の労力を削減できる可能性が示唆されている。 2つのパブリックデータセットと産業データセットでSeaLogを広範囲に評価する。 その結果、SeaLogはすべてのベースラインメソッドを性能面で上回り、2倍から10倍速く動作し、メモリリソースの5%から41%しか消費しないことがわかった。

System logs play a critical role in maintaining the reliability of software systems. Fruitful studies have explored automatic log-based anomaly detection and achieved notable accuracy on benchmark datasets. However, when applied to large-scale cloud systems, these solutions face limitations due to high resource consumption and lack of adaptability to evolving logs. In this paper, we present an accurate, lightweight, and adaptive log-based anomaly detection framework, referred to as SeaLog. Our method introduces a Trie-based Detection Agent (TDA) that employs a lightweight, dynamically-growing trie structure for real-time anomaly detection. To enhance TDA's accuracy in response to evolving log data, we enable it to receive feedback from experts. Interestingly, our findings suggest that contemporary large language models, such as ChatGPT, can provide feedback with a level of consistency comparable to human experts, which can potentially reduce manual verification efforts. We extensively evaluate SeaLog on two public datasets and an industrial dataset. The results show that SeaLog outperforms all baseline methods in terms of effectiveness, runs 2X to 10X faster and only consumes 5% to 41% of the memory resource.
翻訳日:2023-10-03 17:23:31 公開日:2023-09-30
# 感性及び連続的微調整のための接モデル組成物

Tangent Model Composition for Ensembling and Continual Fine-tuning ( http://arxiv.org/abs/2307.08114v2 )

ライセンス: Link先を確認
Tian Yu Liu and Stefano Soatto(参考訳) タンジェントモデル合成(Tangent Model composition、TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。 コンポーネントモデルは、インクリメンタルラーニング、エンハンブル、アンラーニングをサポートするために追加、スケール、縮小できる事前訓練されたモデルに接するベクトルである。 コンポーネントモデルはスカラー結合を介して推論時に構成され、単一のモデルとのアンサンブルコストを低減します。 TMCの精度は2.5倍から10倍に向上し、コンポーネントモデルの数を線形に増加させながら、非線形に微調整されたモデルと比べ4.2%向上した。 それぞれのコンポーネントモデルはゼロコストで無視でき、結果として生じる推論に残差は与えない。 連続的な微調整に使用する場合、MCCはシーケンシャルバイアスに制約されず、フェデレートされたデータ上で並列に実行できる。 tmcは、リプレイバッファを使わずに、3つのベンチマークデータセットで合計13の実験で、タスクインクリメンタル、クラスインクリメンタル、データインクリメンタルの各設定で、ほぼ一様に、連続的な微調整メソッドを公開している。 TMCは、事前訓練された埋め込みに局所的なモデルを構築するために設計されたが、より一般的な設定に拡張できる。 コードは以下の通り。 https://github.com/tianyu139/tangent-model-composition

Tangent Model Composition (TMC) is a method to combine component models independently fine-tuned around a pre-trained point. Component models are tangent vectors to the pre-trained model that can be added, scaled, or subtracted to support incremental learning, ensembling, or unlearning. Component models are composed at inference time via scalar combination, reducing the cost of ensembling to that of a single model. TMC improves accuracy by 4.2% compared to ensembling non-linearly fine-tuned models at a 2.5x to 10x reduction of inference cost, growing linearly with the number of component models. Each component model can be forgotten at zero cost, with no residual effect on the resulting inference. When used for continual fine-tuning, TMC is not constrained by sequential bias and can be executed in parallel on federated data. TMC outperforms recently published continual fine-tuning methods almost uniformly on each setting -- task-incremental, class-incremental, and data-incremental -- on a total of 13 experiments across 3 benchmark datasets, despite not using any replay buffer. TMC is designed for composing models that are local to a pre-trained embedding, but could be extended to more general settings. The code is available at: https://github.com/tianyu139/tangent-model-composition
翻訳日:2023-10-03 17:17:11 公開日:2023-09-30
# DoReMi:計画実行ミスソーシングの検出と復元による接地言語モデル

DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment ( http://arxiv.org/abs/2307.00329v3 )

ライセンス: Link先を確認
Yanjiang Guo, Yen-Jen Wang, Lihan Zha, Zheyuan Jiang, Jianyu Chen(参考訳) 大規模言語モデル(LLM)は大量の意味知識を符号化し、顕著な理解と推論能力を持っている。 従来の研究は、ロボット作業でLLMを接地して、実現可能で実行可能なテキストプランを生成する方法を模索してきた。 しかし、物理世界の低レベルの実行は、環境の摂動や不完全な制御設計のため、高レベルのテキスト計画から逸脱する可能性がある。 本稿では,計画と実行のミスアライメントの即時検出と回復を可能にする,新しい言語モデル基盤フレームワークである \textbf{DoReMi} を提案する。 具体的には、LSMを利用して二重の役割を担い、ハイレベルな計画だけでなく、実行中に不適応を示す制約を生成する。 次に、視覚言語モデル(VLM)を用いて制約違反を継続的に検出する。 私たちのパイプラインは低レベルの実行を監視し、計画実行の不一致が発生した場合にタイムリーなリカバリを可能にします。 ロボットアームやヒューマノイドロボットを含む様々な複雑なタスクの実験により、より高いタスク成功率とより短いタスク完了時間をもたらすことが示されている。 DoReMiのビデオは \url{https://sites.google.com/view/doremi-paper} で見ることができる。

Large language models (LLMs) encode a vast amount of semantic knowledge and possess remarkable understanding and reasoning capabilities. Previous work has explored how to ground LLMs in robotic tasks to generate feasible and executable textual plans. However, low-level execution in the physical world may deviate from the high-level textual plan due to environmental perturbations or imperfect controller design. In this paper, we propose \textbf{DoReMi}, a novel language model grounding framework that enables immediate Detection and Recovery from Misalignments between plan and execution. Specifically, we leverage LLMs to play a dual role, aiding not only in high-level planning but also generating constraints that can indicate misalignment during execution. Then vision language models (VLMs) are utilized to detect constraint violations continuously. Our pipeline can monitor the low-level execution and enable timely recovery if certain plan-execution misalignment occurs. Experiments on various complex tasks including robot arms and humanoid robots demonstrate that our method can lead to higher task success rates and shorter task completion times. Videos of DoReMi are available at \url{https://sites.google.com/view/doremi-paper}.
翻訳日:2023-10-03 17:14:53 公開日:2023-09-30
# 統合性は魅力的です

Integrability is attractive ( http://arxiv.org/abs/2308.09745v2 )

ライセンス: Link先を確認
Hyeongjin Kim, Anatoli Polkovnikov(参考訳) 量子カオスと積分性の間の相互作用は、過去数十年にわたって広く研究されてきた。 我々は、断熱変換の複雑性を記述する量子幾何テンソルにエンコードされた幾何学の観点から、この話題にアプローチする。 特に、2つの独立結合によってパラメータ化されるスピン鎖の2つのジェネリックモデルを考える。 一方、可積分性破壊摂動は大域的であり、他方では可積分性は境界でのみ破られる。 どちらの場合も、結合空間の最も短い経路は可積分領域へと導かれ、この挙動は総称的であると論じる。 これらの地域は、自然の河川流域と同様の断熱的な流れの引き金となる。 物理的には、可積分領域への方向は可積分性に平行な方向よりもより速い緩和ダイナミクスによって特徴づけられる。 それらの間の異方性は、系が可積分点に近づくにつれて熱力学的限界内で発散する。 その結果, 連続相転移と同様に, 両モデルとも可積分からカオス的挙動への遷移が普遍的であること, 局所可積分性破壊モデルが急速にカオスとなるが, 熱力学的限界においてもエルゴード性は避けられることが明らかとなった。

The interplay between quantum chaos and integrability has been extensively studied in the past decades. We approach this topic from the point of view of geometry encoded in the quantum geometric tensor, which describes the complexity of adiabatic transformations. In particular, we consider two generic models of spin chains that are parameterized by two independent couplings. In one, the integrability breaking perturbation is global while, in the other, integrability is broken only at the boundary. In both cases, the shortest paths in the coupling space lead towards integrable regions and we argue that this behavior is generic. These regions thus act as attractors of adiabatic flows similar to river basins in nature. Physically, the directions towards integrable regions are characterized by faster relaxation dynamics than those parallel to integrability. The anisotropy between them diverges in the thermodynamic limit as the system approaches the integrable point. As side results, we provide evidence that the transition from integrable to chaotic behavior is universal for both models, similar to continuous phase transitions, and that the model with local integrability breaking quickly becomes chaotic but avoids ergodicity even in the thermodynamic limit.
翻訳日:2023-10-03 17:06:41 公開日:2023-09-30
# 3次元動的都市気候のリアルタイムシミュレーションのためのフーリエニューラルオペレータ

Fourier neural operator for real-time simulation of 3D dynamic urban microclimate ( http://arxiv.org/abs/2308.03985v2 )

ライセンス: Link先を確認
Wenhui Peng, Shaoxiang Qin, Senwen Yang, Jianchun Wang, Xue Liu, Liangzhu Leon Wang(参考訳) 地球規模の都市化は、人間の快適性、健康、建築/都市エネルギー効率のための都市微小気候の重要性を強調している。 主な環境影響として、建築設計や都市計画に大きな影響を与えている。 都市が気候変動に備え、レジリエンス対策を効果的に実施するためには、地域の微気候を理解することが不可欠である。 しかし、都市の微気候を分析するには、計算領域内の屋外パラメータの複雑な配列を屋内よりも長期にわたって考慮する必要がある。 その結果, 都市微小気候の影響評価において, 計算流体力学(cfd)などの数値計算手法は計算コストが高くなる。 ディープラーニング技術の台頭により、複雑な非線形相互作用とシステムダイナミクスのモデリングを加速する新たな機会が開けた。 近年、フーリエニューラル演算子(FNO)は、部分微分方程式(PDE)の解法と流体力学系のモデリングの高速化に非常に有望であることが示されている。 本研究では,FNOネットワークを実時間3次元都市風況シミュレーションに適用する。 都市域のCFDシミュレーションから,半ラグランジュ的アプローチと分数ステップ法による大規模都市問題モデリングのための都市微気候特性のシミュレートによる訓練・試験データを生成する。 数値実験により,fnoモデルは瞬時空間速度場を正確に再現できることがわかった。 さらに,風向の異なる未確認データに基づくFNOモデルの評価を行い,FNOモデルが風向の異なるデータに対して良好に一般化可能であることを示す。 さらに重要なことに、fnoアプローチはグラフィック処理ユニット上でミリ秒以内の予測を可能にし、3d動的都市気候のリアルタイムシミュレーションを可能にします。

Global urbanization has underscored the significance of urban microclimates for human comfort, health, and building/urban energy efficiency. They profoundly influence building design and urban planning as major environmental impacts. Understanding local microclimates is essential for cities to prepare for climate change and effectively implement resilience measures. However, analyzing urban microclimates requires considering a complex array of outdoor parameters within computational domains at the city scale over a longer period than indoors. As a result, numerical methods like Computational Fluid Dynamics (CFD) become computationally expensive when evaluating the impact of urban microclimates. The rise of deep learning techniques has opened new opportunities for accelerating the modeling of complex non-linear interactions and system dynamics. Recently, the Fourier Neural Operator (FNO) has been shown to be very promising in accelerating solving the Partial Differential Equations (PDEs) and modeling fluid dynamic systems. In this work, we apply the FNO network for real-time three-dimensional (3D) urban wind field simulation. The training and testing data are generated from CFD simulation of the urban area, based on the semi-Lagrangian approach and fractional stepping method to simulate urban microclimate features for modeling large-scale urban problems. Numerical experiments show that the FNO model can accurately reconstruct the instantaneous spatial velocity field. We further evaluate the trained FNO model on unseen data with different wind directions, and the results show that the FNO model can generalize well on different wind directions. More importantly, the FNO approach can make predictions within milliseconds on the graphics processing unit, making real-time simulation of 3D dynamic urban microclimate possible.
翻訳日:2023-10-03 17:06:14 公開日:2023-09-30
# 超幾何学的微分作用素の超対称性量子力学

Supersymmetric Quantum Mechanics of Hypergeometric-like Differential Operators ( http://arxiv.org/abs/2307.15948v2 )

ライセンス: Link先を確認
Tianchun Zhou(参考訳) 超対称量子力学(SUSYQM)の体系的反復アルゴリズムは、主超幾何学的微分作用素(HLDO)の等質化を解き、関連するHLDO自体の等質化と解を従来の方法からの入力なしに生成する。 これらは、2種類の活性な超対称性変換と運動量作用素写像を考案し、HLDOの2つの自明な非対称因数分解における同じ等式を2つの異なる超対称因子化 Schr\\odinger 方程式に変換する。 静止反復流は、繰り返し交互に作用し、いくつかの一般化された通勤者関係を組み込んで、現在のレベルの等式を次のレベルの等式に再正規化することにより、完全に制御される。 これらのアルゴリズムは、2つの異なる種類の量子運動量運動エネルギー演算子と超ポテンシャルがこの作用素に根ざしているという2つの基本的な事実に沸騰する同じhldoに対して、なぜ一連の主関数と関連する固有関数が同時に存在するのかという疑問に対する単純なsusiqm答えを与える。 2つのアクティブな超対称性は、主HLDOまたはそれに関連するアルゴリズムに対してSUSYQMアルゴリズムの非標準座標表現と標準座標表現の同型性を確立するため、これらのアルゴリズムは等効率の座標表現で構築することができる。 本論文で開発した反復型SUSYQMアルゴリズムは, 比較的高い効率性, 代数的要素の独立性, および論理的独立性から, 主HLDOとその従兄弟の固有値問題の解法に取って代わるものとなる。

Systematic iterative algorithms of supersymmetric quantum mechanics (SUSYQM) type for solving the eigenequation of principal hypergeometric-like differential operator (HLDO) and for generating the eigenequation of associated HLDO itself as well its solutions are developed, without any input from traditional methods. These are initiated by devising two types of active supersymmetrization transformations and momentum operator maps, which work to transform the same eigenequation of HLDO in its two trivial asymmetric factorizations into two distinct supersymmetrically factorized Schr\"odinger equations. The rest iteration flows are completely controlled by repeatedly performing intertwining action and incorporating some generalized commutator relations to renormalize the superpartner equation of the eigenequation of present level into that of next level. These algorithms therefore provide a simple SUSYQM answer to the question regarding why there exist simultaneously a series of principal as well as associated eigenfunctions for the same HLDO, which boils down to two basic facts: two distinct types of quantum momentum kinetic energy operators and superpotentials are rooted in this operator; each initial superpotential can proliferate into a hierarchy of descendant ones in a shape-invariant fashion. The two active supersymmetrizations establish the isomorphisms between the nonstandard and standard coordinate representations of the SUSYQM algorithm either for principal HLDO or for its associated one, so these algorithms can be constructed in either coordinate representation with equal efficiency. Due to their relatively high efficiency, algebraic elementariness and logical independence, the iterative SUSYQM algorithms developed in this paper could become the hopefuls for supplanting some traditional methods for solving the eigenvalue problems of principal HLDOs and their associated cousins.
翻訳日:2023-10-03 17:04:36 公開日:2023-09-30
# T-Stochastic Graphs

T-Stochastic Graphs ( http://arxiv.org/abs/2309.01301v2 )

ライセンス: Link先を確認
Sijia Fang, Karl Rohe(参考訳) ソーシャルネットワーク分析のための階層的クラスタリングに対する以前の統計学的アプローチはすべて、"ultrametric"階層を構築している。 超音量性の仮定は系統学の文献で議論され研究されているが、まだソーシャルネットワークの文献では認められていない。 ネットワーク内の"非ultrametric structure"は、既存のトップダウンリカバリアルゴリズムに重大な不安定性をもたらしている。 この問題に対処するために,不安定な診断プロットを導入し,経験的ネットワークの集合を調べる。 これらのネットワークは、"ultrametric"仮定に違反しているように見える。 我々は, 潜在階層に位相的制約を課さない, $\mathbb{t}$-stochastic graphs と呼ばれる確率的モデルの騙し込み的単純かつ一般クラスを提案する。 このモデルを説明するために、階層的ネットワークモデルの6つの代替形式を提案し、6つ全てが$\mathbb{t}$-stochastic graphモデルと等価であることを示す。 これらのオルタナティブモデルによって、スペクトル技法と系統学的再構成によるよく知られた隣り合うアルゴリズムを組み合わせた階層的クラスタリングへの新しいアプローチが動機づけられる。 このスペクトルアプローチが統計的に一貫性があることを証明します。

Previous statistical approaches to hierarchical clustering for social network analysis all construct an "ultrametric" hierarchy. While the assumption of ultrametricity has been discussed and studied in the phylogenetics literature, it has not yet been acknowledged in the social network literature. We show that "non-ultrametric structure" in the network introduces significant instabilities in the existing top-down recovery algorithms. To address this issue, we introduce an instability diagnostic plot and use it to examine a collection of empirical networks. These networks appear to violate the "ultrametric" assumption. We propose a deceptively simple and yet general class of probabilistic models called $\mathbb{T}$-Stochastic Graphs which impose no topological restrictions on the latent hierarchy. To illustrate this model, we propose six alternative forms of hierarchical network models and then show that all six are equivalent to the $\mathbb{T}$-Stochastic Graph model. These alternative models motivate a novel approach to hierarchical clustering that combines spectral techniques with the well-known Neighbor-Joining algorithm from phylogenetic reconstruction. We prove this spectral approach is statistically consistent.
翻訳日:2023-10-03 16:54:29 公開日:2023-09-30
# 大規模言語モデルのためのプライバシー保護インコンテキスト学習

Privacy-Preserving In-Context Learning for Large Language Models ( http://arxiv.org/abs/2305.01639v2 )

ライセンス: Link先を確認
Tong Wu, Ashwinee Panda, Jiachen T. Wang, Prateek Mittal(参考訳) In-context Learning (ICL) はLarge Language Models (LLM) の重要な機能であり、これらのモデルが特定の文脈内例に基づいて動的に適応できるようにし、精度と妥当性を向上させる。 しかし、llmの応答は、コンテキスト内exemplarsに含まれる機密情報を漏洩する可能性がある。 この課題に対処するため、我々はICLタスクの民営化のための一般的なパラダイムであるDP-ICL(differially Private In-context Learning)を提案する。 DP-ICLパラダイムの鍵となる考え方は、不整合例集合に基づくLLMの応答のアンサンブル間の雑音的コンセンサスを通じて、微分プライベート応答を生成することである。 dp-iclの汎用パラダイムに基づき,テキスト分類と言語生成のためのiclの民営化方法を示す複数の手法をインスタンス化する。 我々は,DP-ICLを4つのテキスト分類ベンチマークと2つの言語生成タスクで評価し,DP-ICLが強力なユーティリティ・プライバシ・トレードオフを達成することを示す実証的な結果を得た。

In-context learning (ICL) is an important capability of Large Language Models (LLMs), enabling these models to dynamically adapt based on specific, in-context exemplars, thereby improving accuracy and relevance. However, LLM's responses may leak the sensitive private information contained in in-context exemplars. To address this challenge, we propose Differentially Private In-context Learning (DP-ICL), a general paradigm for privatizing ICL tasks. The key idea for DP-ICL paradigm is generating differentially private responses through a noisy consensus among an ensemble of LLM's responses based on disjoint exemplar sets. Based on the general paradigm of DP-ICL, we instantiate several techniques showing how to privatize ICL for text classification and language generation. We evaluate DP-ICL on four text classification benchmarks and two language generation tasks, and our empirical results show that DP-ICL achieves a strong utility-privacy tradeoff.
翻訳日:2023-10-03 16:45:37 公開日:2023-09-30
# 情報価値に関する統計的仮説検定(iv)

Statistical Hypothesis Testing for Information Value (IV) ( http://arxiv.org/abs/2309.13183v2 )

ライセンス: Link先を確認
Helder Rojas, Cirilo Alvarez and Nilton Rojas(参考訳) 情報の価値(IV)は、モデリングフェーズの前に特徴を選択するための非常に一般的なテクニックです。 IVの固定しきい値に基づく実践的な基準があるが、同時に謎めいた理論的な議論が欠如しており、予測器がモデリングフェーズで考慮すべき十分な予測力を持つかどうかを決定する。 しかし、この手法の数学的発展と統計的推論法は文献にはほとんど存在しない。 本稿では,iv の理論的枠組みについて述べるとともに,データセットで検討された特徴の予測能力を評価するための非パラメトリック仮説テストを提案する。 情報理論の発散対策との関係から,本提案を「J-発散試験」と呼ぶ。 我々は,テスト統計を効率的に計算する方法を示し,その性能をシミュレーションデータで検証する。 様々なシナリオ、特に不均衡データセットにおいて、固定しきい値に基づく従来の基準よりも優位性を示す。 さらに、不正識別データにテストを適用し、"statistical-iv"(https://pypi.org/project/statistical-iv/)と呼ばれるオープンソースのPythonライブラリを提供します。

Information value (IV) is a quite popular technique for features selection before the modeling phase. There are practical criteria, based on fixed thresholds for IV, but at the same time mysterious and lacking theoretical arguments, to decide if a predictor has sufficient predictive power to be considered in the modeling phase. However, the mathematical development and statistical inference methods for this technique are almost nonexistent in the literature. In this paper we present a theoretical framework for IV, and at the same time, we propose a non-parametric hypothesis test to evaluate the predictive power of features contemplated in a data set. Due to its relationship with divergence measures developed in the Information Theory, we call our proposal the J - Divergence test. We show how to efficiently compute our test statistic and we study its performance on simulated data. In various scenarios, particularly in unbalanced data sets, we show its superiority over conventional criteria based on fixed thresholds. Furthermore, we apply our test on fraud identification data and provide an open-source Python library, called "statistical-iv"(https://pypi.org/project/statistical-iv/), where we implement our main results.
翻訳日:2023-10-03 16:42:34 公開日:2023-09-30
# CRITIC: ツール・インタラクティブ・クオリティクスによる大規模言語モデルの自動修正

CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing ( http://arxiv.org/abs/2305.11738v2 )

ライセンス: Link先を確認
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen(参考訳) 大規模言語モデル(LLM)の最近の発展は印象的だ。 しかしながら、これらのモデルは、幻覚的な事実、欠陥コードの生成、攻撃的で有害なコンテンツの作成など、矛盾や問題のある振る舞いを示すこともある。 これらのモデルとは異なり、人間は通常、外部ツールを使用して、ファクトチェックの検索エンジンやデバッグのコードインタプリタなど、初期コンテンツをクロスチェックし、洗練する。 この観察にインスパイアされたCRITICと呼ばれるフレームワークは、基本的には「ブラックボックス」であり、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と段階的な修正を可能にする。 具体的には、初期出力から始めると、CRITICはテキストの特定の側面を評価するための適切なツールと対話し、この検証プロセスで得られたフィードバックに基づいて出力を更新する。 自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを示す。 一方,本研究は,LLMの自己改善を促進する上で,外部からのフィードバックの重要性を強調している。

Recent developments in large language models (LLMs) have been impressive. However, these models sometimes show inconsistencies and problematic behavior, such as hallucinating facts, generating flawed code, or creating offensive and toxic content. Unlike these models, humans typically utilize external tools to cross-check and refine their initial content, like using a search engine for fact-checking, or a code interpreter for debugging. Inspired by this observation, we introduce a framework called CRITIC that allows LLMs, which are essentially "black boxes" to validate and progressively amend their own outputs in a manner similar to human interaction with tools. More specifically, starting with an initial output, CRITIC interacts with appropriate tools to evaluate certain aspects of the text, and then revises the output based on the feedback obtained during this validation process. Comprehensive evaluations involving free-form question answering, mathematical program synthesis, and toxicity reduction demonstrate that CRITIC consistently enhances the performance of LLMs. Meanwhile, our research highlights the crucial importance of external feedback in promoting the ongoing self-improvement of LLMs.
翻訳日:2023-10-03 14:53:54 公開日:2023-09-30
# 拡散モデルのための構造プルーニング

Structural Pruning for Diffusion Models ( http://arxiv.org/abs/2305.10924v3 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Xinchao Wang(参考訳) 生成モデリングは近年,拡散確率モデル (DPM) の変換的影響により,顕著な進歩を遂げている。 しかし、これらのモデルの印象的な能力は、トレーニングと推論の両方でかなりの計算オーバーヘッドを必要とすることが多い。 この課題に対処するために,既存モデルからの軽量拡散モデル学習に適した効率的な圧縮手法であるDiff-Pruningを提案する。 diff-pruningの本質は、非帰属的拡散ステップを無視し、重要な重みを識別するための情報勾配をアンサンブルするプロセスであるpruned timesteps上のtaylor展開にカプセル化されている。 複数のデータセットにまたがって実施した経験的評価では,提案手法の主な利点が2つある。 1) 効率性: 当初の訓練費の10〜20対%でフロップの約50対%削減を可能にする。 2) 持続性: プルーンド拡散モデルは, あらかじめ訓練したモデルと相反する生成挙動を本質的に保存する。 コードは \url{https://github.com/VainF/Diff-Pruning} で入手できる。

Generative modeling has recently undergone remarkable advancements, primarily propelled by the transformative implications of Diffusion Probabilistic Models (DPMs). The impressive capability of these models, however, often entails significant computational overhead during both training and inference. To tackle this challenge, we present Diff-Pruning, an efficient compression method tailored for learning lightweight diffusion models from pre-existing ones, without the need for extensive re-training. The essence of Diff-Pruning is encapsulated in a Taylor expansion over pruned timesteps, a process that disregards non-contributory diffusion steps and ensembles informative gradients to identify important weights. Our empirical assessment, undertaken across several datasets highlights two primary benefits of our proposed method: 1) Efficiency: it enables approximately a 50\% reduction in FLOPs at a mere 10\% to 20\% of the original training expenditure; 2) Consistency: the pruned diffusion models inherently preserve generative behavior congruent with their pre-trained models. Code is available at \url{https://github.com/VainF/Diff-Pruning}.
翻訳日:2023-10-03 14:53:06 公開日:2023-09-30
# マルチエージェント強化学習における意味的に整列したタスク分解

Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.10865v2 )

ライセンス: Link先を確認
Wenhao Li, Dan Qiao, Baoxiang Wang, Xiangfeng Wang, Bo Jin and Hongyuan Zha(参考訳) クレジットを適切に割り当てることの難しさは、時間と構造的スケールが伴うため、より少ない報酬で協調的なMARLにおいて特に高められる。 自動サブゴール生成(ASG)は近年,本質的動機付け強化学習におけるサブゴールの利用にインスパイアされた,実行可能なMARLアプローチとして登場した。 しかし、複雑なタスク計画のエンド・ツー・エンドの学習は、明らかに大量のトレーニングサンプルを必要とする。 さらに、既存のASG手法の多様性を促進させる性質は、サブゴールの「過剰表現」につながり、実際のタスク報酬に限定した多くのスプリアスサブゴールを生成し、アルゴリズムのサンプル効率を低下させる。 そこで本研究では,この課題に対処し,不連続表現学習に着想を得て,marl (sama) におけるタスク分解(semantically aligned task decomposition in marl, 意味的にアレンジされたタスク分解)法を提案する。 さらに、SAMAは言語基底RLを導入し、各エージェントのサブゴール条件のポリシーを訓練する。 SAMAは、OvercookedとMiniRTSという2つの挑戦的なスパースリワードタスクの性能から証明されているように、最先端のASG手法と比較してサンプル効率にかなりの利点がある。

The difficulty of appropriately assigning credit is particularly heightened in cooperative MARL with sparse reward, due to the concurrent time and structural scales involved. Automatic subgoal generation (ASG) has recently emerged as a viable MARL approach inspired by utilizing subgoals in intrinsically motivated reinforcement learning. However, end-to-end learning of complex task planning from sparse rewards without prior knowledge, undoubtedly requires massive training samples. Moreover, the diversity-promoting nature of existing ASG methods can lead to the "over-representation" of subgoals, generating numerous spurious subgoals of limited relevance to the actual task reward and thus decreasing the sample efficiency of the algorithm. To address this problem and inspired by the disentangled representation learning, we propose a novel "disentangled" decision-making method, Semantically Aligned task decomposition in MARL (SAMA), that prompts pretrained language models with chain-of-thought that can suggest potential goals, provide suitable goal decomposition and subgoal allocation as well as self-reflection-based replanning. Additionally, SAMA incorporates language-grounded RL to train each agent's subgoal-conditioned policy. SAMA demonstrates considerable advantages in sample efficiency compared to state-of-the-art ASG methods, as evidenced by its performance on two challenging sparse-reward tasks, Overcooked and MiniRTS.
翻訳日:2023-10-03 14:52:48 公開日:2023-09-30
# DNN圧縮の評価基準

Evaluation Metrics for DNNs Compression ( http://arxiv.org/abs/2305.10616v3 )

ライセンス: Link先を確認
Abanoub Ghobrial, Samuel Budgett, Dieter Balemans, Hamid Asgari, Phil Reiter, Kerstin Eder(参考訳) ニューラルネットワークの圧縮のための様々な技術を開発するための研究が進行中である。 しかし、コミュニティには標準化された評価指標が欠けているため、異なるアプリケーションに最適な圧縮テクニックを特定する上で鍵となる。 本稿では,既存のニューラルネットワーク圧縮評価メトリクスをレビューし,netzipと呼ばれる標準化フレームワークに実装する。 既存の評価のギャップをカバーするための2つの新しい指標を文献に紹介する。 1)圧縮・ハードウェア非依存理論速度(CHATS)と 2) 総合圧縮成功(OCS)。 オブジェクト分類とオブジェクト検出に焦点を当てた2つの異なるハードウェアプラットフォーム(PCとRaspberry Pi 4)のケーススタディを用いてNetZIPの使用を実証する。

There is a lot of ongoing research effort into developing different techniques for neural networks compression. However, the community lacks standardised evaluation metrics, which are key to identifying the most suitable compression technique for different applications. This paper reviews existing neural network compression evaluation metrics and implements them into a standardisation framework called NetZIP. We introduce two novel metrics to cover existing gaps of evaluation in the literature: 1) Compression and Hardware Agnostic Theoretical Speed (CHATS) and 2) Overall Compression Success (OCS). We demonstrate the use of NetZIP using two case studies on two different hardware platforms (a PC and a Raspberry Pi 4) focusing on object classification and object detection.
翻訳日:2023-10-03 14:52:21 公開日:2023-09-30
# 畳み込みニューラルネットワークによる意味的セグメンテーションのための形状学習

Convolutional Neural Networks Rarely Learn Shape for Semantic Segmentation ( http://arxiv.org/abs/2305.06568v2 )

ライセンス: Link先を確認
Yixin Zhang, Maciej A. Mazurowski(参考訳) 形状学習(または形状情報を活用する能力)は、対象オブジェクトが特定の形状を持つ場合、畳み込みニューラルネットワーク(cnns)の望ましい特性である。 トピックに関するいくつかの研究が浮上しているが、CNNがどのような状況で学習するかを決定的に決定する体系的な研究は存在しない。 本稿では,特に形状が重要となるセグメンテーションネットワークの文脈において,このような研究を行う。 形状を定義し、cnnが形状情報を利用する範囲を測定するための新しい行動指標を提案する。 次に、合成および実世界のデータを用いて一連の実験を行い、CNNがどのような状況下で学習し、そのような行動を奨励できるかを徐々に明らかにする。 結論として (i)cnnは、典型的な設定では形状を学習せず、関心のあるオブジェクトを識別できる他の機能に依存している。 (ii)CNNは形状を学習できるが、その形状がオブジェクトを識別できる唯一の特徴である場合に限られる。 三 形状学習には、対象物の大きさに対して十分に大きな受容野の大きさが必要である。 (iv) 限定的な追加は、形状学習を促進することができる。 (v) 分布外データが存在する場合、学習形状は確かに有用である。

Shape learning, or the ability to leverage shape information, could be a desirable property of convolutional neural networks (CNNs) when target objects have specific shapes. While some research on the topic is emerging, there is no systematic study to conclusively determine whether and under what circumstances CNNs learn shape. Here, we present such a study in the context of segmentation networks where shapes are particularly important. We define shape and propose a new behavioral metric to measure the extent to which a CNN utilizes shape information. We then execute a set of experiments with synthetic and real-world data to progressively uncover under which circumstances CNNs learn shape and what can be done to encourage such behavior. We conclude that (i) CNNs do not learn shape in typical settings but rather rely on other features available to identify the objects of interest, (ii) CNNs can learn shape, but only if the shape is the only feature available to identify the object, (iii) sufficiently large receptive field size relative to the size of target objects is necessary for shape learning; (iv) a limited set of augmentations can encourage shape learning; (v) learning shape is indeed useful in the presence of out-of-distribution data.
翻訳日:2023-10-03 14:51:58 公開日:2023-09-30
# 合成ゼロショット学習のためのプロンプト言語インフォームド分布

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.14428v2 )

ライセンス: Link先を確認
Wentao Bao, Lichang Chen, Heng Huang, Yu Kong(参考訳) compositional zero-shot learning (czsl)タスクは、例えばスライストマトのような、目に見えない構成の視覚的概念を認識することを目的としている。 CLIPのような大規模トレーニング済みのビジュアル言語モデルの迅速なチューニングのおかげで、最近の文献では従来の視覚ベースの手法よりもはるかに優れたCZSL性能を示している。 しかし、クラスコンテキストの多様性や情報性、視覚的プリミティブ、すなわち状態とオブジェクトの絡み合いなど、一般化に影響を及ぼす重要な側面は、既存のCLIPベースのCZSL文献では正しく扱われていない。 本稿では,言語に変形した分布を促進させるモデルを提案する。 CZSLタスク用のPLID。 具体的には、PLIDは事前訓練された大規模言語モデル(LLM)を利用する。 1)多様で情報的な言語情報クラス分布を定式化し、 2) クラス埋め込みの構成性を高める。 さらに,視覚言語プリミティブ分解(vlpd)モジュールと確率的ロジット混合(slm)戦略を提案し,構成空間とプリミティブロジット空間から決定を動的に融合する。 従来のソフト,ハード,あるいは分布的プロンプトの文献と直交して,本手法は,より優れたゼロショット一般化をもたらすLLM支援クラス分布の促進を提唱する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。

Compositional zero-shot learning (CZSL) task aims to recognize unseen compositional visual concepts, e.g., sliced tomatoes, where the model is learned only from the seen compositions, e.g., sliced potatoes and red tomatoes. Thanks to the prompt tuning on large pre-trained visual language models such as CLIP, recent literature shows impressively better CZSL performance than traditional vision-based methods. However, the key aspects that impact the generalization to unseen compositions, including the diversity and informativeness of class context, and the entanglement between visual primitives, i.e., state and object, are not properly addressed in existing CLIP-based CZSL literature. In this paper, we propose a model by prompting the language-informed distribution, aka., PLID, for the CZSL task. Specifically, the PLID leverages pre-trained large language models (LLM) to 1) formulate the language-informed class distributions which are diverse and informative, and 2) enhance the compositionality of the class embedding. Moreover, a visual-language primitive decomposition (VLPD) module and a stochastic logit mixup (SLM) strategy are proposed to dynamically fuse the decisions from the compositional and the primitive logit space. Orthogonal to the existing literature of soft, hard, or distributional prompts, our method advocates prompting the LLM-supported class distribution that leads to a better zero-shot generalization. Experimental results on MIT-States, UT-Zappos, and C-GQA datasets show the superior performance of the PLID to the prior arts.
翻訳日:2023-10-03 14:44:14 公開日:2023-09-30
# Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索

Type-to-Track: Retrieve Any Object via Prompt-based Tracking ( http://arxiv.org/abs/2305.13495v3 )

ライセンス: Link先を確認
Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu(参考訳) 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。 このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。 本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。 我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。 さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。 本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。 5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。

One of the recent trends in vision problems is to use natural language captions to describe the objects of interest. This approach can overcome some limitations of traditional methods that rely on bounding boxes or category annotations. This paper introduces a novel paradigm for Multiple Object Tracking called Type-to-Track, which allows users to track objects in videos by typing natural language descriptions. We present a new dataset for that Grounded Multiple Object Tracking task, called GroOT, that contains videos with various types of objects and their corresponding textual captions describing their appearance and action in detail. Additionally, we introduce two new evaluation protocols and formulate evaluation metrics specifically for this task. We develop a new efficient method that models a transformer-based eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor decomposition. The experiments in five scenarios show that our MENDER approach outperforms another two-stage design in terms of accuracy and efficiency, up to 14.7% accuracy and 4$\times$ speed faster.
翻訳日:2023-10-03 14:43:29 公開日:2023-09-30
# クロスリンガル擬似ラベルによる教師なしasr

Unsupervised ASR via Cross-Lingual Pseudo-Labeling ( http://arxiv.org/abs/2305.13330v2 )

ライセンス: Link先を確認
Tatiana Likhomanenko, Loren Lugosch, Ronan Collobert(参考訳) 最近の研究では、非ペアリングオーディオとテキストのみを使用して、$\textit{unsupervised}$ automatic speech recognition (asr)システムをトレーニングできることが示されている。 既存の教師なしのASRメソッドは、トレーニングにラベル付きデータを使用できないと仮定する。 ある言語にラベル付きオーディオがない場合でも、他の言語で利用可能なラベル付きデータとして$\textit{always}$がある、と我々は主張する。 文字レベルの音響モデル(AM)を他の言語から使い、新しい言語で$\textit{unsupervised}$ AMをブートストラップすることができることを示す。 は、$\textit{target}$言語でラベル付きオーディオが利用できないことを意味する。 私たちのアプローチは2つの重要な要素に基づいている。 i) $\textit{target}$ Language AM と $\textit{other}$ Language AM を使って $\textit{target}$ Language の擬似ラベル (PL) を生成する (ii)$\textit{target language model}$でこれらのPLを制約します。 例えば、英語 am から swahili への転送は 18% の wer を達成している。 また、文字ベースのwav2vec-u 2.0をljspeechの絶対werで15%上回り、ラベル付きドイツ語データを60k時間ではなく800hで上回っている。

Recent work has shown that it is possible to train an $\textit{unsupervised}$ automatic speech recognition (ASR) system using only unpaired audio and text. Existing unsupervised ASR methods assume that no labeled data can be used for training. We argue that even if one does not have any labeled audio for a given language, there is $\textit{always}$ labeled data available for other languages. We show that it is possible to use character-level acoustic models (AMs) from other languages to bootstrap an $\textit{unsupervised}$ AM in a new language. Here, "unsupervised" means no labeled audio is available for the $\textit{target}$ language. Our approach is based on two key ingredients: (i) generating pseudo-labels (PLs) of the $\textit{target}$ language using some $\textit{other}$ language AM and (ii) constraining these PLs with a $\textit{target language model}$. Our approach is effective on Common Voice: e.g. transfer of English AM to Swahili achieves 18% WER. It also outperforms character-based wav2vec-U 2.0 by 15% absolute WER on LJSpeech with 800h of labeled German data instead of 60k hours of unlabeled English data.
翻訳日:2023-10-03 14:43:12 公開日:2023-09-30
# DC:量子古典回路の深さ制御

DC: Depth Control on Quantum Classical Circuit ( http://arxiv.org/abs/2305.11919v2 )

ライセンス: Link先を確認
Movahhed Sadeghi, Soheil Khadirsharbiyani, Mostafa Eghbali Zarch, Mahmut Taylan Kandemir(参考訳) 短期中規模量子システム(NISQ)の普及により、回路信頼性の問題に焦点が当てられるようになった。 回路設計やマルチキュービットマッピングといったいくつかの量子コンピューティング活動は、異なる最適化手法を用いて信頼性を高めることに重点を置いている。 量子古典回路の最適化は、アンシラ量子ビットの再利用や回路サイズと深さの最小化を目的とした戦術といった技術に焦点が当てられ、かなりの研究の対象となっている。 それでも、より大きく複雑な回路の信頼性は、現代的な最適化戦略を使用しているにもかかわらず、潜在的な障害やコンパイルプロセスの必要性のために依然として困難である。 本研究は,従来の回路の深さをスライスし低下させる革命的深さ制御法を提案する。 この戦略は、量子ハードウェアに関連するマッピングコストの低減と信頼性の向上を目的としている。 DCは、任意のノイズ中間スケール量子(NISQ)システムにおいて、不定サイズの回路に対して信頼性の高い結果を提供する。 実験の結果,DCの使用は,非DCベースラインと比較して平均11倍に増加し,PST(Probability of Success Threshold)の大幅な改善につながることが示された。 さらにDCは、かなりのマージンで正確な出力を確保することで、次の最高の結果よりも顕著な優位性を示す。 さらに、設計コンパイラ(DC)を利用することで、指数時間を必要とする提案手法と比較して、多項式時間の複雑さの中でマッピングとルーティングの最適化を実行することができる。

The growing prevalence of near-term intermediate-scale quantum (NISQ) systems has brought forth a heightened focus on the issue of circuit reliability. Several quantum computing activities, such as circuit design and multi-qubit mapping, are focused on enhancing reliability via the use of different optimization techniques. The optimization of quantum classical circuits has been the subject of substantial research, with a focus on techniques such as ancilla-qubit reuse and tactics aimed at minimizing circuit size and depth. Nevertheless, the reliability of bigger and more complex circuits remains a difficulty due to potential failures or the need for time-consuming compilation processes, despite the use of modern optimization strategies. This study presents a revolutionary Depth Control (DC) methodology that involves slicing and lowering the depth of conventional circuits. This strategy aims to improve the reliability and decrease the mapping costs associated with quantum hardware. DC provides reliable outcomes for circuits of indefinite size on any Noisy Intermediate-Scale Quantum (NISQ) system. The experimental findings demonstrate that the use of DC leads to a substantial improvement in the Probability of Success Threshold (PST), with an average increase of 11x compared to non-DC baselines. Furthermore, DC exhibits a notable superiority over the next best outcome by ensuring accurate outputs with a considerable margin. In addition, the utilization of Design Compiler (DC) enables the execution of mapping and routing optimizations inside a polynomial-time complexity, which represents an advancement compared to previously suggested methods that need exponential time.
翻訳日:2023-10-03 14:42:01 公開日:2023-09-30
# テキスト・画像拡散モデルのアーキテクチャ圧縮について

On Architectural Compression of Text-to-Image Diffusion Models ( http://arxiv.org/abs/2305.15798v2 )

ライセンス: Link先を確認
Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi(参考訳) 安定拡散モデル(SDM)の例外テキスト・トゥ・イメージ(T2I)生成結果には、かなりの計算要求がある。 この問題を解決するため、近年の効率的なSDMの研究はサンプリングステップの削減とネットワーク量子化の利用を優先している。 本研究は,ブロック除去された知識蒸留SDM(BK-SDM)を導入することにより,汎用T2I合成のための古典的アーキテクチャ圧縮の力を強調する。 我々は,SDMのU-Netから残差や注意ブロックを除去し,パラメータ数,サンプリングステップ毎のMAC数,レイテンシを30%以上削減する。 1つのA100 GPU上で0.22MLAIONペア(フルトレーニングペアの0.1%以下)で蒸留ベースの事前トレーニングを行う。 限られた資源で訓練されているにもかかわらず、我々のコンパクトモデルは、転送された知識の恩恵を受け、ゼロショットMS-COCOベンチマーク上のより大きなマルチビリオンパラメータモデルに対して競合する結果を得ることにより、元のSDMを模倣することができる。 さらに,dreambooth finetuningを用いたパーソナライズ生成における軽量事前学習モデルの適用性を示す。 コードとモデルは、https://github.com/nota-netspresso/bk-sdmにある。

Exceptional text-to-image (T2I) generation results of Stable Diffusion models (SDMs) come with substantial computational demands. To resolve this issue, recent research on efficient SDMs has prioritized reducing the number of sampling steps and utilizing network quantization. Orthogonal to these directions, this study highlights the power of classical architectural compression for general-purpose T2I synthesis by introducing block-removed knowledge-distilled SDMs (BK-SDMs). We eliminate several residual and attention blocks from the U-Net of SDMs, obtaining over a 30% reduction in the number of parameters, MACs per sampling step, and latency. We conduct distillation-based pretraining with only 0.22M LAION pairs (fewer than 0.1% of the full training pairs) on a single A100 GPU. Despite being trained with limited resources, our compact models can imitate the original SDM by benefiting from transferred knowledge and achieve competitive results against larger multi-billion parameter models on the zero-shot MS-COCO benchmark. Moreover, we demonstrate the applicability of our lightweight pretrained models in personalized generation with DreamBooth finetuning. Code and models can be found at: https://github.com/Nota-NetsPresso/BK-SDM
翻訳日:2023-10-03 14:32:18 公開日:2023-09-30
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v3 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Ruicong Yao, Wei Sun, Marie-Francine Moens(参考訳) 拡散確率モデル (DPM) は高品質な画像の合成において顕著な有効性を示した。 しかし、それらの推論プロセスには、訓練と推論の相違による露光バイアスの問題を誇張する反復的なステップが数百個必要である。 これまでの作業では、トレーニング中に入力を摂動することでこの問題を緩和しようとしており、結果としてDPMの再訓練が義務付けられている。 本研究では, DPMにおける露出バイアスの系統的研究を行い, 興味深いことに, モデルを再学習することなく, 提案する新しいサンプリング手法により, 露光バイアスを緩和できることを見出した。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 この結果に基づき,time-shift samplerというサンプリング手法を提案する。 我々のフレームワークはDDPMやDDIMなどの既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験の結果,fidスコアの異なるデータセットとサンプリング法において有意かつ一貫した改善が得られた。 例えば、時間シフトサンプリングをF-PNDMに統合するとFID=3.88となり、F-PNDMに比べて44.49\%改善され、CIFAR-10では10個のサンプリングステップで、100個のサンプリングステップでバニラDDIMよりもパフォーマンスが高い。 受け入れ次第、コードをリリースします。

Diffusion Probabilistic Models (DPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could exaggerate the problem of exposure bias due to the training and inference discrepancy. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DPM. In this work, we conduct a systematic study of exposure bias in DPM and, intriguingly, we find that the exposure bias could be alleviated with a novel sampling method that we propose, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce a sampling method named Time-Shift Sampler. Our framework can be seamlessly integrated to existing sampling algorithms, such as DDPM, DDIM and other high-order solvers, inducing merely minimal additional computations. Experimental results show our method brings significant and consistent improvements in FID scores on different datasets and sampling methods. For example, integrating Time-Shift Sampler to F-PNDM yields a FID=3.88, achieving 44.49\% improvements as compared to F-PNDM, on CIFAR-10 with 10 sampling steps, which is more performant than the vanilla DDIM with 100 sampling steps. We will release the code upon acceptance.
翻訳日:2023-10-03 14:31:15 公開日:2023-09-30
# STAR:大規模言語モデルを用いた構造データ生成による低リソース情報抽出の改善

STAR: Improving Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models ( http://arxiv.org/abs/2305.15090v2 )

ライセンス: Link先を確認
Mingyu Derek Ma, Xiaoxuan Wang, Po-Nien Kung, P. Jeffrey Brantingham, Nanyun Peng, Wei Wang(参考訳) イベント抽出のような情報抽出タスクは、出力構造とサブタスク依存関係の詳細な理解を必要とする。 彼らは適切なパフォーマンスを得るために、(パッセージ、ターゲット構造)ペアという形式でタスク固有のトレーニングデータに大きく依存しています。 しかし、人間によるアノテーションによるデータ取得はコストがかかるため、実世界のアプリケーションでは最小限の人間ラベルを必要とする低リソース情報抽出アプローチの必要性が高まっている。 合成されたトレーニングデータを用いた教師付きモデルの微調整は一般化されるが、既存のデータ生成手法は大規模な地上データに依存するか、性能が悪いため複雑なieタスクに適用できない。 これらの課題に対処するために,Large Language Models (LLM) を利用したデータ生成手法STARを提案する。 我々のアプローチは、目標構造(Y)の生成と、LLMの助けを借りて達成された経路(X)の生成である。 初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。 さらにエラーの低減とデータ品質の向上を,反復的修正による自己回帰的誤りの同定と自己修正によって行う。 実験の結果,STARが生成したデータは,人為的なデータよりも,低リソースなイベント抽出タスクや関係抽出タスクの性能を著しく向上させることがわかった。 データ品質の人間評価は、STAR生成したデータは、より高い通過品質を示し、人為的なデータよりもタスク定義に適合していることを示している。

Information extraction tasks such as event extraction require an in-depth understanding of the output structure and sub-task dependencies. They heavily rely on task-specific training data in the form of (passage, target structure) pairs to obtain reasonable performance. However, obtaining such data through human annotation is costly, leading to a pressing need for low-resource information extraction approaches that require minimal human labeling for real-world applications. Fine-tuning supervised models with synthesized training data would be a generalizable method, but the existing data generation methods either still rely on large-scale ground-truth data or cannot be applied to complicated IE tasks due to their poor performance. To address these challenges, we propose STAR, a data generation method that leverages Large Language Models (LLMs) to synthesize data instances given limited seed demonstrations, thereby boosting low-resource information extraction performance. Our approach involves generating target structures (Y) followed by generating passages (X), all accomplished with the aid of LLMs. We design fine-grained step-by-step instructions to obtain the initial data instances. We further reduce errors and improve data quality through self-reflection error identification and self-refinement with iterative revision. Our experiments show that the data generated by STAR significantly improves the performance of low-resource event extraction and relation extraction tasks, even surpassing the effectiveness of human-curated data. Human assessment of the data quality shows STAR-generated data exhibits higher passage quality and better align with the task definitions compared with the human-curated data.
翻訳日:2023-10-03 14:30:46 公開日:2023-09-30
# 拡散モデルに関する幾何学的展望

A Geometric Perspective on Diffusion Models ( http://arxiv.org/abs/2305.19947v2 )

ライセンス: Link先を確認
Defang Chen, Zhenyu Zhou, Jian-Ping Mei, Chunhua Shen, Chun Chen, Can Wang(参考訳) 近年,拡散モデルのための効果的なトレーニングと高速サンプリング手法の開発が進展している。 顕著な進歩は、確率微分方程式(SDE)とその境界保存常微分方程式(ODE)を用いて、統一された枠組みでデータ摂動と生成モデリングを記述することである。 本稿では,人気のある分散爆発sdeのodeに基づくサンプリングを注意深く検討し,そのサンプリングダイナミクスの興味深い構造を明らかにする。 我々は,データ分布と雑音分布が,より高速に収束する擬似線形サンプリング軌道と暗黙的復調軌道と円滑に結合していることを発見した。 一方、消音軌跡は対応するサンプリング軌跡の曲率を制御し、その様々な有限差は、実際に使用される2階のサンプラー全てを生成する。 さらに,最適なodeに基づくサンプリングと,拡散モデルの漸近的挙動を特徴付け,経験的スコアの偏差を識別できる古典的な平均シフト(モード・シーキング)アルゴリズムとの理論的関係を確立する。

Recent years have witnessed significant progress in developing effective training and fast sampling techniques for diffusion models. A remarkable advancement is the use of stochastic differential equations (SDEs) and their marginal-preserving ordinary differential equations (ODEs) to describe data perturbation and generative modeling in a unified framework. In this paper, we carefully inspect the ODE-based sampling of a popular variance-exploding SDE and reveal several intriguing structures of its sampling dynamics. We discover that the data distribution and the noise distribution are smoothly connected with a quasi-linear sampling trajectory and another implicit denoising trajectory that even converges faster. Meanwhile, the denoising trajectory governs the curvature of the corresponding sampling trajectory and its various finite differences yield all second-order samplers used in practice. Furthermore, we establish a theoretical relationship between the optimal ODE-based sampling and the classic mean-shift (mode-seeking) algorithm, with which we can characterize the asymptotic behavior of diffusion models and identify the empirical score deviation.
翻訳日:2023-10-03 14:24:05 公開日:2023-09-30
# HyP-NeRF: HyperNetwork を用いたNeRF事前学習の改善

HyP-NeRF: Learning Improved NeRF Priors using a HyperNetwork ( http://arxiv.org/abs/2306.06093v2 )

ライセンス: Link先を確認
Bipasha Sen, Gaurav Singh, Aditya Agarwal, Rohith Agaram, K Madhava Krishna, Srinath Sridhar(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンやオブジェクトの高品質な外観と形状を捉えるために、ますます人気が高まっている。 しかし,ネットワーク重み空間の高次元性のため,シーンや物体のカテゴリに対する一般化可能なNeRF先行学習は困難である。 一般化,多視点整合性,品質向上に関する既存研究の限界に対処するため,ハイパーネットワークを用いた一般化可能なカテゴリレベルのNeRF事前学習のための潜在条件付きHyP-NeRFを提案する。 ハイパーネットワークを用いて nerf の重みのみを推定するのではなく,重みとマルチレゾリューションのハッシュエンコーディングの両方を推定することで,大幅な品質向上を実現する。 さらに,高画質化のため,ハイパーネットワークで推定されたnyrfからの画像をデノベートし,マルチビューの一貫性を維持しながら微調整するデノワーズ・ファインチューン戦略を取り入れている。 これらの改良により、単一ビューからのNeRF再構成や散在シーンからのテキスト・トゥ・NeRFを含む複数の下流タスクにおいて、HyP-NeRFを一般化可能な事前処理として使用できる。 本稿では,HyP-NeRFの定性比較を行い,一般化,圧縮,検索の3つの課題について評価する。

Neural Radiance Fields (NeRF) have become an increasingly popular representation to capture high-quality appearance and shape of scenes and objects. However, learning generalizable NeRF priors over categories of scenes or objects has been challenging due to the high dimensionality of network weight space. To address the limitations of existing work on generalization, multi-view consistency and to improve quality, we propose HyP-NeRF, a latent conditioning method for learning generalizable category-level NeRF priors using hypernetworks. Rather than using hypernetworks to estimate only the weights of a NeRF, we estimate both the weights and the multi-resolution hash encodings resulting in significant quality gains. To improve quality even further, we incorporate a denoise and finetune strategy that denoises images rendered from NeRFs estimated by the hypernetwork and finetunes it while retaining multiview consistency. These improvements enable us to use HyP-NeRF as a generalizable prior for multiple downstream tasks including NeRF reconstruction from single-view or cluttered scenes and text-to-NeRF. We provide qualitative comparisons and evaluate HyP-NeRF on three tasks: generalization, compression, and retrieval, demonstrating our state-of-the-art results.
翻訳日:2023-10-03 14:12:20 公開日:2023-09-30
# ViDA: 継続的なテスト時間適応のためのホメオスタティックなビジュアルドメインアダプタ

ViDA: Homeostatic Visual Domain Adapter for Continual Test Time Adaptation ( http://arxiv.org/abs/2306.04344v2 )

ライセンス: Link先を確認
Jiaming Liu, Senqiao Yang, Peidong Jia, Renrui Zhang, Ming Lu, Yandong Guo, Wei Xue, Shanghang Zhang(参考訳) 実世界のマシンシステムは静止しない環境で動作しているため、継続テスト時間適応(CTTA)タスクは、トレーニング済みモデルに継続的なターゲットドメインの変更を適用するために提案される。 近年、既存の手法は主にモデルに基づく適応に焦点をあてており、対象ドメイン知識を抽出するために自己学習の方法を活用することを目的としている。 しかし、擬似ラベルはノイズがあり、更新されたモデルパラメータは動的データ分布では信頼できないため、連続的な適応プロセスにおいてエラーの蓄積と破滅的な忘れが生じる。 これらの課題に対処し、モデル可塑性を維持するために、我々は、ドメイン固有知識とドメイン共有知識の両方を明示的に扱いながら、CTTA用のVisual Domain Adapter (ViDA)を正確に設計する。 具体的には、まず、トレーニング可能な高階または低位の埋め込み空間を持つアダプタの異なるドメイン表現を包括的に探索する。 次に、VDAを事前学習モデルに注入し、高階と低階の機能を活用して、現在のドメイン分布に適応し、連続的なドメイン共有知識を維持する。 さらに,低ランクかつ高位のViDAをより効果的に活用するために,各ViDAから異なる知識を適応的に組み合わせたHKA戦略を提案する。 広範に用いられている4つのベンチマーク実験により,本手法は分類とセグメント化の両タスクにおいて最先端の性能を実現することを示す。 注意すべき点は、本手法は大規模モデルにおける新しい伝達パラダイムであり、継続的に変化する分布に適応する有望な結果をもたらす。

Since real-world machine systems are running in non-stationary environments, Continual Test-Time Adaptation (CTTA) task is proposed to adapt the pre-trained model to continually changing target domains. Recently, existing methods mainly focus on model-based adaptation, which aims to leverage a self-training manner to extract the target domain knowledge. However, pseudo labels can be noisy and the updated model parameters are unreliable under dynamic data distributions, leading to error accumulation and catastrophic forgetting in the continual adaptation process. To tackle these challenges and maintain the model plasticity, we tactfully design a Visual Domain Adapter (ViDA) for CTTA, explicitly handling both domain-specific and domain-shared knowledge. Specifically, we first comprehensively explore the different domain representations of the adapters with trainable high-rank or low-rank embedding spaces. Then we inject ViDAs into the pre-trained model, which leverages high-rank and low-rank features to adapt the current domain distribution and maintain the continual domain-shared knowledge, respectively. To exploit the low-rank and high-rank ViDAs more effectively, we further propose a Homeostatic Knowledge Allotment (HKA) strategy, which adaptively combines different knowledge from each ViDA. Extensive experiments conducted on four widely used benchmarks demonstrate that our proposed method achieves state-of-the-art performance in both classification and segmentation CTTA tasks. Note that, our method can be regarded as a novel transfer paradigm for large-scale models, delivering promising results in adaptation to continually changing distributions.
翻訳日:2023-10-03 14:11:42 公開日:2023-09-30
# ドメインシフト下のセマンティックセグメンテーションのための双曲型アクティブラーニング

Hyperbolic Active Learning for Semantic Segmentation under Domain Shift ( http://arxiv.org/abs/2306.11180v3 )

ライセンス: Link先を確認
Luca Franco, Paolo Mandica, Konstantinos Kallidromitis, Devin Guillory, Yu-Teng Li, Trevor Darrell, Fabio Galasso(参考訳) 本稿では,意味セグメンテーションのためのピクセルレベルアクティブラーニングへの双曲ニューラルネットワークアプローチを導入し,データの統計からボトムアップする双曲幾何学の新たな幾何学的解釈を提案する。 この定式化において、双曲半径は、クラス固有の複雑さとそのデータセットの不足を包含する説明できないクラスの複雑性の推定子として現れる。 説明されていないクラスの複雑さは、特定のピクセルを取得することがデータ情報の強化に寄与する可能性を示すメトリクスとして役立ちます。 この量と予測の不確実性を組み合わせることで、オラクルアノテーションの最も情報性の高いピクセルを識別する取得スコアを計算する。 提案するhalo(hyperbolic active learning optimization)は,領域シフトによる意味セグメンテーションのためのアクティブラーニングの新たな最先端を設定し,ラベルのごく一部(すなわち1%)のみを使用して,教師ありドメイン適応性能を上回った。 我々は、GTAV $\rightarrow$CityscapesとSynTHIA $\rightarrow$Cityscapesという2つの確立されたベンチマークに基づいて、広範な実験分析を行い、悪天候下でCityscape $\rightarrow$ACDCを試験する。

We introduce a hyperbolic neural network approach to pixel-level active learning for semantic segmentation, and propose a novel geometric interpretation of the hyperbolic geometry that arises bottom-up from the statistics of the data. In our formulation the hyperbolic radius emerges as an estimator of the unexplained class complexity, which encompasses the class intrinsic complexity and its scarcity in the dataset. The unexplained class complexity serves as a metric indicating the likelihood that acquiring a particular pixel would contribute to enhancing the data information. We combine this quantity with prediction uncertainty to compute an acquisition score that identifies the most informative pixels for oracle annotation. Our proposed HALO (Hyperbolic Active Learning Optimization) sets a new state-of-the-art in active learning for semantic segmentation under domain shift, and surpasses the supervised domain adaptation performance while only using a small portion of labels (i.e., 1%). We perform extensive experimental analysis based on two established benchmarks, i.e. GTAV $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes, and we additionally test on Cityscape $\rightarrow$ ACDC under adverse weather conditions.
翻訳日:2023-10-03 14:05:05 公開日:2023-09-30
# SSCBench:ストリートビューにおける単眼3Dセマンティックシーンコンプリートベンチマーク

SSCBench: Monocular 3D Semantic Scene Completion Benchmark in Street Views ( http://arxiv.org/abs/2306.09001v2 )

ライセンス: Link先を確認
Yiming Li, Sihang Li, Xinhao Liu, Moonjun Gong, Kenan Li, Nuo Chen, Zijun Wang, Zhiheng Li, Tao Jiang, Fisher Yu, Yue Wang, Hang Zhao, Zhiding Yu, Chen Feng(参考訳) 単眼的シーン理解は自律システムの基本的な構成要素である。 単眼の知覚トピックのスペクトルの中で、総合的な3Dシーン理解のための重要かつ有用なタスクは意味的シーン補完(SSC)であり、RGB入力から意味情報と幾何学的詳細を共同で完成する。 しかし、特に大規模ストリートビューにおけるSSCの進歩は、高品質なデータセットの不足によって妨げられている。 SSCBenchは、広く使用されている自動車データセット(KITTI-360、nuScenes、Waymoなど)のシーンを統合する包括的なベンチマークである。 SSCBenchはコミュニティで確立された設定とフォーマットに従い、様々なストリートビューでのSSCメソッドの探索を容易にする。 我々は,センサカバレッジとモダリティに起因するパフォーマンスギャップを評価するために,単眼,三眼,点クラウド入力を用いたモデルベンチマークを行った。 さらに、さまざまなデータセットにまたがるセマンティックラベルを統一し、ドメイン間の一般化テストを簡単にします。 この分野のさらなる進歩を促進するために、より多くのデータセットとSSCモデルを含めることを約束します。

Monocular scene understanding is a foundational component of autonomous systems. Within the spectrum of monocular perception topics, one crucial and useful task for holistic 3D scene understanding is semantic scene completion (SSC), which jointly completes semantic information and geometric details from RGB input. However, progress in SSC, particularly in large-scale street views, is hindered by the scarcity of high-quality datasets. To address this issue, we introduce SSCBench, a comprehensive benchmark that integrates scenes from widely used automotive datasets (e.g., KITTI-360, nuScenes, and Waymo). SSCBench follows an established setup and format in the community, facilitating the easy exploration of SSC methods in various street views. We benchmark models using monocular, trinocular, and point cloud input to assess the performance gap resulting from sensor coverage and modality. Moreover, we have unified semantic labels across diverse datasets to simplify cross-domain generalization testing. We commit to including more datasets and SSC models to drive further advancements in this field.
翻訳日:2023-10-03 14:04:08 公開日:2023-09-30
# videoqaモデルにおける共同マルチモーダル理解の錯覚の解明

Revealing the Illusion of Joint Multimodal Understanding in VideoQA Models ( http://arxiv.org/abs/2306.08889v2 )

ライセンス: Link先を確認
Ishaan Singh Rawal, Shantanu Jaiswal, Basura Fernando, Cheston Tan(参考訳) VideoQA Transformerモデルは標準ベンチマーク上での競合性能を示すが、その成功の背景にある理由は十分に理解されていない。 これらのモデルは、ビデオやテキストからリッチなマルチモーダル構造とダイナミクスを共同で捉えて活用するのでしょうか? それとも、単にショートカットを利用して高いスコアを得るのか? したがって、軽量で非パラメトリックなプローブである$\textit{QUAG}$ (QUadrant AveraGe) を設計し、マルチモーダル表現を批判的に分析する。 QUIGは、推論中にモデルが結合したマルチモーダル理解を体系的にアブレーションすることで、データセットモデルの研究を促進する。 驚くべきことに、マルチモーダル障害下でも、モデルがハイパフォーマンスを維持することを実証している。 我々は QUAG を拡張して "QUAG-attention" を設計する。 quGアテンションを持つモデルでは,微調整を伴わずに,比較的少ない倍率で同様の性能が得られることがわかった。 これらの結果から,現在のビデオQAベンチマークとメトリクスは,ショートカットの発見や共同マルチモーダル理解の縮小といったモデルをペナルティ化するものではないことが示唆された。 そこで我々は,ビデオQAにおけるマルチモーダル理解を結合した診断データセットである$\textit{CLAVI}$ (Counterfactual in LAnguage and VIdeo)を提案する。 CLAVIは、言語とビデオドメインのバランスのとれたカウンターファクトをキュレートするために強化された時間的質問とビデオで構成されている。 我々はCLAVIのモデルを評価し、全てのモデルがマルチモーダルショートカットインスタンス上で高い性能を達成することを発見した。 CLAVIを用いたQarGを用いたマルチモーダル表現解析と診断解析により、多くのビデオQAモデルはマルチモーダル表現を学習することができず、標準データセットでの成功は共同マルチモーダル理解の錯覚であることを示す。

While VideoQA Transformer models demonstrate competitive performance on standard benchmarks, the reasons behind their success are not fully understood. Do these models jointly capture and leverage the rich multimodal structures and dynamics from video and text? Or are they merely exploiting shortcuts to achieve high scores? Hence, we design $\textit{QUAG}$ (QUadrant AveraGe), a lightweight and non-parametric probe, to critically analyze multimodal representations. QUAG facilitates combined dataset-model study by systematic ablation of model's coupled multimodal understanding during inference. Surprisingly, it demonstrates that the models manage to maintain high performance even under multimodal impairment. We extend QUAG to design "QUAG-attention", a simplistic and less-expressive replacement of self-attention. We find that the models with QUAG-attention achieve similar performance with significantly less mulops without any finetuning. These findings indicate that the current VideoQA benchmarks and metrics do not penalize models that find shortcuts and discount joint multimodal understanding. Motivated by this, we propose the $\textit{CLAVI}$ (Counterfactual in LAnguage and VIdeo), a diagnostic dataset for coupled multimodal understanding in VideoQA. CLAVI consists of temporal questions and videos that are augmented to curate balanced counterfactuals in language and video domains. We evaluate models on CLAVI and find that all models achieve high performance on multimodal shortcut instances, but most of them have poor performance on the counterfactual instances that necessitate joint multimodal understanding. Overall, with the multimodal representation analysis using QUAG and diagnostic analysis using CLAVI, we show that many VideoQA models are incapable of learning multimodal representations and that their success on standard datasets is an illusion of joint multimodal understanding.
翻訳日:2023-10-03 14:03:49 公開日:2023-09-30
# ピーク時間連続予測における深層学習の可能性

Unlocking the Potential of Deep Learning in Peak-Hour Series Forecasting ( http://arxiv.org/abs/2307.01597v2 )

ライセンス: Link先を確認
Zhenwei Zhang, Xin Wang, Jingyuan Xie, Heling Zhang, Yuantao Gu(参考訳) Peak-Hour Series Forecasting (PHSF) における深層学習の可能性を解き放つことは、様々な領域において重要で未調査の課題である。 最先端のディープラーニングモデルは通常の時系列予測(TSF)では優れていますが、PHSFでは同等の結果を得るのに苦労しています。 これは、ピーク時系列における高い非定常性によって引き起こされる課題によるもので、これは通常の TSF よりも直接予測が困難である。 さらに、定期的な予測結果から手動で最大値を抽出すると、平均赤字を最小化するモデルによる最適化性能が低下する。 これらの問題に対処するため,本論文では,PHSFタスク用に設計された新しいフレームワークであるSeq2Peakについて述べる。 Seq2Peakは2つの重要なコンポーネントを提供している。非定常性問題を緩和するCyclicNormパイプラインと、オリジナルのシリーズとピーク時間の両方を教師付き信号として利用するハイブリッド損失関数を備えた単純なトレーニング可能なパラメータなしピーク時デコーダである。 一般公開された時系列データセットに関する広範囲な実験により、提案フレームワークの有効性が示され、トランスフォーマベースとトランスフォーマベースの両方のtsfモデルにおいて、4つの実世界のデータセットで平均37.7%の大幅な改善が得られた。

Unlocking the potential of deep learning in Peak-Hour Series Forecasting (PHSF) remains a critical yet underexplored task in various domains. While state-of-the-art deep learning models excel in regular Time Series Forecasting (TSF), they struggle to achieve comparable results in PHSF. This can be attributed to the challenges posed by the high degree of non-stationarity in peak-hour series, which makes direct forecasting more difficult than standard TSF. Additionally, manually extracting the maximum value from regular forecasting results leads to suboptimal performance due to models minimizing the mean deficit. To address these issues, this paper presents Seq2Peak, a novel framework designed specifically for PHSF tasks, bridging the performance gap observed in TSF models. Seq2Peak offers two key components: the CyclicNorm pipeline to mitigate the non-stationarity issue and a simple yet effective trainable-parameter-free peak-hour decoder with a hybrid loss function that utilizes both the original series and peak-hour series as supervised signals. Extensive experimentation on publicly available time series datasets demonstrates the effectiveness of the proposed framework, yielding a remarkable average relative improvement of 37.7% across four real-world datasets for both transformer- and non-transformer-based TSF models.
翻訳日:2023-10-03 13:53:55 公開日:2023-09-30
# 複雑なデータセットのスケールの法則と普遍的統計構造

The Underlying Scaling Laws and Universal Statistical Structure of Complex Datasets ( http://arxiv.org/abs/2306.14975v2 )

ライセンス: Link先を確認
Noam Levi and Yaron Oz(参考訳) 実世界の複雑なデータセットと人工的に生成されたデータセットの両方に現れる普遍的特性について検討する。 我々のアプローチは、データを物理系に類似させ、統計物理学やランダム行列理論(RMT)のツールを用いて基礎構造を明らかにすることである。 局所的および大域的固有値統計を解析し,特徴的共分散行列に着目した。 私たちの主な観察は (i)実世界のデータとは無関係な通常分散データに対して、その固有値の大部分が著しく異なるパワーロースケーリング。 (ii)このスケーリング挙動は、長距離相関を持つガウスデータを生成することによって完全にモデル化することができる。 (iii)生成データと実世界のデータセットは、統合可能なシステムではなくカオスとして、rmtの観点から同じ普遍性クラスにある。 (4) RMTの予測統計行動は, 従来の実世界のトレーニングに使用されていたデータよりも, データセットサイズにおける経験的共分散行列に対して, すでに顕著に小さく, 集団パワー則スケーリング行動の近似に要するサンプル数に関連付けられる。 (v)シャノンエントロピーは、局所rmt構造および固有値スケーリングと相関し、非相関合成データと比較して強相関データセットでは大幅に小さく、分布エントロピーに達するにはサンプルが少ない。 これらの結果は、十分なサンプルサイズを持つ自然画像データセットのグラム行列は、単純な共分散構造を持つウィシャートランダム行列によってよく近似され、ニューラルネットワークのダイナミクスとデータグラム行列に依存する一般化に関する厳密な研究への扉を開くことを示している。

We study universal traits which emerge both in real-world complex datasets, as well as in artificially generated ones. Our approach is to analogize data to a physical system and employ tools from statistical physics and Random Matrix Theory (RMT) to reveal their underlying structure. We focus on the feature-feature covariance matrix, analyzing both its local and global eigenvalue statistics. Our main observations are: (i) The power-law scalings that the bulk of its eigenvalues exhibit are vastly different for uncorrelated normally distributed data compared to real-world data, (ii) this scaling behavior can be completely modeled by generating gaussian data with long range correlations, (iii) both generated and real-world datasets lie in the same universality class from the RMT perspective, as chaotic rather than integrable systems, (iv) the expected RMT statistical behavior already manifests for empirical covariance matrices at dataset sizes significantly smaller than those conventionally used for real-world training, and can be related to the number of samples required to approximate the population power-law scaling behavior, (v) the Shannon entropy is correlated with local RMT structure and eigenvalues scaling, and substantially smaller in strongly correlated datasets compared to uncorrelated synthetic data, and requires fewer samples to reach the distribution entropy. These findings show that with sufficient sample size, the Gram matrix of natural image datasets can be well approximated by a Wishart random matrix with a simple covariance structure, opening the door to rigorous studies of neural network dynamics and generalization which rely on the data Gram matrix.
翻訳日:2023-10-03 13:51:32 公開日:2023-09-30
# DNAレンダリング:高忠実性人間中心レンダリングのための横型ニューラルアクターリポジトリ

DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering ( http://arxiv.org/abs/2307.10173v2 )

ライセンス: Link先を確認
Wei Cheng, Ruixiang Chen, Wanqi Yin, Siming Fan, Keyu Chen, Honglin He, Huiwen Luo, Zhongang Cai, Jingbo Wang, Yang Gao, Zhengming Yu, Zhengyu Lin, Daxuan Ren, Lei Yang, Ziwei Liu, Chen Change Loy, Chen Qian, Wayne Wu, Dahua Lin, Bo Dai, Kwan-Yee Lin(参考訳) リアルな人間中心のレンダリングはコンピュータビジョンとコンピュータグラフィックスの両方において重要な役割を果たす。 アルゴリズムの面ではここ数年急速に進歩してきたが、既存の人間中心のレンダリングデータセットとベンチマークは、レンダリング効果に不可欠な多様性の面では貧弱である。 研究者は通常、現在のデータセット上の小さなレンダリング問題の探索と評価を制限されるが、現実世界のアプリケーションは、さまざまなシナリオで堅牢なメソッドを必要とする。 本研究では、ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。 dnaレンダリングにはいくつかの属性がある。 まず、私たちのデータセットは1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームを含む。 第二に、2D/3Dの人体キーポイント、前景マスク、SMPLXモデル、布/アクセトリー材料、マルチビューイメージ、ビデオなど。 これらの資産は、下流レンダリングタスクにおける現在の手法の精度を高める。 第3に,60個の同期カメラと最大解像度4096 x 3000,15fpsの速度,スタンカメラキャリブレーションステップを備え,タスクトレーニングと評価のための高品質な資源を確保する,プロのマルチビューシステムを構築した。 データセットとともに,新しいビュー合成,新しいポーズアニメーション合成,新しいアイデンティティレンダリング手法の既存の進歩を評価するための複数のタスクを含む,大規模かつ定量的なベンチマークをフルスケールで提供する。 本論文では,DNAレンダリングの取り組みを,人中心レンダリングへの新たな観察,課題,今後の方向性を明らかにするものとして記述する。 データセット、コード、ベンチマークはhttps://dna-rendering.github.io/で公開される。

Realistic human-centric rendering plays a key role in both computer vision and computer graphics. Rapid progress has been made in the algorithm aspect over the years, yet existing human-centric rendering datasets and benchmarks are rather impoverished in terms of diversity, which are crucial for rendering effect. Researchers are usually constrained to explore and evaluate a small set of rendering problems on current datasets, while real-world applications require methods to be robust across different scenarios. In this work, we present DNA-Rendering, a large-scale, high-fidelity repository of human performance data for neural actor rendering. DNA-Rendering presents several alluring attributes. First, our dataset contains over 1500 human subjects, 5000 motion sequences, and 67.5M frames' data volume. Second, we provide rich assets for each subject -- 2D/3D human body keypoints, foreground masks, SMPLX models, cloth/accessory materials, multi-view images, and videos. These assets boost the current method's accuracy on downstream rendering tasks. Third, we construct a professional multi-view system to capture data, which contains 60 synchronous cameras with max 4096 x 3000 resolution, 15 fps speed, and stern camera calibration steps, ensuring high-quality resources for task training and evaluation. Along with the dataset, we provide a large-scale and quantitative benchmark in full-scale, with multiple tasks to evaluate the existing progress of novel view synthesis, novel pose animation synthesis, and novel identity rendering methods. In this manuscript, we describe our DNA-Rendering effort as a revealing of new observations, challenges, and future directions to human-centric rendering. The dataset, code, and benchmarks will be publicly available at https://dna-rendering.github.io/
翻訳日:2023-10-03 13:44:56 公開日:2023-09-30
# AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする

AlpaGasus: Training A Better Alpaca with Fewer Data ( http://arxiv.org/abs/2307.08701v2 )

ライセンス: Link先を確認
Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin(参考訳) 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を強化する。 しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。 本稿では,強力なllm(例えばchatgpt)を用いて低品質データを自動的に識別しフィルタする,簡便で効果的なデータ選択戦略を提案する。 この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。 AlpaGasusは、複数のテストセットと制御されたヒトの評価において、GPT-4で評価されたオリジナルのAlpacaよりも大幅に優れている。 13bの変種は、テストタスクにおける教師のllm(つまり52kデータを生成するtext-davinci-003)の90\%$のパフォーマンスに匹敵する。 また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。 さらに,本手法の有効性を,多種多様なデータセット,ベースモデル,LLMフィルタで実証した。 全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。 私たちのプロジェクトページは以下の通りである。

Large language models~(LLMs) strengthen instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and filters out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the efficacy of our method across diverse datasets, base models, and LLM filters. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: \url{https://lichang-chen.github.io/AlpaGasus/}
翻訳日:2023-10-03 13:43:50 公開日:2023-09-30
# think-on-graph:知識グラフによる大規模言語モデルの深く責任ある推論

Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph ( http://arxiv.org/abs/2307.07697v3 )

ライセンス: Link先を確認
Jiashuo Sun, Chengjin Xu, Lumingyuan Tang, Saizhuo Wang, Chen Lin, Yeyun Gong, Lionel M. Ni, Heung-Yeung Shum, Jian Guo(参考訳) 大規模言語モデル(llm)は様々なタスクで大きな成功を収めているが、幻覚の問題、特に深く責任ある推論を必要とするシナリオにしばしば苦労している。 これらの問題は、LLM推論に外部知識グラフ(KG)を導入することで部分的に解決できる。 本稿では, llmをエージェントとして扱い, kgs上の関連エンティティや関係を対話的に探索し, 得られた知識に基づいて推論を行う, llm-kg統合パラダイムである`$\hbox{llm}\otimes\hbox{kg}$''を提案する。 我々は、このパラダイムを、LLMエージェントがKG上でビームサーチを反復的に実行し、最も有望な推論経路を発見し、最も可能性の高い推論結果を返す、Think-on-Graph(ToG)と呼ばれる新しいアプローチを導入することで、さらに実装する。 私たちは、ToGの次の利点を検証し、説明するために、よく設計された多くの実験を使用します。 1) LLMと比較して、ToGはより深い推論能力を有する。 2)togは,llms推論と専門家のフィードバックを活用し,知識のトレーサビリティと知識の正確性を有する。 3)ToGは、異なるLLM、KG、および追加のトレーニングコストなしで戦略を推進するための柔軟なプラグアンドプレイフレームワークを提供する。 4) 小型LLMモデルによるToGの性能は, 特定のシナリオにおいて GPT-4 などの大型 LLM を超える可能性があり, これにより, LLM の展開・適用コストを低減できる。 ToGは、計算コストが低く、より汎用性の高いトレーニングフリーの方法として、以前のSOTAが追加のトレーニングに依存する9つのデータセットのうち6つで、全体的なSOTAを達成する。

Although large language models (LLMs) have achieved significant success in various tasks, they often struggle with hallucination problems, especially in scenarios requiring deep and responsible reasoning. These issues could be partially addressed by introducing external knowledge graphs (KG) in LLM reasoning. In this paper, we propose a new LLM-KG integrating paradigm ``$\hbox{LLM}\otimes\hbox{KG}$'' which treats the LLM as an agent to interactively explore related entities and relations on KGs and perform reasoning based on the retrieved knowledge. We further implement this paradigm by introducing a new approach called Think-on-Graph (ToG), in which the LLM agent iteratively executes beam search on KG, discovers the most promising reasoning paths, and returns the most likely reasoning results. We use a number of well-designed experiments to examine and illustrate the following advantages of ToG: 1) compared with LLMs, ToG has better deep reasoning power; 2) ToG has the ability of knowledge traceability and knowledge correctability by leveraging LLMs reasoning and expert feedback; 3) ToG provides a flexible plug-and-play framework for different LLMs, KGs and prompting strategies without any additional training cost; 4) the performance of ToG with small LLM models could exceed large LLM such as GPT-4 in certain scenarios and this reduces the cost of LLM deployment and application. As a training-free method with lower computational cost and better generality, ToG achieves overall SOTA in 6 out of 9 datasets where most previous SOTAs rely on additional training.
翻訳日:2023-10-03 13:43:23 公開日:2023-09-30
# 自己校正分類器指導によるラベルデータ少ないスコアベース条件生成

Score-based Conditional Generation with Fewer Labeled Data by Self-calibrating Classifier Guidance ( http://arxiv.org/abs/2307.04081v2 )

ライセンス: Link先を確認
Paul Kuo-Ming Huang, Si-An Chen, Hsuan-Tien Lin(参考訳) SGM(Score-based Generative Model)は、画像生成品質の高い深層生成モデルのファミリである。 初期の研究では、未条件のSGMと訓練された分類器のガイダンスを結合することにより、SGMをクラス条件の生成に取り組むよう拡張した。 しかしながら、そのような分類器誘導型SGMは、特にラベル付きデータが少ない場合、正確な条件生成を必ずしも達成しない。 この問題は、下層の非条件分布と協調することなく、分類器が過度に適合する傾向に根ざしていると論じる。 分類器を正規化して非条件分布を尊重することにより、分類器誘導型SGMの改善を提案する。 我々のキーとなる考え方は、エネルギーモデルからの原理を使って分類器を無条件SGMの別の見方に変換することである。 そして、未条件SGMの既存の損失を利用して、分類器の内部無条件スコアを校正することで正規化を達成できる。 正規化スキームはラベル付きデータだけでなくラベルなしデータにも適用でき、さらに分類器を改善することができる。 実験結果から,提案手法はラベル付きデータが少ない様々なパーセンテージで条件生成品質を著しく向上することが示された。 その結果,限定ラベルデータを用いた生成モデルに対する提案手法の可能性が確認された。

Score-based generative models (SGMs) are a popular family of deep generative models that achieve leading image generation quality. Early studies extend SGMs to tackle class-conditional generation by coupling an unconditional SGM with the guidance of a trained classifier. Nevertheless, such classifier-guided SGMs do not always achieve accurate conditional generation, especially when trained with fewer labeled data. We argue that the problem is rooted in the classifier's tendency to overfit without coordinating with the underlying unconditional distribution. We propose improving classifier-guided SGMs by letting the classifier regularize itself to respect the unconditional distribution. Our key idea is to use principles from energy-based models to convert the classifier as another view of the unconditional SGM. Then, existing loss for the unconditional SGM can be leveraged to achieve regularization by calibrating the classifier's internal unconditional scores. The regularization scheme can be applied to not only the labeled data but also unlabeled ones to further improve the classifier. Empirical results show that the proposed approach significantly improves conditional generation quality across various percentages of fewer labeled data. The results confirm the potential of the proposed approach for generative modeling with limited labeled data.
翻訳日:2023-10-03 13:41:40 公開日:2023-09-30
# ファインチューニング型マルチモーダルLDMによるゼロショットデモインストラクションの追跡

Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions ( http://arxiv.org/abs/2308.04152v3 )

ライセンス: Link先を確認
Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Hanwang Zhang, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Yueting Zhuang(参考訳) MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的特徴をLLMが認識できるトークンに変換するために、Visual Prompt Generators(VPG)を利用している。 これは、VPGが生成した画像のトークンを冷凍LDMに供給して対応するキャプションを生成する、数百万のイメージキャプチャペアでVPGをトレーニングすることで達成される。 しかし、この画像キャプションに基づくトレーニングの目的は、本質的にVPGがキャプション生成に十分な一次視覚内容のみに偏り、しばしば他の視覚的詳細を無視している。 この欠点は、タスクの完了に必要なコンテキストを示す複数の、インターリーブされた、マルチモーダルな命令からなる説明命令を包括するmllmsの低パフォーマンスをもたらす。 この問題に対処するために,実証的命令の解釈に必要な詳細を推論し,完成させる,汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。 また,VPG-Cを微調整し,教師付き指示の必要をなくすための総合的識別訓練戦略を提案する。 評価では,実証的指導理解のための総合的なベンチマークであるDEMONを構築した。 提案した戦略を総合的に訓練し,VPG-C は DEMON のすべてのタスクにおいて,より強力なゼロショット性能を実現する。 MMEおよびOwlEvalベンチマークのさらなる評価もVPG-Cの優位性を示している。 ベンチマーク、コード、トレーニング済みモデルはhttps://github.com/dcdmllm/cheetah.com/で利用可能です。

Recent advancements in Multimodal Large Language Models (MLLMs) have been utilizing Visual Prompt Generators (VPGs) to convert visual features into tokens that LLMs can recognize. This is achieved by training the VPGs on millions of image-caption pairs, where the VPG-generated tokens of images are fed into a frozen LLM to generate the corresponding captions. However, this image-captioning based training objective inherently biases the VPG to concentrate solely on the primary visual contents sufficient for caption generation, often neglecting other visual details. This shortcoming results in MLLMs' underperformance in comprehending demonstrative instructions consisting of multiple, interleaved, and multimodal instructions that demonstrate the required context to complete a task. To address this issue, we introduce a generic and lightweight Visual Prompt Generator Complete module (VPG-C), which can infer and complete the missing details essential for comprehending demonstrative instructions. Further, we propose a synthetic discriminative training strategy to fine-tune VPG-C, eliminating the need for supervised demonstrative instructions. As for evaluation, we build DEMON, a comprehensive benchmark for demonstrative instruction understanding. Synthetically trained with the proposed strategy, VPG-C achieves significantly stronger zero-shot performance across all tasks of DEMON. Further evaluation on the MME and OwlEval benchmarks also demonstrate the superiority of VPG-C. Our benchmark, code, and pre-trained models are available at https://github.com/DCDmllm/Cheetah.
翻訳日:2023-10-03 13:32:56 公開日:2023-09-30
# FLIPS:知的参加者選択によるフェデレーション学習

FLIPS: Federated Learning using Intelligent Participant Selection ( http://arxiv.org/abs/2308.03901v2 )

ライセンス: Link先を確認
Rahul Atul Bhope, K. R. Jayaram, Nalini Venkatasubramanian, Ashish Verma, Gegi Thomas(参考訳) 本稿では,FLIPS(Federated Learning, FL)訓練作業におけるデータ管理と不均一性の関与を行うミドルウェアシステム)の設計と実装について述べる。 特に,連合学習における参加者選択におけるラベル分布クラスタリングの効果について検討する。 FLIPSクラスタは、データのラベル分布に基づいてFLトレーニングジョブに関与し、FLトレーニング中に、選択した参加者に各クラスタが公平に表現されることを保証する。 FLIPSは、FedAvg、FedProx、FedDyn、FedOpt、FedYogiなど、最も一般的なFLアルゴリズムをサポートすることができる。 プラットフォームの不均一性と動的リソース可用性を管理するため、FLIPSは、分散されたスマートなコミュニティアプリケーションにおいて、変更能力を扱うためのストラグラー管理機構を組み込んでいる。 ラベル配信、クラスタリング、参加者選択のプライバシは、信頼できる実行環境(TEE)を通じて保証される。 我々の総合的な実証評価では、FLIPSとランダムな選択機構、および2つの実世界のデータセット、ベンチマークデータセット、2つの異なる非IID分布、3つの共通FLアルゴリズム(FedYogi、FedProx、FedAvg)を用いた3つの"スマート"選択メカニズムを比較した。 FLIPSはコンバージェンスを大幅に改善し,20~60%の通信コストで17~20%の精度を実現し,トラグラー参加者の存在下での持続性を示した。

This paper presents the design and implementation of FLIPS, a middleware system to manage data and participant heterogeneity in federated learning (FL) training workloads. In particular, we examine the benefits of label distribution clustering on participant selection in federated learning. FLIPS clusters parties involved in an FL training job based on the label distribution of their data apriori, and during FL training, ensures that each cluster is equitably represented in the participants selected. FLIPS can support the most common FL algorithms, including FedAvg, FedProx, FedDyn, FedOpt and FedYogi. To manage platform heterogeneity and dynamic resource availability, FLIPS incorporates a straggler management mechanism to handle changing capacities in distributed, smart community applications. Privacy of label distributions, clustering and participant selection is ensured through a trusted execution environment (TEE). Our comprehensive empirical evaluation compares FLIPS with random participant selection, as well as three other "smart" selection mechanisms - Oort, TiFL and gradient clustering using two real-world datasets, two benchmark datasets, two different non-IID distributions and three common FL algorithms (FedYogi, FedProx and FedAvg). We demonstrate that FLIPS significantly improves convergence, achieving higher accuracy by 17 - 20 % with 20 - 60 % lower communication costs, and these benefits endure in the presence of straggler participants.
翻訳日:2023-10-03 13:32:28 公開日:2023-09-30
# クロス共振ハミルトニアンを用いたユニバーサル2量子量子回路の実装手法

A Scheme to Implement a Universal Two-Qubit Quantum Circuit using Cross-Resonance Hamiltonian ( http://arxiv.org/abs/2307.12599v2 )

ライセンス: Link先を確認
M. Karthick Selvan and S. Balakrishnan(参考訳) 本稿では、最近提案された2量子ビット量子回路に、特殊完全エンタングル(SPE)と局所y回転の2つの応用を含む局所的に等価な回路を提案する。 さらに,交差共振ハミルトニアンを用いた等価回路の実装について検討する。 我々は、cnotゲートと \sqrt{\text{cnot}}ゲートを用いてbゲート回路を実装した。 これは2つのCNOTゲートを使用して同じゲートを実装するのに必要な時間の約64.84%の時間を必要とする。 また、(n - 1)Bゲートの応用は、n-qubit GHZ状態とn-qubit perfect W状態の両方を生成可能であることを示す。

In this brief report, we propose a circuit which is locally equivalent to a recently proposed universal two-qubit quantum circuit involving two applications of special perfect entanglers (SPEs) and local y-rotations. Further, we discuss a scheme to implement the equivalent circuit using cross-resonance Hamiltonian. We implement the B-gate circuit using a CNOT gate and a \sqrt{\text{CNOT}} gate. This requires the implementation time which is approximately 64.84% of the time required to implement the same gate using two CNOT gates. We also show that (n - 1) applications of B-gate can generate both the n-qubit GHZ state and n-qubit perfect W state.
翻訳日:2023-10-03 13:31:05 公開日:2023-09-30
# 強化学習によるプロンプトベース長制御生成

Prompt-Based Length Controlled Generation with Reinforcement Learning ( http://arxiv.org/abs/2308.12030v2 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) ChatGPT や GPT-4 のような大規模言語モデル (LLM) は、幅広い NLP タスクにおける驚くべきパフォーマンスから大きな注目を集めている。 長さを制御したLLMの生成は重要なトピックとして現れ、ユーザーは所望の長さの適切な回答やエッセイを生成するなど、より現実的なシナリオでLLMの能力を完全に活用することができる。 さらに、LLMにおける自己回帰生成は極めて時間がかかり、この生成した長さを制御する能力は、長さを制限することで推論コストを低減することができる。 そこで本研究では,高精度な長さ制御を実現するためのプロンプトベース長さ制御手法を提案する。 特に,訓練可能あるいは規則に基づく報酬モデルが与える報酬信号を用いた強化学習を採用することで,事前定義された制御命令に従う出力を報酬することにより,llmの長さ制御能力がさらに向上する。 また,ルールベースの推論を可能にするために,ユーザの入力から標準制御情報を収集する標準プロンプト抽出器を導入する。 実験により,cnndmやnytなどの一般的なデータセットにおける要約タスクに対するプロンプトベース長制御の精度が大幅に向上した。 標準プロンプト抽出器とrlチューニングモデルの両方が、プロンプトテンプレートの制御を無視する強力な一般化能力を示している。

Large language models (LLMs) like ChatGPT and GPT-4 have attracted great attention given their surprising performance on a wide range of NLP tasks. Length controlled generation of LLMs emerges as an important topic, which enables users to fully leverage the capability of LLMs in more real-world scenarios like generating a proper answer or essay of a desired length. In addition, the autoregressive generation in LLMs is extremely time-consuming, while the ability of controlling this generated length can reduce the inference cost by limiting the length. Therefore, we propose a prompt-based length control method to achieve high-accuracy length controlled generation. In particular, we adopt reinforcement learning with the reward signal given by either trainable or rule-based reward models, which further enhances the length-control ability of LLMs by rewarding outputs that follows pre-defined control instruction. To enable rule-based inference, we also introduce standard prompt extractor to collect the standard control information from users' input. Experiments show that our method significantly improves the accuracy of prompt-based length control for summarization task on popular datasets like CNNDM and NYT. Both the standard prompt extractor and the RL-tuned model have show strong generalization ability to unseen control prompt templates.
翻訳日:2023-10-03 13:23:08 公開日:2023-09-30
# プロンプトインジェクションに対する大規模言語モデルの指示追従ロバスト性の評価

Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection ( http://arxiv.org/abs/2308.10819v2 )

ライセンス: Link先を確認
Zekun Li and Baolin Peng and Pengcheng He and Xifeng Yan(参考訳) 大規模言語モデル(llm)は、以下の指示に対して顕著な熟練度を示しており、顧客向けアプリケーションで有用である。 しかし、その印象的な能力は、敵の命令によって引き起こされるリスクの増幅にも懸念を生じさせ、サードパーティの攻撃者が入力したモデルに注入することで、LSMのオリジナル命令を操作し、意図しないアクションやコンテンツを促すことができる。 したがって、LLMがどの命令に従うべきかを正確に把握し、実際のシナリオに安全な配置を確実にする能力を理解することは重要である。 本稿では,プロンプトに挿入された敵命令に対する命令追従llmのロバスト性を自動的に評価するための先駆的ベンチマークを提案する。 本ベンチマークの目的は,LLMがインジェクションされた逆数命令の影響範囲を定量化し,これらのインジェクションされた逆数命令と元のユーザ命令とを区別する能力を評価することである。 最先端の命令追従型LDMを用いて行った実験により、敵の命令注入攻撃に対するロバスト性に大きな限界が明らかになった。 さらに,提案手法は,指示文を正しく理解することなく,指示句を指示文に従わせるために‘オーバーフィット’する傾向が強いことが示唆された。 これは単に命令句に従ってテキストを完了するのではなく、プロンプトを理解するためのトレーニングモデルの課題に対処する必要性を強調している。 データとコードは \url{https://github.com/Leezekun/Adv-Instruct-Eval} で見ることができる。

Large Language Models (LLMs) have shown remarkable proficiency in following instructions, making them valuable in customer-facing applications. However, their impressive capabilities also raise concerns about the amplification of risks posed by adversarial instructions, which can be injected into the model input by third-party attackers to manipulate LLMs' original instructions and prompt unintended actions and content. Therefore, it is crucial to understand LLMs' ability to accurately discern which instructions to follow to ensure their safe deployment in real-world scenarios. In this paper, we propose a pioneering benchmark for automatically evaluating the robustness of instruction-following LLMs against adversarial instructions injected in the prompt. The objective of this benchmark is to quantify the extent to which LLMs are influenced by injected adversarial instructions and assess their ability to differentiate between these injected adversarial instructions and original user instructions. Through experiments conducted with state-of-the-art instruction-following LLMs, we uncover significant limitations in their robustness against adversarial instruction injection attacks. Furthermore, our findings indicate that prevalent instruction-tuned models are prone to being ``overfitted'' to follow any instruction phrase in the prompt without truly understanding which instructions should be followed. This highlights the need to address the challenge of training models to comprehend prompts instead of merely following instruction phrases and completing the text. The data and code can be found at \url{https://github.com/Leezekun/Adv-Instruct-Eval}.
翻訳日:2023-10-03 13:21:53 公開日:2023-09-30
# Adaptive Growth: リアルタイムCNN層の拡大

Adaptive Growth: Real-time CNN Layer Expansion ( http://arxiv.org/abs/2309.03049v2 )

ライセンス: Link先を確認
Yunjie Zhu and Yunhao Chen(参考訳) ディープニューラルネットワーク(DNN)は、膨大なデータセット管理の習熟度を反映して、多くのアプリケーションで非並列的な成果を示している。 しかし、静的構造は、常に変化する環境における適応性を制限する。 本研究では、畳み込みニューラルネットワーク(CNN)の畳み込み層をデータ入力に基づいて動的に進化させながら、既存のDNNにシームレスに統合する新しいアルゴリズムを提案する。 厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。 このプロセスは、層が画像の特徴を識別し、成長を導く能力を評価することで洗練される。 私たちの教師なしの手法は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100といったさまざまなデータセットにまたがっている。 また、トランスファー学習シナリオにおける適応性の向上も示す。 データ駆動モデルのスケーラビリティ戦略を導入することで、ディープラーニングにおける空白を埋め、動的設定に適したより柔軟で効率的なDNNを実現しています。 コード: (https://github.com/YunjieZhu/Extensible-Convolutional-Layer-git-version)。

Deep Neural Networks (DNNs) have shown unparalleled achievements in numerous applications, reflecting their proficiency in managing vast data sets. Yet, their static structure limits their adaptability in ever-changing environments. This research presents a new algorithm that allows the convolutional layer of a Convolutional Neural Network (CNN) to dynamically evolve based on data input, while still being seamlessly integrated into existing DNNs. Instead of a rigid architecture, our approach iteratively introduces kernels to the convolutional layer, gauging its real-time response to varying data. This process is refined by evaluating the layer's capacity to discern image features, guiding its growth. Remarkably, our unsupervised method has outstripped its supervised counterparts across diverse datasets like MNIST, Fashion-MNIST, CIFAR-10, and CIFAR-100. It also showcases enhanced adaptability in transfer learning scenarios. By introducing a data-driven model scalability strategy, we are filling a void in deep learning, leading to more flexible and efficient DNNs suited for dynamic settings. Code:(https://github.com/YunjieZhu/Extensible-Convolutional-Layer-git-version).
翻訳日:2023-10-03 13:09:48 公開日:2023-09-30
# 数学問題解決における思考連鎖の設計

Design of Chain-of-Thought in Math Problem Solving ( http://arxiv.org/abs/2309.11054v2 )

ライセンス: Link先を確認
Zhanming Jie, Trung Quoc Luong, Xinbo Zhang, Xiaoran Jin, Hang Li(参考訳) CoT (Chain-of-Thought) は数学の問題解決において重要な役割を担っている。 我々はCoT設計手法の総合的な検討を行い、従来の自然言語CoTと自己記述プログラム、コメント記述プログラム、非記述プログラムを含む様々なプログラムCoTを比較した。 さらに,プログラミング言語がプログラムCoTに与える影響について検討し,PythonとWolfram言語との比較を行った。 GSM8K, MATHQA, SVAMPの広範な実験により, プログラムCoTsは数学問題の解法において優れていることが判明した。 特に、30Bパラメータと最高のパフォーマンスの組み合わせは、GPT-3.5-turboをかなり上回っている。 その結果, 自己記述プログラムはより多様性をもたらし, 一般に高い性能を達成できることがわかった。 また、pythonはプログラムcotsのwolframよりも優れた言語選択であることも分かりました。 実験結果は、さらなる進歩のためにプログラミング言語とコーディングスタイルの両方を考慮した将来のCoT設計のための貴重なガイドラインを提供する。 データセットとコードは公開されています。

Chain-of-Thought (CoT) plays a crucial role in reasoning for math problem solving. We conduct a comprehensive examination of methods for designing CoT, comparing conventional natural language CoT with various program CoTs, including the self-describing program, the comment-describing program, and the non-describing program. Furthermore, we investigate the impact of programming language on program CoTs, comparing Python and Wolfram Language. Through extensive experiments on GSM8K, MATHQA, and SVAMP, we find that program CoTs often have superior effectiveness in math problem solving. Notably, the best performing combination with 30B parameters beats GPT-3.5-turbo by a significant margin. The results show that self-describing program offers greater diversity and thus can generally achieve higher performance. We also find that Python is a better choice of language than Wolfram for program CoTs. The experimental results provide a valuable guideline for future CoT designs that take into account both programming language and coding style for further advancements. Our datasets and code are publicly available.
翻訳日:2023-10-03 13:02:08 公開日:2023-09-30
# 「大いなる力は大きな責任を負う!」:学生と教官がLLMが学部工学教育に与える影響について

"With Great Power Comes Great Responsibility!": Student and Instructor Perspectives on the influence of LLMs on Undergraduate Engineering Education ( http://arxiv.org/abs/2309.10694v2 )

ライセンス: Link先を確認
Ishika Joshi, Ritvik Budhiraja, Pranav Deepak Tanna, Lovenya Jain, Mihika Deshpande, Arjun Srivastava, Srinivas Rallapalli, Harshal D Akolekar, Jagat Sesh Challa, Dhruv Kumar(参考訳) LLM(Large Language Models)の人気が高まったことは学術界で議論を巻き起こし、LLMベースのコースワーク調査ツールを探究する学生や、教育や研究のためのインストラクターが集まっている。 学生やインストラクターに適したLLMベースのツールの開発には多くの作業が進行中であるが、LLMに関する学生やインストラクターの視点を捉えた総合的なユーザスタディが欠如している。 本稿では,インドにおける工学系大学における調査とインタビュアーを実施し,このギャップについて述べる。 chatgpt (a popular llm) の学術的利用に関する調査回答1306件,学生面接112件,インストラクターインタビュー27件を用いて,現在の利用状況,効果感,脅威,課題について考察するとともに,学生とインストラクターの間でのllmの採用を促進するための勧告を提供する。 これらの知見は、大学院工学教育などにおけるLLMの実践的意義を議論するためにさらに活用されている。

The rise in popularity of Large Language Models (LLMs) has prompted discussions in academic circles, with students exploring LLM-based tools for coursework inquiries and instructors exploring them for teaching and research. Even though a lot of work is underway to create LLM-based tools tailored for students and instructors, there is a lack of comprehensive user studies that capture the perspectives of students and instructors regarding LLMs. This paper addresses this gap by conducting surveys and interviews within undergraduate engineering universities in India. Using 1306 survey responses among students, 112 student interviews, and 27 instructor interviews around the academic usage of ChatGPT (a popular LLM), this paper offers insights into the current usage patterns, perceived benefits, threats, and challenges, as well as recommendations for enhancing the adoption of LLMs among students and instructors. These insights are further utilized to discuss the practical implications of LLMs in undergraduate engineering education and beyond.
翻訳日:2023-10-03 13:01:23 公開日:2023-09-30
# オートドライブエコシステムを用いた協調・競争型自動運転車のマルチエージェント深部強化学習

Multi-Agent Deep Reinforcement Learning for Cooperative and Competitive Autonomous Vehicles using AutoDRIVE Ecosystem ( http://arxiv.org/abs/2309.10007v2 )

ライセンス: Link先を確認
Tanmay Vilas Samak, Chinmay Vilas Samak and Venkat Krovi(参考訳) 本研究は、自律走行車内における競争行動だけでなく、協調を模倣するモジュラーで並列化可能なマルチエージェント深層強化学習フレームワークを提案する。 我々は,ナイジェルとf1tenthの物理的に正確かつグラフィカルなデジタル双生児を開発するための実現要因として,autodriveエコシステムを導入する。 まず, 共通政策アプローチを用いたマルチエージェント学習設定だけでなく, 限定状態情報を共有する一組の協調車両(ナイジェル)を用いて, 交差点横断問題について検討する。 次に、異なる車両群(F1TENTH)を用いて、個別のポリシーアプローチを用いたマルチエージェント学習環境において、対向的なヘッドツーヘッド自律レース問題を調査する。 いずれの実験でも、エージェントが相互に独立し非同期動作を示すため、確率的環境におけるアプローチの堅牢なトレーニングとテストを可能にする分散学習アーキテクチャが採用された。 この問題はさらに悪化し、エージェントにスパースな観察空間を提供し、強制されたキノダイナミックと安全性の制約を暗黙的に満足するサンプル制御コマンドを要求された。 2つの問題文の実験結果は、トレーニングとデプロイメントフェーズの定量的指標と質的記述の観点で報告される。

This work presents a modular and parallelizable multi-agent deep reinforcement learning framework for imbibing cooperative as well as competitive behaviors within autonomous vehicles. We introduce AutoDRIVE Ecosystem as an enabler to develop physically accurate and graphically realistic digital twins of Nigel and F1TENTH, two scaled autonomous vehicle platforms with unique qualities and capabilities, and leverage this ecosystem to train and deploy multi-agent reinforcement learning policies. We first investigate an intersection traversal problem using a set of cooperative vehicles (Nigel) that share limited state information with each other in single as well as multi-agent learning settings using a common policy approach. We then investigate an adversarial head-to-head autonomous racing problem using a different set of vehicles (F1TENTH) in a multi-agent learning setting using an individual policy approach. In either set of experiments, a decentralized learning architecture was adopted, which allowed robust training and testing of the approaches in stochastic environments, since the agents were mutually independent and exhibited asynchronous motion behavior. The problems were further aggravated by providing the agents with sparse observation spaces and requiring them to sample control commands that implicitly satisfied the imposed kinodynamic as well as safety constraints. The experimental results for both problem statements are reported in terms of quantitative metrics and qualitative remarks for training as well as deployment phases.
翻訳日:2023-10-03 13:00:59 公開日:2023-09-30
# 適応優先性強化による公平分類器の一般化

Boosting Fair Classifier Generalization through Adaptive Priority Reweighing ( http://arxiv.org/abs/2309.08375v2 )

ライセンス: Link先を確認
Zhihao Hu, Yiran Xu, Mengnan Du, Jindong Gu, Xinmei Tian, and Fengxiang He(参考訳) 重要な意思決定領域における機械学習アプリケーションの普及に伴い、アルゴリズム的公正性の要求がより顕著になる。 公正性制約を学習することでアルゴリズムの公正性を改善するための様々なモダリティがあるが、それらの性能はテストセットではうまく一般化しない。 より優れた一般化性を持つ性能向上フェアアルゴリズムが必要である。 本稿では,モデル一般化性に対するトレーニングデータとテストデータ間の分布シフトの影響を解消する新しい適応緩和法を提案する。 以前のリウィーディング法のほとんどは、各(部分)群に対して統一重みを割り当てることを提案している。 むしろ,提案手法はサンプル予測から決定境界までの距離を粒密にモデル化する。 適応的リウィーディング法は, 決定境界に近いサンプルを優先し, 公平な分類器の一般化性を向上させるために高い重みを割り当てる。 グラフ型ベンチマークにおいて,適応的優先順位付け手法の精度と公平度(等機会,等化確率,人口比率)の一般化性を検証するため,広範囲な実験を行った。 また,言語と視覚モデルの公平性を向上する上で,本手法の性能を強調した。 コードはhttps://github.com/che2198/apwで入手できる。

With the increasing penetration of machine learning applications in critical decision-making areas, calls for algorithmic fairness are more prominent. Although there have been various modalities to improve algorithmic fairness through learning with fairness constraints, their performance does not generalize well in the test set. A performance-promising fair algorithm with better generalizability is needed. This paper proposes a novel adaptive reweighing method to eliminate the impact of the distribution shifts between training and test data on model generalizability. Most previous reweighing methods propose to assign a unified weight for each (sub)group. Rather, our method granularly models the distance from the sample predictions to the decision boundary. Our adaptive reweighing method prioritizes samples closer to the decision boundary and assigns a higher weight to improve the generalizability of fair classifiers. Extensive experiments are performed to validate the generalizability of our adaptive priority reweighing method for accuracy and fairness measures (i.e., equal opportunity, equalized odds, and demographic parity) in tabular benchmarks. We also highlight the performance of our method in improving the fairness of language and vision models. The code is available at https://github.com/che2198/APW.
翻訳日:2023-10-03 12:59:18 公開日:2023-09-30
# EquiCity Game:空間構成の参加設計のための数学的真剣なゲーム

EquiCity Game: A mathematical serious game for participatory design of spatial configurations ( http://arxiv.org/abs/2309.13396v2 )

ライセンス: Link先を確認
Pirouz Nourian, Shervin Azadi, Nan Bai, Bruno de Andrade, Nour Abu Zaid, Samaneh Rezvani, and Ana Pereira Roders(参考訳) 本研究では, 都市計画, 市街地再開発, 都市集合住宅の建築設計(大規模化)の意思決定過程を仲介する数学的社会選択ゲームを提案する。 提案するゲームは,選択肢の総合的影響を明らかにする自動評価・スカリング機構を備えたマルチプレイヤー生成型コンフィギュレータであり,空間設計における透過的かつ包括的な意思決定プロセスをサポートし,持続可能な開発目標の公平なバランスを確保するための参加型ディジタルプロセスを備えている。 そのため、このゲームは意思決定者のグループに対して、さまざまな種類の投資に対する関心やコントロールで、意思決定間の多くのトレードオフを数学的にシミュレートすることで、公正な合意に達する権限を効果的に付与する。 Our proposed gamified design process encompasses decision-making about the most idiosyncratic aspects of a site related to its heritage status and cultural significance to the physical aspects such as balancing access to sunlight and the right to sunlight of the neighbours of the site, ensuring coherence of the entire configuration with regards to a network of desired closeness ratings, the satisfaction of a programme of requirements, and intricately balancing individual development goals in conjunction with communal goals and environmental design codes. NumPyのようなオープンな地理空間データとオープンソースの計算ツールを用いて、我々のデジタルツインニングプラットフォーム上の代数的計算プロセスに基づいて完全に開発されている。 数学的プロセスは、アクターの判断のバランスをとるマルコフ設計機械、ファジィ論理とマルチクリトリア決定解析を備えたマッサージ構成装置、代数グラフ理論アクセシビリティ評価器、地理空間的計算幾何学を用いた自動太陽気候評価器から構成される。

We propose mechanisms for a mathematical social-choice game that is designed to mediate decision-making processes for city planning, urban area redevelopment, and architectural design (massing) of urban housing complexes. The proposed game is effectively a multi-player generative configurator equipped with automated appraisal/scoring mechanisms for revealing the aggregate impact of alternatives; featuring a participatory digital process to support transparent and inclusive decision-making processes in spatial design for ensuring an equitable balance of sustainable development goals. As such, the game effectively empowers a group of decision-makers to reach a fair consensus by mathematically simulating many rounds of trade-offs between their decisions, with different levels of interest or control over various types of investments. Our proposed gamified design process encompasses decision-making about the most idiosyncratic aspects of a site related to its heritage status and cultural significance to the physical aspects such as balancing access to sunlight and the right to sunlight of the neighbours of the site, ensuring coherence of the entire configuration with regards to a network of desired closeness ratings, the satisfaction of a programme of requirements, and intricately balancing individual development goals in conjunction with communal goals and environmental design codes. The game is developed fully based on an algebraic computational process on our own digital twinning platform, using open geospatial data and open-source computational tools such as NumPy. The mathematical process consists of a Markovian design machine for balancing the decisions of actors, a massing configurator equipped with Fuzzy Logic and Multi-Criteria Decision Analysis, algebraic graph-theoretical accessibility evaluators, and automated solar-climatic evaluators using geospatial computational geometry.
翻訳日:2023-10-03 12:50:44 公開日:2023-09-30
# 生物医学文献からの知識グラフ構築のためのBioBERTのゲルムリン遺伝子解析への応用

Applying BioBERT to Extract Germline Gene-Disease Associations for Building a Knowledge Graph from the Biomedical Literature ( http://arxiv.org/abs/2309.13061v2 )

ライセンス: Link先を確認
Armando D. Diaz Gonzalez, Songhui Yue, Sean T. Hayes, Kevin S. Hughes(参考訳) 生物医学的な情報は急速に増え続けている。 自然言語処理(NLP)の最近の進歩は、遺伝子や疾患などの実体に関するバイオメディカル知識の抽出、正規化、表現の自動化にかなりの関心を集めている。 本研究は、遺伝子や疾患の領域で行われている膨大な研究の知識グラフの構築において、生殖系抽象を解析したものである。 本稿では,ジェムリン遺伝子と疾患を結合する知識グラフ構築手法SimpleGermKGを提案する。 遺伝子および疾患の抽出には、バイオメディカルコーパス上でトレーニング済みのBERTモデルであるBioBERTを用いる。 医学用語を標準化・曖昧化するためのオントロジに基づくルールベースアルゴリズムを提案する。 論文,遺伝子,疾患間の意味的関係について,各エンティティとデータソースを接続し,グラフベースの知識表現で視覚化する部分的関連アプローチを実装した。 最後に,ガームラインコーパスの今後の研究を促すための知識グラフの応用,限界,課題について論じる。 知識グラフには297の遺伝子、130の疾患、46,747のトリプルが含まれている。 グラフベースの可視化が結果の表示に使用される。

Published biomedical information has and continues to rapidly increase. The recent advancements in Natural Language Processing (NLP), have generated considerable interest in automating the extraction, normalization, and representation of biomedical knowledge about entities such as genes and diseases. Our study analyzes germline abstracts in the construction of knowledge graphs of the of the immense work that has been done in this area for genes and diseases. This paper presents SimpleGermKG, an automatic knowledge graph construction approach that connects germline genes and diseases. For the extraction of genes and diseases, we employ BioBERT, a pre-trained BERT model on biomedical corpora. We propose an ontology-based and rule-based algorithm to standardize and disambiguate medical terms. For semantic relationships between articles, genes, and diseases, we implemented a part-whole relation approach to connect each entity with its data source and visualize them in a graph-based knowledge representation. Lastly, we discuss the knowledge graph applications, limitations, and challenges to inspire the future research of germline corpora. Our knowledge graph contains 297 genes, 130 diseases, and 46,747 triples. Graph-based visualizations are used to show the results.
翻訳日:2023-10-03 12:49:13 公開日:2023-09-30
# 機械翻訳における学習データ分布と語尾トークン化が性別バイアスに及ぼす影響の検討

Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation ( http://arxiv.org/abs/2309.12491v2 )

ライセンス: Link先を確認
Bar Iluz, Tomasz Limisiewicz, Gabriel Stanovsky, David Mare\v{c}ek(参考訳) 本稿では,トークン化が機械翻訳における性別バイアスに与える影響について検討する。 具体的には、訓練データにおける性別付き職業名の頻度、サブワードトークンの語彙における表現、性別バイアスの相互作用に焦点を当てる。 我々は、職業名(スペイン語で「女性医師」を意味するdoctoraなど)の女性と非ステレオタイプ性差は、複数のサブワードトークンに分割される傾向があることを観察する。 以上の結果から,モデルのトレーニングコーパスにおけるジェンダーフォームの不均衡は,ジェンダーバイアスに寄与する主要な要因であり,サブワード分割よりも大きな影響があることが示唆された。 サブワード分割の分析は、トレーニングデータにおける性別形態の不均衡を適切に推定し、コーパスが公開されていない場合でも使用できることを示す。 また,トークン埋め込み層のみを微調整することで,翻訳品質を損なうことなく男女間の性別予測精度の差を低減できることを示した。

We study the effect of tokenization on gender bias in machine translation, an aspect that has been largely overlooked in previous works. Specifically, we focus on the interactions between the frequency of gendered profession names in training data, their representation in the subword tokenizer's vocabulary, and gender bias. We observe that female and non-stereotypical gender inflections of profession names (e.g., Spanish "doctora" for "female doctor") tend to be split into multiple subword tokens. Our results indicate that the imbalance of gender forms in the model's training corpus is a major factor contributing to gender bias and has a greater impact than subword splitting. We show that analyzing subword splits provides good estimates of gender-form imbalance in the training data and can be used even when the corpus is not publicly available. We also demonstrate that fine-tuning just the token embedding layer can decrease the gap in gender prediction accuracy between female and male forms without impairing the translation quality.
翻訳日:2023-10-03 12:48:53 公開日:2023-09-30
# SAVME:メタラーニングを用いた自律システムの効率的な安全性検証

SAVME: Efficient Safety Validation for Autonomous Systems Using Meta-Learning ( http://arxiv.org/abs/2309.12474v2 )

ライセンス: Link先を確認
Marc R. Schlichting, Nina V. Boord, Anthony L. Corso, Mykel J. Kochenderfer(参考訳) 自律システムの潜在的な障害を発見することは、展開前に重要である。 改ざんに基づく手法は、しばしばシステムの安全性を評価するために用いられるが、多くの正確なシミュレーションを実行するコストが高い可能性がある。 テスト中のシステムの重要な障害シナリオを特定し、シミュレーションランタイムを小さくすることで、検証を高速化することができる。 本稿では,多腕バンディットフレームワークとメタラーニング戦略を統合するベイズアプローチを提案する。 提案手法は,テスト対象のシステムで障害を引き起こすおそれのあるシナリオパラメータの分布を学習するだけでなく,高速かつ正確なシミュレーションを可能にする忠実度設定上の分布を学習する。 メタ学習の精神では、学習された忠実度設定分布が、新しいシナリオのシナリオパラメータ分布の学習を高速化するかどうかも評価する。 カメラとlidarセンサーを備えた自動運転車スタックに16種類の忠実度設定を組み込んだ,最先端の3d運転シミュレータを用いた手法を紹介する。 自動運転車のプリクラッシュタイポロジーに基づいて,様々なシナリオを評価する。 その結果,高忠実度シミュレータのみに依存する従来の手法に比べて,最大18倍の高速化を実現することができた。

Discovering potential failures of an autonomous system is important prior to deployment. Falsification-based methods are often used to assess the safety of such systems, but the cost of running many accurate simulation can be high. The validation can be accelerated by identifying critical failure scenarios for the system under test and by reducing the simulation runtime. We propose a Bayesian approach that integrates meta-learning strategies with a multi-armed bandit framework. Our method involves learning distributions over scenario parameters that are prone to triggering failures in the system under test, as well as a distribution over fidelity settings that enable fast and accurate simulations. In the spirit of meta-learning, we also assess whether the learned fidelity settings distribution facilitates faster learning of the scenario parameter distributions for new scenarios. We showcase our methodology using a cutting-edge 3D driving simulator, incorporating 16 fidelity settings for an autonomous vehicle stack that includes camera and lidar sensors. We evaluate various scenarios based on an autonomous vehicle pre-crash typology. As a result, our approach achieves a significant speedup, up to 18 times faster compared to traditional methods that solely rely on a high-fidelity simulator.
翻訳日:2023-10-03 12:48:21 公開日:2023-09-30
# 国家経済動員のためのHTNに基づくタスク割り当て計画

Task allocation planning based on HTN for national economic mobilization ( http://arxiv.org/abs/2309.12341v2 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 国家経済動員におけるタスク割り当てに対応するために,階層型タスクネットワーク(HTN)に基づくタスク割り当て計画手法を提案する。 HTN計画アルゴリズムはタスク割り当てを解き、最適化するために設計され、リソース不足に対処する手法が検討されている。 最後に、国家経済動員における実際のタスク割当事例に基づいて、提案手法の有効性を検証する実験研究を行った。

In order to cope with the task allocation in national economic mobilization, a task allocation planning method based on Hierarchical Task Network (HTN) for national economic mobilization is proposed. An HTN planning algorithm is designed to solve and optimize task allocation, and a method is explored to deal with the resource shortage. Finally, based on a real task allocation case in national economic mobilization, an experimental study verifies the effectiveness of the proposed method.
翻訳日:2023-10-03 12:48:03 公開日:2023-09-30
# LMSYS-Chat-1M:大規模実世界のLLM会話データセット

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset ( http://arxiv.org/abs/2309.11998v3 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric. P Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang(参考訳) 大規模言語モデル(LLM)を現実のシナリオでどのように扱うかを研究することは、様々なアプリケーションで広く使われているため、ますます重要になっている。 本稿では,25の最先端llmと100万の会話を含む大規模データセットlmsys-chat-1mを紹介する。 このデータセットは、VicunaのデモとChatbot ArenaのWebサイトで、210KのユニークなIPアドレスから収集されています。 我々は、そのキュレーションプロセス、基礎統計、トピックの分布など、データセットの内容の概要を提供し、その多様性、独創性、スケールを強調します。 GPT-4と同様の動作を行うコンテンツモデレーションモデルの開発、安全性ベンチマークの構築、Vicunaと同様の動作を行う命令追従モデルのトレーニング、挑戦的なベンチマーク問題の作成である。 私たちは、このデータセットがLLMの機能を理解し、前進するための貴重なリソースになると信じています。 データセットはhttps://huggingface.co/datasets/lmsys/lmsys-chat-1mで公開されている。

Studying how people interact with large language models (LLMs) in real-world scenarios is increasingly important due to their widespread use in various applications. In this paper, we introduce LMSYS-Chat-1M, a large-scale dataset containing one million real-world conversations with 25 state-of-the-art LLMs. This dataset is collected from 210K unique IP addresses in the wild on our Vicuna demo and Chatbot Arena website. We offer an overview of the dataset's content, including its curation process, basic statistics, and topic distribution, highlighting its diversity, originality, and scale. We demonstrate its versatility through four use cases: developing content moderation models that perform similarly to GPT-4, building a safety benchmark, training instruction-following models that perform similarly to Vicuna, and creating challenging benchmark questions. We believe that this dataset will serve as a valuable resource for understanding and advancing LLM capabilities. The dataset is publicly available at https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
翻訳日:2023-10-03 12:47:37 公開日:2023-09-30
# LinGCN: 同型暗号化推論のための構造線形グラフ畳み込みネットワーク

LinGCN: Structural Linearized Graph Convolutional Network for Homomorphically Encrypted Inference ( http://arxiv.org/abs/2309.14331v2 )

ライセンス: Link先を確認
Hongwu Peng and Ran Ran and Yukui Luo and Jiahui Zhao and Shaoyi Huang and Kiran Thorat and Tong Geng and Chenghong Wang and Xiaolin Xu and Wujie Wen and Caiwen Ding(参考訳) グラフ畳み込みネットワーク(GCN)モデルのサイズの成長は、パーソナルヘルスケアや金融システムといった分野における人的パフォーマンスを上回る多くのアプリケーションに革命をもたらした。 クラウドへのGCNのデプロイは、クライアントデータに対する潜在的敵攻撃によるプライバシー上の懸念を引き起こす。 セキュリティ問題に対処するため、準同型暗号化(he)を使用したプライバシ保存機械学習(ppml)は、機密性の高いクライアントデータを保護する。 しかし、実用的なアプリケーションでは計算のオーバーヘッドが大幅に増大する。 これらの課題に対処するため,乗算深度を低減し,HEに基づくGCN推論の性能を最適化するLinGCNを提案する。 LinGCNは、(1)パラメータ化離散指標関数を補完する微分可能な構造線形化アルゴリズムで、最適化目標を満たすためにモデルの重みと協調して訓練される。 この戦略は細粒度ノードレベルの非線形位置選択を促進し、最小乗算深さのモデルとなる。 2) 完全ReLU型教師モデルを用いた2段階蒸留法により, 2次学習可能活性化関数を用いたコンパクトなノードワイド多項式置換政策を導出する。 (3)ノードの活性化関数に対するよりきめ細かい演算子融合を可能にする拡張HEソリューションにより、HEベースの推論における乗算レベルの消費を低減できる。 NTU-XVIEWスケルトン共同データセットを用いた実験により,LinGCNは,CryptoGCNなど,同型暗号化推論におけるレイテンシ,精度,スケーラビリティに優れることがわかった。 注目すべきは、LinGCNはCryptoGCNと比較して14.2倍のレイテンシ向上を実現し、推論精度は75%、乗算深度は顕著に減少することである。

The growth of Graph Convolution Network (GCN) model sizes has revolutionized numerous applications, surpassing human performance in areas such as personal healthcare and financial systems. The deployment of GCNs in the cloud raises privacy concerns due to potential adversarial attacks on client data. To address security concerns, Privacy-Preserving Machine Learning (PPML) using Homomorphic Encryption (HE) secures sensitive client data. However, it introduces substantial computational overhead in practical applications. To tackle those challenges, we present LinGCN, a framework designed to reduce multiplication depth and optimize the performance of HE based GCN inference. LinGCN is structured around three key elements: (1) A differentiable structural linearization algorithm, complemented by a parameterized discrete indicator function, co-trained with model weights to meet the optimization goal. This strategy promotes fine-grained node-level non-linear location selection, resulting in a model with minimized multiplication depth. (2) A compact node-wise polynomial replacement policy with a second-order trainable activation function, steered towards superior convergence by a two-level distillation approach from an all-ReLU based teacher model. (3) an enhanced HE solution that enables finer-grained operator fusion for node-wise activation functions, further reducing multiplication level consumption in HE-based inference. Our experiments on the NTU-XVIEW skeleton joint dataset reveal that LinGCN excels in latency, accuracy, and scalability for homomorphically encrypted inference, outperforming solutions such as CryptoGCN. Remarkably, LinGCN achieves a 14.2x latency speedup relative to CryptoGCN, while preserving an inference accuracy of 75% and notably reducing multiplication depth.
翻訳日:2023-10-03 12:39:50 公開日:2023-09-30
# スキルチェック:ロールプレイングゲームにおけるゲームマスタリングモデルの評価に関する考察

Skill Check: Some Considerations on the Evaluation of Gamemastering Models for Role-playing Games ( http://arxiv.org/abs/2309.13702v2 )

ライセンス: Link先を確認
Santiago G\'ongora, Luis Chiruzzo, Gonzalo M\'endez, Pablo Gerv\'as(参考訳) ロールプレイングゲームでは、ゲームマスター(gm)がゲーム担当のプレイヤーであり、プレイヤーが直面する課題をデザインし、アクションの結果をナレーションしなければならない。 本稿では,対話型ストーリーテリングと自然言語処理の観点からgmsをモデル化する課題について考察する。 これらの課題に続いて,対話システムを評価するための3つのテストカテゴリを提案し,チャットgpt,bard,open assistantを標準gmとしてテストする。

In role-playing games a Game Master (GM) is the player in charge of the game, who must design the challenges the players face and narrate the outcomes of their actions. In this work we discuss some challenges to model GMs from an Interactive Storytelling and Natural Language Processing perspective. Following those challenges we propose three test categories to evaluate such dialogue systems, and we use them to test ChatGPT, Bard and OpenAssistant as out-of-the-box GMs.
翻訳日:2023-10-03 12:38:54 公開日:2023-09-30
# どのトレーニングステージにおいて、コードデータはllmsの推論に役立ちますか?

At Which Training Stage Does Code Data Help LLMs Reasoning? ( http://arxiv.org/abs/2309.16298v2 )

ライセンス: Link先を確認
Yingwei Ma and Yue Liu and Yue Yu and Yuanliang Zhang and Yu Jiang and Changjian Wang and Shanshan Li(参考訳) 大きな言語モデル(LLM)は驚くべき推論能力を示し、言語技術の基盤となっている。 LLMのトレーニングにおけるコードデータの大きな成功にインスパイアされた私たちは、LLMの推論にコードデータを導入するトレーニングステージが本当に役立つのか疑問に思っています。 そこで本研究では,LLMにおけるコードデータの影響を系統的に検討する。 具体的には,事前学習段階,命令調整段階,および両者について,それぞれコードデータを導入する。 次に、LLMの推論能力は5つの領域の6つの推論タスクを通して包括的かつ公平に評価される。 実験結果を批判的に分析し,結論を考察する。 第一に、コードとテキストの混合による事前学習LLMは、他のタスクへの負の転送なしに、LLMの一般的な推論能力を著しく向上させることができる。 さらに、命令チューニングの段階では、LLMにタスク固有の推論能力が与えられる。 さらに、コードとテキストデータの動的混合戦略は、LCMがトレーニング中に段階的に推論能力を学ぶのを助ける。 これらの洞察は、科学的質問応答や法的支援など、彼らの応用に対する推論能力に関するllmの理解を深める。 ソースコードとモデルパラメータはリンクでリリースされる。~\url{https://github.com/yingweima2022/CodeLLM}。

Large Language Models (LLMs) have exhibited remarkable reasoning capabilities and become the foundation of language technologies. Inspired by the great success of code data in training LLMs, we naturally wonder at which training stage introducing code data can really help LLMs reasoning. To this end, this paper systematically explores the impact of code data on LLMs at different stages. Concretely, we introduce the code data at the pre-training stage, instruction-tuning stage, and both of them, respectively. Then, the reasoning capability of LLMs is comprehensively and fairly evaluated via six reasoning tasks in five domains. We critically analyze the experimental results and provide conclusions with insights. First, pre-training LLMs with the mixture of code and text can significantly enhance LLMs' general reasoning capability almost without negative transfer on other tasks. Besides, at the instruction-tuning stage, code data endows LLMs the task-specific reasoning capability. Moreover, the dynamic mixing strategy of code and text data assists LLMs to learn reasoning capability step-by-step during training. These insights deepen the understanding of LLMs regarding reasoning ability for their application, such as scientific question answering, legal support, etc. The source code and model parameters are released at the link:~\url{https://github.com/yingweima2022/CodeLLM}.
翻訳日:2023-10-03 10:57:13 公開日:2023-09-30
# グループエージェント強化学習

Group-Agent Reinforcement Learning ( http://arxiv.org/abs/2202.05135v5 )

ライセンス: Link先を確認
Kaiyue Wu, Xiao-Jun Zeng(参考訳) 複数の地理的に分散したエージェントがそれぞれのRLタスクを協調的に実行する場合、各エージェントの強化学習(RL)プロセスに大きく貢献する。 複数のエージェントが共通の環境にあり、互いに協力や競争を学ばなければならないマルチエージェント強化学習(marl)とは異なり、この場合、各エージェントは別々の環境を持ち、学習結果として協力的あるいは競争的な振る舞いを伴わずに知識を共有するために他人とのみコミュニケーションをとる。 実際、このシナリオは多くのアプリケーションで利用できるが、十分に理解されておらず、十分に定式化されていない実生活に広く存在している。 第1の取り組みとして,このシナリオの定式化と,単一エージェントおよびマルチエージェントシステムに対する第3タイプのRLシステムについて,グループエージェントシステムを提案する。 次に,グループエージェント強化学習(GARL)のための分散RLフレームワークDDAL(Decentralized Distributed Asynchronous Learning)を提案する。 DDALは非常に安定したトレーニングで望ましいパフォーマンスを実現し、優れたスケーラビリティを実現した実験を通して示す。

It can largely benefit the reinforcement learning (RL) process of each agent if multiple geographically distributed agents perform their separate RL tasks cooperatively. Different from multi-agent reinforcement learning (MARL) where multiple agents are in a common environment and should learn to cooperate or compete with each other, in this case each agent has its separate environment and only communicates with others to share knowledge without any cooperative or competitive behaviour as a learning outcome. In fact, this scenario exists widely in real life whose concept can be utilised in many applications, but is not well understood yet and not well formulated. As the first effort, we propose group-agent system for RL as a formulation of this scenario and the third type of RL system with respect to single-agent and multi-agent systems. We then propose a distributed RL framework called DDAL (Decentralised Distributed Asynchronous Learning) designed for group-agent reinforcement learning (GARL). We show through experiments that DDAL achieved desirable performance with very stable training and has good scalability.
翻訳日:2023-10-03 10:55:01 公開日:2023-09-30