このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241003となっている論文です。

PDF登録状況(公開日: 20241003)

TitleAuthorsAbstract論文公表日・翻訳日
# テキスト, 画像, ビデオ, 音声基礎モデルにおける幻覚の発見 : 包括的調査

Unveiling Hallucination in Text, Image, Video, and Audio Foundation Models: A Comprehensive Survey ( http://arxiv.org/abs/2405.09589v3 )

ライセンス: Link先を確認
Pranab Sahoo, Prabhash Meharia, Akash Ghosh, Sriparna Saha, Vinija Jain, Aman Chadha, (参考訳) 言語、画像、音声、ビデオ領域にまたがるファンデーションモデル(FM)の急速な進歩は、様々なタスクにおいて顕著な能力を示している。 しかし、FMの拡散は、特に高感度の応用において、幻覚出力を発生させる可能性という重要な課題を生んでいる。 幻覚コンテンツを生み出す基礎モデルの傾向は、特に信頼性と精度が最重要である領域において、現実のシナリオにおいて広く採用されていることの最大の障害である。 本研究は,FMにおける幻覚問題,テキスト,画像,ビデオ,オーディオモダリティの同定と緩和を目的とした最近の研究の概要を概説する。 近年の幻覚の検出・緩和の進歩によって,研究者,開発者,実践者に貴重な洞察を提供することが目的である。 本質的には、マルチモーダル基礎モデルの幻覚に対処するための定義、分類、検出戦略を含む明確な枠組みを確立し、この中心的な領域における将来の研究の基礎を築いた。

The rapid advancement of foundation models (FMs) across language, image, audio, and video domains has shown remarkable capabilities in diverse tasks. However, the proliferation of FMs brings forth a critical challenge: the potential to generate hallucinated outputs, particularly in high-stakes applications. The tendency of foundation models to produce hallucinated content arguably represents the biggest hindrance to their widespread adoption in real-world scenarios, especially in domains where reliability and accuracy are paramount. This survey paper presents a comprehensive overview of recent developments that aim to identify and mitigate the problem of hallucination in FMs, spanning text, image, video, and audio modalities. By synthesizing recent advancements in detecting and mitigating hallucination across various modalities, the paper aims to provide valuable insights for researchers, developers, and practitioners. Essentially, it establishes a clear framework encompassing definition, taxonomy, and detection strategies for addressing hallucination in multimodal foundation models, laying the foundation for future research in this pivotal area.
翻訳日:2024-11-09 02:30:11 公開日:2024-10-03
# 絶滅危惧言語を教えるために、言語モデルを教えることはできますか?

Can we teach language models to gloss endangered languages? ( http://arxiv.org/abs/2406.18895v2 )

ライセンス: Link先を確認
Michael Ginn, Mans Hulden, Alexis Palmer, (参考訳) Interlinear glossed text (IGT) は言語ドキュメントプロジェクトにおいて一般的なフォーマットであり、各形態素には記述的なアノテーションが付けられている。 注釈付きコーパス間でのアノテータの労力を削減し、一貫性を維持するために、インターリニアグラフテキストの作成を自動化することが望ましい。 これまでの研究では、IGTを自動生成するための統計学的および神経学的手法がいくつか検討されてきた。 大規模言語モデル (LLM) は多言語タスクにまたがって有望な結果を示しており、希少な絶滅危惧言語でもIGTを生成するタスクに利用できるかどうか疑問視することは当然である。 従来の訓練を使わずに,LLMがテキスト内学習と相互学習の課題に有効であるかどうかを考察する。 そこで,本研究では,対象選択が性能を著しく向上することを示す,実例選択のための新しい手法を提案する。 LLMベースの手法は、トレーニングを全く必要とせず、標準的なトランスフォーマーベースラインを上回ります。 これらのアプローチは依然としてタスクの最先端の教師システムでは不十分だが、NLPコミュニティ以外の研究者にとっては非常に実用的であり、使用に最小限の労力を要する。

Interlinear glossed text (IGT) is a popular format in language documentation projects, where each morpheme is labeled with a descriptive annotation. Automating the creation of interlinear glossed text can be desirable to reduce annotator effort and maintain consistency across annotated corpora. Prior research has explored a number of statistical and neural methods for automatically producing IGT. As large language models (LLMs) have showed promising results across multilingual tasks, even for rare, endangered languages, it is natural to wonder whether they can be utilized for the task of generating IGT. We explore whether LLMs can be effective at the task of interlinear glossing with in-context learning, without any traditional training. We propose new approaches for selecting examples to provide in-context, observing that targeted selection can significantly improve performance. We find that LLM-based methods beat standard transformer baselines, despite requiring no training at all. These approaches still underperform state-of-the-art supervised systems for the task, but are highly practical for researchers outside of the NLP community, requiring minimal effort to use.
翻訳日:2024-11-09 01:10:28 公開日:2024-10-03
# 大規模言語モデルの評価に関する体系的調査と批判的レビュー:課題・限界・勧告

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations ( http://arxiv.org/abs/2407.04069v2 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Sawsan Alqahtani, M Saiful Bari, Mizanur Rahman, Mohammad Abdullah Matin Khan, Haidar Khan, Israt Jahan, Amran Bhuiyan, Chee Wei Tan, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty, Jimmy Huang, (参考訳) 大規模言語モデル(LLM)は、最近、様々なドメインで多様なタスクを実行する際、顕著な能力によって、大きな注目を集めている。 しかし、これらのモデルの徹底的な評価は、信頼性の高いパフォーマンスを実現するために、現実のアプリケーションにデプロイする前に不可欠である。 コミュニティにおけるLSMの評価の重要性は確立されているものの、評価プロセスの複雑さは様々な評価設定をもたらし、発見や解釈の不整合を引き起こしている。 そこで我々は,LLM評価の様々な段階において,これらの不整合や信頼できない評価の原因となる主な課題と限界を体系的に検討した。 批判的なレビューに基づいて、LLM評価が再現可能で、信頼性があり、堅牢であることを保証するために、私たちの視点と勧告を提示します。

Large Language Models (LLMs) have recently gained significant attention due to their remarkable capabilities in performing diverse tasks across various domains. However, a thorough evaluation of these models is crucial before deploying them in real-world applications to ensure they produce reliable performance. Despite the well-established importance of evaluating LLMs in the community, the complexity of the evaluation process has led to varied evaluation setups, causing inconsistencies in findings and interpretations. To address this, we systematically review the primary challenges and limitations causing these inconsistencies and unreliable evaluations in various steps of LLM evaluation. Based on our critical review, we present our perspectives and recommendations to ensure LLM evaluations are reproducible, reliable, and robust.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-03
# Generalists vs. Specialists: Urduの大規模言語モデルの評価

Generalists vs. Specialists: Evaluating Large Language Models for Urdu ( http://arxiv.org/abs/2407.04459v3 )

ライセンス: Link先を確認
Samee Arif, Abdul Hameed Azeemi, Agha Ali Raza, Awais Athar, (参考訳) 本稿では, GPT-4-Turbo と Llama-3-8b という汎用モデルと, 特定のタスクを微調整した特殊目的モデル-XLM-Roberta-large, mT5-large, Llama-3-8b を比較した。 我々は、これらのモデルの性能をウルドゥー語で評価するために、7つの分類と7つの世代タスクに焦点を当てる。 Urduには7000万人のネイティブスピーカーがあるが、Natural Language Processing(NLP)では表現されていない。 LLM(Large Language Models)の頻繁な進歩にもかかわらず、Urduを含む低リソース言語のパフォーマンスを調査する必要がある。 また,GPT-4-Turbo,Llama-3-8b,Claude 3.5 Sonnetによる評価結果と比較した。 特殊目的モデルは、様々なタスクにおいて汎用モデルより一貫して優れていることが判明した。 また,生成タスクに対する GPT-4-Turbo による評価は,Llama-3-8b による評価に比べ,人間による評価と密接に一致していることがわかった。 本稿では,低リソース言語に対する汎用LLMの有効性に関する知見を提供することで,NLPコミュニティに貢献する。

In this paper, we compare general-purpose models, GPT-4-Turbo and Llama-3-8b, with special-purpose models--XLM-Roberta-large, mT5-large, and Llama-3-8b--that have been fine-tuned on specific tasks. We focus on seven classification and seven generation tasks to evaluate the performance of these models on Urdu language. Urdu has 70 million native speakers, yet it remains underrepresented in Natural Language Processing (NLP). Despite the frequent advancements in Large Language Models (LLMs), their performance in low-resource languages, including Urdu, still needs to be explored. We also conduct a human evaluation for the generation tasks and compare the results with the evaluations performed by GPT-4-Turbo, Llama-3-8b and Claude 3.5 Sonnet. We find that special-purpose models consistently outperform general-purpose models across various tasks. We also find that the evaluation done by GPT-4-Turbo for generation tasks aligns more closely with human evaluation compared to the evaluation the evaluation done by Llama-3-8b. This paper contributes to the NLP community by providing insights into the effectiveness of general and specific-purpose LLMs for low-resource languages.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-03
# 言語表現はレコメンダが必要とするもの:発見と可能性

Language Representations Can be What Recommenders Need: Findings and Potentials ( http://arxiv.org/abs/2407.05441v2 )

ライセンス: Link先を確認
Leheng Sheng, An Zhang, Yi Zhang, Yuxin Chen, Xiang Wang, Tat-Seng Chua, (参考訳) 近年の研究では、言語モデル(LM)が単なる意味論を超えた豊かな世界知識を符号化し、様々な分野において大きな注目を集めていることが実証されている。 しかし、レコメンデーション領域では、LMが暗黙的にユーザの好み情報をエンコードするかどうかは不明である。 言語と行動モデリングの目的に大きなギャップがあるため、LMと従来のレコメンデータが2つの異なる表現空間を学ぶという一般的な理解とは対照的に、この研究はそのような理解を再検討し、言語表現空間から直接レコメンデーション空間を抽出することを模索する。 意外なことに、先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示した。 この結果は、先進言語表現空間と推奨のための効果的な項目表現空間との間の準同型を示唆し、協調信号がLM内に暗黙的に符号化されることを示唆している。 これらの知見により,IDを組み込まずに言語表現を純粋にベースとした高度な協調フィルタリング(CF)モデルの設計の可能性を検討する。 具体的には、単純だが効果的なモデルを構築するためにいくつかの重要なコンポーネントを組み込み、アイテムタイトルを入力として使用します。 実証的な結果から、このような単純なモデルは、先進的なIDベースのCFモデルよりも優れていることが示され、言語表現の使用に光を当てて、より優れたレコメンデーションが期待できる。 さらに,この単純なモデルを体系的に解析し,先進言語表現を使用するための重要な特徴として,項目表現の優れた初期化,ゼロショットレコメンデーション能力,ユーザ意図の認識などがある。 本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。

Recent studies empirically indicate that language models (LMs) encode rich world knowledge beyond mere semantics, attracting significant attention across various fields. However, in the recommendation domain, it remains uncertain whether LMs implicitly encode user preference information. Contrary to prevailing understanding that LMs and traditional recommenders learn two distinct representation spaces due to the huge gap in language and behavior modeling objectives, this work re-examines such understanding and explores extracting a recommendation space directly from the language representation space. Surprisingly, our findings demonstrate that item representations, when linearly mapped from advanced LM representations, yield superior recommendation performance. This outcome suggests the possible homomorphism between the advanced language representation space and an effective item representation space for recommendation, implying that collaborative signals may be implicitly encoded within LMs. Motivated by these findings, we explore the possibility of designing advanced collaborative filtering (CF) models purely based on language representations without ID-based embeddings. To be specific, we incorporate several crucial components to build a simple yet effective model, with item titles as the input. Empirical results show that such a simple model can outperform leading ID-based CF models, which sheds light on using language representations for better recommendation. Moreover, we systematically analyze this simple model and find several key features for using advanced language representations: a good initialization for item representations, zero-shot recommendation abilities, and being aware of user intention. Our findings highlight the connection between language modeling and behavior modeling, which can inspire both natural language processing and recommender system communities.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-03
# 超伝導体-強磁性体ヘテロ構造における複合集合モードの超伝導伝播

Superluminal Propagation of Composite Collective Modes in Superconductor-Ferromagnet Heterostructures ( http://arxiv.org/abs/2407.05457v2 )

ライセンス: Link先を確認
Pascal Derendorf, Anatoly F. Volkov, Ilya M. Eremin, (参考訳) 超伝導体/強磁性体/超伝導体ジョセフソン接合は、超伝導と磁性の微妙な相互作用を研究するためのパラダイムシステムである。 ここでは、非磁化体$H_{dem}$と以前は無視されていた強磁性体$H_{an}$の異方性に起因する磁場との相互作用を考慮し、そのようなヘテロ構造における集合モード(CM)を分析する。 その結果、合成集合モードのスペクトル $\omega(k)$ は、$H_{dem}<H_{an}$ と $H_{dem}>H_{an}$ の場合、質的に異なる形式を持つことがわかった。 第一の場合、従属$\omega(k)$は以前の研究と同様の形式を持つが、第二の場合、スペクトルは完全に異なるように見える。 特に、強磁性体における中等方性あるいは弱い異方性に対して、集合モードの群速度は群速度が無限で超光度である屈折点を示す。 さらに、この点は集合モードに対する純粋に実かつ複素共役な解を分離し、また例外点である。 CMsスペクトルの違いをFiske実験により明らかにする。 という。 磁場と電圧の存在下でのI-V$特性を測定。

Superconductor/ferromagnet/superconductor Josephson junctions are paradigmatic systems for studying the delicate interplay of superconductivity and magnetism via proximity effects as well as their composite excitations. Here, we analyse the collective modes (CM) in such a heterostructure by taking into account the interplay between the de-magnetisation field $H_{dem}$ and the field caused by the anisotropy of the ferromagnet $H_{an}$, which was previously neglected. It turns out that the spectrum of composite collective modes, $\omega(k)$, has a qualitatively different form in the case of $H_{dem}<H_{an}$ and of $H_{dem}>H_{an}$. In the first case, the dependence $\omega(k)$ has the same form as in previous studies, whereas in the second case, the spectrum looks completely different. In particular, for moderate or weak anisotropy in ferromagnet the group velocity of collective modes demonstrates inflection point where the group velocity become infinite and is superluminal. Furthermore, this point separates purely real and complex-conjugate solutions for the collective modes and is also {\it exception point}. We show that the difference of the CMs spectra can be revealed by Fiske experiment, i.\,e.\,by measuring the $I-V$ characteristics in the presence of magnetic field and voltage.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-03
# マルチモーダル・セルフインストラクション:言語モデルを用いた合成抽象画像と視覚的推論インストラクション

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model ( http://arxiv.org/abs/2407.07053v5 )

ライセンス: Link先を確認
Wenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang, (参考訳) 現在の大きなマルチモーダルモデル(LMM)の多くは、自然のシーンや肖像画の写真を既に理解することができるが、抽象的なイメージ、例えばチャート、地図、レイアウト、視覚的推論などの理解は、まだごく初歩的なままである。 彼らはしばしば、時計から時間を読み、フローチャートを理解し、道路地図を使ってルートを計画するといった単純な日々のタスクに苦労する。 そこで我々は,大規模な抽象画像と視覚的推論命令を日常のシナリオで合成するために,大規模言語モデルとそのコード機能を利用するマルチモーダル・セルフインストラクトを設計する。 私たちの戦略は、チャート、テーブル、シミュレートされたマップ、ダッシュボード、フローチャート、関係グラフ、フロアプラン、ビジュアルパズルという8つのビジュアルシナリオのための11,193のインストラクションを備えたマルチモーダルベンチマークを作成しています。 このベンチマークは単純な線と幾何学的要素で構築され、抽象的イメージ理解、空間関係推論、視覚的要素誘導において、Claude-3.5-Sonnet や GPT-4o のような最も先進的な LMM の欠点を明らかにする。 さらに, 合成データの質を検証するため, 62,476の合成チャート, 表, 道路地図の指示を用いてLMMを微調整する。 その結果、チャート理解と地図ナビゲーションの性能が向上し、他の視覚的推論タスクに潜在的な利点が示された。 我々のコードは以下の通りである。

Although most current large multimodal models (LMMs) can already understand photos of natural scenes and portraits, their understanding of abstract images, e.g., charts, maps, or layouts, and visual reasoning capabilities remains quite rudimentary. They often struggle with simple daily tasks, such as reading time from a clock, understanding a flowchart, or planning a route using a road map. In light of this, we design a multi-modal self-instruct, utilizing large language models and their code capabilities to synthesize massive abstract images and visual reasoning instructions across daily scenarios. Our strategy effortlessly creates a multimodal benchmark with 11,193 instructions for eight visual scenarios: charts, tables, simulated maps, dashboards, flowcharts, relation graphs, floor plans, and visual puzzles. \textbf{This benchmark, constructed with simple lines and geometric elements, exposes the shortcomings of most advanced LMMs} like Claude-3.5-Sonnet and GPT-4o in abstract image understanding, spatial relations reasoning, and visual element induction. Besides, to verify the quality of our synthetic data, we fine-tune an LMM using 62,476 synthetic chart, table and road map instructions. The results demonstrate improved chart understanding and map navigation performance, and also demonstrate potential benefits for other visual reasoning tasks. Our code is available at: \url{https://github.com/zwq2018/Multi-modal-Self-instruct}.
翻訳日:2024-11-08 22:51:19 公開日:2024-10-03
# Lookback Lens:注意図のみを用いた大規模言語モデルにおける文脈幻覚の検出と緩和

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps ( http://arxiv.org/abs/2407.07071v2 )

ライセンス: Link先を確認
Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass, (参考訳) 記事の要約や質問に対する回答を尋ねると、大きな言語モデル(LLM)は詳細を幻覚させ、入力コンテキストに関して不正確な未確定な回答に応答する。 本稿では,このような文脈的幻覚を検出するための簡単なアプローチについて述べる。 我々は、文脈幻覚は、LLMが提供された文脈における情報に、その世代に対して、その情報に出席する程度に関係していると仮定する。 この直感に基づいて,新たに生成したトークン(各アテンションヘッド)に対する注意重みの比率によって入力特徴が与えられる簡単な幻覚検出モデルを提案する。 これらのルックバック比の特徴に基づく線形分類器は、LLMの隠れ状態全体やテキストベースエンタテインメントモデルを利用するよりリッチな検出器として有効であることがわかった。 ルックバック比に基づく検出器であるルックバックレンズは、7Bモデルで訓練された検出器をより大きな13Bモデルに(再訓練なしで)適用することができる。 さらに、この検出器を用いて文脈的幻覚を緩和し、例えばXSum要約タスクにおいて、単純な分類器誘導復号法により幻覚の量を9.6%削減できることを見出した。

When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector -- Lookback Lens -- is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.
翻訳日:2024-11-08 22:51:19 公開日:2024-10-03
# コード生成評価データセットの漏洩について

On Leakage of Code Generation Evaluation Datasets ( http://arxiv.org/abs/2407.07565v3 )

ライセンス: Link先を確認
Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé, (参考訳) 本稿では,コード生成テストセットによる汚染について考察する。 このような汚染の原因を3つ議論し、それぞれを裏付ける知見を示す。 (i)直接データ漏洩 二 合成データを利用した間接的データ漏洩 三 モデル選択時の評価セットに過度に適合すること。 これを解決するために、LBPP(Less Basic Python Problems)をリリースします。 LBPPはhttps://huggingface.co/datasets/CohereForAI/lbpp でリリースされている。

In this paper, we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. To address this, we release Less Basic Python Problems (LBPP): an uncontaminated new benchmark of 161 prompts with their associated Python solutions. LBPP is released at https://huggingface.co/datasets/CohereForAI/lbpp .
翻訳日:2024-11-08 22:40:08 公開日:2024-10-03
# Rel-A.I.:人間-LM信頼度測定のためのインタラクション中心アプローチ

Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance ( http://arxiv.org/abs/2407.07950v2 )

ライセンス: Link先を確認
Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Nouha Dziri, Dan Jurafsky, Maarten Sap, (参考訳) 不確実性、リスク、制限を伝達する能力は、大きな言語モデルの安全性に不可欠である。 しかし、これらの能力の現在の評価は単純なキャリブレーションに依存しており、モデルが生成した言語が適切な確率と一致するかどうかを問うものである。 代わりに、LLMコミュニケーションのこの側面の評価は、人間のインターロケータの行動に焦点をあてるべきである。 本稿では,人間がLLM世代に依存しているかどうかを測定する,Rel-A.I.(Rel-A.I.)と呼ばれるインタラクション中心評価フレームワークを紹介する。 このフレームワークは、インタラクションのコンテキスト的特徴(例えば、議論されている知識領域)や、挨拶が暖かさや能力(例えば、"助けて! 文脈特性が人間の信頼行動に大きく影響していることが判明した。 例えば、計算に関わる質問に答えるとき、人々はLMに10%依存し、より有能であると見なされるLMに30%依存しています。 これらの結果から, キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であり, インタラクションコンテキストの特徴を検討する必要性が示唆された。

The ability to communicate uncertainty, risk, and limitation is crucial for the safety of large language models. However, current evaluations of these abilities rely on simple calibration, asking whether the language generated by the model matches appropriate probabilities. Instead, evaluation of this aspect of LLM communication should focus on the behaviors of their human interlocutors: how much do they rely on what the LLM says? Here we introduce an interaction-centered evaluation framework called Rel-A.I. (pronounced "rely"}) that measures whether humans rely on LLM generations. We use this framework to study how reliance is affected by contextual features of the interaction (e.g, the knowledge domain that is being discussed), or the use of greetings communicating warmth or competence (e.g., "I'm happy to help!"). We find that contextual characteristics significantly affect human reliance behavior. For example, people rely 10% more on LMs when responding to questions involving calculations and rely 30% more on LMs that are perceived as more competent. Our results show that calibration and language quality alone are insufficient in evaluating the risks of human-LM interactions, and illustrate the need to consider features of the interactional context.
翻訳日:2024-11-08 22:29:09 公開日:2024-10-03
# 擬似密度による深部生成モデルの忠実度と多様性の制御

Controlling the Fidelity and Diversity of Deep Generative Models via Pseudo Density ( http://arxiv.org/abs/2407.08659v2 )

ライセンス: Link先を確認
Shuangqi Li, Chen Liu, Tong Zhang, Hieu Le, Sabine Süsstrunk, Mathieu Salzmann, (参考訳) 本稿では,GANや拡散モデルといったバイアスの深い生成モデルに対するアプローチを導入する。 提案手法では, 実検体から最も近い隣り合う情報に基づいて, 擬似密度(擬似密度)という, 個別検体のための新しい検体を用いて, トレーニングと生成データの分布を操作する。 我々のアプローチは、深層生成モデルの忠実度と多様性を調節する3つの異なる手法を提供する。 1 サンプルごとの摂動により、個々の試料をより一般的又はより特異な特性に正確に調整することができる。 2 モデル推論における重要度サンプリングにより、生成されたデータの忠実度又は多様性を高めること。 3) 重要サンプリングによる微調整により, 生成モデルを誘導し, 適応分布を学習し, 忠実度と多様性を制御できる。 さらに,Frechet Inception Distance (FID) を最小限のイテレーションで事前学習した生成モデルに対して改良する機能を示した。

We introduce an approach to bias deep generative models, such as GANs and diffusion models, towards generating data with either enhanced fidelity or increased diversity. Our approach involves manipulating the distribution of training and generated data through a novel metric for individual samples, named pseudo density, which is based on the nearest-neighbor information from real samples. Our approach offers three distinct techniques to adjust the fidelity and diversity of deep generative models: 1) Per-sample perturbation, enabling precise adjustments for individual samples towards either more common or more unique characteristics; 2) Importance sampling during model inference to enhance either fidelity or diversity in the generated data; 3) Fine-tuning with importance sampling, which guides the generative model to learn an adjusted distribution, thus controlling fidelity and diversity. Furthermore, our fine-tuning method demonstrates the ability to improve the Frechet Inception Distance (FID) for pre-trained generative models with minimal iterations.
翻訳日:2024-11-08 22:17:54 公開日:2024-10-03
# 高エネルギー物理実験におけるジェットクラスタリングの新しい量子化

A Novel Quantum Realization of Jet Clustering in High-Energy Physics Experiments ( http://arxiv.org/abs/2407.09056v2 )

ライセンス: Link先を確認
Yongfeng Zhu, Weifeng Zhuang, Chen Qian, Yunheng Ma, Dong E. Liu, Manqi Ruan, Chen Zhou, (参考訳) 量子技術の基礎科学への応用を探求することは、双方にとってイノベーションを育む鍵となる。 高エネルギー粒子衝突ではクォークとグルーオンが生成され、すぐにジェットとして知られる衝突粒子噴霧を形成する。 正確なジェット・クラスタリングは、起源のクォークやグルーオンの情報を保持し、亜原子粒子の質量生成の機構を基盤とするヒッグス粒子の性質の研究の基礎を形成するため、重要である。 衝突イベントをノードとして、角分離をエッジとしてグラフにマッピングすることで、利用可能な量子資源と古典的な組合せ最適化問題に対処するハイブリッド量子古典アルゴリズムであるQuantum Approximate Optimization Algorithm (QAOA)を用いてジェットクラスタリングを実現する。 量子コンピュータシミュレータの30量子ビットと量子コンピュータハードウェアの6量子ビットから得られた本研究では,QAOAを用いたジェットクラスタリング性能が,小型問題に対する古典的アルゴリズムと同等かそれ以上に優れていることを示す。 この研究は、ジェットクラスタリングに革命をもたらす量子コンピューティングの可能性を強調し、高エネルギー物理実験における量子コンピューティングの実践的応用を一歩近づいた。

Exploring the application of quantum technologies to fundamental sciences holds the key to fostering innovation for both sides. In high-energy particle collisions, quarks and gluons are produced and immediately form collimated particle sprays known as jets. Accurate jet clustering is crucial as it retains the information of the originating quark or gluon and forms the basis for studying properties of the Higgs boson, which underlies teh mechanism of mass generation for subatomic particles. For the first time, by mapping collision events into graphs--with particles as nodes and their angular separations as edges--we realize jet clustering using the Quantum Approximate Optimization Algorithm (QAOA), a hybrid quantum-classical algorithm for addressing classical combinatorial optimization problems with available quantum resources. Our results, derived from 30 qubits on quantum computer simulator and 6 qubits on quantum computer hardware, demonstrate that jet clustering performance with QAOA is comparable with or even better than classical algorithms for a small-sized problem. This study highlights the feasibility of quantum computing to revolutionize jet clustering, bringing the practical application of quantum computing in high-energy physics experiments one step closer.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-03
# 産業プロセスモデリングにおける説明可能な人工知能のロバスト性

Robustness of Explainable Artificial Intelligence in Industrial Process Modelling ( http://arxiv.org/abs/2407.09127v2 )

ライセンス: Link先を確認
Benedikt Kantz, Clemens Staudinger, Christoph Feilmayr, Johannes Wachlmayr, Alexander Haberl, Stefan Schuster, Franz Pernkopf, (参考訳) eXplainable Artificial Intelligence (XAI)は、ブラックボックスモデルの理解可能な説明を提供することを目的としている。 本稿では,地中真実シミュレーションと感度解析に基づいて,現在のXAI手法を評価する。 この目的のために、我々は、HAAP(SHAP)、LIME(Local Interpretable Model-Agnostic Explanations)、ALE(Averaged Local Effects)、Smooth Gradients(SG)といったXAI手法の限界とロバスト性をよりよく理解するために、Electric Arc Furnace(EAF)モデルを使用しました。 これらのXAI法は, 各種ブラックボックスモデルに適用され, その正しさをデータ生成過程の地味感度と比較した。 その結果、機械学習(ML)モデルが正確にプロセスをキャプチャする能力は、実際に、基礎となるデータ生成プロセスの説明可能性の正しさと結びついていることが判明した。 さらに、XAI法とXAI法の違いが、モデル化された産業プロセスの真の感度を正確に予測する能力の相違について述べる。

eXplainable Artificial Intelligence (XAI) aims at providing understandable explanations of black box models. In this paper, we evaluate current XAI methods by scoring them based on ground truth simulations and sensitivity analysis. To this end, we used an Electric Arc Furnace (EAF) model to better understand the limits and robustness characteristics of XAI methods such as SHapley Additive exPlanations (SHAP), Local Interpretable Model-agnostic Explanations (LIME), as well as Averaged Local Effects (ALE) or Smooth Gradients (SG) in a highly topical setting. These XAI methods were applied to various types of black-box models and then scored based on their correctness compared to the ground-truth sensitivity of the data-generating processes using a novel scoring evaluation methodology over a range of simulated additive noise. The resulting evaluation shows that the capability of the Machine Learning (ML) models to capture the process accurately is, indeed, coupled with the correctness of the explainability of the underlying data-generating process. We furthermore show the differences between XAI methods in their ability to correctly predict the true sensitivity of the modeled industrial process.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-03
# 空間フォトニックイジングマシンにおける任意のイジングハミルトニアンの符号化

Encoding arbitrary Ising Hamiltonians on Spatial Photonic Ising Machines ( http://arxiv.org/abs/2407.09161v2 )

ライセンス: Link先を確認
Jason Sakellariou, Alexis Askitopoulos, Georgios Pastras, Symeon I. Tsintzos, (参考訳) フォトニックイジングマシンは、イジングモデルの基底状態を見つける問題に還元できる組合せ最適化問題に取り組むことを目的とした、新しい計算パラダイムである。 空間フォトニックイジングマシンは、完全に接続された大規模スピンシステムのシミュレーションに有利であることが証明されている。 しかし、一般的な相互作用行列である$J$の細かい制御は、最適化プロセスの実行時間を制限する固有値分解法によってのみ達成されている。 任意の結合と接続性を持つIsing Hamiltonianの符号化を可能にする、完全な相互作用行列を直接制御できるSPIMインスタンスを導入し、実験的に検証する。 実験によって測定されたIsingエネルギーと理論的な期待値との整合性を実証し、未加重グラフ分割問題と重み付きグラフ分割問題の両方を解き、シミュレートされたアニールによる最適解への体系的収束を示す。 提案手法は,システム固有の利点を犠牲にすることなく,実世界のアプリケーションにおけるSPIMの適用性を大幅に拡張し,SPIMデバイス上でIsingモデルと同等のNP問題を完全にエンコードする方法を開拓する。

Photonic Ising Machines constitute an emergent new paradigm of computation, geared towards tackling combinatorial optimization problems that can be reduced to the problem of finding the ground state of an Ising model. Spatial Photonic Ising Machines have proven to be advantageous for simulating fully connected large-scale spin systems. However, fine control of a general interaction matrix $J$ has so far only been accomplished through eigenvalue decomposition methods that either limit the scalability or increase the execution time of the optimization process. We introduce and experimentally validate a SPIM instance that enables direct control over the full interaction matrix, enabling the encoding of Ising Hamiltonians with arbitrary couplings and connectivity. We demonstrate the conformity of the experimentally measured Ising energy with the theoretically expected values and then proceed to solve both the unweighted and weighted graph partitioning problems, showcasing a systematic convergence to an optimal solution via simulated annealing. Our approach greatly expands the applicability of SPIMs for real-world applications without sacrificing any of the inherent advantages of the system, and paves the way to encoding the full range of NP problems that are known to be equivalent to Ising models, on SPIM devices.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-03
# MUSCLE: 互換性のあるLLM進化のためのモデル更新戦略

MUSCLE: A Model Update Strategy for Compatible LLM Evolution ( http://arxiv.org/abs/2407.09435v2 )

ライセンス: Link先を確認
Jessica Echterhoff, Fartash Faghri, Raviteja Vemulapalli, Ting-Yao Hu, Chun-Liang Li, Oncel Tuzel, Hadi Pouransari, (参考訳) 大規模言語モデル(LLM)は、通常データやアーキテクチャの変更を通じて、パフォーマンスを向上させるために定期的に更新される。 アップデートプロセス内では、開発者は全体的なパフォーマンス指標の改善を優先し、以前のモデルバージョンとの互換性を維持することに注意を払わないことが多い。 あるモデルバージョンから別のモデルバージョンへのパフォーマンスのインスタンスレベルの低下(インスタンス回帰)は、特定の言語モデルの能力に関するユーザのメンタルモデルに干渉する可能性がある。 更新毎にメンタルモデルを適応しなければならないユーザは、特に既知のユースケース(モデル更新回帰)の以前のバージョンと比較して、新しいモデルが劣化した場合には、不満を抱く可能性がある。 事前トレーニングされたLLMベースモデルが更新されると、微調整されたユーザ対応のダウンストリームタスクアダプタが負のフリップを経験し、以前の正しいインスタンスが誤って予測されるようになりました。 下流のタスクトレーニング手順が同一である場合でも、さまざまなタスクとモデルのセットで異なるモデルバージョン間のモデル更新のレグレッションを観察する。 我々は、更新中のモデル更新互換性を維持することの重要性と、生成タスクに特化して設計された評価指標について論じるとともに、識別タスクにも適用可能である。 本稿では,タスク微調整言語モデルを強化可能な互換性アダプタのトレーニングを含む,モデル更新におけるインスタンス回帰の程度を最小化するためのトレーニング戦略を提案する。 提案手法を用いてLlama 1をLlama 2に更新すると、負のフリップが最大40%eg減少することを示した。

Large Language Models (LLMs) are regularly updated to enhance performance, typically through changes in data or architecture. Within the update process, developers often prioritize improving overall performance metrics, paying less attention to maintaining compatibility with earlier model versions. Instance-level degradation (instance regression) of performance from one model version to the next can interfere with a user's mental model of the capabilities of a particular language model. Users having to adapt their mental model with every update can lead to dissatisfaction, especially when the new model has degraded compared to a prior version for a known use case (model update regression). We find that when pretrained LLM base models are updated, fine-tuned user-facing downstream task adapters experience negative flips -- previously correct instances are now predicted incorrectly. We observe model update regression between different model versions on a diverse set of tasks and models, even when the downstream task training procedures remain identical. We argue for the importance of maintaining model update compatibility during updates, and present evaluation metrics designed specifically for generative tasks, while also being applicable to discriminative tasks. We propose a training strategy to minimize the extent of instance regression in model updates, involving training of a compatibility adapter that can enhance task fine-tuned language models. We show negative flips reduce by up to 40% e.g. when updating Llama 1 to Llama 2 with our proposed method.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-03
# テーブル量子LCMの高速行列乗算法

Fast Matrix Multiplications for Lookup Table-Quantized LLMs ( http://arxiv.org/abs/2407.10960v3 )

ライセンス: Link先を確認
Han Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim, (参考訳) 大規模言語モデル(LLM)のデプロイメントは、しばしばメモリ帯域幅によって制限される。主なボトルネックは、モデルパラメータをGPUのグローバルメモリからレジスタに転送するコストである。 量子化と行列演算を融合させるカスタムカーネルと組み合わせることで、メモリ移動量を減らすことで、より高速な推論が可能になる。 しかし、重み量子化LDMのための高性能カーネルの開発は、特に重みが一様でないルックアップテーブル(LUT)量子化によって、一様でないビット幅(例えば3ビット)に圧縮される場合、大きな課題となる。 本稿では,LUT量子化LLMのためのフレキシブルなルックアップテーブルエンジンであるFLUTEについて述べる。これは,量子化重み行列のオフライン再構成を用いて,アンパックに伴うビット操作を最小化し,ルックアップテーブルのベクトル化と複製により,共有メモリ帯域幅の制約を緩和する。 32以下のバッチサイズと128の量子化グループサイズ(典型的にはLLM推論)では、FLUTEカーネルは既存のGEMMカーネルよりも2-4倍高速である。 FLUTEの応用として、テーブルベースのNormalFloat量子化への簡単な拡張を検討し、LLaMA3を様々な構成に量子化し、1.5倍から2倍のスループット向上を達成しつつ、強力なベースラインに対する競合量子化性能を得る。

The deployment of large language models (LLMs) is often constrained by memory bandwidth, where the primary bottleneck is the cost of transferring model parameters from the GPU's global memory to its registers. When coupled with custom kernels that fuse the dequantization and matmul operations, weight-only quantization can thus enable faster inference by reducing the amount of memory movement. However, developing high-performance kernels for weight-quantized LLMs presents substantial challenges, especially when the weights are compressed to non-evenly-divisible bit widths (e.g., 3 bits) with non-uniform, lookup table (LUT) quantization. This paper describes FLUTE, a flexible lookup table engine for LUT-quantized LLMs, which uses offline restructuring of the quantized weight matrix to minimize bit manipulations associated with unpacking, and vectorization and duplication of the lookup table to mitigate shared memory bandwidth constraints. At batch sizes < 32 and quantization group size of 128 (typical in LLM inference), the FLUTE kernel can be 2-4x faster than existing GEMM kernels. As an application of FLUTE, we explore a simple extension to lookup table-based NormalFloat quantization and apply it to quantize LLaMA3 to various configurations, obtaining competitive quantization performance against strong baselines while obtaining an end-to-end throughput increase of 1.5 to 2 times.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-03
# マルチチャネルマスク付きオートエンコーダと任意単値心電図からの12レベル心電図再構成のための総合的評価

Multi-Channel Masked Autoencoder and Comprehensive Evaluations for Reconstructing 12-Lead ECG from Arbitrary Single-Lead ECG ( http://arxiv.org/abs/2407.11481v2 )

ライセンス: Link先を確認
Jiarong Chen, Wanqing Wu, Tong Liu, Shenda Hong, (参考訳) 心電図(ECG)は心血管疾患(CVD)の診断手段として広く受け入れられている。 標準の12リードのECG構成はかなりの不便さと不快感を引き起こし、ウェアラブルデバイスはより実用的な代替手段を提供する。 シングルリードECGから12リードECGを再構成するためのマルチチャネルマスク付きオートエンコーダ(MCMA)と,信号レベル,特徴レベル,診断レベルの評価を包含する総合評価ベンチマークECGGenEvalを提案する。 MCMAは最先端のパフォーマンスを達成することができる。 信号レベル評価では,平均平方誤差0.0317,0.1034,ピアソン相関係数0.7885,0.7420であった。 特徴レベル評価では、生成した12リード心電図の平均心拍数の平均標準偏差は1.0481であり、変動係数は1.58%、範囲は3.2874である。 診断レベル評価では、異なる単誘導心電図から生成された2個の12リード心電図を持つ平均F1スコアは0.8233と0.8410である。

Electrocardiogram (ECG) has emerged as a widely accepted diagnostic instrument for cardiovascular diseases (CVD). The standard clinical 12-lead ECG configuration causes considerable inconvenience and discomfort, while wearable devices offers a more practical alternative. To reduce information gap between 12-lead ECG and single-lead ECG, this study proposes a multi-channel masked autoencoder (MCMA) for reconstructing 12-Lead ECG from arbitrary single-lead ECG, and a comprehensive evaluation benchmark, ECGGenEval, encompass the signal-level, feature-level, and diagnostic-level evaluations. MCMA can achieve the state-of-the-art performance. In the signal-level evaluation, the mean square errors of 0.0317 and 0.1034, Pearson correlation coefficients of 0.7885 and 0.7420. In the feature-level evaluation, the average standard deviation of the mean heart rate across the generated 12-lead ECG is 1.0481, the coefficient of variation is 1.58%, and the range is 3.2874. In the diagnostic-level evaluation, the average F1-score with two generated 12-lead ECG from different single-lead ECG are 0.8233 and 0.8410.
翻訳日:2024-11-08 21:10:26 公開日:2024-10-03
# LLMにおける拒絶訓練は過去10年間に一般化されるか?

Does Refusal Training in LLMs Generalize to the Past Tense? ( http://arxiv.org/abs/2407.11969v3 )

ライセンス: Link先を確認
Maksym Andriushchenko, Nicolas Flammarion, (参考訳) 拒絶訓練は、LSMが有害、望ましくない、または違法な出力を発生させないために広く使用されている。 過去に有害な要求(例えば「モロトフカクテルの作り方」から「モロトフカクテルの作り方」)を単に修正するだけで、多くの最先端のLCMをジェイルブレイクするのに十分である。 Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, o1-mini, o1-preview, R2D2 モデルに対して, GPT-3.5 Turbo を再構成モデルとして評価した。 例えば、GPT-4oに対するこの単純な攻撃の成功率は、直接要求による1%から、ジェイルブレイクベンチからの有害な要求に対する過去20回の緊張修正の試みをジェイルブレイク審査員として用いた88%へと増加する。 興味深いことに、将来の時制の改革は効果が低いことも分かり、過去の歴史的問題を仮説的な未来の問題よりも良心的に考える傾向があることを示唆している。 さらに, 微調整 GPT-3.5 Turbo 実験の結果, 過去の経過例を微調整データに明示的に含めれば, 過去の改定に対する防御が実現可能であることが示された。 概して,SFT,RLHF,対人訓練など,広く用いられているアライメント技術は,研究対象のモデルの整合性を損なう可能性があり,必ずしも意図したように一般化するとは限らないことが示唆された。 私たちはhttps://github.com/tml-epfl/llm-past-tenseでコードとjailbreak成果物を提供しています。

Refusal training is widely used to prevent LLMs from generating harmful, undesirable, or illegal outputs. We reveal a curious generalization gap in the current refusal training approaches: simply reformulating a harmful request in the past tense (e.g., "How to make a Molotov cocktail?" to "How did people make a Molotov cocktail?") is often sufficient to jailbreak many state-of-the-art LLMs. We systematically evaluate this method on Llama-3 8B, Claude-3.5 Sonnet, GPT-3.5 Turbo, Gemma-2 9B, Phi-3-Mini, GPT-4o mini, GPT-4o, o1-mini, o1-preview, and R2D2 models using GPT-3.5 Turbo as a reformulation model. For example, the success rate of this simple attack on GPT-4o increases from 1% using direct requests to 88% using 20 past tense reformulation attempts on harmful requests from JailbreakBench with GPT-4 as a jailbreak judge. Interestingly, we also find that reformulations in the future tense are less effective, suggesting that refusal guardrails tend to consider past historical questions more benign than hypothetical future questions. Moreover, our experiments on fine-tuning GPT-3.5 Turbo show that defending against past reformulations is feasible when past tense examples are explicitly included in the fine-tuning data. Overall, our findings highlight that the widely used alignment techniques -- such as SFT, RLHF, and adversarial training -- employed to align the studied models can be brittle and do not always generalize as intended. We provide code and jailbreak artifacts at https://github.com/tml-epfl/llm-past-tense.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-03
# コンフォーマルグラフニューラルネットワークを用いた都市交通予測

Urban Traffic Forecasting with Integrated Travel Time and Data Availability in a Conformal Graph Neural Network Framework ( http://arxiv.org/abs/2407.12238v2 )

ライセンス: Link先を確認
Mayur Patil, Qadeer Ahmed, Shawn Midlam-Mohler, (参考訳) 交通流の予測は交通機関にとって大きな課題であり、より良いインフラの計画と開発に役立つ。 最先端のモデルは、本質的な不確実性やトラフィックの実際の物理学と同様に、可能な限り最良の方法でデータを考えるのに苦労することが多い。 本研究では,各駅間の移動時間をグラフニューラルネットワーク(GNN)アーキテクチャの重み付き隣接行列に組み込む手法を提案する。 不確実性に対処するために、リアルタイムの検証残差に基づいて予測間隔を調整するAdaptive Conformal Prediction (ACP)法を利用した。 実験結果を検証するため, モンテカルロシミュレーションにより車載テスト(VUT)の走行時間分布をモデル化し, この分布を実世界のデータと比較した。 実験の結果, 提案モデルでは, MAEで約24%, RMSEで約8%, シミュレーションした走行時間と観測した走行時間の95%は密に一致した。

Traffic flow prediction is a big challenge for transportation authorities as it helps plan and develop better infrastructure. State-of-the-art models often struggle to consider the data in the best way possible, as well as intrinsic uncertainties and the actual physics of the traffic. In this study, we propose a novel framework to incorporate travel times between stations into a weighted adjacency matrix of a Graph Neural Network (GNN) architecture with information from traffic stations based on their data availability. To handle uncertainty, we utilized the Adaptive Conformal Prediction (ACP) method that adjusts prediction intervals based on real-time validation residuals. To validate our results, we model a microscopic traffic scenario and perform a Monte-Carlo simulation to get a travel time distribution for a Vehicle Under Test (VUT), and this distribution is compared against the real-world data. Experiments show that the proposed model outperformed the next-best model by approximately 24% in MAE and 8% in RMSE and validation showed the simulated travel time closely matches the 95th percentile of the observed travel time value.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-03
# トルコ語MMLU:トルコ語における大規模マルチタスク言語理解の測定

TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish ( http://arxiv.org/abs/2407.12402v2 )

ライセンス: Link先を確認
Arda Yüksel, Abdullatif Köksal, Lütfi Kerem Şenel, Anna Korhonen, Hinrich Schütze, (参考訳) 複数の選択質問応答タスクは、Large Language Models (LLMs) の推論、理解、数学的能力を評価する。 既存のベンチマークでは、多言語評価のための自動翻訳が採用されているが、このアプローチはエラーを起こしやすく、特に社会科学において文化的に偏りが生じる可能性がある。 トルコ語に対するLLMの理解を評価するために,最初のマルチタスク,マルチチョイスのトルコ語QAベンチマーク,トルコ語MMLUを導入する。 トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。 これらの質問は、トルコの高校のカリキュラムに適したカリキュラムの専門家によって書かれており、自然科学や数学の問題からトルコ文学やトルコ共和国の歴史など、より文化的に代表されるトピックまで幅広いテーマをカバーしている。 我々は,多言語オープンソース(Gemma,Llama,MT5),クローズドソース(GPT 4o,Claude,Gemini),トルコ適応モデル(eg,Trendyol)を含む20以上のLLMを評価した。 本稿では,LLMのゼロショットおよび少数ショット評価,チェーン・オブ・シント推論,問題難易度解析,モデル性能など,幅広い評価を行う。 トルコ語における将来のLLMに関する洞察を提供するため、トルコ語能力と現在のLLMの限界を詳細に分析する。 データセットと評価のためのコードを公開しています。

Multiple choice question answering tasks evaluate the reasoning, comprehension, and mathematical abilities of Large Language Models (LLMs). While existing benchmarks employ automatic translation for multilingual evaluation, this approach is error-prone and potentially introduces culturally biased questions, especially in social sciences. We introduce the first multitask, multiple-choice Turkish QA benchmark, TurkishMMLU, to evaluate LLMs' understanding of the Turkish language. TurkishMMLU includes over 10,000 questions, covering 9 different subjects from Turkish high-school education curricula. These questions are written by curriculum experts, suitable for the high-school curricula in Turkey, covering subjects ranging from natural sciences and math questions to more culturally representative topics such as Turkish Literature and the history of the Turkish Republic. We evaluate over 20 LLMs, including multilingual open-source (e.g., Gemma, Llama, MT5), closed-source (GPT 4o, Claude, Gemini), and Turkish-adapted (e.g., Trendyol) models. We provide an extensive evaluation, including zero-shot and few-shot evaluation of LLMs, chain-of-thought reasoning, and question difficulty analysis along with model performance. We provide an in-depth analysis of the Turkish capabilities and limitations of current LLMs to provide insights for future LLMs for the Turkish language. We publicly release our code for the dataset and evaluation: https://github.com/ArdaYueksel/TurkishMMLU.
翻訳日:2024-11-08 20:36:48 公開日:2024-10-03
# RAG-QAアリーナ:長期検索質問応答に対するドメインロバスト性の評価

RAG-QA Arena: Evaluating Domain Robustness for Long-form Retrieval Augmented Question Answering ( http://arxiv.org/abs/2407.13998v2 )

ライセンス: Link先を確認
Rujun Han, Yuhao Zhang, Peng Qi, Yumo Xu, Jenyuan Wang, Lan Liu, William Yang Wang, Bonan Min, Vittorio Castelli, (参考訳) 検索拡張生成(RAG-QA)に基づく質問応答は,NLPにおける重要な研究課題であり,幅広い実世界の応用がある。 しかし,既存のほとんどのデータセットは単一ソースコーパスを用いて構築されているか,あるいは短い抽出結果で構成されているため,クロスドメイン一般化に基づく大規模言語モデル(LLM)に基づくRAG-QAシステムの評価には不十分である。 この制限に対処するために、Long-form RobustQA (LFRQA) という、複数の文書から短い抽出回答を単一のコヒーレントな物語に統合し、7つのドメインにまたがる26Kクエリと大きなコーパスをカバーする、人間による長文の回答からなる新しいデータセットを作成します。 さらに,LLMを評価器として,モデル生成回答とLFRQAの回答を直接比較することにより,RAG-QAアリーナを提案する。 RAG-QAアリーナと人間の回答品質判断は高い相関関係にあることを示す。 さらに、最も競争力のあるLLMの回答の41.3%はLFRQAの回答よりも好まれており、RAG-QAアリーナは将来の研究のための挑戦的な評価プラットフォームであることを示した。

Question answering based on retrieval augmented generation (RAG-QA) is an important research topic in NLP and has a wide range of real-world applications. However, most existing datasets for this task are either constructed using a single source corpus or consist of short extractive answers, which fall short of evaluating large language model (LLM) based RAG-QA systems on cross-domain generalization. To address these limitations, we create Long-form RobustQA (LFRQA), a new dataset comprising human-written long-form answers that integrate short extractive answers from multiple documents into a single, coherent narrative, covering 26K queries and large corpora across seven different domains. We further propose RAG-QA Arena by directly comparing model-generated answers against LFRQA's answers using LLMs as evaluators. We show via extensive experiments that RAG-QA Arena and human judgments on answer quality are highly correlated. Moreover, only 41.3% of the most competitive LLM's answers are preferred to LFRQA's answers, demonstrating RAG-QA Arena as a challenging evaluation platform for future research.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-03
# 量子プロセッサによる大型多体ハミルトンの対角化

Diagonalization of large many-body Hamiltonians on a quantum processor ( http://arxiv.org/abs/2407.14431v3 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Mirko Amico, William Kirby, Petar Jurcevic, Arkopal Dutt, Bryce Fuller, Shelly Garion, Holger Haas, Ikko Hamamura, Alexander Ivrii, Ritajit Majumdar, Zlatko Minev, Mario Motta, Bibek Pokharel, Pedro Rivero, Kunal Sharma, Christopher J. Wood, Ali Javadi-Abhari, Antonio Mezzacapo, (参考訳) マルチボディシステムの低エネルギー推定は、計算量子科学の基盤となっている。 変分量子アルゴリズムは、プリフォールト耐性量子プロセッサの基底状態を作成するのに使用できるが、収束保証の欠如とコスト関数推定の非現実的な数の欠如により、大規模なシステムへの実験の体系的なスケーリングが妨げられる。 プリフォールトトレラントデバイスに対する大規模な実験には、変分アプローチに代わる方法が必要である。 ここでは、超伝導量子プロセッサを用いて、56箇所の2次元格子上の量子多体系の固有エネルギーを計算し、よく知られた古典的対角化手法のアナログであるクリロフ量子対角化アルゴリズムを用いて計算する。 我々は、量子プロセッサ上で実行されるトロッター化ユニタリ進化を用いて、多体ヒルベルト空間の部分空間を構築し、これらの部分空間の中で相互作用する多体ハミルトン多様体を古典的に対角化する。 これらの実験により、量子対角化アルゴリズムは量子系の計算法の基礎において、古典的な対角化アルゴリズムを補完するものであることが示された。

The estimation of low energies of many-body systems is a cornerstone of computational quantum sciences. Variational quantum algorithms can be used to prepare ground states on pre-fault-tolerant quantum processors, but their lack of convergence guarantees and impractical number of cost function estimations prevent systematic scaling of experiments to large systems. Alternatives to variational approaches are needed for large-scale experiments on pre-fault-tolerant devices. Here, we use a superconducting quantum processor to compute eigenenergies of quantum many-body systems on two-dimensional lattices of up to 56 sites, using the Krylov quantum diagonalization algorithm, an analog of the well-known classical diagonalization technique. We construct subspaces of the many-body Hilbert space using Trotterized unitary evolutions executed on the quantum processor, and classically diagonalize many-body interacting Hamiltonians within those subspaces. These experiments show that quantum diagonalization algorithms are poised to complement their classical counterpart at the foundation of computational methods for quantum systems.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-03
# 量子場理論と量子力学の融合:ベル-CHSH不等式

Gluing together Quantum Field Theory and Quantum Mechanics: a look at the Bell-CHSH inequality ( http://arxiv.org/abs/2407.14636v2 )

ライセンス: Link先を確認
M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 相対論的スカラー量子場の真空状態におけるベル-CHSH不等式はヒルベルト空間 ${\cal H} \otimes {\cal H}_{AB}$ を用いて再検討される。 エルミート的場依存二コトミック作用素の構成はベル-CHSH不等式と同様に考案された。 不等式の一部を$AB$で計算すると、量子場のベル-CHSH相関関数は自然にユニタリワイル作用素から現れる。 さらに、スカラー場と一対の量子ビット間の相互作用を考慮に入れたJaynes-Cummings型ハミルトン法を導入し、スカラー場の真空状態におけるベル-CHSH不等式に対する量子補正を摂動理論において二階まで評価する。

The Bell-CHSH inequality in the vacuum state of a relativistic scalar quantum field is revisited by making use of the Hilbert space ${\cal H} \otimes {\cal H}_{AB}$, where ${\cal H}$ and ${\cal H}_{AB}$ stand, respectively, for the Hilbert space of the scalar field and of a generic bipartite quantum mechanical system. The construction of Hermitian, field-dependent, dichotomic operators is devised as well as the Bell-CHSH inequality. Working out the $AB$ part of the inequality, the resulting Bell-CHSH correlation function for the quantum field naturally emerges from unitary Weyl operators. Furthermore, introducing a Jaynes-Cummings type Hamiltonian accounting for the interaction between the scalar field and a pair of qubits, the quantum corrections to the Bell-CHSH inequality in the vacuum state of the scalar field are evaluated till the second order in perturbation theory.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-03
# 一般化対メモ化:事前学習データに言語モデルの能力を引き戻す

Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data ( http://arxiv.org/abs/2407.14985v2 )

ライセンス: Link先を確認
Xinyi Wang, Antonis Antoniades, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang, (参考訳) 大規模言語モデル(LLM)の印象的な能力は、これらのモデルが真に見えないタスクに一般化するか、あるいは大量の事前学習データを記憶することに主に依存しているかという議論を引き起こしている。 そこで本研究では, LLM出力確率と事前学習データ頻度との相関を計測する, メモリ化, 分散メモリ化という拡張概念を導入する。 タスク固有の事前学習データ頻度を効果的に把握するために,タスク入力と事前学習コーパスの出力から意味論的に関連付けられた$n$-gramペアの共起をカウントして構築した新しいタスクグラム言語モデルを提案する。 Pileデータセットに基づいてトレーニングされたPythiaモデルを用いて、機械翻訳、事実質問応答、推論の3つの異なるタスクを評価する。 その結果, 記憶のレベルは様々であり, 事実質問応答において最も強い効果が認められた。 さらに,LLMのサイズが大きくなるにつれてモデル性能が向上する一方,機械翻訳や推論タスクはより一般化され,より新しい出力が生成される。 本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示すとともに, 一般化がより困難で推論に基づくタスクの鍵であり, 大規模事前学習コーパスをより深く分析するためのスケーラブルな方法を提供する。

The impressive capabilities of large language models (LLMs) have sparked debate over whether these models genuinely generalize to unseen tasks or predominantly rely on memorizing vast amounts of pretraining data. To explore this issue, we introduce an extended concept of memorization, distributional memorization, which measures the correlation between the LLM output probabilities and the pretraining data frequency. To effectively capture task-specific pretraining data frequency, we propose a novel task-gram language model, which is built by counting the co-occurrence of semantically related $n$-gram pairs from task inputs and outputs in the pretraining corpus. Using the Pythia models trained on the Pile dataset, we evaluate three distinct tasks: machine translation, factual question answering, and reasoning. Our findings reveal varying levels of memorization, with the strongest effect observed in factual question answering. Furthermore, while model performance improves across all tasks as LLM size increases, only factual question answering shows an increase in memorization, whereas machine translation and reasoning tasks exhibit greater generalization, producing more novel outputs. This study demonstrates that memorization plays a larger role in simpler, knowledge-intensive tasks, while generalization is the key for harder, reasoning-based tasks, providing a scalable method for analyzing large pretraining corpora in greater depth.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-03
# マルチプロンプトによる最小ベイズリスクデコーディングの改善

Improving Minimum Bayes Risk Decoding with Multi-Prompt ( http://arxiv.org/abs/2407.15343v2 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Wei Xu, (参考訳) 命令の微調整 LLM は有効なテキストジェネレータである一方、迅速な構築に対する感度は性能を不安定にし、実際は準最適である。 一つの"ベスト"プロンプトをリライジングすることは、生成問題に対するすべての異なるアプローチを捉えることはできない。 そこで本研究では,提案するマルチプロンプト復号法を提案する。 候補をアンサンブルするために、最小ベイズリスク(MBR)デコーディングを使用し、トレーニングされた値メトリックを使用して最終的な出力を選択する。 条件生成タスクの包括的集合におけるマルチプロンプト改善を示すとともに、これは単一のプロンプトよりも多様で高品質な候補空間を推定した結果であることを示す。 さらに、マルチプロンプトはタスク、モデル、メトリクスをまたいだ生成を改善する。

While instruction fine-tuned LLMs are effective text generators, sensitivity to prompt construction makes performance unstable and sub-optimal in practice. Relying on a single "best" prompt cannot capture all differing approaches to a generation problem. Using this observation, we propose multi-prompt decoding, where many candidate generations are decoded from a prompt bank at inference-time. To ensemble candidates, we use Minimum Bayes Risk (MBR) decoding, which selects a final output using a trained value metric. We show multi-prompt improves MBR across a comprehensive set of conditional generation tasks, and show this is a result of estimating a more diverse and higher quality candidate space than that of a single prompt. Further experiments confirm multi-prompt improves generation across tasks, models and metrics.
翻訳日:2024-11-08 15:56:37 公開日:2024-10-03
# BlueTempNet:Bluesky Socialにおけるソーシャルインタラクションの時間的マルチネットワークデータセット

BlueTempNet: A Temporal Multi-network Dataset of Social Interactions in Bluesky Social ( http://arxiv.org/abs/2407.17451v2 )

ライセンス: Link先を確認
Ujun Jeong, Bohan Jiang, Zhen Tan, H. Russell Bernard, Huan Liu, (参考訳) Bluesky Social(Bluesky)のような分散ソーシャルメディアプラットフォームは、ミリ秒レベルの精度で、いくつかのユーザの振る舞いを公開可能にする。 オープン・ソースとオープン・データというブルースキーの原則を取り入れた,ユーザ主導のソーシャルインタラクションの時間的ダイナミクスの最初のコレクションを提示する。 BlueTempNetは、ユーザ間インタラクション(ユーザ追跡とブロック)やユーザ間インタラクション(コミュニティの作成と結合)など、複数のタイプのネットワークを単一のマルチネットワークに統合する。 コミュニティはカスタムフィードのユーザー形成グループで、ユーザーは興味のある投稿を購読する。 Blueskyの公開データポリシーに従って、これらのフィードを好んで生成したユーザを含む既存のBluesky Feedsを収集し、日付範囲内でユーザのソーシャルインタラクションを収集するツールを提供します。 このデータ収集戦略は過去のユーザの振る舞いを捉え、将来のユーザの振る舞いのデータ収集をサポートする。

Decentralized social media platforms like Bluesky Social (Bluesky) have made it possible to publicly disclose some user behaviors with millisecond-level precision. Embracing Bluesky's principles of open-source and open-data, we present the first collection of the temporal dynamics of user-driven social interactions. BlueTempNet integrates multiple types of networks into a single multi-network, including user-to-user interactions (following and blocking users) and user-to-community interactions (creating and joining communities). Communities are user-formed groups in custom Feeds, where users subscribe to posts aligned with their interests. Following Bluesky's public data policy, we collect existing Bluesky Feeds, including the users who liked and generated these Feeds, and provide tools to gather users' social interactions within a date range. This data-collection strategy captures past user behaviors and supports the future data collection of user behavior.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-03
# AIに基づく天気予報モデルに類似したデータアンサンブル:ClimaXバージョン0.3.1の場合

Ensemble data assimilation to diagnose AI-based weather prediction model: A case with ClimaX version 0.3.1 ( http://arxiv.org/abs/2407.17781v3 )

ライセンス: Link先を確認
Shunji Kotsuki, Kenta Shiraishi, Atsushi Okazaki, (参考訳) 人工知能(AI)ベースの天気予報研究は急速に成長しており、先進的な動的数値気象予報モデルと競合している。 しかし、データ同化システムを評価するためには、長期連続データ同化サイクルが必要であるため、AIベースの天気予報モデルとデータ同化を併用する研究は、部分的には限られている。 本研究では,AIに基づく天気予報モデルの診断にアンサンブルデータ同化を用いることを提案し,AIベースの天気予報モデルを用いたアンサンブルカルマンフィルタの実装を初めて成功させた。 AIに基づくモデルClimaXを用いた実験では、アンサンブルデータ同化が、共分散インフレーションとアンサンブルカルマンフィルタ内のローカライゼーション技術を用いて、AIベースの天気予報モデルに対して安定に周期化されることを実証した。 ClimaXは、動的モデルと比較してフロー依存誤差の共分散を捕捉する際のいくつかの制限を示したが、AIベースのアンサンブル予測は、わずかに観察された領域で合理的で有益なエラー共分散を提供した。 さらに、アンサンブルデータ同化により、アンサンブルのClimaX予測に基づく誤差の増大は動的NWPモデルよりも弱いことが判明し、高いインフレーション係数が得られた。 一連の実験により、アンサンブルデータ同化は、物理的整合性や正確なエラー成長表現などのAI天気予報モデルの特性の診断に利用できることが示された。

Artificial intelligence (AI)-based weather prediction research is growing rapidly and has shown to be competitive with the advanced dynamic numerical weather prediction models. However, research combining AI-based weather prediction models with data assimilation remains limited partially because long-term sequential data assimilation cycles are required to evaluate data assimilation systems. This study proposes using ensemble data assimilation for diagnosing AI-based weather prediction models, and marked the first successful implementation of ensemble Kalman filter with AI-based weather prediction models. Our experiments with an AI-based model ClimaX demonstrated that the ensemble data assimilation cycled stably for the AI-based weather prediction model using covariance inflation and localization techniques within the ensemble Kalman filter. While ClimaX showed some limitations in capturing flow-dependent error covariance compared to dynamical models, the AI-based ensemble forecasts provided reasonable and beneficial error covariance in sparsely observed regions. In addition, ensemble data assimilation revealed that error growth based on ensemble ClimaX predictions was weaker than that of dynamical NWP models, leading to higher inflation factors. A series of experiments demonstrated that ensemble data assimilation can be used to diagnose properties of AI weather prediction models such as physical consistency and accurate error growth representation.
翻訳日:2024-11-08 15:01:09 公開日:2024-10-03
# 教師なし知識探索のためのクラスタノルム

Cluster-norm for Unsupervised Probing of Knowledge ( http://arxiv.org/abs/2407.18712v2 )

ライセンス: Link先を確認
Walter Laurito, Sharan Maiya, Grégoire Dhimoïla, Owen, Yeung, Kaarel Hänni, (参考訳) 言語モデルの展開は、信頼性のある情報を生成する上での課題をもたらします。 人間のラベルをバイアスなく(潜在的に)抽出するために、Contrast-Consistent Search (CCS)のような教師なし探索技術が開発されている(Burns et al , 2022)。 しかし、与えられたデータセットの健全だが無関係な特徴はこれらのプローブを誤解させる可能性がある(Farquhar et al , 2023)。 そこで本研究では、クラスタリングとコントラストペアのアクティベーションの正規化により、教師なしのプローブ技術を適用する前に、そのような特徴の影響を最小限に抑えるクラスタ正規化手法を提案する。 このアプローチは、一般知識と模擬知識の差別化の問題(Christiano et al , 2021)に対処するものではないが、意図された知識を気晴らしの中で識別するための教師なしプローブの能力を大幅に改善する。

The deployment of language models brings challenges in generating reliable information, especially when these models are fine-tuned using human preferences. To extract encoded knowledge without (potentially) biased human labels, unsupervised probing techniques like Contrast-Consistent Search (CCS) have been developed (Burns et al., 2022). However, salient but unrelated features in a given dataset can mislead these probes (Farquhar et al., 2023). Addressing this, we propose a cluster normalization method to minimize the impact of such features by clustering and normalizing activations of contrast pairs before applying unsupervised probing techniques. While this approach does not address the issue of differentiating between knowledge in general and simulated knowledge - a major issue in the literature of latent knowledge elicitation (Christiano et al., 2021) - it significantly improves the ability of unsupervised probes to identify the intended knowledge amidst distractions.
翻訳日:2024-11-08 14:50:05 公開日:2024-10-03
# 個人化によるフェデレーション学習におけるグループフェアネスの強化

Enhancing Group Fairness in Federated Learning through Personalization ( http://arxiv.org/abs/2407.19331v2 )

ライセンス: Link先を確認
Yifan Yang, Ali Payani, Parinaz Naghizadeh, (参考訳) パーソナライズド・フェデレーション・ラーニング(FL)アルゴリズムは、各クライアント向けにカスタマイズされたモデルを協調的にトレーニングし、クライアントのローカルデータ(例えば、類似したクライアントをクラスタリングしたり、局所的に微調整したり、正規化用語を付与したりすることで、学習したモデルの精度を高める。 本稿では,このようなパーソナライズ手法が学習モデルのグループフェアネスに与える影響について検討し,パーソナライズが意図しないメリットとして改善(局所フェアネス)につながることを示す。 まず,パーソナライズされたFLアルゴリズムのいくつかのクラスをベースラインのFedAvgアルゴリズムと比較し,パーソナライズされたFLを用いたフェアネス向上の背景にある理由を解明し,分析的支援を行うことで,パーソナライズによるパーソナライゼーションのメリットを実証することから始める。 これらを動機として,クラスタリングに基づくパーソナライズされたFLアルゴリズムのクラスタ選択手順にフェアネスメトリックをさらに統合することにより,この(意図しない)フェアネスのメリットの上に構築する方法を示し,それらを通じて達成可能なフェアネスと精度のトレードオフを改善する。 具体的には、Fair-FCAとFair-FL+HCという2つの新しいフェアネス対応フェデレーションクラスタリングアルゴリズムを提案し、既存のIFCAとFL+HCアルゴリズムを拡張し、クライアントレベルでの精度とフェアネスのバランスをとる能力を示す。

Personalized Federated Learning (FL) algorithms collaboratively train customized models for each client, enhancing the accuracy of the learned models on the client's local data (e.g., by clustering similar clients, by fine-tuning models locally, or by imposing regularization terms). In this paper, we investigate the impact of such personalization techniques on the group fairness of the learned models, and show that personalization can also lead to improved (local) fairness as an unintended benefit. We begin by illustrating these benefits of personalization through numerical experiments comparing several classes of personalized FL algorithms against a baseline FedAvg algorithm, elaborating on the reasons behind improved fairness using personalized FL, and then providing analytical support. Motivated by these, we then show how to build on this (unintended) fairness benefit, by further integrating a fairness metric into the cluster-selection procedure of clustering-based personalized FL algorithms, and improve the fairness-accuracy trade-off attainable through them. Specifically, we propose two new fairness-aware federated clustering algorithms, Fair-FCA and Fair-FL+HC, extending the existing IFCA and FL+HC algorithms, and demonstrate their ability to strike a (tuneable) balance between accuracy and fairness at the client level.
翻訳日:2024-11-08 14:38:53 公開日:2024-10-03
# BadRobot:物理世界での身体的LLMの操作

BadRobot: Manipulating Embodied LLMs in the Physical World ( http://arxiv.org/abs/2407.20242v3 )

ライセンス: Link先を確認
Hangtao Zhang, Chenyu Zhu, Xianlong Wang, Ziqi Zhou, Changgan Yin, Minghui Li, Lulu Xue, Yichen Wang, Shengshan Hu, Aishan Liu, Peijin Guo, Leo Yu Zhang, (参考訳) Embodied AIは、AIが物理的な実体に統合され、周囲を知覚し、相互作用することができるシステムを表す。 強力な言語理解能力を示すLarge Language Model(LLM)は、高度なタスク計画を容易にすることで、AIの具体化に広く採用されている。 しかし、重大な安全性の問題はまだ見過ごされていない。 そこで我々は,BadRobotを紹介した。BadRobotは,一般的な音声ベースのユーザシステムインタラクションを通じて,LLMを安全・倫理的制約に違反させることを目的とした,新たな攻撃パラダイムである。 具体的には、この種の攻撃を達成するために、3つの脆弱性が悪用される。 一 ロボットシステム内におけるLLMの操作 二 言語出力と身体行動の相違、及び 三 世界の知識の欠陥による意図しない有害な行動 さらに,BadRobotの攻撃性能を評価するために,悪質な物理行動クエリのベンチマークを構築した。 このベンチマークに基づいて、既存の著名なLLMフレームワーク(Voxposer、Code as Policies、ProgPromptなど)に対する広範な実験が、BadRobotの有効性を実証しています。 警告: この論文は有害なAI生成言語とアグレッシブアクションを含んでいる。

Embodied AI represents systems where AI is integrated into physical entities, enabling them to perceive and interact with their surroundings. Large Language Model (LLM), which exhibits powerful language understanding abilities, has been extensively employed in embodied AI by facilitating sophisticated task planning. However, a critical safety issue remains overlooked: could these embodied LLMs perpetrate harmful behaviors? In response, we introduce BadRobot, a novel attack paradigm aiming to make embodied LLMs violate safety and ethical constraints through typical voice-based user-system interactions. Specifically, three vulnerabilities are exploited to achieve this type of attack: (i) manipulation of LLMs within robotic systems, (ii) misalignment between linguistic outputs and physical actions, and (iii) unintentional hazardous behaviors caused by world knowledge's flaws. Furthermore, we construct a benchmark of various malicious physical action queries to evaluate BadRobot's attack performance. Based on this benchmark, extensive experiments against existing prominent embodied LLM frameworks (e.g., Voxposer, Code as Policies, and ProgPrompt) demonstrate the effectiveness of our BadRobot. Warning: This paper contains harmful AI-generated language and aggressive actions.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-03
# ThinK: クエリ駆動型プルーニングによるより薄いキーキャッシュ

ThinK: Thinner Key Cache by Query-Driven Pruning ( http://arxiv.org/abs/2407.21018v2 )

ライセンス: Link先を確認
Yuhui Xu, Zhanming Jie, Hanze Dong, Lei Wang, Xudong Lu, Aojun Zhou, Amrita Saha, Caiming Xiong, Doyen Sahoo, (参考訳) 大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。 しかし、計算とメモリの要求が増大し、特に長いシーケンスを扱う場合、大きな課題が浮かび上がっている。 本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。 シーケンス長に基づいてメモリを最適化する既存のアプローチとは異なり,KVキャッシュのチャネル次元におけるかなりの冗長性は,注目重みの均一な分布と低ランク構造によって示される。 そこで本研究では,最小のチャネルを選択的にプルーニングしながら,注目量の減少を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。 提案手法は,モデル精度を維持・向上するだけでなく,バニラKVキャッシュ消去法や量子化法と比較して,KVキャッシュメモリコストを20%以上削減する。 例えば、KIVIと統合されたThinKは、ほぼ同じ品質を維持しながらピークメモリ使用量の2.8倍の削減を実現し、単一のGPUを使用する場合のバッチサイズを最大5倍に向上させることができる。 LLaMA と Mistral モデルに対する広範囲な評価により、ThinK の効率が検証され、性能を損なうことなく効率的な LLM デプロイメントのための新しいベースラインアルゴリズムが確立された。

Large Language Models (LLMs) have revolutionized the field of natural language processing, achieving unprecedented performance across a variety of applications. However, their increased computational and memory demands present significant challenges, especially when handling long sequences. This paper focuses on the long-context scenario, addressing the inefficiencies in KV cache memory consumption during inference. Unlike existing approaches that optimize the memory based on the sequence length, we identify substantial redundancy in the channel dimension of the KV cache, as indicated by an uneven magnitude distribution and a low-rank structure in the attention weights. In response, we propose ThinK, a novel query-dependent KV cache pruning method designed to minimize attention weight loss while selectively pruning the least significant channels. Our approach not only maintains or enhances model accuracy but also achieves a reduction in KV cache memory costs by over 20% compared with vanilla KV cache eviction and quantization methods. For instance, ThinK integrated with KIVI can achieve a 2.8x reduction in peak memory usage while maintaining nearly the same quality, enabling up to a 5x increase in batch size when using a single GPU. Extensive evaluations on the LLaMA and Mistral models across various long-sequence datasets verified the efficiency of ThinK, establishing a new baseline algorithm for efficient LLM deployment without compromising performance.
翻訳日:2024-11-08 13:51:33 公開日:2024-10-03
# 日常生活における高精度・多目的睡眠状態モニタリングのための深層学習型スマートウェア

A deep learning-enabled smart garment for accurate and versatile sleep conditions monitoring in daily life ( http://arxiv.org/abs/2408.00753v2 )

ライセンス: Link先を確認
Chenyu Tang, Wentian Yi, Muzi Xu, Yuxuan Jin, Zibo Zhang, Xuhang Chen, Caizhi Liao, Peter Smielewski, Luigi G. Occhipinti, (参考訳) ウェアラブルスマートシステムでは、睡眠関連疾患の継続的なモニタリングと正確な分類が睡眠品質の向上と睡眠関連慢性疾患の予防に重要である。 しかし、電気生理的睡眠モニタリングシステムにおけるデバイスと皮膚のカップリング品質の要件は、夜間着用の快適さと信頼性を妨げている。 そこで本研究では, 位置決めや皮膚調製を必要とせず, デバイスと皮膚を結合した弱い条件下で, 局所的な皮膚ひずみ信号を捕捉する, 洗濯可能な皮膚適合型スマートスリープモニタリングシステムについて報告する。 印刷繊維系ひずみセンサアレイは、ゲージファクターを100以上で0.1%〜10%のひずみに応答し、ひずみ分離型印刷パターン設計により、外在性運動人工物に独立性を示す。 可逆性デンプン処理により、衣服への直接印刷中のインク浸透深度を制御し、バッチ・ツー・バッチ性能の変化を10%とする。 ディープラーニング、説明可能な人工知能(XAI)、および伝達学習データ処理と組み合わせて、このスマートウェアは6つの睡眠状態を98.6%の精度で分類することができ、実用的な用途において優れた説明可能性(バイアスの少ない分類)と一般化(クラス当たり15サンプル未満の新規ユーザーでの95%の精度)を維持し、次世代の睡眠医療管理への道を開くことができる。

In wearable smart systems, continuous monitoring and accurate classification of different sleep-related conditions are critical for enhancing sleep quality and preventing sleep-related chronic conditions. However, the requirements for device-skin coupling quality in electrophysiological sleep monitoring systems hinder the comfort and reliability of night wearing. Here, we report a washable, skin-compatible smart garment sleep monitoring system that captures local skin strain signals under weak device-skin coupling conditions without positioning or skin preparation requirements. A printed textile-based strain sensor array responds to strain from 0.1% to 10% with a gauge factor as high as 100 and shows independence to extrinsic motion artefacts via strain-isolating printed pattern design. Through reversible starching treatment, ink penetration depth during direct printing on garments is controlled to achieve batch-to-batch performance variation < 10%. Coupled with deep learning, explainable artificial intelligence (XAI), and transfer learning data processing, the smart garment is capable of classifying six sleep states with an accuracy of 98.6%, maintaining excellent explainability (classification with low bias) and generalization (95% accuracy on new users with few-shot learning less than 15 samples per class) in practical applications, paving the way for next-generation daily sleep healthcare management.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-03
# TransformerはUniversal In-context Learnerである

Transformers are Universal In-context Learners ( http://arxiv.org/abs/2408.01367v2 )

ライセンス: Link先を確認
Takashi Furuya, Maarten V. de Hoop, Gabriel Peyré, (参考訳) トランスフォーマーは、与えられたトークンセット(NLPアプリケーションにおけるプロンプトやビジョントランスフォーマー用のパッチセットなど)に基づいて新しいトークンを予測できる「コンテキスト内マッピング」を定義するディープアーキテクチャである。 本研究では,これらのアーキテクチャが任意の数のコンテキストトークンを扱う能力について検討する。 数学的に、それらの表現性を均一に扱うために、これらの写像が有限個のトークンに対して離散となるトークンの確率分布で表される文脈で条件づけられている場合を考える。 関連した滑らかさの概念は、これらの文脈の間のワッサーシュタイン距離の観点からの連続性に対応する。 深層変圧器は普遍的であり、コンパクトなトークン領域に対して一様に、任意の精度で連続的な文脈内マッピングを近似できることを示す。 我々の結果の重要な側面は、既存の結果と比較して、固定精度では、単一変圧器が任意の(無限の)トークン数で動作可能であることである。 さらに、トークンの固定埋め込み次元(この次元は精度で増加しない)と固定数のヘッド(次元に比例する)で作用する。 マルチヘッドアテンション層間のMLPの使用も明示的に制御されている。 我々は、(視覚変換器として)マスキングされていない注意と(NLPや時系列の用途で使用される)因果注意の両方を考慮する。 トークンの確率分布のマッピングとして,時空リフトを利用して因果的注意を解析する因果的設定に取り組む。

Transformers are deep architectures that define "in-context mappings" which enable predicting new tokens based on a given set of tokens (such as a prompt in NLP applications or a set of patches for a vision transformer). In this work, we study in particular the ability of these architectures to handle an arbitrarily large number of context tokens. To mathematically, uniformly address their expressivity, we consider the case that the mappings are conditioned on a context represented by a probability distribution of tokens which becomes discrete for a finite number of these. The relevant notion of smoothness then corresponds to continuity in terms of the Wasserstein distance between these contexts. We demonstrate that deep transformers are universal and can approximate continuous in-context mappings to arbitrary precision, uniformly over compact token domains. A key aspect of our results, compared to existing findings, is that for a fixed precision, a single transformer can operate on an arbitrary (even infinite) number of tokens. Additionally, it operates with a fixed embedding dimension of tokens (this dimension does not increase with precision) and a fixed number of heads (proportional to the dimension). The use of MLPs between multi-head attention layers is also explicitly controlled. We consider both unmasked attentions (as used for the vision transformer) and masked causal attentions (as used for NLP and time series applications). We tackle the causal setting leveraging a space-time lifting to analyze causal attention as a mapping over probability distributions of tokens.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-03
# GPUDrive:100万FPSでデータ駆動マルチエージェント駆動シミュレーション

GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS ( http://arxiv.org/abs/2408.01584v2 )

ライセンス: Link先を確認
Saman Kazemkhani, Aarav Pandya, Daphne Cornelisse, Brennan Shacklett, Eugene Vinitsky, (参考訳) マルチエージェント学習アルゴリズムは、様々なゲームでスーパーヒューマンプランニングを生成するのに成功しているが、デプロイされたマルチエージェントプランナーの設計に限られた影響を与えている。 これらのテクニックをマルチエージェント計画に適用する上で重要なボトルネックは、何十億もの経験ステップを必要とすることだ。 大規模マルチエージェント計画の研究を可能にするために,Madrona Game Engine上に構築されたGPUアクセラレーションによるマルチエージェントシミュレータであるGPUDriveを紹介した。 観察、報酬、動的関数はC++で直接書かれており、ユーザーは高性能なCUDAに格下げされる複雑で異質なエージェントの振る舞いを定義できる。 GPUDriveを使用することで、Waymo Open Motion Datasetの多くのシーンで強化学習エージェントを効果的にトレーニングし、個々のシーンで数分で高い効率の目標達成エージェントを生成し、数時間で数千のシナリオをナビゲートできることを示す。 事前トレーニングされたエージェントを持つコードベースは、 \url{https://github.com/Emerge-Lab/gpudrive}で公開されている。

Multi-agent learning algorithms have been successful at generating superhuman planning in various games but have had limited impact on the design of deployed multi-agent planners. A key bottleneck in applying these techniques to multi-agent planning is that they require billions of steps of experience. To enable the study of multi-agent planning at scale, we present GPUDrive, a GPU-accelerated, multi-agent simulator built on top of the Madrona Game Engine that can generate over a million simulation steps per second. Observation, reward, and dynamics functions are written directly in C++, allowing users to define complex, heterogeneous agent behaviors that are lowered to high-performance CUDA. We show that using GPUDrive we can effectively train reinforcement learning agents over many scenes in the Waymo Open Motion Dataset, yielding highly effective goal-reaching agents in minutes for individual scenes and enabling agents to navigate thousands of scenarios within hours. The code base with pre-trained agents is available at \url{https://github.com/Emerge-Lab/gpudrive}.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-03
# miniCTX:(Long-)コンテキストによる神経理論の証明

miniCTX: Neural Theorem Proving with (Long-)Contexts ( http://arxiv.org/abs/2408.03350v2 )

ライセンス: Link先を確認
Jiewen Hu, Thomas Zhu, Sean Welleck, (参考訳) 実世界の形式定理の証明は、定義、補題、コメント、ファイル構造、その他の情報を含む多くの文脈に依存することが多い。 トレーニング中に見えない新しい文脈に依存した形式的な数学的定理を立証するモデルの能力をテストするミニCTXを導入する。 miniCTXには、実際のリーンプロジェクトと教科書に由来する定理が含まれており、それぞれに数万のトークンにまたがるコンテキストが関連付けられています。 モデルは、定理が証明に必要な文脈を含む定理のリポジトリからコードにアクセスできることを証明することを任務とする。 ミニCTXのベースラインとして,先行する文脈で証明された条件定理を微調整し,提案手法を推し進めた。 どちらのアプローチも、状態情報のみに依存する従来の手法よりも大幅に優れている。 このコンテキストを使用する機能は、 miniF2Fのような以前のベンチマークではキャプチャされないことがわかった。 miniCTXとともに、定理証明データを自動抽出し注釈付けするためのntp-toolkitを提供し、miniCTXに新しいプロジェクトを追加して、トレーニング中にコンテキストが見えないようにする。 miniCTXは、ニューラル定理プロバーの挑戦的で現実的な評価を提供する。

Real-world formal theorem proving often depends on a wealth of context, including definitions, lemmas, comments, file structure, and other information. We introduce miniCTX, which tests a model's ability to prove formal mathematical theorems that depend on new context that is not seen during training. miniCTX contains theorems sourced from real Lean projects and textbooks, each associated with a context that can span tens of thousands of tokens. Models are tasked with proving a theorem given access to code from the theorem's repository, which contains context that is needed for the proof. As a baseline for miniCTX, we tested fine-tuning and prompting methods that condition theorem proving on preceding context. Both approaches substantially outperform traditional methods that rely solely on state information. We found that this ability to use context is not captured by previous benchmarks such as miniF2F. Alongside miniCTX, we offer ntp-toolkit for automatically extracting and annotating theorem proving data, making it easy to add new projects into miniCTX to ensure that contexts are not seen during training. miniCTX offers a challenging and realistic evaluation of neural theorem provers.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-03
# In2Core:大規模言語モデルの命令微調整におけるコアセット選択に対する影響関数の活用

In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models ( http://arxiv.org/abs/2408.03560v2 )

ライセンス: Link先を確認
Ayrton San Joaquin, Bin Wang, Zhengyuan Liu, Nicholas Asher, Brian Lim, Philippe Muller, Nancy F. Chen, (参考訳) 進歩にもかかわらず、モデル一般化のためのパラメータ数とかなりのデータ要求のため、微調整の大規模言語モデル(LLM)はコストがかかるままである。 コンピューティングリソースへのアクセシビリティは、オープンソースコミュニティにとって依然として障壁である。 この課題に対処するために、トレーニングと評価サンプルの相関関係を学習モデルを用いて解析し、コアセットを選択するIn2Coreアルゴリズムを提案する。 特に、モデルの内部勾配を評価して、各トレーニングポイントの貢献度をランク付けすることを目的として、この関係を推定する。 効率を向上させるために、同様の精度を達成しつつ、少ない層数で影響関数を計算する最適化を提案する。 LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。 時間の経過とともに、特定のテストサンプルに対するモデルカバレッジを分析するために影響関数を使用すると、これらのテストポイントのトレーニングセットのカバレッジに対する信頼性と解釈可能な信号が得られる。

Despite advancements, fine-tuning Large Language Models (LLMs) remains costly due to the extensive parameter count and substantial data requirements for model generalization. Accessibility to computing resources remains a barrier for the open-source community. To address this challenge, we propose the In2Core algorithm, which selects a coreset by analyzing the correlation between training and evaluation samples with a trained model. Notably, we assess the model's internal gradients to estimate this relationship, aiming to rank the contribution of each training point. To enhance efficiency, we propose an optimization to compute influence functions with a reduced number of layers while achieving similar accuracy. By applying our algorithm to instruction fine-tuning data of LLMs, we can achieve similar performance with just 50% of the training data. Meantime, using influence functions to analyze model coverage to certain testing samples could provide a reliable and interpretable signal on the training set's coverage of those test points.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-03
# 赤外線の小さなターゲットを検知する「Bunch」(動画あり)

Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention ( http://arxiv.org/abs/2408.03717v2 )

ライセンス: Link先を確認
Yimian Dai, Peiwen Pan, Yulei Qian, Yuxuan Li, Xiang Li, Jian Yang, Huan Wang, (参考訳) 複雑な背景乱れの中で、赤外線小目標検出は、ディムターゲットを正確に位置決めする固有の課題に直面している。 従来のアプローチでは、検出精度と誤報率のバランスを取るのに苦労している。 このジレンマを断ち切るために,従来のヒットミストレードオフを超えて高精度なネットワークであるSeRankDetを提案する。 中心となるのはSelective Rank-Aware Attention (SeRank)モジュールで、非線形のTop-K選択プロセスを採用しています。 さらに、我々はU-Net構造で典型的な静的結合をLarge Selective Feature Fusion (LSFF)モジュールに置き換える。これは、SeRankDetに適応的な機能統合を付与し、偽アラームから真のターゲットを識別する能力を向上する動的融合戦略である。 DDCモジュールは、拡張畳み込みによる微妙な目標特性の増幅を目的とした差分畳み込みを併用し、受容場を拡大し、ターゲット-背景分離を大幅に改善する。 軽量なアーキテクチャにもかかわらず、提案されたSeRankDetは、複数のパブリックデータセットにわたる最先端パフォーマンスのベンチマークを新たに設定する。 コードはhttps://github.com/GrokCV/SeRankDet.comで入手できる。

Infrared small target detection faces the inherent challenge of precisely localizing dim targets amidst complex background clutter. Traditional approaches struggle to balance detection precision and false alarm rates. To break this dilemma, we propose SeRankDet, a deep network that achieves high accuracy beyond the conventional hit-miss trade-off, by following the ``Pick of the Bunch'' principle. At its core lies our Selective Rank-Aware Attention (SeRank) module, employing a non-linear Top-K selection process that preserves the most salient responses, preventing target signal dilution while maintaining constant complexity. Furthermore, we replace the static concatenation typical in U-Net structures with our Large Selective Feature Fusion (LSFF) module, a dynamic fusion strategy that empowers SeRankDet with adaptive feature integration, enhancing its ability to discriminate true targets from false alarms. The network's discernment is further refined by our Dilated Difference Convolution (DDC) module, which merges differential convolution aimed at amplifying subtle target characteristics with dilated convolution to expand the receptive field, thereby substantially improving target-background separation. Despite its lightweight architecture, the proposed SeRankDet sets new benchmarks in state-of-the-art performance across multiple public datasets. The code is available at https://github.com/GrokCV/SeRankDet.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-03
# PowerPM:パワーシステムの基礎モデル

PowerPM: Foundation Model for Power Systems ( http://arxiv.org/abs/2408.04057v3 )

ライセンス: Link先を確認
Shihao Tu, Yupeng Zhang, Jing Zhang, Zhendong Fu, Yin Zhang, Yang Yang, (参考訳) 豊富な電気時系列データ(ETS)の出現は、需要側管理、グリッド安定性、消費者行動分析など、電力システムにおける様々な応用に十分な機会を提供する。 深層学習モデルは、シーケンス依存を効果的に捉えて高度なETSモデリングを行う。 しかし、ETSデータの本質的に複雑な階層構造のため、様々なアプリケーションに対するETSデータの一般的な表現を学習することは依然として困難である。 さらに、ETSデータは複雑な時間的依存関係を示し、外因性変数の影響を受けやすい。 さらに、異なるインスタンスは多様な電力消費挙動を示す。 本稿では,ETSデータをモデル化する基盤モデルPowerPMを提案し,電力系統の大規模オフザシェルフモデルを提供する。 PowerPMは時間エンコーダと階層エンコーダで構成される。 時間エンコーダは、外因性変数を考慮して、ETSデータ内の両方の時間的依存関係をキャプチャする。 階層エンコーダは階層間の相関をモデル化する。 さらに、PowerPMは、マスク付きETSモデリングとデュアルビューコントラスト学習を組み合わせた、新しい自己教師型事前学習フレームワークを活用して、ETSウィンドウ内の時間依存性を捕捉し、ETSウィンドウ間の不一致を認識し、汎用表現を学ぶための2つの異なる視点を提供する。 実験では、プライベートデータとパブリックデータからなる5つの実世界のシナリオデータセットについて検討した。 大規模なETSデータの事前トレーニングを通じて、PowerPMはプライベートデータセット内のさまざまな下流タスクでSOTAパフォーマンスを達成する。 印象的なことに、パブリックデータセットに転送されると、PowerPMはその優位性を維持し、さまざまなタスクやドメインにわたる顕著な一般化能力を示している。 さらに, アブレーション実験, 少数ショット実験により, モデルの有効性が示唆された。

The emergence of abundant electricity time series (ETS) data provides ample opportunities for various applications in the power systems, including demand-side management, grid stability, and consumer behavior analysis. Deep learning models have advanced ETS modeling by effectively capturing sequence dependence. Nevertheless, learning a generic representation of ETS data for various applications remains challenging due to the inherently complex hierarchical structure of ETS data. Moreover, ETS data exhibits intricate temporal dependencies and is suscepti ble to the influence of exogenous variables. Furthermore, different instances exhibit diverse electricity consumption behavior. In this paper, we propose a foundation model PowerPM to model ETS data, providing a large-scale, off-the-shelf model for power systems. PowerPM consists of a temporal encoder and a hierarchical encoder. The temporal encoder captures both temporal dependencies in ETS data, considering exogenous variables. The hierarchical encoder models the correlation between hierarchy. Furthermore, PowerPM leverages a novel self-supervised pretraining framework consisting of masked ETS modeling and dual-view contrastive learning, which enable PowerPM to capture temporal dependency within ETS windows and aware the discrepancy across ETS windows, providing two different perspectives to learn generic representation. Our experiments involve five real world scenario datasets, comprising private and public data. Through pre-training on massive ETS data, PowerPM achieves SOTA performance on diverse downstream tasks within the private dataset. Impressively, when transferred to the public datasets, PowerPM maintains its superiority, showcasing its remarkable generalization ability across various tasks and domains. Moreover, ablation studies, few-shot experiments provide additional evidence of the effectiveness of our model.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-03
# DyGMamba: 状態空間モデルによる連続時間動的グラフの長期的依存を効果的にモデル化する

DyGMamba: Efficiently Modeling Long-Term Temporal Dependency on Continuous-Time Dynamic Graphs with State Space Models ( http://arxiv.org/abs/2408.04713v2 )

ライセンス: Link先を確認
Zifeng Ding, Yifeng Li, Yuan He, Antonio Norelli, Jingcheng Wu, Volker Tresp, Yunpu Ma, Michael Bronstein, (参考訳) 連続時間動的グラフ(CTDG)の有用な表現の学習は、長いノードの相互作用履歴にまたがると同時に、微妙な時間的詳細を把握する必要があるため、困難である。 特に, より長い履歴をエンコードするには, 計算資源の増大が必要であり, 効率性を確保するためにCTDGモデルが低計算量を維持することが不可欠である; 一方, より強力なモデルでは, より長い履歴によって提供される拡張された文脈内で最も重要な時間情報を識別し, 選択する必要がある。 このような問題に対処するために,一般的なマンバ状態空間モデル(SSM)から派生したDyGMambaというCTDG表現学習モデルを提案する。 DyGMambaはまずノードレベルのSSMを利用して、履歴ノード間の相互作用のシーケンスを符号化する。 次に、別の時間レベルのSSMを使用して、履歴グラフに隠された時間パターンを利用し、その出力を使用して相互作用履歴から臨界情報を動的に選択する。 動的リンク予測タスクにおいてDyGMambaを実験的に検証する。 その結果,ほとんどの場合,我々のモデルは最先端技術を実現していることがわかった。 DyGMambaは計算資源の観点からも高い効率性を維持しており、限られた計算予算で長期間の依存関係をキャプチャすることができる。

Learning useful representations for continuous-time dynamic graphs (CTDGs) is challenging, due to the concurrent need to span long node interaction histories and grasp nuanced temporal details. In particular, two problems emerge: (1) Encoding longer histories requires more computational resources, making it crucial for CTDG models to maintain low computational complexity to ensure efficiency; (2) Meanwhile, more powerful models are needed to identify and select the most critical temporal information within the extended context provided by longer histories. To address these problems, we propose a CTDG representation learning model named DyGMamba, originating from the popular Mamba state space model (SSM). DyGMamba first leverages a node-level SSM to encode the sequence of historical node interactions. Another time-level SSM is then employed to exploit the temporal patterns hidden in the historical graph, where its output is used to dynamically select the critical information from the interaction history. We validate DyGMamba experimentally on the dynamic link prediction task. The results show that our model achieves state-of-the-art in most cases. DyGMamba also maintains high efficiency in terms of computational resources, making it possible to capture long temporal dependencies with a limited computation budget.
翻訳日:2024-11-08 12:11:36 公開日:2024-10-03
# 動的知識グラフを用いた異常検出の一手法

A Methodological Report on Anomaly Detection on Dynamic Knowledge Graphs ( http://arxiv.org/abs/2408.06121v2 )

ライセンス: Link先を確認
Xiaohua Lu, Leshanshui Yang, (参考訳) 本稿では、動的知識グラフの異常検出に対するさまざまなアプローチについて、特にKubernetesアプリケーションのためのマイクロサービス環境で検討する。 提案手法では,シーケンシャルデータ,ワンホップグラフ構造,および2ホップグラフ構造という3つの動的知識グラフ表現について検討する。 各フェーズには、さまざまな機械学習モデルとディープラーニングモデルが含まれている。 実験的にそれらの性能を分析し,これらのモデルのアンサンブル学習に基づくアプローチを提案する。 ISWC 2024 Dynamic Knowledge Graph Anomaly Detection データセットのベースラインを著しく上回り、動的複素データにおける異常検出のための堅牢なソリューションを提供する。

In this paper, we explore different approaches to anomaly detection on dynamic knowledge graphs, specifically in a microservices environment for Kubernetes applications. Our approach explores three dynamic knowledge graph representations: sequential data, one-hop graph structure, and two-hop graph structure, with each representation incorporating increasingly complex structural information. Each phase includes different machine learning and deep learning models. We empirically analyse their performance and propose an approach based on ensemble learning of these models. Our approach significantly outperforms the baseline on the ISWC 2024 Dynamic Knowledge Graph Anomaly Detection dataset, providing a robust solution for anomaly detection in dynamic complex data.
翻訳日:2024-11-08 11:38:16 公開日:2024-10-03
# Re-TASK: LLMタスクの能力、スキル、知識の観点からの再考

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives ( http://arxiv.org/abs/2408.06904v2 )

ライセンス: Link先を確認
Zhihu Wang, Shiwan Zhao, Yu Wang, Heyuan Huang, Sitao Xie, Yubo Zhang, Jiaxin Shi, Zhixing Wang, Hongyan Li, Junchi Yan, (参考訳) CoT(Chain-of-Thought)パラダイムは、複雑な問題を解決するための重要な方法となっている。 しかし、大規模言語モデル(LLM)はこれらのタスクを正確に分解するのに苦労し、たとえ分解が正しいとしても、サブタスクを効果的に実行できないため、複雑なドメイン固有タスクへの応用は依然として困難である。 本稿では,ブルームの分類・知識空間理論の原理に基づいて,能力・技能・知識の観点からLLMタスクを再考する新たな理論モデルであるRe-TASKフレームワークを紹介する。 CoTはタスクに関するワークフローの視点を提供するが、Re-TASKフレームワークはChain-of-Learningビューを導入し、タスクとそれに対応するサブタスクがさまざまな機能項目に依存するかを説明する。 各能力項目は、その知識とスキルの構成要素にさらに分離される。 我々のフレームワークは、ドメイン固有のタスクにおける多くのCoT障害が、知識不足やスキル適応の不十分に起因することを明らかにしている。 これに対し,CoT と Re-TASK フレームワークを併用し,タスク性能向上戦略を慎重に設計した Re-TASK を実装した。 具体的には、タスクやサブタスクに関連付けられたコア機能項目を特定し、目標とする知識注入やスキル適応を通じてこれらの機能を強化する。 我々はRe-TASKフレームワークを法、金融、数学の領域にまたがる3つのデータセット上で検証し、ベースラインモデルよりも大幅に改善した。 特に,Yi-1.5-9Bモデルでは44.42%,法的データセットではLlama3- Chinese-8bでは33.08%の改善が見られた。 これらの実験により, Re-TASKフレームワークの有効性が確認され, LLMの性能と適用性の両方が大幅に向上した。

The Chain-of-Thought (CoT) paradigm has become a pivotal method for solving complex problems. However, its application to intricate, domain-specific tasks remains challenging, as large language models (LLMs) often struggle to accurately decompose these tasks and, even when decomposition is correct, fail to execute the subtasks effectively. This paper introduces the Re-TASK framework, a novel theoretical model that revisits LLM tasks from the perspectives of capability, skill, and knowledge, drawing on the principles of Bloom's Taxonomy and Knowledge Space Theory. While CoT offers a workflow perspective on tasks, the Re-TASK framework introduces a Chain-of-Learning view, illustrating how tasks and their corresponding subtasks depend on various capability items. Each capability item is further dissected into its constituent aspects of knowledge and skills. Our framework reveals that many CoT failures in domain-specific tasks stem from insufficient knowledge or inadequate skill adaptation. In response, we combine CoT with the Re-TASK framework and implement a carefully designed Re-TASK prompting strategy to improve task performance. Specifically, we identify core capability items linked to tasks and subtasks, then strengthen these capabilities through targeted knowledge injection and skill adaptation. We validate the Re-TASK framework on three datasets across the law, finance, and mathematics domains, achieving significant improvements over the baseline models. Notably, our approach yields a remarkable 44.42% improvement with the Yi-1.5-9B model and a 33.08% improvement with the Llama3-Chinese-8b on the legal dataset. These experimental results confirm the effectiveness of the Re-TASK framework, demonstrating substantial enhancements in both the performance and applicability of LLMs.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-03
# 政策最適化のためのq-exponential family

q-exponential family for policy optimization ( http://arxiv.org/abs/2408.07245v2 )

ライセンス: Link先を確認
Lingwei Zhu, Haseeb Shah, Han Wang, Yukie Nagai, Martha White, (参考訳) 政策最適化法は、単純かつトラクタブルな政策パラメトリゼーション(通常は連続的な行動空間に対するガウス的)の恩恵を受ける。 本稿では、より広範な政策ファミリーについて検討する:$q$-exponential family。 このポリシーのファミリはフレキシブルで、ヘビーテールのポリシー(q>1$)とライトテールのポリシー(q<1$)の両方を仕様化できる。 本稿では,オンライン問題とオフライン問題の両方で実行されるアクター批判アルゴリズムに対する$q$-exponential Policyの相互作用について検討する。 ヘビーテールの政策は一般的により効果的であり、常にガウシアンを改善することができる。 特に,Tsallis Advantage Weighted Actor-Critic の高額な$q$-Gaussian は,オフラインベンチマーク問題において常に良好に動作する。 私たちのコードは \url{https://github.com/lingweizhu/qexp} で利用可能です。

Policy optimization methods benefit from a simple and tractable policy parametrization, usually the Gaussian for continuous action spaces. In this paper, we consider a broader policy family that remains tractable: the $q$-exponential family. This family of policies is flexible, allowing the specification of both heavy-tailed policies ($q>1$) and light-tailed policies ($q<1$). This paper examines the interplay between $q$-exponential policies for several actor-critic algorithms conducted on both online and offline problems. We find that heavy-tailed policies are more effective in general and can consistently improve on Gaussian. In particular, we find the Student's t-distribution to be more stable than the Gaussian across settings and that a heavy-tailed $q$-Gaussian for Tsallis Advantage Weighted Actor-Critic consistently performs well in offline benchmark problems. Our code is available at \url{https://github.com/lingweizhu/qexp}.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-03
# IDEA: 大規模言語モデルエージェントの誘導, 推論, アブダクションによるルール学習能力の向上

IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction ( http://arxiv.org/abs/2408.10455v3 )

ライセンス: Link先を確認
Kaiyu He, Mian Zhang, Shuo Yan, Peilin Wu, Zhiyu Zoey Chen, (参考訳) 大規模言語モデル (LLM) は帰納的推論や帰納的推論において徹底的に評価されているが、帰納的推論の習熟度や対話型環境における全体論的ルール学習はいまだに研究されていない。 対話型環境下でのLLMエージェントのルール学習能力を評価するための新しいベンチマークであるRULEARNを紹介する。 RULEARNでは、エージェントはシミュレートされた環境と戦略的に相互作用し、観察、パターンの識別、複雑な問題の解決を行う。 LLMエージェントのルール学習能力を高めるために,誘導,誘引,アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。 IDEAエージェントは、誘拐によって限られた観察から初期仮説を生成し、これらの仮説を検証または活用して推論を介して問題を解決し、誘導を通じて新しい観察から同定されたパターンを用いて以前の仮説を洗練し、人間の規則学習行動を模倣する規則を動的に確立し、適用する。 5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。 さらに,本枠組みでは,50人の被験者との比較により,ルール学習行動に顕著な相違があることが判明した。 LLMエージェントは、もっともらしい初期仮説を生成する傾向があるが、相互作用を通じてそれらを洗練するのに苦労する。 逆に、人間は時に初期の詳細を見落としているにもかかわらず、フィードバックを取り入れ、仮説を継続的に改善することに長けている。 私たちは、我々のベンチマークであるRULEARNが、価値ある、挑戦的なリソースとなり、IDEAフレームワークが、現実世界のシナリオで人間のようなルール学習ができるLLMエージェントの開発に重要な洞察を提供すると信じています。 論文の受理後、コードとデータを公開します。

While large language models (LLMs) have been thoroughly evaluated for deductive and inductive reasoning, their proficiency in abductive reasoning and holistic rule learning in interactive environments remains less explored. We introduce RULEARN, a novel benchmark specifically designed to assess the rule-learning abilities of LLM agents in interactive settings. In RULEARN, agents strategically interact with simulated environments to gather observations, discern patterns, and solve complex problems. To enhance the rule-learning capabilities for LLM agents, we propose IDEA, a novel reasoning framework that integrates the process of Induction, Deduction, and Abduction. The IDEA agent generates initial hypotheses from limited observations through abduction, devises plans to validate these hypotheses or leverages them to solve problems via deduction, and refines previous hypotheses using patterns identified from new observations through induction, dynamically establishing and applying rules that mimic human rule-learning behaviors. Our evaluation of the IDEA framework, which involves five representative LLMs, demonstrates significant improvements over the baseline. Furthermore, within this framework, our comparison with 50 human participants reveals notable discrepancies in rule-learning behaviors. LLM agents tend to generate plausible initial hypotheses but struggle to refine them through interaction. Conversely, humans, despite sometimes overlooking initial details, excel at incorporating feedback and continuously improving their hypotheses. We believe our benchmark, RULEARN, will serve as a valuable and challenging resource, and that the IDEA framework will provide crucial insights for the development of LLM agents capable of human-like rule learning in real-world scenarios. We will release our code and data upon acceptance of the paper.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-03
# IDEA: 大規模言語モデルエージェントの誘導, 推論, アブダクションによるルール学習能力の向上

IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction ( http://arxiv.org/abs/2408.10455v4 )

ライセンス: Link先を確認
Kaiyu He, Mian Zhang, Shuo Yan, Peilin Wu, Zhiyu Zoey Chen, (参考訳) 大規模言語モデル (LLM) は帰納的推論や帰納的推論において徹底的に評価されているが、帰納的推論の習熟度や対話型環境における全体論的ルール学習はいまだに研究されていない。 対話型環境下でのLLMエージェントのルール学習能力を評価するための新しいベンチマークであるRULEARNを紹介する。 RULEARNでは、エージェントはシミュレートされた環境と戦略的に相互作用し、観察、パターンの識別、複雑な問題の解決を行う。 LLMエージェントのルール学習能力を高めるために,誘導,誘引,アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。 IDEAエージェントは、誘拐によって限られた観察から初期仮説を生成し、これらの仮説を検証または活用して推論を介して問題を解決し、誘導を通じて新しい観察から同定されたパターンを用いて以前の仮説を洗練し、人間の規則学習行動を模倣する規則を動的に確立し、適用する。 5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。 さらに,本枠組みでは,50人の被験者との比較により,ルール学習行動に顕著な相違があることが判明した。 LLMエージェントは、もっともらしい初期仮説を生成する傾向があるが、相互作用を通じてそれらを洗練するのに苦労する。 逆に、人間は時に初期の詳細を見落としているにもかかわらず、フィードバックを取り入れ、仮説を継続的に改善することに長けている。 私たちは、我々のベンチマークであるRULEARNが、価値ある、挑戦的なリソースとなり、IDEAフレームワークが、現実世界のシナリオで人間のようなルール学習ができるLLMエージェントの開発に重要な洞察を提供すると信じています。 論文の受理後、コードとデータを公開します。

While large language models (LLMs) have been thoroughly evaluated for deductive and inductive reasoning, their proficiency in abductive reasoning and holistic rule learning in interactive environments remains less explored. We introduce RULEARN, a novel benchmark specifically designed to assess the rule-learning abilities of LLM agents in interactive settings. In RULEARN, agents strategically interact with simulated environments to gather observations, discern patterns, and solve complex problems. To enhance the rule-learning capabilities for LLM agents, we propose IDEA, a novel reasoning framework that integrates the process of Induction, Deduction, and Abduction. The IDEA agent generates initial hypotheses from limited observations through abduction, devises plans to validate these hypotheses or leverages them to solve problems via deduction, and refines previous hypotheses using patterns identified from new observations through induction, dynamically establishing and applying rules that mimic human rule-learning behaviors. Our evaluation of the IDEA framework, which involves five representative LLMs, demonstrates significant improvements over the baseline. Furthermore, within this framework, our comparison with 50 human participants reveals notable discrepancies in rule-learning behaviors. LLM agents tend to generate plausible initial hypotheses but struggle to refine them through interaction. Conversely, humans, despite sometimes overlooking initial details, excel at incorporating feedback and continuously improving their hypotheses. We believe our benchmark, RULEARN, will serve as a valuable and challenging resource, and that the IDEA framework will provide crucial insights for the development of LLM agents capable of human-like rule learning in real-world scenarios. We will release our code and data upon acceptance of the paper.
翻訳日:2024-11-08 06:44:48 公開日:2024-10-03
# AQIと気象特性に基づく機械学習による太陽光発電予測

Predicting Solar Energy Generation with Machine Learning based on AQI and Weather Features ( http://arxiv.org/abs/2408.12476v3 )

ライセンス: Link先を確認
Arjun Shah, Varun Viswanath, Kashish Gandhi, Nilesh Madhukar Patil, (参考訳) 本稿では,効率的なグリッド統合に欠かせない,正確な太陽エネルギー予測モデルの必要性に対処する。 先進的な機械学習とディープラーニング技術を用いて,大気質指数と気象特性が太陽エネルギー生成に与える影響について検討する。 本手法は時系列モデリングを用い,パワートランスフォーメーションの正規化とゼロインフレードモデリングを新たに活用する。 様々な機械学習アルゴリズムとConv2D長短期記憶モデルに基づくディープラーニングモデルをこれらの変換に適用して正確な予測を行う。 その結果,大気質指数と気象特性による予測精度の向上が示された。 我々はコンブ2D長短期記憶モデルを用いた0.9691ドルR^2$スコア、0.18MAE、0.10RMSEを達成し、太陽エネルギー発生の時系列予測の強化における電力変換技術の革新を実証した。 このような結果は,太陽エネルギー予測のための大気質指数,気象特性,深層学習技術との相乗効果に関する貴重な知見に寄与する。

This paper addresses the pressing need for an accurate solar energy prediction model, which is crucial for efficient grid integration. We explore the influence of the Air Quality Index and weather features on solar energy generation, employing advanced Machine Learning and Deep Learning techniques. Our methodology uses time series modeling and makes novel use of power transform normalization and zero-inflated modeling. Various Machine Learning algorithms and Conv2D Long Short-Term Memory model based Deep Learning models are applied to these transformations for precise predictions. Results underscore the effectiveness of our approach, demonstrating enhanced prediction accuracy with Air Quality Index and weather features. We achieved a 0.9691 $R^2$ Score, 0.18 MAE, 0.10 RMSE with Conv2D Long Short-Term Memory model, showcasing the power transform technique's innovation in enhancing time series forecasting for solar energy generation. Such results help our research contribute valuable insights to the synergy between Air Quality Index, weather features, and Deep Learning techniques for solar energy prediction.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-03
# 品質と量 : 低リソース翻訳における大規模言語モデルの適用におけるデータスケールと多様性について

Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation ( http://arxiv.org/abs/2408.12780v2 )

ライセンス: Link先を確認
Vivek Iyer, Bhavitvya Malik, Pavel Stepachev, Pinzhen Chen, Barry Haddow, Alexandra Birch, (参考訳) 近年の機械翻訳(MT)におけるLLM(Large Language Models)の人気にもかかわらず、低リソース言語(LRL)のパフォーマンスは依然としてニューラル機械翻訳(NMT)モデルに大きく遅れている。 本研究では,低リソース環境にLLMを適用するために何が必要かを考察する。 特に,2つの要因の役割を再検討する。 a) 並列データの重要性と応用、及び ロ 監督微調整(SFT)の多様性 近年,並列データによるMTへのLLMの適用が減少し,言語やタスク間の転送を促進するためにデータの多様性が採用されている。 しかし、低リソースのLLM-MTでは、両方の考慮に対して逆が真であることが示される。 a) 並列データは,事前訓練及びSFTの間に重要となる。 b) 多様性は移転よりも干渉を引き起こす傾向にある。 低リソースの2つの言語グループ(先住民族とノース・イースト・インディアン)にまたがる3つのLSMによる実験は、我々の発見の一般化性を裏付ける一貫した傾向を明らかにした。 これらの知見は、LRLを効果的に利用できる多言語LLM-MTモデルへのスケーリングに有用であると考えています。

Despite the recent popularity of Large Language Models (LLMs) in Machine Translation (MT), their performance in low-resource languages (LRLs) still lags significantly behind Neural Machine Translation (NMT) models. In this work, we explore what it would take to adapt LLMs for the low-resource setting. Particularly, we re-examine the role of two factors: a) the importance and application of parallel data, and b) diversity in Supervised Fine-Tuning (SFT). Recently, parallel data has seen reduced use in adapting LLMs for MT, while data diversity has been embraced to promote transfer across languages and tasks. However, for low-resource LLM-MT, we show that the opposite is true for both considerations: a) parallel data is critical during both pre-training and SFT; b) diversity tends to cause interference instead of transfer. Our experiments with three LLMs across two low-resourced language groups -- Indigenous American and North-East Indian -- reveal consistent trends, underscoring the generalizability of our findings. We believe these insights will be valuable for scaling to massively multilingual LLM-MT models that can effectively serve LRLs.
翻訳日:2024-11-08 05:37:29 公開日:2024-10-03
# 視覚言語選好学習による説明可能な概念生成

Explainable Concept Generation through Vision-Language Preference Learning ( http://arxiv.org/abs/2408.13438v2 )

ライセンス: Link先を確認
Aditya Taparia, Som Sagar, Ransalu Senanayake, (参考訳) 他の説明可能なAI技術とは異なり、機能属性に直接関連しない高レベルの視覚的“概念”をテストするために使用できる。 例えば、「ストリップ」の概念は、イメージをシマウマとして分類することが重要である。 しかし、概念に基づく説明法では、実践者は複数の候補となる概念イメージを推測し、収集する必要がある。 本稿では,この制限に対処するため,画像生成問題として概念セットの作成を行う。 しかし, 生成モデルを用いることで意味のある概念が得られないため, 概念のテキスト記述から視覚言語生成モデルを微調整する強化学習に基づく選好最適化(RLPO)アルゴリズムを考案する。 一連の実験を通じて、手作業で行うのが難しいテストクラスと整合した、複雑で抽象的な概念を記述できる手法の能力を実証した。 提案手法の有効性と信頼性に加えて,ニューラルネットワーク解析の診断ツールとしての有用性を示す。

Concept-based explanations have become a popular choice for explaining deep neural networks post-hoc because, unlike most other explainable AI techniques, they can be used to test high-level visual "concepts" that are not directly related to feature attributes. For instance, the concept of "stripes" is important to classify an image as a zebra. Concept-based explanation methods, however, require practitioners to guess and collect multiple candidate concept image sets, which can often be imprecise and labor-intensive. Addressing this limitation, in this paper, we frame concept image set creation as an image generation problem. However, since naively using a generative model does not result in meaningful concepts, we devise a reinforcement learning-based preference optimization (RLPO) algorithm that fine-tunes the vision-language generative model from approximate textual descriptions of concepts. Through a series of experiments, we demonstrate the capability of our method to articulate complex and abstract concepts which aligns with the test class that are otherwise challenging to craft manually. In addition to showing the efficacy and reliability of our method, we show how our method can be used as a diagnostic tool for analyzing neural networks.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-03
# 積分表現によるエントロピーの連続性

Continuity of entropies via integral representations ( http://arxiv.org/abs/2408.15226v2 )

ライセンス: Link先を確認
Mario Berta, Ludovico Lami, Marco Tomamichel, (参考訳) 量子相対エントロピーのフレンケルの積分表現は、量子情報測度に対する連続性境界を導出する自然な枠組みを提供することを示した。 我々の主な一般結果は、第一引数に対する量子相対エントロピーに対する次元独立半連続関係である。 これを用いて、条件付きエントロピーの厳密な連続性関係は、条件付きシステムに等しい限界を持つ場合の条件付きエントロピーの連続性関係、この特別な場合におけるワイルドの予想の解法、(2)量子エントロピーにおけるファンヌ=オーデナート不等式のより強いバージョン、(3)量子容量のおよそ分解可能なチャネルのより良い推定、(4)エンタングルメントコストの改良された連続性関係、(5)無限次元エントロピー理論における漸近的変換率の一般境界、(6)Christandl, Ferrara,Lancienによる予想の証明である。

We show that Frenkel's integral representation of the quantum relative entropy provides a natural framework to derive continuity bounds for quantum information measures. Our main general result is a dimension-independent semi-continuity relation for the quantum relative entropy with respect to the first argument. Using it, we obtain a number of results: (1) a tight continuity relation for the conditional entropy in the case where the two states have equal marginals on the conditioning system, resolving a conjecture by Wilde in this special case; (2) a stronger version of the Fannes-Audenaert inequality on quantum entropy; (3) better estimates on the quantum capacity of approximately degradable channels; (4) an improved continuity relation for the entanglement cost; (5) general upper bounds on asymptotic transformation rates in infinite-dimensional entanglement theory; and (6) a proof of a conjecture due to Christandl, Ferrara, and Lancien on the continuity of 'filtered' relative entropy distances.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-03
# EPO:環境優先最適化型階層型LLMエージェント

EPO: Hierarchical LLM Agents with Environment Preference Optimization ( http://arxiv.org/abs/2408.16090v2 )

ライセンス: Link先を確認
Qi Zhao, Haotian Fu, Chen Sun, George Konidaris, (参考訳) 長期の意思決定タスクは、複数のステップにわたる広範な計画の必要性から、LLMベースのエージェントに重大な課題をもたらす。 本稿では,複雑なタスクを管理可能なサブゴールに分解する階層型フレームワークを提案する。 注釈のないデータセットのためのトレーニング信号を作成するという課題に対処するため,マルチモーダル環境フィードバックを利用して報酬信号を自動的に生成する報酬モデルを開発した。 環境選好最適化(EPO)は,環境フィードバックから選好信号を生成し,LLMエージェントの学習に使用する新しい手法である。 ALFREDに関する大規模な実験は、我々のフレームワークの最先端のパフォーマンスを実証し、ALFREDの公開リーダーボードで第一位を獲得し、多様な環境における長期的な意思決定を改善する可能性を示している。

Long-horizon decision-making tasks present significant challenges for LLM-based agents due to the need for extensive planning over multiple steps. In this paper, we propose a hierarchical framework that decomposes complex tasks into manageable subgoals, utilizing separate LLMs for subgoal prediction and low-level action generation. To address the challenge of creating training signals for unannotated datasets, we develop a reward model that leverages multimodal environment feedback to automatically generate reward signals. We introduce Environment Preference Optimization (EPO), a novel method that generates preference signals from the environment's feedback and uses them to train LLM-based agents. Extensive experiments on ALFRED demonstrate the state-of-the-art performance of our framework, achieving first place on the ALFRED public leaderboard and showcasing its potential to improve long-horizon decision-making in diverse environments.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-03
# SSDM:スケーラブル音声障害モデリング

SSDM: Scalable Speech Dysfluency Modeling ( http://arxiv.org/abs/2408.16221v3 )

ライセンス: Link先を確認
Jiachen Lian, Xuanru Zhou, Zoe Ezzes, Jet Vonk, Brittany Morin, David Baquirin, Zachary Mille, Maria Luisa Gorno Tempini, Gopala Krishna Anumanchipalli, (参考訳) 音声のディフルエンシ・モデリングは、音声言語学習と音声治療のコアモジュールである。 しかし、課題は3つある。 まず、現在の最先端ソリューション\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm}はスケーラビリティの低下に悩まされる。 第二に、大規模な逆流コーパスがない。 第三に、効果的な学習フレームワークはありません。 本稿では,(1)音節的ジェスチャーをスケーラブルな強制アライメントとして採用する「textit{SSDM: Scalable Speech Dysfluency Modeling」,(2)ディフルアライメントを実現するためのコネクショナサブシーケンスアライメント(CSA)の導入,(3)リブリダイスと呼ばれる大規模シミュレーション型ディフルアライメントコーパスの導入,(4)大規模言語モデル(LLM)のパワーを活用してエンドツーエンドシステムを開発することを提案する。 我々は,Dyfluency Modelingの分野でSSDMが標準となることを期待している。 Demo は \url{https://berkeley-speech-group.github.io/SSDM/} で公開されている。

Speech dysfluency modeling is the core module for spoken language learning, and speech therapy. However, there are three challenges. First, current state-of-the-art solutions\cite{lian2023unconstrained-udm, lian-anumanchipalli-2024-towards-hudm} suffer from poor scalability. Second, there is a lack of a large-scale dysfluency corpus. Third, there is not an effective learning framework. In this paper, we propose \textit{SSDM: Scalable Speech Dysfluency Modeling}, which (1) adopts articulatory gestures as scalable forced alignment; (2) introduces connectionist subsequence aligner (CSA) to achieve dysfluency alignment; (3) introduces a large-scale simulated dysfluency corpus called Libri-Dys; and (4) develops an end-to-end system by leveraging the power of large language models (LLMs). We expect SSDM to serve as a standard in the area of dysfluency modeling. Demo is available at \url{https://berkeley-speech-group.github.io/SSDM/}.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-03
# 高密度電磁・構造多面体設計のためのアンカー制御型生成共振器ネットワーク

Anchor-Controlled Generative Adversarial Network for High-Fidelity Electromagnetic and Structurally Diverse Metasurface Design ( http://arxiv.org/abs/2408.16231v2 )

ライセンス: Link先を確認
Yunhui Zeng, Hongkun Cao, Xin Jin, (参考訳) 準波長スケールでの光の操作が可能な準曲面は、光電子応用を前進させる大きな可能性を秘めている。 生成モデル、特にGAN(Generative Adversarial Networks)は、複雑な設計空間を効率的にナビゲートし、基礎となるデータパターンをキャプチャすることで、メタ曲面の逆設計に有望なアプローチを提供する。 しかし、既存の生成モデルは高い電磁的忠実度と構造的多様性を達成するのに苦労している。 これらの課題は、正確な構造と電磁応答のマッピングを妨げる訓練中に明らかな電磁的制約が欠如していることと、一対多のジレンマを扱うメカニズムが欠如していることから生じ、構造的多様性が不十分となる。 これらの課題に対処するため、電磁的忠実度と構造的多様性の両方を改善する新しいフレームワークであるAcGAN(Anchor- controlled Generative Adversarial Network)を提案する。 高電磁忠実度を実現するために、AcGANはスペクトル重心性評価のためのスペクトルオーバーラップ係数(SOC)を提案し、電磁特性をリアルタイムにフィードバックし、構造-電磁気マッピングを洗練させるAnchorNetを開発した。 構造的多様性を高めるため、AcGANは入力処理を洗練し、マルチレベルスペクトル統合を保証するクラスタ誘導コントローラを導入し、同一のスペクトルターゲットに対して複数の構成を探索する生成プロセスを導く。 さらに、動的損失関数は、焦点をデータ駆動学習からスペクトルの忠実度と構造的多様性の最適化へと徐々にシフトさせる。 実証分析により、AcGANは現在の最先端のGANs法と比較して平均二乗誤差(MSE)を73%削減し、正確なスペクトル要求を満たす多様な準曲面アーキテクチャを生成する設計空間を著しく拡張した。

Metasurfaces, capable of manipulating light at subwavelength scales, hold great potential for advancing optoelectronic applications. Generative models, particularly Generative Adversarial Networks (GANs), offer a promising approach for metasurface inverse design by efficiently navigating complex design spaces and capturing underlying data patterns. However, existing generative models struggle to achieve high electromagnetic fidelity and structural diversity. These challenges arise from the lack of explicit electromagnetic constraints during training, which hinders accurate structure-to-electromagnetic response mapping, and the absence of mechanisms to handle one-to-many mappings dilemma, resulting in insufficient structural diversity. To address these issues, we propose the Anchor-controlled Generative Adversarial Network (AcGAN), a novel framework that improves both electromagnetic fidelity and structural diversity. To achieve high electromagnetic fidelity, AcGAN proposes the Spectral Overlap Coefficient (SOC) for precise spectral fidelity assessment and develops AnchorNet, which provides real-time feedback on electromagnetic performance to refine the structure-to-electromagnetic mapping. To enhance structural diversity, AcGAN incorporates a cluster-guided controller that refines input processing and ensures multi-level spectral integration, guiding the generation process to explore multiple configurations for the same spectral target. Additionally, a dynamic loss function progressively shifts the focus from data-driven learning to optimizing both spectral fidelity and structural diversity. Empirical analysis shows that AcGAN reduces the Mean Squared Error (MSE) by 73% compared to current state-of-the-art GANs methods and significantly expands the design space to generate diverse metasurface architectures that meet precise spectral demands.
翻訳日:2024-11-08 04:19:50 公開日:2024-10-03
# 画像分類のための高調な量子エクストリーム学習マシン

Harnessing Quantum Extreme Learning Machines for image classification ( http://arxiv.org/abs/2409.00998v2 )

ライセンス: Link先を確認
A. De Lorenzis, M. P. Casado, M. P. Estarellas, N. Lo Gullo, T. Lux, F. Plastina, A. Riera, J. Settino, (参考訳) 量子機械学習への関心は、古典的な手法に取り組むのが難しい問題に対して、より効率的なソリューションを提供する可能性から、ますます高まっている。 本研究は,画像分類タスクにおける量子機械学習技術の利用に焦点を当てた研究である。 我々は,量子貯水池基板が提供する豊富な特徴写像を利用して,量子極端学習マシンを利用する。 我々は、データセット作成から画像最終分類まで、量子極端学習マシンプロセスの異なるフェーズを体系的に分析する。 特に、主成分分析、オートエンコーダの使用、および量子貯水池に異なるハミルトニアンを用いることでモデルのダイナミクスを検証した。 その結果,量子貯水池の導入は分類器の精度を体系的に向上させることがわかった。 さらに、異なるエンコーディングは異なるパフォーマンスをもたらす可能性があるが、異なる接続度を持つハミルトン人は、相互作用している場合と同じ差別率を示す。

Interest in quantum machine learning is increasingly growing due to its potential to offer more efficient solutions for problems that are difficult to tackle with classical methods. In this context, the research work presented here focuses on the use of quantum machine learning techniques for image classification tasks. We exploit a quantum extreme learning machine by taking advantage of its rich feature map provided by the quantum reservoir substrate. We systematically analyse different phases of the quantum extreme learning machine process, from the dataset preparation to the image final classification. In particular, we have tested different encodings, together with Principal Component Analysis, the use of Auto-Encoders, as well as the dynamics of the model through the use of different Hamiltonians for the quantum reservoir. Our results show that the introduction of a quantum reservoir systematically improves the accuracy of the classifier. Additionally, while different encodings can lead to significantly different performances, Hamiltonians with varying degrees of connectivity exhibit the same discrimination rate, provided they are interacting.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-03
# 大規模言語モデル圧縮の基礎 -その1:重み量子化

Foundations of Large Language Model Compression -- Part 1: Weight Quantization ( http://arxiv.org/abs/2409.02026v2 )

ライセンス: Link先を確認
Sean I. Young, (参考訳) 近年,大規模言語モデル(LLM)の圧縮は,資源制約のあるデバイスへの言語モデルの展開,計算コストの削減,大規模AIインフラストラクチャの環境フットプリントの軽減など,重要な問題として浮上している。 本稿では,LLM量子化の基礎を凸最適化の観点から概説し,この基礎の上に最適な量子化結果を求める量子化手法を提案する。 我々の量子化フレームワークCVXQは、数十億の重みパラメータを含むモデルにスケールし、任意の特定のモデルサイズにモデルを圧縮する柔軟性を提供する。 CVXQのリファレンス実装はgithub.com/seannz/cvxqから得られる。

In recent years, compression of large language models (LLMs) has emerged as an important problem to enable language model deployment on resource-constrained devices, reduce computational costs, and mitigate the environmental footprint of large-scale AI infrastructure. In this paper, we lay down the foundation for LLM quantization from a convex optimization perspective and propose a quantization technique that builds on this foundation for optimum quantization outcomes. Our quantization framework, CVXQ, scales to models containing hundreds of billions of weight parameters and provides users with the flexibility to compress models to any specified model size, post-training. A reference implementation of CVXQ can be obtained from github.com/seannz/cvxq.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-03
# 異なるn-タプル離散時間結晶間の相転移からのサブスペース-熱的離散時間結晶

Subspace-thermal discrete time crystals from phase transitions between different n-tuple discrete time crystals ( http://arxiv.org/abs/2409.02848v3 )

ライセンス: Link先を確認
Hongye Yu, Tzu-Chieh Wei, (参考訳) 駆動周期の任意の倍数に対応する新しいフロケット時間結晶モデルを提案する。 このような$n$-tupleの離散時間結晶は、乱れた鎖のスピンを置換することによって理論的に構築され、実験的な実装に適している。 これらの周期の異なる時間結晶間の遷移は、サブスペース-熱的離散時間結晶と呼ばれる新しい物質相を生じさせ、サブスペース内の状態は早い段階で完全に熱化される。 しかし、システム全体が依然として周期的な運転の低調波に強く反応し、この期間は元々の2つの期間の最大公約数である。 既成の多体局在理論解析では、そのような部分空間-熱的時間結晶相の剛性は理解できない。 これを解決するために、ロバストな$2\pi/n$準エネルギーギャップの観点から新しい理論的枠組みを開発する。 その堅牢性は、有理予想の下で、ユニタリ作用素に対する新しい摂動理論によって解析的に証明される。 この証明は、混乱したシステムを蹴り上げることによって実現された他の既存の離散時間結晶のモデルを超えて適用され、新しい離散時間結晶モデルを構築する体系的な方法を提供する。 また、DTCチャージの概念を導入し、通常の離散時間結晶とサブスペース-熱的離散時間結晶の両方において、自発的に時間-翻訳対称性を破る観測可能なものを探索する。 さらに、我々の離散時間結晶モデルは、より高次元のスピン等級やクアディットに一般化することができる。

We propose a new Floquet time crystal model that responds in arbitrary multiples of the driving period. Such an $n$-tuple discrete time crystal is theoretically constructed by permuting spins in a disordered chain and is well suited for experiment implementations. Transitions between these time crystals with different periods give rise to a novel phase of matter that we call subspace-thermal discrete time crystals, where states within subspaces are fully thermalized at an early time. However, the whole system still robustly responds to the periodic driving subharmonically, with a period being the greatest common divisor of the original two periods. Existing theoretical analysis from many-body localization fails to understand the rigidity of such subspace-thermal time crystal phases. To resolve this, we develop a new theoretical framework from the perspective of the robust $2\pi/n$ quasi-energy gap. Its robustness is analytically proved, under a reasonable conjecture, by a new perturbation theory for unitary operators. The proof applies beyond the models considered here to other existing discrete time crystals realized by kicking disordered systems, thus offering a systematic way to construct new discrete time crystal models. We also introduce the notion of DTC-charges that allow us to probe the observables that spontaneously break the time-translation symmetry in both the regular discrete time crystals and subspace-thermal discrete time crystals. Moreover, our discrete time crystal models can be generalized to higher spin magnitudes or qudits, as well as higher spatial dimensions.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-03
# LongLLaVA: ハイブリッドアーキテクチャによるマルチモーダルLLMの1000イメージへのスケーリング

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture ( http://arxiv.org/abs/2409.02889v2 )

ライセンス: Link先を確認
Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang, (参考訳) マルチモーダル大規模言語モデル(MLLM)の長文拡張は,ビデオ理解,高解像度画像理解,マルチモーダルエージェントに不可欠である。 これには、モデルアーキテクチャ、データ構築、トレーニング戦略など、一連の体系的な最適化が含まれており、特に \textit{degraded performance with more image} や \textit{high compute cost} といった課題に対処している。 本稿では、モデルアーキテクチャをMambaブロックとTransformerブロックのハイブリッドに適応させ、複数の画像間の時間的および空間的依存関係を持つデータ構築にアプローチし、プログレッシブトレーニング戦略を採用する。 リリースされたモデル \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}sistant) は最初のハイブリッドMLLMであり、効率と効率のバランスを向上した。 LongLLaVAは様々なベンチマークで競合する結果を得るだけでなく、高いスループットとメモリ消費も維持する。 特に、A100 80GBのGPUで1000近い画像を処理でき、幅広いタスクに期待できるアプリケーションの可能性を示している。

Expanding the long-context capabilities of Multi-modal Large Language Models~(MLLMs) is crucial for video understanding, high-resolution image understanding, and multi-modal agents. This involves a series of systematic optimizations, including model architecture, data construction and training strategy, particularly addressing challenges such as \textit{degraded performance with more images} and \textit{high computational costs}. In this paper, we adapt the model architecture to a hybrid of Mamba and Transformer blocks, approach data construction with both temporal and spatial dependencies among multiple images and employ a progressive training strategy. The released model \textbf{LongLLaVA}~(\textbf{Long}-Context \textbf{L}arge \textbf{L}anguage \textbf{a}nd \textbf{V}ision \textbf{A}ssistant) is the first hybrid MLLM, which achieved a better balance between efficiency and effectiveness. LongLLaVA not only achieves competitive results across various benchmarks, but also maintains high throughput and low memory consumption. Especially, it could process nearly a thousand images on a single A100 80GB GPU, showing promising application prospects for a wide range of tasks.
翻訳日:2024-11-07 23:34:03 公開日:2024-10-03
# 直接選好最適化によるインシシット・リワードモデルの限定一般化能力について

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization ( http://arxiv.org/abs/2409.03650v2 )

ライセンス: Link先を確認
Yong Lin, Skyler Seto, Maartje ter Hoeve, Katherine Metcalf, Barry-John Theobald, Xuan Wang, Yizhe Zhang, Chen Huang, Tong Zhang, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルと人間の嗜好を整合させる効果的なアプローチである。 RLHFの中心は、人間の好みを評価するための報酬関数を学んでいる。 報酬モデルを学ぶための2つの主要なアプローチ 1)RLHFのようにEXRM(Explicit Reward Model)を訓練し、 2) 直接選好最適化 (DPO) などの手法を用いて, 選好データから学習した暗黙の報奨を用いた。 これまでの研究では、DPO(DPORM)の暗黙の報酬モデルが、制限のEXRMを近似できることが示されている。 DPORMの有効性は,学習方針の最適性を直接的に示し,反復的DPOを含むLCMアライメント手法の実践的意味も持つ。 しかしながら,DPORM が EXRM の性能とどのように一致しているかは明らかでない。 本研究は,DPORM と EXRM の双方に対して,推奨回答と拒否回答を区別する精度について検討した。 この結果から,DPORMはトレーニングデータセットに適合するが,特に検証データセットが分散シフトを含む場合,EXRMよりも効率が低いことが示唆された。 5つのアウト・オブ・ディストリビューション設定の中で、DPORMの精度は平均3%低下し、最大で7%低下した。 これらの結果から,DPORMは限定的な一般化能力を有し,反復的DPOアプローチにおける明示的な報酬モデルの統合を裏付けている。

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM's effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-03
# 2段階適応ロバスト最適化のための深層生成学習手法

A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization ( http://arxiv.org/abs/2409.03731v2 )

ライセンス: Link先を確認
Aron Brenner, Rahman Khorramfar, Jennifer Sun, Saurabh Amin, (参考訳) 2段階適応ロバスト最適化(ARO)は、不確実性の下で計画する上で強力なアプローチであり、不確実性が実現された後の最初の段階決定とリコメンデーション決定とのバランスをとる。 不確実性を考慮するために、モデラーは通常、潜在的な結果が考慮される単純な不確実性集合を定義する。 しかし、これらの集合を定義する古典的な手法は意図せず広範囲の非現実的な結果を取り込んでおり、その結果、予期せぬ事態を予想して過度に保守的かつコスト的に計画される。 本稿では,変分オートエンコーダを用いた2段階適応型ロバスト最適化のための逆生成を行う解アルゴリズムAGROを紹介する。 AGROは、同時に敵対的かつ現実的な高次元の一致を生成し、標準手法よりも低い計画コストで第一段階決定の堅牢性を向上させる。 不確実性分布の高密度領域に発生した一致を確実にするために、AGROは、VAE復号変換の下での「相対的」不確実性集合の像として、厳密な不確実性集合を定義する。 射影勾配上昇は、微分可能な最適化手法を利用することで、潜在不確実性集合上のレコースコストを最大化するために使用される。 我々は、AGROのコスト効率を合成生産分配問題と実世界の電力系統拡張設定の両方に適用することによって実証する。 我々は、AGROが標準的なカラム・アンド・制約アルゴリズムを最大1.8%のプロダクション・ディストリビューション計画、最大11.6%の電力系統拡張で上回っていることを示す。

Two-stage adaptive robust optimization (ARO) is a powerful approach for planning under uncertainty, balancing first-stage decisions with recourse decisions made after uncertainty is realized. To account for uncertainty, modelers typically define a simple uncertainty set over which potential outcomes are considered. However, classical methods for defining these sets unintentionally capture a wide range of unrealistic outcomes, resulting in overly-conservative and costly planning in anticipation of unlikely contingencies. In this work, we introduce AGRO, a solution algorithm that performs adversarial generation for two-stage adaptive robust optimization using a variational autoencoder. AGRO generates high-dimensional contingencies that are simultaneously adversarial and realistic, improving the robustness of first-stage decisions at a lower planning cost than standard methods. To ensure generated contingencies lie in high-density regions of the uncertainty distribution, AGRO defines a tight uncertainty set as the image of "latent" uncertainty sets under the VAE decoding transformation. Projected gradient ascent is then used to maximize recourse costs over the latent uncertainty sets by leveraging differentiable optimization methods. We demonstrate the cost-efficiency of AGRO by applying it to both a synthetic production-distribution problem and a real-world power system expansion setting. We show that AGRO outperforms the standard column-and-constraint algorithm by up to 1.8% in production-distribution planning and up to 11.6% in power system expansion.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-03
# ニューロン相互作用とニューキャスティングネットワークによるトレーニングの高速化

Accelerating Training with Neuron Interaction and Nowcasting Networks ( http://arxiv.org/abs/2409.04434v2 )

ライセンス: Link先を確認
Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie, Eugene Belilovsky, Simon Lacoste-Julien, (参考訳) 古典的な適応オプティマイザ(例えばAdam)の代わりに学習可能な更新ルールを使用すると、ニューラルネットワークのトレーニングが加速される。 しかし、学習可能な更新ルールは、トレーニングや使用に費用がかかり不安定になる可能性がある。 最近、Jang et al (2023) は、ウェイト・ナウキャスターネットワーク(WNN)に基づくトレーニングを加速するための、よりシンプルなアプローチを提案した。 彼らのアプローチでは、Adamは最適化のほとんどのステップで使われ、定期的に、数ステップごとに、WNNがパラメータ(近い将来の予測)をキャストする。 我々は、ニューロンの相互作用やNiNo( nowcasting)ネットワークを提案することで、WNNを改善する。 WNNとは対照的に、NiNoはニューロン接続とグラフニューラルネットワークを活用してパラメータをより正確に検索する。 さらに,トランスフォーマーなどのネットワークでは,ニューロンの接続性を正確にモデル化することが困難であることを示す。 我々はこれとその他の制限に対処し、NiNoは視力と言語タスクの最大50%のAdamトレーニングを加速します。

Neural network training can be accelerated when a learnable update rule is used in lieu of classic adaptive optimizers (e.g. Adam). However, learnable update rules can be costly and unstable to train and use. Recently, Jang et al. (2023) proposed a simpler approach to accelerate training based on weight nowcaster networks (WNNs). In their approach, Adam is used for most of the optimization steps and periodically, only every few steps, a WNN nowcasts (predicts near future) parameters. We improve WNNs by proposing neuron interaction and nowcasting (NiNo) networks. In contrast to WNNs, NiNo leverages neuron connectivity and graph neural networks to more accurately nowcast parameters. We further show that in some networks, such as Transformers, modeling neuron connectivity accurately is challenging. We address this and other limitations, which allows NiNo to accelerate Adam training by up to 50% in vision and language tasks.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-03
# 線形化可能な値関数を持つMDPのためのサンプルとOracle効率的な強化学習

Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions ( http://arxiv.org/abs/2409.04840v2 )

ライセンス: Link先を確認
Zakaria Mhammedi, (参考訳) サンプル効率で計算可能な強化学習(RL)アルゴリズムの設計は、大または無限の状態と行動空間を持つ環境では特に困難である。 本稿では,任意のポリシの状態-作用値関数が与えられた特徴写像に線形であるマルコフ決定過程(MDP)に対して,効率的なアルゴリズムを提案することによって,この取り組みを進める。 この挑戦的な設定は、無限の状態と動作を持つ環境をモデル化し、古典的線形MDPを厳密に一般化し、現在、MDPへのオンラインアクセス下での計算効率のよいアルゴリズムを欠いている。 具体的には、この設定において、複数のエピソードを用いて、最適に近いポリシーを効率的に見つける新しいRLアルゴリズムを導入し、問題パラメータの2つの多項式であるコスト感受性分類(CSC)オラクルを呼び出します。 特に,我々のCSCオラクルは,特徴次元が一定である場合に効率よく実装可能であり,非凸問題を水平多変数で解き,地平線で指数関数的な計算コストを発生させる技術よりも明確な改善が求められる。

Designing sample-efficient and computationally feasible reinforcement learning (RL) algorithms is particularly challenging in environments with large or infinite state and action spaces. In this paper, we advance this effort by presenting an efficient algorithm for Markov Decision Processes (MDPs) where the state-action value function of any policy is linear in a given feature map. This challenging setting can model environments with infinite states and actions, strictly generalizes classic linear MDPs, and currently lacks a computationally efficient algorithm under online access to the MDP. Specifically, we introduce a new RL algorithm that efficiently finds a near-optimal policy in this setting, using a number of episodes and calls to a cost-sensitive classification (CSC) oracle that are both polynomial in the problem parameters. Notably, our CSC oracle can be efficiently implemented when the feature dimension is constant, representing a clear improvement over state-of-the-art methods, which require solving non-convex problems with horizon-many variables and can incur computational costs that are exponential in the horizon.
翻訳日:2024-11-07 22:49:49 公開日:2024-10-03
# 変分探索分布

Variational Search Distributions ( http://arxiv.org/abs/2409.06142v2 )

ライセンス: Link先を確認
Daniel M. Steinberg, Rafael Oliveira, Cheng Soon Ong, Edwin V. Bonilla, (参考訳) 提案手法は, 離散的, 組合せ的な, 希少なクラスの設計を, 固定された実験予算で逐次的に検出する手法である。 この問題の要件とデシラタを定式化し、変分推論によって解を定式化する。 特にVSDは、オフザシェルフ勾配に基づく最適化ルーチンを使用し、設計のための強力な生成モデルを学ぶことができ、スケーラブルな予測モデルを活用することができる。 提案手法の特定の構成を持つ設計の真の条件生成分布を学習するための漸近収束率を導出する。 画像上の生成モデルを解析した結果、VSDは様々な生物学的システムにおける実数列設計問題において、既存のベースライン法よりも優れていることを示した。

We develop variational search distributions (VSD), a method for finding discrete, combinatorial designs of a rare desired class in a batch sequential manner with a fixed experimental budget. We formalize the requirements and desiderata for this problem and formulate a solution via variational inference. In particular, VSD uses off-the-shelf gradient based optimization routines, can learn powerful generative models for designs, and can take advantage of scalable predictive models. We derive asymptotic convergence rates for learning the true conditional generative distribution of designs with certain configurations of our method. After illustrating the generative model on images, we empirically demonstrate that VSD can outperform existing baseline methods on a set of real sequence-design problems in various biological systems.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-03
# EDADepth: 単眼深度推定のための拡張データ拡張

EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation ( http://arxiv.org/abs/2409.06183v2 )

ライセンス: Link先を確認
Nischal Khanal, Shivanand Venkanna Sheshappanavar, (参考訳) テキストと画像の合成機能により、拡散モデルは近年、深度推定などの視覚的知覚タスクが増加している。 高品質なデータセットがないため、拡散モデルでは微粒なセマンティックコンテキストの抽出が困難である。 詳細の少ないセマンティックコンテキストは、拡散モデルの入力として使用される効果的なテキスト埋め込みを作成するプロセスをさらに悪化させる。 本稿では,新たなトレーニングデータを用いることなく,単眼深度を推定する拡張データ拡張手法であるEDADepthを提案する。 超解像モデルであるSwin2SRを用いて、入力画像の品質を向上させる。 我々は、テキスト埋め込みのより良い抽出にBEiT事前訓練セマンティックセマンティックセマンティクスモデルを用いる。 我々はBLIP-2トークン化器を用いてこれらのテキスト埋め込みからトークンを生成する。 本手法の新規性は,単分子深度推定のための拡散型パイプラインにおけるSwin2SR,BEiTモデル,BLIP-2トークン化器の導入である。 本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。 また、RMSEとRELのメトリクスにおけるSOTAモデルと同等の結果が得られる。 最後に,SOTA拡散に基づく単分子深度推定モデルと比較して,推定深度の可視化の改善を示す。 コード:https://github.com/edadepthmde/EDADepth_ICMLA。

Due to their text-to-image synthesis feature, diffusion models have recently seen a rise in visual perception tasks, such as depth estimation. The lack of good-quality datasets makes the extraction of a fine-grain semantic context challenging for the diffusion models. The semantic context with fewer details further worsens the process of creating effective text embeddings that will be used as input for diffusion models. In this paper, we propose a novel EDADepth, an enhanced data augmentation method to estimate monocular depth without using additional training data. We use Swin2SR, a super-resolution model, to enhance the quality of input images. We employ the BEiT pre-trained semantic segmentation model for better extraction of text embeddings. We use BLIP-2 tokenizer to generate tokens from these text embeddings. The novelty of our approach is the introduction of Swin2SR, the BEiT model, and the BLIP-2 tokenizer in the diffusion-based pipeline for the monocular depth estimation. Our model achieves state-of-the-art results (SOTA) on the delta3 metric on NYUv2 and KITTI datasets. It also achieves results comparable to those of the SOTA models in the RMSE and REL metrics. Finally, we also show improvements in the visualization of the estimated depth compared to the SOTA diffusion-based monocular depth estimation models. Code: https://github.com/edadepthmde/EDADepth_ICMLA.
翻訳日:2024-11-07 22:16:23 公開日:2024-10-03
# 合成継続事前訓練

Synthetic continued pretraining ( http://arxiv.org/abs/2409.07431v2 )

ライセンス: Link先を確認
Zitong Yang, Neil Band, Shuangping Li, Emmanuel Candès, Tatsunori Hashimoto, (参考訳) 大規模で非構造化のインターネットテキストを事前学習することで、言語モデルが膨大な量の世界の知識を獲得することができる。 しかし、この知識獲得はデータ非効率であり、与えられた事実を学ぶためには、モデルは数百から数千の多様な表現で訓練されなければならない。 これは、事前訓練されたモデルをドメイン固有文書の小さなコーパスに適用する場合、各事実が稀に、または一度だけ現れる場合の課題である。 そこで本研究では,このギャップを,小規模なドメイン固有コーパスを用いて,学習しやすい大きなコーパスを合成し,合成したコーパス上で継続事前学習を行うことを提案する。 この提案を、ソース文書から有能なエンティティを抽出し、サンプルエンティティ間の接続を描画することで、多様なテキストを生成する合成データ拡張アルゴリズムであるEntiGraphでインスタンス化する。 EntiGraphによる総合的な事前トレーニングにより、言語モデルは質問に回答し、ソースドキュメントに関連する一般的な命令に従うことができる。 その代わりに、ソースドキュメントが推論時に利用可能である場合、我々のアプローチによって得られた知識が、検索強化された生成に結びついていることが示される。 これらの結果をよりよく理解するために、EntiGraphの単純な数学的モデルを構築し、合成データ拡張が知識を"再配置"し、よりデータ効率のよい学習を可能にする方法を示す。

Pretraining on large-scale, unstructured internet text enables language models to acquire a significant amount of world knowledge. However, this knowledge acquisition is data-inefficient--to learn a given fact, models must be trained on hundreds to thousands of diverse representations of it. This poses a challenge when adapting a pretrained model to a small corpus of domain-specific documents, where each fact may appear rarely or only once. We propose to bridge this gap with synthetic continued pretraining: using the small domain-specific corpus to synthesize a large corpus more amenable to learning, and then performing continued pretraining on the synthesized corpus. We instantiate this proposal with EntiGraph, a synthetic data augmentation algorithm that extracts salient entities from the source documents and then generates diverse text by drawing connections between the sampled entities. Synthetic continued pretraining with EntiGraph enables a language model to answer questions and follow generic instructions related to the source documents without access to them. If, instead, the source documents are available at inference time, we show that the knowledge acquired through our approach compounds with retrieval-augmented generation. To better understand these results, we build a simple mathematical model of EntiGraph, and show how synthetic data augmentation can "rearrange" knowledge to enable more data-efficient learning.
翻訳日:2024-11-07 21:42:46 公開日:2024-10-03
# GroundingBooth: テキストから画像へのカスタマイズ

GroundingBooth: Grounding Text-to-Image Customization ( http://arxiv.org/abs/2409.08520v2 )

ライセンス: Link先を確認
Zhexiao Xiong, Wei Xiong, Jing Shi, He Zhang, Yizhi Song, Nathan Jacobs, (参考訳) テキスト・ツー・イメージのカスタマイズに関する最近の研究は、対象の複数の画像からパーソナライズされたオブジェクトの変種を生成することに成功している。 既存の手法は対象のアイデンティティを保存することに重点を置いているが、それらはしばしばオブジェクト間の空間的関係を制御できない。 本研究では,テキスト・ツー・イメージのカスタマイズタスクにおいて,前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGroundingBoothを紹介する。 提案するテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は,テキスト画像コヒーレンスを維持しつつ,正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。 このようなレイアウト制御により、本モデルは本質的に複数の対象を一度にカスタマイズできる。 本モデルは,レイアウト誘導画像合成と参照ベースカスタマイズタスクの両方で評価され,既存の手法と比較して強い結果が得られた。 我々の研究は、主題駆動のフォアグラウンド生成とテキスト駆動の背景生成の両方に共同で基礎を成す最初の成果である。

Recent studies in text-to-image customization show great success in generating personalized object variants given several images of a subject. While existing methods focus more on preserving the identity of the subject, they often fall short of controlling the spatial relationship between objects. In this work, we introduce GroundingBooth, a framework that achieves zero-shot instance-level spatial grounding on both foreground subjects and background objects in the text-to-image customization task. Our proposed text-image grounding module and masked cross-attention layer allow us to generate personalized images with both accurate layout alignment and identity preservation while maintaining text-image coherence. With such layout control, our model inherently enables the customization of multiple subjects at once. Our model is evaluated on both layout-guided image synthesis and reference-based customization tasks, showing strong results compared to existing methods. Our work is the first work to achieve a joint grounding on both subject-driven foreground generation and text-driven background generation.
翻訳日:2024-11-07 21:20:36 公開日:2024-10-03
# SRIF:拡散型画像モーフィングとフロー推定を利用した意味的形状登録

SRIF: Semantic Shape Registration Empowered by Diffusion-based Image Morphing and Flow Estimation ( http://arxiv.org/abs/2409.11682v2 )

ライセンス: Link先を確認
Mingze Sun, Chen Guo, Puhua Jiang, Shiwei Mao, Yurun Chen, Ruqi Huang, (参考訳) 本稿では,拡散型画像モーフィングとフロー推定に基づく新しいセマンティック形状登録フレームワークSRIFを提案する。 より具体的には、外在的に整列した一対の形状を条件に、まず複数のビューからそれらを描画し、拡散モデルに基づく画像補間フレームワークを用いて中間画像列を生成する。 画像は後に動的3次元ガウススプレイティングフレームワークに入力され、画像モーフィング処理に関する中間点雲の再構成と後処理を行う。 最後に,本手法を応用した新たな登録モジュールを提案する。このモジュールはソース形状を目標に向かって一貫した変形をし,中間点雲を弱い誘導として利用する。 我々の重要な洞察は、大きな視覚モデル(LVM)を利用して形状を関連付けることで、アドホックな特徴抽出やアライメントよりも、形状間の関係に関するよりリッチな意味情報を得ることです。 その結果、SRIFは難解な形状対に関する高品質な密接な対応を達成できるだけでなく、その間に滑らかで意味論的に意味のある補間をもたらす。 経験的証拠は,本手法の有効性と優越性,および設計選択を正当化する。 コードはhttps://github.com/rqhuang88/SRIFで公開されている。

In this paper, we propose SRIF, a novel Semantic shape Registration framework based on diffusion-based Image morphing and Flow estimation. More concretely, given a pair of extrinsically aligned shapes, we first render them from multi-views, and then utilize an image interpolation framework based on diffusion models to generate sequences of intermediate images between them. The images are later fed into a dynamic 3D Gaussian splatting framework, with which we reconstruct and post-process for intermediate point clouds respecting the image morphing processing. In the end, tailored for the above, we propose a novel registration module to estimate continuous normalizing flow, which deforms source shape consistently towards the target, with intermediate point clouds as weak guidance. Our key insight is to leverage large vision models (LVMs) to associate shapes and therefore obtain much richer semantic information on the relationship between shapes than the ad-hoc feature extraction and alignment. As a consequence, SRIF achieves high-quality dense correspondences on challenging shape pairs, but also delivers smooth, semantically meaningful interpolation in between. Empirical evidence justifies the effectiveness and superiority of our method as well as specific design choices. The code is released at https://github.com/rqhuang88/SRIF.
翻訳日:2024-11-07 19:50:48 公開日:2024-10-03
# Qwen2-VL: どんな解像度でもビジョンランゲージモデルの世界の知覚を高める

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution ( http://arxiv.org/abs/2409.12191v2 )

ライセンス: Link先を確認
Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin, (参考訳) Qwen2-VLシリーズは以前のQwen-VLモデルの先進的なアップグレードであり、視覚処理における従来の所定の解像度のアプローチを再定義する。 Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。 このアプローチにより、モデルはより効率的で正確な視覚表現を生成し、人間の知覚過程と密接に一致させることができる。 また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。 我々は、画像とビデオの両方を処理する統一パラダイムを採用し、モデルの視覚知覚能力を高める。 大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模視覚言語モデル(LVLM)のスケーリング法則を調査した。 Qwen2-VLシリーズは、2B、8B、72Bパラメータのモデルサイズとトレーニングデータの量の両方をスケールすることで、非常に競争力のあるパフォーマンスを実現している。 特に、Qwen2-VL-72Bモデルは、GPT-4oやClaude3.5-Sonnetのような主要なモデルに匹敵する結果を得る。 コードはhttps://github.com/QwenLM/Qwen2-VL で公開されている。

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model's visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .
翻訳日:2024-11-07 19:26:16 公開日:2024-10-03
# WaveletGPT: ウェーブレットは大きな言語モデルと出会う

WaveletGPT: Wavelets Meet Large Language Models ( http://arxiv.org/abs/2409.12924v1 )

ライセンス: Link先を確認
Prateek Verma, (参考訳) 大規模言語モデル(LLM)は、あらゆる科学分野や分野に影響を及ぼす人工知能の新たな波を導いてきた。 それらは単純な目的、つまり前のコンテキストに与えられた次のトークンを予測することに基づいて訓練される。 私たちは、テキスト、オーディオ、音楽など、私たちを取り巻くほとんどのデータが、それに関連するマルチスケールな構造を持つ世界に住んでいる。 本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。 GPTスタイルのLLMアーキテクチャに‘textbf{any extra parameters} を追加することなく、テキスト、生のオーディオ、シンボリック音楽の約2倍の速さで事前学習性能を実現する。 これは中間埋め込みに構造を与えることによって達成される。 同じ数のトレーニングステップでトレーニングを行うと、大きなニューラルネットワークアーキテクチャの事前トレーニングに匹敵する、パフォーマンスの大幅な向上を実現します。 我々のアーキテクチャは、Transformerデコーダブロックごとに異なる時間分解能の中間埋め込みへの次のトークン予測アクセスを可能にする。 この作業は、従来のLLM事前学習にマルチレート信号処理のアイデアを組み込むための道を開くことを願っている。 さらに,本研究では,単に規模を拡大するのではなく,内部構造の改善によるモデル性能の向上を示す。

Large Language Models (LLMs) have ushered in a new wave of artificial intelligence advancements impacting every scientific field and discipline. They are trained on a simple objective: to predict the next token given the previous context. We live in a world where most of the data around us, e.g., text, audio, and music, has a multi-scale structure associated with it. This paper infuses LLMs with traditional signal processing ideas, namely wavelets, during pre-training to take advantage of the structure. Without adding \textbf{any extra parameters} to a GPT-style LLM architecture, we achieve the same pre-training performance almost twice as fast in text, raw audio, and symbolic music. This is achieved by imposing a structure on intermediate embeddings. When trained for the same number of training steps, we achieve significant gains in performance, which is comparable to pre-training a larger neural architecture. Our architecture allows every next token prediction access to intermediate embeddings at different temporal resolutions in every Transformer decoder block. This work will hopefully pave the way for incorporating multi-rate signal processing ideas into traditional LLM pre-training. Further, we showcase pushing model performance by improving internal structure instead of just going after scale.
翻訳日:2024-11-07 12:48:01 公開日:2024-10-03
# WaveletGPT: ウェーブレットは大きな言語モデルと出会う

WaveletGPT: Wavelets Meet Large Language Models ( http://arxiv.org/abs/2409.12924v2 )

ライセンス: Link先を確認
Prateek Verma, (参考訳) 大規模言語モデル(LLM)は、あらゆる科学分野や分野に影響を及ぼす人工知能の新たな波を導いてきた。 それらは単純な目的、つまり前のコンテキストに与えられた次のトークンを予測することに基づいて訓練される。 私たちは、テキスト、オーディオ、音楽など、私たちを取り巻くほとんどのデータが、それに関連するマルチスケールな構造を持つ世界に住んでいる。 本稿では,従来の信号処理のアイデアであるウェーブレットを事前学習中にLLMに注入し,その利点を生かした。 GPTスタイルのLLMアーキテクチャに‘textbf{any extra parameters} を追加することなく、テキスト、生のオーディオ、シンボリック音楽の約2倍の速さで事前学習性能を実現する。 これは中間埋め込みに構造を与えることによって達成される。 同じ数のトレーニングステップでトレーニングを行うと、大きなニューラルネットワークアーキテクチャの事前トレーニングに匹敵する、パフォーマンスの大幅な向上を実現します。 我々のアーキテクチャは、Transformerデコーダブロックごとに異なる時間分解能の中間埋め込みへの次のトークン予測アクセスを可能にする。 この作業は、従来のLLM事前学習にマルチレート信号処理のアイデアを組み込むための道を開くことを願っている。 さらに,本研究では,単に規模を拡大するのではなく,内部構造の改善によるモデル性能の向上を示す。

Large Language Models (LLMs) have ushered in a new wave of artificial intelligence advancements impacting every scientific field and discipline. They are trained on a simple objective: to predict the next token given the previous context. We live in a world where most of the data around us, e.g., text, audio, and music, has a multi-scale structure associated with it. This paper infuses LLMs with traditional signal processing ideas, namely wavelets, during pre-training to take advantage of the structure. Without adding \textbf{any extra parameters} to a GPT-style LLM architecture, we achieve the same pre-training performance almost twice as fast in text, raw audio, and symbolic music. This is achieved by imposing a structure on intermediate embeddings. When trained for the same number of training steps, we achieve significant gains in performance, which is comparable to pre-training a larger neural architecture. Our architecture allows every next token prediction access to intermediate embeddings at different temporal resolutions in every Transformer decoder block. This work will hopefully pave the way for incorporating multi-rate signal processing ideas into traditional LLM pre-training. Further, we showcase pushing model performance by improving internal structure instead of just going after scale.
翻訳日:2024-11-07 12:48:01 公開日:2024-10-03
# ERIC:精密住宅用ドアベルカメラによる降雨量の推定

ERIC: Estimating Rainfall with Commodity Doorbell Camera for Precision Residential Irrigation ( http://arxiv.org/abs/2409.13104v1 )

ライセンス: Link先を確認
Tian Liu, Liuyi Jin, Radu Stoleru, Amran Haroon, Charles Swanson, Kexin Feng, (参考訳) WaterMyYardのような現在の最先端の住宅用灌水システムでは、近くの気象観測所からの降水データを利用して灌水量を調整している。 しかし,降雨量の空間分解能の限界と過局所降雨量の大きな変動により,降雨データの精度が損なわれ,かなりの水が浪費される。 そこで我々は,コモディティ・ドアベルカメラの映像から降雨を推定する機械学習モデルを用いて,人手を介さずに灌水スケジュールを最適化する,費用対効果の高い灌水システムERICを開発した。 具体的には a) エッジのカメラから降雨を推測し,ユーザのプライバシを保存するために,軽量なニューラルネットワークモデルを備えた新しい視覚的及び音声的特徴を設計すること。 b)Raspberry Pi 4上でのエンド・ツー・エンドの灌水システムの構築には75ドルしかかからない。 システムは5つの場所(750時間以上のビデオ)に展開し、背景や光条件も様々でした。 総合的な評価は、ERICが最先端の降水量推定性能(約5mm/日)を達成し、9,112ガロン/月を節約し、ユーティリティ・セーブで月額28.56ドルに換算できることを示している。

Current state-of-the-art residential irrigation systems, such as WaterMyYard, rely on rainfall data from nearby weather stations to adjust irrigation amounts. However, the accuracy of rainfall data is compromised by the limited spatial resolution of rain gauges and the significant variability of hyperlocal rainfall, leading to substantial water waste. To improve irrigation efficiency, we developed a cost-effective irrigation system, dubbed ERIC, which employs machine learning models to estimate rainfall from commodity doorbell camera footage and optimizes irrigation schedules without human intervention. Specifically, we: a) designed novel visual and audio features with lightweight neural network models to infer rainfall from the camera at the edge, preserving user privacy; b) built a complete end-to-end irrigation system on Raspberry Pi 4, costing only $75. We deployed the system across five locations (collecting over 750 hours of video) with varying backgrounds and light conditions. Comprehensive evaluation validates that ERIC achieves state-of-the-art rainfall estimation performance (~ 5mm/day), saving 9,112 gallons/month of water, translating to $28.56/month in utility savings.
翻訳日:2024-11-07 11:52:12 公開日:2024-10-03
# ERIC:精密住宅用ドアベルカメラによる降雨量の推定

ERIC: Estimating Rainfall with Commodity Doorbell Camera for Precision Residential Irrigation ( http://arxiv.org/abs/2409.13104v2 )

ライセンス: Link先を確認
Tian Liu, Liuyi Jin, Radu Stoleru, Amran Haroon, Charles Swanson, Kexin Feng, (参考訳) WaterMyYardのような現在の最先端の住宅用灌水システムでは、近くの気象観測所からの降水データを利用して灌水量を調整している。 しかし,降雨量の空間分解能の限界と過局所降雨量の大きな変動により,降雨データの精度が損なわれ,かなりの水が浪費される。 そこで我々は,コモディティ・ドアベルカメラの映像から降雨を推定する機械学習モデルを用いて,人手を介さずに灌水スケジュールを最適化する,費用対効果の高い灌水システムERICを開発した。 具体的には a) エッジのカメラから降雨を推測し,ユーザのプライバシを保存するために,軽量なニューラルネットワークモデルを備えた新しい視覚的及び音声的特徴を設計すること。 b)Raspberry Pi 4上に完全なエンドツーエンド灌水システムを構築した。 システムは5つの場所(750時間以上のビデオ)に展開し、背景や光条件も様々でした。 総合的な評価は、ERICが最先端の降水量推定性能(5mm/日)を達成し、9,112ガロン/月を節約し、ユーティリティの節約に28.56ドル/月と換算する。 データとコードはhttps://github.com/LENSS/ERIC-BuildSys2024.gitで入手できる。

Current state-of-the-art residential irrigation systems, such as WaterMyYard, rely on rainfall data from nearby weather stations to adjust irrigation amounts. However, the accuracy of rainfall data is compromised by the limited spatial resolution of rain gauges and the significant variability of hyperlocal rainfall, leading to substantial water waste. To improve irrigation efficiency, we developed a cost-effective irrigation system, dubbed ERIC, which employs machine learning models to estimate rainfall from commodity doorbell camera footage and optimizes irrigation schedules without human intervention. Specifically, we: a) designed novel visual and audio features with lightweight neural network models to infer rainfall from the camera at the edge, preserving user privacy; b) built a complete end-to-end irrigation system on Raspberry Pi 4, costing only \$75. We deployed the system across five locations (collecting over 750 hours of video) with varying backgrounds and light conditions. Comprehensive evaluation validates that ERIC achieves state-of-the-art rainfall estimation performance ($\sim$ 5mm/day), saving 9,112 gallons/month of water, translating to \$28.56/month in utility savings. Data and code are available at https://github.com/LENSS/ERIC-BuildSys2024.git
翻訳日:2024-11-07 11:52:12 公開日:2024-10-03
# 正規化Narrow Jump to Conclusions:パラメータ効率の良い早期出力変圧器予測のための正規化Narrow Shortcuts

Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction ( http://arxiv.org/abs/2409.14091v1 )

ライセンス: Link先を確認
Amrit Diggavi Seshadri, (参考訳) 近年,大規模なトランスフォーマーベース言語モデルのサイズとコストの増大に伴い,より安価なモデル推論のための最終表現への初期トランスフォーマーの隠蔽表現のショートカットへの関心が高まっている。 特に、初期の層に線形変換を施した事前学習型変圧器のショートカットにより、早期推論の精度が向上することが示されている。 しかし、大規模な言語モデルでは、これでさえ計算コストがかかる。 本研究では,N-NJTC(Narrow Jump to Conclusions)とN-NJTC(Nalmalized Narrow Jump to Conclusions)を提案する。 GPT-2-XL, Phi3-Mini, Llama2-7B 変圧器モデルにおいて, N-NJTC は早期にアイデンティティ・ショートカットを確実に上回り, 変圧器ブロックレベルから安定な精度を提供し, よりパラメータ効率の良いショートカット手法の実現可能性を示す。

With the size and cost of large transformer-based language models growing, recently, there has been interest in shortcut casting of early transformer hidden-representations to final-representations for cheaper model inference. In particular, shortcutting pre-trained transformers with linear transformations over early layers has been shown to improve precision in early inference. However, for large language models, even this becomes computationally expensive. In this work, we propose Narrow Jump to Conclusions (NJTC) and Normalized Narrow Jump to Conclusions (N-NJTC) - parameter efficient alternatives to standard linear shortcutting that reduces shortcut parameter count by over 97%. We show that N-NJTC reliably outperforms Identity shortcuts at early stages and offers stable precision from all transformer block levels for GPT-2-XL, Phi3-Mini and Llama2-7B transformer models, demonstrating the viability of more parameter efficient short-cutting approaches.
翻訳日:2024-11-07 03:44:25 公開日:2024-10-03
# 正規化Narrow Jump to Conclusions:パラメータ効率の良い早期出力変圧器予測のための正規化Narrow Shortcuts

Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction ( http://arxiv.org/abs/2409.14091v2 )

ライセンス: Link先を確認
Amrit Diggavi Seshadri, (参考訳) 近年,大規模なトランスフォーマーベース言語モデルのサイズとコストの増大に伴い,より安価なモデル推論のための最終表現への初期トランスフォーマーの隠蔽表現のショートカットへの関心が高まっている。 特に、初期の層に線形変換を施した事前学習型変圧器のショートカットにより、早期推論の精度が向上することが示されている。 しかし、大規模な言語モデルでは、これでさえ計算コストがかかる。 本研究では,N-NJTC(Narrow Jump to Conclusions)とN-NJTC(Nalmalized Narrow Jump to Conclusions)を提案する。 GPT-2-XL, Phi3-Mini, Llama2-7B 変圧器モデルにおいて, N-NJTC は早期にアイデンティティ・ショートカットを確実に上回り, 変圧器ブロックレベルから安定な精度を提供し, よりパラメータ効率の良いショートカット手法の実現可能性を示す。

With the size and cost of large transformer-based language models growing, recently, there has been interest in shortcut casting of early transformer hidden-representations to final-representations for cheaper model inference. In particular, shortcutting pre-trained transformers with linear transformations over early layers has been shown to improve precision in early inference. However, for large language models, even this becomes computationally expensive. In this work, we propose Narrow Jump to Conclusions (NJTC) and Normalized Narrow Jump to Conclusions (N-NJTC) - parameter efficient alternatives to standard linear shortcutting that reduces shortcut parameter count by over 97%. We show that N-NJTC reliably outperforms Identity shortcuts at early stages and offers stable precision from all transformer block levels for GPT-2-XL, Phi3-Mini and Llama2-7B transformer models, demonstrating the viability of more parameter efficient short-cutting approaches.
翻訳日:2024-11-07 03:33:25 公開日:2024-10-03
# 大規模ニューラルネットワークの一貫性

Consistency for Large Neural Networks ( http://arxiv.org/abs/2409.14123v1 )

ライセンス: Link先を確認
Haoran Zhan, Yingcun Xia, (参考訳) ニューラルネットワークは特に過度にパラメータ化されたモデルや"大規模"モデルにおいて顕著な成功を収めている。 経験的証拠の増大と直観的な理解にもかかわらず、そのようなモデルの振る舞い、特に過剰適合に関する形式的な数学的正当性はいまだ不完全である。 本稿では,あるモデルサイズ閾値の後に,$L^1$または$L^2$ペナルティを持つニューラルネットワークの平均積分正方形誤差(MISE)が減少することを示す。 これらの結果は、従来の統計モデリングフレームワークに挑戦し、ニューラルネットワークの二重降下現象に関する最近の知見を広げるものである。 我々の理論結果は、ReLUアクティベーション機能を持つディープラーニングモデルにも拡張される。

Neural networks have shown remarkable success, especially in overparameterized or "large" models. Despite increasing empirical evidence and intuitive understanding, a formal mathematical justification for the behavior of such models, particularly regarding overfitting, remains incomplete. In this paper, we prove that the Mean Integrated Squared Error (MISE) of neural networks with either $L^1$ or $L^2$ penalty decreases after a certain model size threshold, provided that the sample size is sufficiently large, and achieves nearly the minimax optimality in the Barron space. These results challenge conventional statistical modeling frameworks and broadens recent findings on the double descent phenomenon in neural networks. Our theoretical results also extend to deep learning models with ReLU activation functions.
翻訳日:2024-11-07 03:22:12 公開日:2024-10-03
# 大規模ニューラルネットワークの一貫性の一般的な枠組み

A General Framework of the Consistency for Large Neural Networks ( http://arxiv.org/abs/2409.14123v2 )

ライセンス: Link先を確認
Haoran Zhan, Yingcun Xia, (参考訳) ニューラルネットワークは特に過度にパラメータ化されたモデルや"大規模"モデルにおいて顕著な成功を収めている。 経験的証拠の増大と直観的な理解にもかかわらず、そのようなモデルの振る舞い、特に過度な適合に関する形式的な数学的正当化はいまだ不完全である。 本稿では,ニューラルネットワークの平均積分正方形誤差(MISE)を研究するための一般化正規化フレームワークを提案する。 このフレームワークには、ReLuやSigmoidのアクティベーションや$L^1$、$L^2$ペナルティなど、よく使われるニューラルネットワークやペナルティが含まれている。 筆者らのフレームワークから,MISE曲線は2つの可能な形状,すなわち2重降下形と単調下降形であることがわかった。 後者の現象は文学において新しい現象であり、これらの2つの現象の原因も理論的に研究されている。 これらの研究は、従来の統計モデリングフレームワークに挑戦し、ニューラルネットワークの二重降下現象に関する最近の知見を広げる。

Neural networks have shown remarkable success, especially in overparameterized or "large" models. Despite increasing empirical evidence and intuitive understanding, a formal mathematical justification for the behavior of such models, particularly regarding overfitting, remains incomplete. In this paper, we propose a general regularization framework to study the Mean Integrated Squared Error (MISE) of neural networks. This framework includes many commonly used neural networks and penalties, such as ReLu and Sigmoid activations and $L^1$, $L^2$ penalties. Based on our frameworks, we find the MISE curve has two possible shapes, namely the shape of double descents and monotone decreasing. The latter phenomenon is new in literature and the causes of these two phenomena are also studied in theory. These studies challenge conventional statistical modeling frameworks and broadens recent findings on the double descent phenomenon in neural networks.
翻訳日:2024-11-07 03:22:12 公開日:2024-10-03
# PathSeeker: 強化学習に基づくジェイルブレイクアプローチによるLLMセキュリティ脆弱性の探索

PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach ( http://arxiv.org/abs/2409.14177v1 )

ライセンス: Link先を確認
Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li, (参考訳) 近年、LLM(Large Language Models)が広く普及し、セキュリティに対する懸念が高まっている。 伝統的なジェイルブレイク攻撃は、内部モデルの詳細に依存するか、被害者モデルの安全でない振る舞いを探索する際に制限があり、その一般化性を制限する。 本稿では,セキュリティ迷路から逃れる概念に触発された新しいブラックボックスジェイルブレイク手法であるPathSeekerを紹介する。 この作品は迷路から逃れるネズミのゲームにインスパイアされている。 各LSMには固有の「セキュリティ迷路」があり、攻撃者はLLMのセキュリティ防衛を侵害するために、受信したフィードバックと蓄積した経験から出口学習を見つけようとする。 提案手法はマルチエージェント強化学習を応用し,より小さなモデルでLLMを指導し,突然変異操作を行い,攻撃目標を達成する。 モデルからのフィードバックに基づいて入力を段階的に修正することにより、システムはよりリッチで有害な応答を誘導する。 ジェイルブレイク攻撃を手動で行おうとしたところ,対象モデルの応答の語彙が徐々に豊かになり,最終的には有害な応答が生じた。 また,LLM応答の語彙豊かさの拡大を利用して,セキュリティ制約を弱める報奨機構を導入する。 提案手法は,13の商用およびオープンソース LLM でテストした場合,特に GPT-4o-mini, Claude-3.5, GLM-4-air などの高度に整列した商用モデルにおいて,高い攻撃成功率を達成する上で,5つの最先端攻撃技術より優れる。 本研究は,LSMのセキュリティ脆弱性の理解を深めることを目的としており,この頑丈さがより堅牢な防御の開発に寄与することを期待している。

In recent years, Large Language Models (LLMs) have gained widespread use, accompanied by increasing concerns over their security. Traditional jailbreak attacks rely on internal model details or have limitations when exploring the unsafe behavior of the victim model, limiting their generalizability. In this paper, we introduce PathSeeker, a novel black-box jailbreak method inspired by the concept of escaping a security maze. This work is inspired by the game of rats escaping a maze. We think that each LLM has its unique "security maze", and attackers attempt to find the exit learning from the received feedback and their accumulated experience to compromise the target LLM's security defences. Our approach leverages multi-agent reinforcement learning, where smaller models collaborate to guide the main LLM in performing mutation operations to achieve the attack objectives. By progressively modifying inputs based on the model's feedback, our system induces richer, harmful responses. During our manual attempts to perform jailbreak attacks, we found that the vocabulary of the response of the target model gradually became richer and eventually produced harmful responses. Based on the observation, we also introduce a reward mechanism that exploits the expansion of vocabulary richness in LLM responses to weaken security constraints. Our method outperforms five state-of-the-art attack techniques when tested across 13 commercial and open-source LLMs, achieving high attack success rates, especially in strongly aligned commercial models like GPT-4o-mini, Claude-3.5, and GLM-4-air with strong safety alignment. This study aims to improve the understanding of LLM security vulnerabilities and we hope that this sturdy can contribute to the development of more robust defenses.
翻訳日:2024-11-06 23:48:26 公開日:2024-10-03
# PathSeeker: 強化学習に基づくジェイルブレイクアプローチによるLLMセキュリティ脆弱性の探索

PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach ( http://arxiv.org/abs/2409.14177v2 )

ライセンス: Link先を確認
Zhihao Lin, Wei Ma, Mingyi Zhou, Yanjie Zhao, Haoyu Wang, Yang Liu, Jun Wang, Li Li, (参考訳) 近年、LLM(Large Language Models)が広く普及し、セキュリティに対する懸念が高まっている。 伝統的なジェイルブレイク攻撃は、しばしばモデルの内部情報に依存するか、被害者モデルの安全でない振る舞いを探索する際に制限がある。 本稿では,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介する。 各LSMには固有の「セキュリティ迷路」があり、攻撃者はLLMのセキュリティ防衛を侵害するために、受信したフィードバックと蓄積した経験から出口学習を見つけようとする。 提案手法はマルチエージェント強化学習を応用し,より小さなモデルでLLMを指導し,突然変異操作を行い,攻撃目標を達成する。 モデルからのフィードバックに基づいて入力を段階的に修正することにより、システムはよりリッチで有害な応答を誘導する。 ジェイルブレイク攻撃を手動で行おうとしたところ,対象モデルの応答の語彙が徐々に豊かになり,最終的には有害な応答が生じた。 また,LLM応答の語彙豊かさの拡大を利用して,セキュリティ制約を弱める報奨機構を導入する。 提案手法は,13の商用およびオープンソース LLM でテストした場合,特に GPT-4o-mini, Claude-3.5, GLM-4-air などの高度に整列した商用モデルにおいて,高い攻撃成功率を達成する上で,5つの最先端攻撃技術より優れる。 本研究は,LSMのセキュリティ脆弱性の理解を深めることを目的としており,この頑丈さがより堅牢な防御の開発に寄与することを期待している。

In recent years, Large Language Models (LLMs) have gained widespread use, raising concerns about their security. Traditional jailbreak attacks, which often rely on the model internal information or have limitations when exploring the unsafe behavior of the victim model, limiting their reducing their general applicability. In this paper, we introduce PathSeeker, a novel black-box jailbreak method, which is inspired by the game of rats escaping a maze. We think that each LLM has its unique "security maze", and attackers attempt to find the exit learning from the received feedback and their accumulated experience to compromise the target LLM's security defences. Our approach leverages multi-agent reinforcement learning, where smaller models collaborate to guide the main LLM in performing mutation operations to achieve the attack objectives. By progressively modifying inputs based on the model's feedback, our system induces richer, harmful responses. During our manual attempts to perform jailbreak attacks, we found that the vocabulary of the response of the target model gradually became richer and eventually produced harmful responses. Based on the observation, we also introduce a reward mechanism that exploits the expansion of vocabulary richness in LLM responses to weaken security constraints. Our method outperforms five state-of-the-art attack techniques when tested across 13 commercial and open-source LLMs, achieving high attack success rates, especially in strongly aligned commercial models like GPT-4o-mini, Claude-3.5, and GLM-4-air with strong safety alignment. This study aims to improve the understanding of LLM security vulnerabilities and we hope that this sturdy can contribute to the development of more robust defenses.
翻訳日:2024-11-06 23:48:26 公開日:2024-10-03
# インプリシティブ・ダイナミックフロー・フュージョン(IDFF)の創成モデルへの応用

Implicit Dynamical Flow Fusion (IDFF) for Generative Modeling ( http://arxiv.org/abs/2409.14599v1 )

ライセンス: Link先を確認
Mohammad R. Rezaei, Rahul G. Krishnan, Milos R. Popovic, Milad Lankarany, (参考訳) 条件付きフローマッチング(CFM)モデルは、非形式的な事前から高品質なサンプルを生成することができるが、遅い可能性があり、数百のネットワーク評価(NFE)を必要とすることが多い。 この問題に対処するため,IDFF は新たな運動量項を持つベクトル場を学習し,生成した分布の忠実性を維持しつつ,サンプル生成中に長いステップを踏むことができる。 その結果、IDFFはサンプル品質を犠牲にすることなく、NFEを10倍に削減し、画像および時系列データ生成タスクの迅速なサンプリングと効率的な処理を可能にした。 CIFAR-10やCelebAなどの標準ベンチマークで画像生成のためのIDFFを評価する。 我々はCFMとNFEの少ない拡散モデルに匹敵する可能性と品質を達成した。 IDFFはまた、分子シミュレーションや海面温度(SST)データセットを含む時系列データセットのモデリングにおいて優れたパフォーマンスを示し、その汎用性と異なるドメイン間での有効性を強調している。

Conditional Flow Matching (CFM) models can generate high-quality samples from a non-informative prior, but they can be slow, often needing hundreds of network evaluations (NFE). To address this, we propose Implicit Dynamical Flow Fusion (IDFF); IDFF learns a new vector field with an additional momentum term that enables taking longer steps during sample generation while maintaining the fidelity of the generated distribution. Consequently, IDFFs reduce the NFEs by a factor of ten (relative to CFMs) without sacrificing sample quality, enabling rapid sampling and efficient handling of image and time-series data generation tasks. We evaluate IDFF on standard benchmarks such as CIFAR-10 and CelebA for image generation. We achieved likelihood and quality performance comparable to CFMs and diffusion-based models with fewer NFEs. IDFF also shows superior performance on time-series datasets modeling, including molecular simulation and sea surface temperature (SST) datasets, highlighting its versatility and effectiveness across different domains.
翻訳日:2024-11-06 21:57:16 公開日:2024-10-03
# インプリシティブ・ダイナミックフロー・フュージョン(IDFF)の創成モデルへの応用

Implicit Dynamical Flow Fusion (IDFF) for Generative Modeling ( http://arxiv.org/abs/2409.14599v2 )

ライセンス: Link先を確認
Mohammad R. Rezaei, Rahul G. Krishnan, Milos R. Popovic, Milad Lankarany, (参考訳) 条件付きフローマッチング(CFM)モデルは、非形式的な事前から高品質なサンプルを生成することができるが、遅い可能性があり、数百のネットワーク評価(NFE)を必要とすることが多い。 この問題に対処するため,IDFF は新たな運動量項を持つベクトル場を学習し,生成した分布の忠実性を維持しつつ,サンプル生成中に長いステップを踏むことができる。 その結果、IDFFはサンプル品質を犠牲にすることなく、NFEを10倍に削減し、画像および時系列データ生成タスクの迅速なサンプリングと効率的な処理を可能にした。 CIFAR-10やCelebAなどの標準ベンチマークで画像生成のためのIDFFを評価する。 我々はCFMとNFEの少ない拡散モデルに匹敵する可能性と品質を達成した。 IDFFはまた、分子シミュレーションや海面温度(SST)データセットを含む時系列データセットのモデリングにおいて優れたパフォーマンスを示し、その汎用性と異なるドメイン間での有効性を強調している。

Conditional Flow Matching (CFM) models can generate high-quality samples from a non-informative prior, but they can be slow, often needing hundreds of network evaluations (NFE). To address this, we propose Implicit Dynamical Flow Fusion (IDFF); IDFF learns a new vector field with an additional momentum term that enables taking longer steps during sample generation while maintaining the fidelity of the generated distribution. Consequently, IDFFs reduce the NFEs by a factor of ten (relative to CFMs) without sacrificing sample quality, enabling rapid sampling and efficient handling of image and time-series data generation tasks. We evaluate IDFF on standard benchmarks such as CIFAR-10 and CelebA for image generation. We achieved likelihood and quality performance comparable to CFMs and diffusion-based models with fewer NFEs. IDFF also shows superior performance on time-series datasets modeling, including molecular simulation and sea surface temperature (SST) datasets, highlighting its versatility and effectiveness across different domains.
翻訳日:2024-11-06 21:57:16 公開日:2024-10-03
# MobileVLM:UI内およびUI間理解を改善するビジョン言語モデル

MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding ( http://arxiv.org/abs/2409.14818v1 )

ライセンス: Link先を確認
Qinzhuo Wu, Weikai Xu, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Shuo Shang, (参考訳) 近年,VLMに基づくモバイルAIエージェントが注目されている。 これらの作業は通常、VLMを基礎として利用し、命令ベースのモバイルデータセットを微調整する。 しかしながら、これらのVLMは一般的に、一般的なドメインデータに基づいて事前訓練されているため、多くの場合、モバイルドメイン固有の基本的な機能が欠如する。 そのため、特定のUI要素を認識し、UI内部のきめ細かい情報を理解するのに苦労する可能性がある。 さらに、現在の微調整タスクは、与えられた命令に対して最も関連性の高い要素と対話することに焦点を当てている。 これらの微調整されたVLMは、UIページ間の関係を無視し、ページ遷移における要素の役割を無視し、UI間の理解を欠いている可能性がある。 そこで本研究では,UI内理解とUI間理解を両立させる2つの事前学習段階を含む,MobileVLMというVLMを提案する。 UIベースの事前トレーニングタスクを4つ定義しました。 モバイル事前トレーニングデータの欠如に対処するため,中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築した。 実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。

Recently, mobile AI agents based on VLMs have been gaining increasing attention. These works typically utilize VLM as a foundation, fine-tuning it with instruction-based mobile datasets. However, these VLMs are typically pre-trained on general-domain data, which often results in a lack of fundamental capabilities specific to the mobile domain. Therefore, they may struggle to recognize specific UI elements and understand intra-UI fine-grained information. In addition, the current fine-tuning task focuses on interacting with the most relevant element for the given instruction. These fine-tuned VLMs may still ignore the relationships between UI pages, neglect the roles of elements in page transitions and lack inter-UI understanding. To address issues, we propose a VLM called MobileVLM, which includes two additional pre-training stages to enhance both intra- and inter-UI understanding. We defined four UI-based pre-training tasks, enabling the model to better perceive fine-grained elements and capture page transition actions. To address the lack of mobile pre-training data, we built a large Chinese mobile dataset Mobile3M from scratch, which contains 3 million UI pages, and real-world transition actions, forming a directed graph structure. Experimental results show MobileVLM excels on both our test set and public mobile benchmarks, outperforming existing VLMs.
翻訳日:2024-11-06 20:50:08 公開日:2024-10-03
# MobileVLM:UI内およびUI間理解を改善するビジョン言語モデル

MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding ( http://arxiv.org/abs/2409.14818v2 )

ライセンス: Link先を確認
Qinzhuo Wu, Weikai Xu, Wei Liu, Tao Tan, Jianfeng Liu, Ang Li, Jian Luan, Bin Wang, Shuo Shang, (参考訳) 近年,VLMに基づくモバイルAIエージェントが注目されている。 これらの作業は通常、VLMを基礎として利用し、命令ベースのモバイルデータセットを微調整する。 しかしながら、これらのVLMは一般的に、一般的なドメインデータに基づいて事前訓練されているため、多くの場合、モバイルドメイン固有の基本的な機能が欠如する。 そのため、特定のUI要素を認識し、UI内部のきめ細かい情報を理解するのに苦労する可能性がある。 さらに、現在の微調整タスクは、与えられた命令に対して最も関連性の高い要素と対話することに焦点を当てている。 これらの微調整されたVLMは、UIページ間の関係を無視し、ページ遷移における要素の役割を無視し、UI間の理解を欠いている可能性がある。 そこで本研究では,UI内理解とUI間理解を両立させる2つの事前学習段階を含む,MobileVLMというVLMを提案する。 UIベースの事前トレーニングタスクを4つ定義しました。 モバイル事前トレーニングデータの欠如に対処するため,中国製の大規模なモバイルデータセットMobile3Mをスクラッチから構築した。 実験の結果,MobileVLMはテストセットと公開モバイルベンチマークの両方で優れており,既存のVLMよりも優れていた。

Recently, mobile AI agents based on VLMs have been gaining increasing attention. These works typically utilize VLM as a foundation, fine-tuning it with instruction-based mobile datasets. However, these VLMs are typically pre-trained on general-domain data, which often results in a lack of fundamental capabilities specific to the mobile domain. Therefore, they may struggle to recognize specific UI elements and understand intra-UI fine-grained information. In addition, the current fine-tuning task focuses on interacting with the most relevant element for the given instruction. These fine-tuned VLMs may still ignore the relationships between UI pages, neglect the roles of elements in page transitions and lack inter-UI understanding. To address issues, we propose a VLM called MobileVLM, which includes two additional pre-training stages to enhance both intra- and inter-UI understanding. We defined four UI-based pre-training tasks, enabling the model to better perceive fine-grained elements and capture page transition actions. To address the lack of mobile pre-training data, we built a large Chinese mobile dataset Mobile3M from scratch, which contains 3 million UI pages, and real-world transition actions, forming a directed graph structure. Experimental results show MobileVLM excels on both our test set and public mobile benchmarks, outperforming existing VLMs.
翻訳日:2024-11-06 20:50:08 公開日:2024-10-03
# Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク

Archon: An Architecture Search Framework for Inference-Time Techniques ( http://arxiv.org/abs/2409.15254v1 )

ライセンス: Link先を確認
Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher R\'e, Azalia Mirhoseini(参考訳) 大規模言語モデル(LLM)の能力を高めるために、推論時のテクニックが、非常に効果的なツールとして登場しています。 しかし、(1)推論時間と1つ以上のLCMを組み合わせたシステム開発におけるベストプラクティスの理解には、(1)推論計算予算を効果的に配分すること、(2)推論時間と異なる組み合わせの相互作用と下流のパフォーマンスへの影響を理解すること、といった課題がある。 3)モデル選択,推測時間技術,それらの構成の広い空間を効率的に探索する。 これらの課題に対処するために、推論時アーキテクチャを設計するための自動化フレームワークであるArchonを紹介します。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、マルチサンプリング、ランキング、融合、評定、検証、単体テストなどの手法を含んでいる。 次に、LLMと推論時間技術の選択と組み合わせという問題をハイパーパラメータ最適化の目的に変換する。 この目的を最適化するために,自動推論時間アーキテクチャ探索(ITAS)アルゴリズムを導入する。 ターゲットベンチマーク、推論計算予算、利用可能なLLMが与えられたら、ITASは最適化されたアーキテクチャを出力します。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、幅広い命令追従および推論ベンチマークのアーコンアーキテクチャを評価した。 GPT-4o や Claude 3.5 Sonnet などの強力なモデルに対して,Archon が設計した推論時アーキテクチャは,これらのベンチマークでそれぞれ 15.1 と 11.2 のポイントを,オープンソースモデルとオープンソースモデルでそれぞれ平均的に上回っていることを示す。 コードとデータセットをGithubで公開しています。

Inference-time techniques are emerging as highly effective tools to increase large language model (LLM) capabilities. However, there is still limited understanding of the best practices for developing systems that combine inference-time techniques with one or more LLMs, with challenges including: (1) effectively allocating inference compute budget, (2) understanding the interactions between different combinations of inference-time techniques and their impact on downstream performance, and 3) efficiently searching over the large space of model choices, inference-time techniques, and their compositions. To address these challenges, we introduce Archon, an automated framework for designing inference-time architectures. Archon defines an extensible design space, encompassing methods such as generation ensembling, multi-sampling, ranking, fusion, critiquing, verification, and unit testing. It then transforms the problem of selecting and combining LLMs and inference-time techniques into a hyperparameter optimization objective. To optimize this objective, we introduce automated Inference-Time Architecture Search (ITAS) algorithms. Given target benchmark(s), an inference compute budget, and available LLMs, ITAS outputs optimized architectures. We evaluate Archon architectures across a wide range of instruction-following and reasoning benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. We show that automatically designed inference-time architectures by Archon outperform strong models such as GPT-4o and Claude 3.5 Sonnet on these benchmarks, achieving an average increase of 15.1 and 11.2 percentage points with all-source models and open-source models, respectively. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-03
# Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク

Archon: An Architecture Search Framework for Inference-Time Techniques ( http://arxiv.org/abs/2409.15254v3 )

ライセンス: Link先を確認
Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)の能力を高めるために、推論時のテクニックが、非常に効果的なツールとして登場しています。 しかし、(1)推論時間と1つ以上のLCMを組み合わせたシステム開発におけるベストプラクティスの理解には、(1)推論計算予算を効果的に配分すること、(2)推論時間と異なる組み合わせの相互作用と下流のパフォーマンスへの影響を理解すること、といった課題がある。 3)モデル選択,推測時間技術,それらの構成の広い空間を効率的に探索する。 これらの課題に対処するために、推論時アーキテクチャを設計するための自動化フレームワークであるArchonを紹介します。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、マルチサンプリング、ランキング、融合、評定、検証、単体テストなどの手法を含んでいる。 次に、LLMと推論時間技術の選択と組み合わせという問題をハイパーパラメータ最適化の目的に変換する。 この目的を最適化するために,自動推論時間アーキテクチャ探索(ITAS)アルゴリズムを導入する。 ターゲットベンチマーク、推論計算予算、利用可能なLLMが与えられたら、ITASは最適化されたアーキテクチャを出力します。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、幅広い命令追従および推論ベンチマークのアーコンアーキテクチャを評価した。 GPT-4o や Claude 3.5 Sonnet などの強力なモデルに対して,Archon が設計した推論時アーキテクチャは,これらのベンチマークでそれぞれ 15.1 と 11.2 のポイントを,オープンソースモデルとオープンソースモデルでそれぞれ平均的に上回っていることを示す。 コードとデータセットをGithubで公開しています。

Inference-time techniques are emerging as highly effective tools to increase large language model (LLM) capabilities. However, there is still limited understanding of the best practices for developing systems that combine inference-time techniques with one or more LLMs, with challenges including: (1) effectively allocating inference compute budget, (2) understanding the interactions between different combinations of inference-time techniques and their impact on downstream performance, and 3) efficiently searching over the large space of model choices, inference-time techniques, and their compositions. To address these challenges, we introduce Archon, an automated framework for designing inference-time architectures. Archon defines an extensible design space, encompassing methods such as generation ensembling, multi-sampling, ranking, fusion, critiquing, verification, and unit testing. It then transforms the problem of selecting and combining LLMs and inference-time techniques into a hyperparameter optimization objective. To optimize this objective, we introduce automated Inference-Time Architecture Search (ITAS) algorithms. Given target benchmark(s), an inference compute budget, and available LLMs, ITAS outputs optimized architectures. We evaluate Archon architectures across a wide range of instruction-following and reasoning benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. We show that automatically designed inference-time architectures by Archon outperform strong models such as GPT-4o and Claude 3.5 Sonnet on these benchmarks, achieving an average increase of 15.1 and 11.2 percentage points with all-source models and open-source models, respectively. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-03
# Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク

Archon: An Architecture Search Framework for Inference-Time Techniques ( http://arxiv.org/abs/2409.15254v4 )

ライセンス: Link先を確認
Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)の能力を高めるために、推論時のテクニックが、非常に効果的なツールとして登場しています。 しかし、(1)推論時間と1つ以上のLCMを組み合わせたシステム開発におけるベストプラクティスの理解には、(1)推論計算予算を効果的に配分すること、(2)推論時間と異なる組み合わせの相互作用と下流のパフォーマンスへの影響を理解すること、といった課題がある。 3)モデル選択,推測時間技術,それらの構成の広い空間を効率的に探索する。 これらの課題に対処するために、推論時アーキテクチャを設計するための自動化フレームワークであるArchonを紹介します。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、マルチサンプリング、ランキング、融合、評定、検証、単体テストなどの手法を含んでいる。 次に、LLMと推論時間技術の選択と組み合わせという問題をハイパーパラメータ最適化の目的に変換する。 この目的を最適化するために,自動推論時間アーキテクチャ探索(ITAS)アルゴリズムを導入する。 ターゲットベンチマーク、推論計算予算、利用可能なLLMが与えられたら、ITASは最適化されたアーキテクチャを出力します。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、幅広い命令追従および推論ベンチマークのアーコンアーキテクチャを評価した。 GPT-4o や Claude 3.5 Sonnet などの強力なモデルに対して,Archon が設計した推論時アーキテクチャは,これらのベンチマークでそれぞれ 15.1 と 11.2 のポイントを,オープンソースモデルとオープンソースモデルでそれぞれ平均的に上回っていることを示す。 コードとデータセットをGithubで公開しています。

Inference-time techniques are emerging as highly effective tools to increase large language model (LLM) capabilities. However, there is still limited understanding of the best practices for developing systems that combine inference-time techniques with one or more LLMs, with challenges including: (1) effectively allocating inference compute budget, (2) understanding the interactions between different combinations of inference-time techniques and their impact on downstream performance, and 3) efficiently searching over the large space of model choices, inference-time techniques, and their compositions. To address these challenges, we introduce Archon, an automated framework for designing inference-time architectures. Archon defines an extensible design space, encompassing methods such as generation ensembling, multi-sampling, ranking, fusion, critiquing, verification, and unit testing. It then transforms the problem of selecting and combining LLMs and inference-time techniques into a hyperparameter optimization objective. To optimize this objective, we introduce automated Inference-Time Architecture Search (ITAS) algorithms. Given target benchmark(s), an inference compute budget, and available LLMs, ITAS outputs optimized architectures. We evaluate Archon architectures across a wide range of instruction-following and reasoning benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. We show that automatically designed inference-time architectures by Archon outperform strong models such as GPT-4o and Claude 3.5 Sonnet on these benchmarks, achieving an average increase of 15.1 and 11.2 percentage points with all-source models and open-source models, respectively. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-03
# Archon: 推論時間技術のためのアーキテクチャ検索フレームワーク

Archon: An Architecture Search Framework for Inference-Time Techniques ( http://arxiv.org/abs/2409.15254v5 )

ライセンス: Link先を確認
Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini, (参考訳) 大規模言語モデル(LLM)機能を強化するために,推論時のテクニックが,非常に効果的なツールとして登場している。 しかし,これらの手法を併用したシステム開発におけるベストプラクティスは,個々の推論時間技術の有用性と相互の相互作用を限定的に理解しているため,未発達のままである。 さらに, モデル選択, 推論時間, およびそれらの構成の空間を, 効率的かつ自動的に探索することは, 大きな設計空間のために困難である。 これらの課題に対処するために、ターゲットベンチマークに最適化されたLLMシステムを構築するために、推論時間技法の層を選択し、組み合わせ、積み重ねるためのモジュラーフレームワークであるArchonを紹介した。 一度に1つのLLMに頼るのではなく、多様なLLMと推論時間技術を活用し、LLMシステムを部品の総和よりも大きくする。 Archonは拡張可能なデザイン空間を定義しており、生成アンサンブル、繰り返しサンプリング、ランキング、融合、クオリティ、検証、単体テストといったテクニックを含んでいる。 LLMシステム構築の問題をハイパーパラメータ最適化の目的に転換する。 利用可能なLLM、推論時間技術、計算予算を考えると、Archonはハイパーパラメータ検索技術を使用して、ターゲットベンチマークのための最適化されたアーキテクチャを探索する。 MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH、CodeContestsなど、さまざまなインストラクションフォロー、推論、コーディングベンチマークのアーコンアーキテクチャを評価した。 GPT-4oやClaude 3.5 Sonnetのようなアーコンアーキテクチャはこれらのベンチマークでフロンティアモデルよりも優れており、利用可能な全てのLLMを使用して平均15.1ポイントの精度向上を実現している。 コードとデータセットをGithubで公開しています。

Inference-time techniques are emerging as highly effective tools to enhance large language model (LLM) capabilities. However, best practices for developing systems that combine these techniques remain underdeveloped due to our limited understanding of the utility of individual inference-time techniques and the interactions between them. Additionally, efficiently and automatically searching the space of model choices, inference-time techniques, and their compositions is challenging due to the large design space. To address these challenges, we introduce Archon, a modular framework for selecting, combining, and stacking layers of inference-time techniques to construct optimized LLM systems for target benchmarks. Rather than relying on a single LLM called once, we leverage a diverse set of LLMs and inference-time techniques, creating LLM systems greater than the sum of their parts. Archon defines an extensible design space, encompassing techniques such as generation ensembling, repeated sampling, ranking, fusion, critiquing, verification, and unit testing. It transforms the problem of building LLM systems into a hyperparameter optimization objective. Given the available LLMs, inference-time techniques, and compute budget, Archon utilizes hyperparameter search techniques to discover optimized architectures for target benchmark(s). We evaluate Archon architectures across a range of instruction-following, reasoning, and coding benchmarks, including MT-Bench, Arena-Hard-Auto, AlpacaEval 2.0, MixEval, MixEval Hard, MATH, and CodeContests. Archon architectures outperform frontier models, such as GPT-4o and Claude 3.5 Sonnet, on these benchmarks, achieving an average accuracy increase of 15.1 percentage points by using all available LLMs. We make our code and datasets available publicly on Github: https://github.com/ScalingIntelligence/Archon.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-03
# OmniBench:Universal Omni-Language Modelの将来に向けて

OmniBench: Towards The Future of Universal Omni-Language Models ( http://arxiv.org/abs/2409.15272v3 )

ライセンス: Link先を確認
Yizhi Li, Ge Zhang, Yinghao Ma, Ruibin Yuan, Kang Zhu, Hangyu Guo, Yiming Liang, Jiaheng Liu, Zekun Wang, Jian Yang, Siwei Wu, Xingwei Qu, Jinjie Shi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Zhaoxiang Zhang, Zachary Liu, Emmanouil Benetos, Wenhao Huang, Chenghua Lin, (参考訳) マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、様々なモダリティにまたがるデータの統合と解釈を目的としている。 しかし、これらのモデルが並列に処理し、複数のモダリティを推論する能力は、網羅的なモダリティのベンチマークが欠如していることもあって、いまだに不十分である。 OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。 我々は、このような三モーダル処理が可能なモデルをオムニ言語モデル(OLM)として定義する。 OmniBenchは、高品質な人間のアノテーションによって区別され、正確な応答が3つのモードすべてに対して統合された理解と推論を必要とすることを保証する。 主な発見は以下のとおりである。 一 ほとんどのOLMは、三次的文脈における指示追従能力及び推論能力に限界を呈する。 ii)ほとんどのベースラインモデルは、画像やオーディオの代替的なテキスト表現が提供されても(精度が50%以下)、性能が劣る。 これらの結果は、既存のMLLMトレーニングパラダイムにおいて、テキスト、画像、オーディオから一貫したコンテキストを構築する能力はしばしば見過ごされていることを示唆している。 このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。 我々は,OLMの性能を多様に向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発に重点を置くことを目的としている。 コードとライブのリーダーボードはhttps://m-a-p.ai/OmniBench.comにある。

Recent advancements in multimodal large language models (MLLMs) have aimed to integrate and interpret data across diverse modalities. However, the capacity of these models to concurrently process and reason about multiple modalities remains inadequately explored, partly due to the lack of comprehensive modality-wise benchmarks. We introduce OmniBench, a novel benchmark designed to rigorously evaluate models' ability to recognize, interpret, and reason across visual, acoustic, and textual inputs simultaneously. We define models capable of such tri-modal processing as omni-language models (OLMs). OmniBench is distinguished by high-quality human annotations, ensuring that accurate responses require integrated understanding and reasoning across all three modalities. Our main findings reveal that: i) most OLMs exhibit critical limitations in instruction-following and reasoning capabilities within tri-modal contexts; and ii) most baselines models perform poorly (below 50\% accuracy) even when provided with alternative textual representations of images or/and audio. These results suggest that the ability to construct a consistent context from text, image, and audio is often overlooked in existing MLLM training paradigms. To address this gap, we curate an instruction tuning dataset of 84.5K training samples, OmniInstruct, for training OLMs to adapt to multimodal contexts. We advocate for future research to focus on developing more robust tri-modal integration techniques and training strategies to enhance OLM performance across diverse modalities. The codes and live leaderboard could be found at https://m-a-p.ai/OmniBench.
翻訳日:2024-11-06 20:16:59 公開日:2024-10-03
# Stalactite: 垂直的フェデレート学習システムの高速プロトタイピングツールボックス

Stalactite: Toolbox for Fast Prototyping of Vertical Federated Learning Systems ( http://arxiv.org/abs/2409.15558v2 )

ライセンス: Link先を確認
Anastasiia Zakharova, Dmitriy Alexandrov, Maria Khodorchenko, Nikolay Butakov, Alexey Vasilev, Maxim Savchenko, Alexander Grigorievskiy, (参考訳) さまざまな組織が所有し、物理的にリモートデータベースにあるデータセットに基づいてトレーニングされた機械学習(ML)モデルは、多くの現実世界のユースケースでメリットを提供する。 国家規制やビジネス要件は、しばしばデータ転送を中央の場所に移すことを防ぎ、標準的な機械学習アルゴリズムの使用を困難にする。 フェデレートラーニング(FL)は、モデルがオリジナルのデータを明らかにすることなく、分散データセットから学習できる技術である。 Vertical Federated Learning (VFL) はデータサンプルを複数のデータ所有者に分けたFLの一種である。 例えば、リコメンデーションタスクでは、ユーザはさまざまなアイテムセットと対話することができ、これらのインタラクションのログは異なる組織によって格納される。 本稿では,VFLシステムのプロトタイプ構築に必要な機能を提供する,VFLのオープンソースフレームワークである \emph{Stalactite} を紹介する。 既存のフレームワークに対していくつかのアドバンテージがあります。 特に、研究者はエンジニアリングではなくアルゴリズム側に集中でき、分散環境で簡単に学習を展開できる。 いくつかのVFLアルゴリズムを実装し、同型暗号化層を内蔵している。 実世界のレコメンデーションデータセットでその使い方を実証する。

Machine learning (ML) models trained on datasets owned by different organizations and physically located in remote databases offer benefits in many real-world use cases. State regulations or business requirements often prevent data transfer to a central location, making it difficult to utilize standard machine learning algorithms. Federated Learning (FL) is a technique that enables models to learn from distributed datasets without revealing the original data. Vertical Federated learning (VFL) is a type of FL where data samples are divided by features across several data owners. For instance, in a recommendation task, a user can interact with various sets of items, and the logs of these interactions are stored by different organizations. In this demo paper, we present \emph{Stalactite} - an open-source framework for VFL that provides the necessary functionality for building prototypes of VFL systems. It has several advantages over the existing frameworks. In particular, it allows researchers to focus on the algorithmic side rather than engineering and to easily deploy learning in a distributed environment. It implements several VFL algorithms and has a built-in homomorphic encryption layer. We demonstrate its use on a real-world recommendation datasets.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-03
# ニューラルネットワークに基づく制御の同定:ほぼ線形化可能なモデル

Identification For Control Based on Neural Networks: Approximately Linearizable Models ( http://arxiv.org/abs/2409.15858v2 )

ライセンス: Link先を確認
Maxime Thieffry, Alexandre Hache, Mohamed Yagoubi, Philippe Chevrel, (参考訳) 本研究では,非線形システムの効率的な制御設計と安定性解析のための制御指向同定手法を提案する。 ニューラルネットワークを用いて離散時間非線形状態空間モデルを特定し、非線形システムの時間領域入力出力挙動を近似する。 ネットワークは、同定されたモデルがフィードバックによってほぼ線形化可能であるように構成され、制御則が学習段階から自明に従うことを保証する。 同定と準線形化の手続きの後、線形制御理論は頑健な制御系を設計し、閉ループ系の安定性を研究する。 本手法の有効性と関心は,システム識別のための一般的なベンチマークで概説されている。

This work presents a control-oriented identification scheme for efficient control design and stability analysis of nonlinear systems. Neural networks are used to identify a discrete-time nonlinear state-space model to approximate time-domain input-output behavior of a nonlinear system. The network is constructed such that the identified model is approximately linearizable by feedback, ensuring that the control law trivially follows from the learning stage. After the identification and quasi-linearization procedures, linear control theory comes at hand to design robust controllers and study stability of the closed-loop system. The effectiveness and interest of the methodology are illustrated throughout the paper on popular benchmarks for system identification.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-03
# TCSinger:スタイル転送とマルチレベルスタイル制御によるゼロショット歌声合成

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control ( http://arxiv.org/abs/2409.15977v2 )

ライセンス: Link先を確認
Yu Zhang, Ziyue Jiang, Ruiqi Li, Changhao Pan, Jinzheng He, Rongjie Huang, Chuxin Wang, Zhou Zhao, (参考訳) スタイル転送とスタイル制御を備えたゼロショット音声合成(SVS)は、音声やテキストのプロンプトから、目に見えない音色とスタイル(歌唱方法、感情、リズム、技法、発音を含む)で高品質な歌声を生成することを目的としている。 しかし、歌唱スタイルの多面的な性質は、効果的なモデリング、転送、制御に重要な課題をもたらす。 さらに、現在のSVSモデルは、目に見えない歌手のスタイル的なニュアンスに富んだ歌声を生成するのに失敗することが多い。 これらの課題に対処するため,言語間音声および歌唱スタイル間のスタイル伝達のための最初のゼロショットSVSモデルであるTCSingerと,マルチレベルスタイル制御を導入する。 具体的には、TCSingerは3つの主要なモジュールを提案する。 1)クラスタリング型エンコーダは、クラスタリングベクトル量子化モデルを用いて、安定してスタイル情報をコンパクトな潜在空間に格納する。 2)Style and Duration Language Model(S\&D-LM)は、スタイル情報と音素持続時間の両方を同時に予測する。 3) スタイル適応デコーダは, メリースタイル適応正規化法を用いて, より詳細な歌唱音声を生成する。 実験結果から,TCSingerは,ゼロショットスタイルの転送,マルチレベルスタイルの制御,言語間スタイルの転送,音声間スタイルの転送など,さまざまなタスクにおいて,合成品質,歌手の類似性,スタイル制御性において,すべてのベースラインモデルを上回っていることがわかった。 歌声サンプルはhttps://tcsinger.github.io/.com/で見ることができる。

Zero-shot singing voice synthesis (SVS) with style transfer and style control aims to generate high-quality singing voices with unseen timbres and styles (including singing method, emotion, rhythm, technique, and pronunciation) from audio and text prompts. However, the multifaceted nature of singing styles poses a significant challenge for effective modeling, transfer, and control. Furthermore, current SVS models often fail to generate singing voices rich in stylistic nuances for unseen singers. To address these challenges, we introduce TCSinger, the first zero-shot SVS model for style transfer across cross-lingual speech and singing styles, along with multi-level style control. Specifically, TCSinger proposes three primary modules: 1) the clustering style encoder employs a clustering vector quantization model to stably condense style information into a compact latent space; 2) the Style and Duration Language Model (S\&D-LM) concurrently predicts style information and phoneme duration, which benefits both; 3) the style adaptive decoder uses a novel mel-style adaptive normalization method to generate singing voices with enhanced details. Experimental results show that TCSinger outperforms all baseline models in synthesis quality, singer similarity, and style controllability across various tasks, including zero-shot style transfer, multi-level style control, cross-lingual style transfer, and speech-to-singing style transfer. Singing voice samples can be accessed at https://tcsinger.github.io/.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-03
# TCSinger:スタイル転送とマルチレベルスタイル制御によるゼロショット歌声合成

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control ( http://arxiv.org/abs/2409.15977v3 )

ライセンス: Link先を確認
Yu Zhang, Ziyue Jiang, Ruiqi Li, Changhao Pan, Jinzheng He, Rongjie Huang, Chuxin Wang, Zhou Zhao, (参考訳) スタイル転送とスタイル制御を備えたゼロショット音声合成(SVS)は、音声やテキストのプロンプトから、目に見えない音色とスタイル(歌唱方法、感情、リズム、技法、発音を含む)で高品質な歌声を生成することを目的としている。 しかし、歌唱スタイルの多面的な性質は、効果的なモデリング、転送、制御に重要な課題をもたらす。 さらに、現在のSVSモデルは、目に見えない歌手のスタイル的なニュアンスに富んだ歌声を生成するのに失敗することが多い。 これらの課題に対処するため,言語間音声および歌唱スタイル間のスタイル伝達のための最初のゼロショットSVSモデルであるTCSingerと,マルチレベルスタイル制御を導入する。 具体的には、TCSingerは3つの主要なモジュールを提案する。 1)クラスタリング型エンコーダは、クラスタリングベクトル量子化モデルを用いて、安定してスタイル情報をコンパクトな潜在空間に格納する。 2)Style and Duration Language Model(S\&D-LM)は、スタイル情報と音素持続時間の両方を同時に予測する。 3) スタイル適応デコーダは, メリースタイル適応正規化法を用いて, より詳細な歌唱音声を生成する。 実験結果から,TCSingerは,ゼロショットスタイルの転送,マルチレベルスタイルの制御,言語間スタイルの転送,音声間スタイルの転送など,さまざまなタスクにおいて,合成品質,歌手の類似性,スタイル制御性において,すべてのベースラインモデルを上回っていることがわかった。 歌声サンプルはhttps://tcsinger.github.io/.com/で見ることができる。

Zero-shot singing voice synthesis (SVS) with style transfer and style control aims to generate high-quality singing voices with unseen timbres and styles (including singing method, emotion, rhythm, technique, and pronunciation) from audio and text prompts. However, the multifaceted nature of singing styles poses a significant challenge for effective modeling, transfer, and control. Furthermore, current SVS models often fail to generate singing voices rich in stylistic nuances for unseen singers. To address these challenges, we introduce TCSinger, the first zero-shot SVS model for style transfer across cross-lingual speech and singing styles, along with multi-level style control. Specifically, TCSinger proposes three primary modules: 1) the clustering style encoder employs a clustering vector quantization model to stably condense style information into a compact latent space; 2) the Style and Duration Language Model (S\&D-LM) concurrently predicts style information and phoneme duration, which benefits both; 3) the style adaptive decoder uses a novel mel-style adaptive normalization method to generate singing voices with enhanced details. Experimental results show that TCSinger outperforms all baseline models in synthesis quality, singer similarity, and style controllability across various tasks, including zero-shot style transfer, multi-level style control, cross-lingual style transfer, and speech-to-singing style transfer. Singing voice samples can be accessed at https://tcsinger.github.io/.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-03
# 強化学習のための記号的状態分割

Symbolic State Partitioning for Reinforcement Learning ( http://arxiv.org/abs/2409.16791v2 )

ライセンス: Link先を確認
Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej Wąsowski, (参考訳) タブラル強化学習法は連続状態空間上で直接動作することはできない。 この問題の解決策の1つは状態空間を分割することである。 優れたパーティショニングは、学習中の一般化と、事前経験のより効率的な活用を可能にする。 その結果、学習プロセスはより速くなり、より信頼性の高いポリシーが生み出される。 しかし、パーティショニングは、状態成分間の非線形関係の存在において特に有害な近似をもたらす。 理想的なパーティションは、与えられた問題に対する状態空間のキー構造をキャプチャしながら、可能な限り粗いものにすべきである。 この研究は、シンボリック実行によって環境力学からパーティションを抽出する。 シンボル分割は, 環境行動に関して, 状態空間のカバレッジを向上し, 余分な報酬に対して強化学習がより優れていることを示す。 我々は,学習ポリシーの精度,拡張性,学習エージェントの性能,状態空間のカバレッジに関して,シンボル的状態空間分割を評価する。

Tabular reinforcement learning methods cannot operate directly on continuous state spaces. One solution for this problem is to partition the state space. A good partitioning enables generalization during learning and more efficient exploitation of prior experiences. Consequently, the learning process becomes faster and produces more reliable policies. However, partitioning introduces approximation, which is particularly harmful in the presence of nonlinear relations between state components. An ideal partition should be as coarse as possible, while capturing the key structure of the state space for the given problem. This work extracts partitions from the environment dynamics by symbolic execution. We show that symbolic partitioning improves state space coverage with respect to environmental behavior and allows reinforcement learning to perform better for sparse rewards. We evaluate symbolic state space partitioning with respect to precision, scalability, learning agent performance and state space coverage for the learnt policies.
翻訳日:2024-11-06 17:20:02 公開日:2024-10-03
# マルチプライバティブ・ロジット調整近似によるニューラル・コラプス対応決定境界調整

Multiplicative Logit Adjustment Approximates Neural-Collapse-Aware Decision Boundary Adjustment ( http://arxiv.org/abs/2409.17582v2 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato, (参考訳) 実世界のデータ分布は、しばしば非常に歪んでいる。 これは、訓練分類モデルの不均衡に対処することを目的とした、長い尾の認識に関する研究の活発化に拍車をかけた。 研究手法のうち、乗算ロジット調整(MLA)は単純で効果的な方法である。 このヒューリスティック手法の有効性を説明する理論的基礎は何か。 以下の2段階のプロセスで, MLAの有効性を正当化する。 まず,神経崩壊に基づく特徴の拡散を推定し,最適決定境界を調節する理論を考案する。 次に, MLA がこの最適手法を近似することを示した。 さらに、長い尾を持つデータセットの実験を通して、より現実的な条件下でのMLAの実用的有用性を説明する。 MLAハイパーパラメータのチューニングをガイドするための実験的な洞察も提供する。

Real-world data distributions are often highly skewed. This has spurred a growing body of research on long-tailed recognition, aimed at addressing the imbalance in training classification models. Among the methods studied, multiplicative logit adjustment (MLA) stands out as a simple and effective method. What theoretical foundation explains the effectiveness of this heuristic method? We provide a justification for the effectiveness of MLA with the following two-step process. First, we develop a theory that adjusts optimal decision boundaries by estimating feature spread on the basis of neural collapse. Second, we demonstrate that MLA approximates this optimal method. Additionally, through experiments on long-tailed datasets, we illustrate the practical usefulness of MLA under more realistic conditions. We also offer experimental insights to guide the tuning of MLA hyperparameters.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-03
# 入射画像ストレッチとビュー合成のためのニューラル光球

Neural Light Spheres for Implicit Image Stitching and View Synthesis ( http://arxiv.org/abs/2409.17924v2 )

ライセンス: Link先を確認
Ilya Chugunov, Amogh Joshi, Kiran Murthy, Francois Bleibel, Felix Heide, (参考訳) パノラマは、撮影が難しく、携帯電話の画面に表示することが難しいため、現代のモバイルカメラアプリケーションでは、パノラマは基本的には必須の機能であり、未使用の機能である。 本研究では,これらの課題に,暗黙的なパノラマ画像縫合と再レンダリングのための球状神経電場モデルを用いて対処する。 テスト時間中に、任意の経路のパノラマビデオキャプチャー(垂直、水平、ランダムウォーク)にフィットするこれらのニューラル光球は、カメラパスと高解像度のシーン再構成を共同で推定し、環境の新しい広い視野の投影を生成する。 我々の単層モデルは高価なボリュームサンプリングを回避し、シーンをコンパクトなビュー依存のレイオフセットとカラーコンポーネントに分解し、1シーンあたり80MBのモデルサイズと1080p解像度でのリアルタイム(50FPS)レンダリングを実現した。 従来の画像縫合法や放射場法に比べて再現性は向上し,シーンモーションや非理想的キャプチャ設定に対する耐性は著しく向上した。

Challenging to capture, and challenging to display on a cellphone screen, the panorama paradoxically remains both a staple and underused feature of modern mobile camera applications. In this work we address both of these challenges with a spherical neural light field model for implicit panoramic image stitching and re-rendering; able to accommodate for depth parallax, view-dependent lighting, and local scene motion and color changes during capture. Fit during test-time to an arbitrary path panoramic video capture -- vertical, horizontal, random-walk -- these neural light spheres jointly estimate the camera path and a high-resolution scene reconstruction to produce novel wide field-of-view projections of the environment. Our single-layer model avoids expensive volumetric sampling, and decomposes the scene into compact view-dependent ray offset and color components, with a total model size of 80 MB per scene, and real-time (50 FPS) rendering at 1080p resolution. We demonstrate improved reconstruction quality over traditional image stitching and radiance field methods, with significantly higher tolerance to scene motion and non-ideal capture settings.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-03
# 異なる磁気誘導測定領域における高周波2光子原子磁気センサの性能

Performance of a radio-frequency two-photon atomic magnetometer in different magnetic induction measurement geometries ( http://arxiv.org/abs/2409.17935v2 )

ライセンス: Link先を確認
L. M. Rushton, L. M. Ellis, J. D. Zipfel, P. Bevington, W. Chalupczak, (参考訳) 振動する高周波磁場と興味のある物体との誘導結合をモニタリングする計測は、非破壊試験のための多目的プラットフォームを作り出す。 3kHz以下の超低周波測定の利点は、この周波数域におけるピックアップコイルや他の磁場センサの動作に関する基礎的および技術的困難により、しばしば上回っている。 rf原子磁気センサにおける2光子相互作用に基づくインダクティブ測定は、その動作周波数が上昇するにつれて、これらの問題に対処する。 ここで報告された発展は、2光子過程の基本的および応用的な側面を磁気誘導測定に組み入れている。 本稿では、rf場と原子間の非線形相互作用から、2光子過程の全てのスペクトル成分を同定する。 また、誘導測定に欠かせない2光子位相情報の検索方法も示す。 さらに、センサの一次磁場に対する感度の悪さにより、高コントラスト測定が可能な自己補償構成を導入し、単一のrfコイルで2つのrf磁場を発生させることにより、この構成を簡易化することを含む。

Measurements monitoring the inductive coupling between oscillating radio-frequency magnetic fields and objects of interest create versatile platforms for non-destructive testing. The benefits of ultra low frequency measurements, i.e., below 3 kHz, are sometimes outweighed by the fundamental and technical difficulties related to operating pick-up coils or other field sensors in this frequency range. Inductive measurements with the detection based on a two-photon interaction in rf atomic magnetometers address some of these issues, as the sensor gains an uplift in its operational frequency. The developments reported here integrate the fundamental and applied aspects of the two-photon process in magnetic induction measurements. In this paper, all spectral components of the two-photon process are identified, which result from the non-linear interactions between the rf fields and atoms. A method for the retrieval of the two-photon phase information, which is critical for inductive measurements, is also demonstrated. Furthermore, a self-compensation configuration is introduced, whereby high contrast measurements of defects can be obtained due to the sensor's insensitivity to the primary field, including using simplified instrumentation for this configuration by producing two rf fields with a single rf coil.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-03
# 大規模言語モデルにおけるコード構成の硬さ-確率論的視点

Compositional Hardness of Code in Large Language Models -- A Probabilistic Perspective ( http://arxiv.org/abs/2409.18028v2 )

ライセンス: Link先を確認
Yotam Wolf, Binyamin Rothberg, Dorin Shteyman, Amnon Shashua, (参考訳) コード生成のような複雑な分析タスクにLLM(Big Language Model)を使用する一般的な方法は、モデルのコンテキストウィンドウ内でタスク全体に対するソリューションをサンプリングすることである。 これまでの研究で、モデルのコンテキスト内のサブタスク分解(思考の連鎖)は、そのようなタスクを解決するのに有用であることが示されている。 本研究では,LLMのマルチエージェントシステムにおいて,複数のサブタスクを同じコンテキストウィンドウ内で実行できることの限界,すなわち構成のコンテキスト内硬度を指摘する。 組成の硬さは、生成複雑性計量、すなわち少なくとも1つの正しい解をサンプリングするのに必要なLCM生成数によって定量化される。 構成問題を同じ文脈で解く際の生成複雑性と,解の長さに応じて指数関数的に増加する複数のエージェント間での分配との間には,ギャップが生じる。 我々は理論的に結果を証明し、それらを実証的に実証する。

A common practice in large language model (LLM) usage for complex analytical tasks such as code generation, is to sample a solution for the entire task within the model's context window. Previous works have shown that subtask decomposition within the model's context (chain of thought), is beneficial for solving such tasks. In this work, we point a limitation of LLMs' ability to perform several sub-tasks within the same context window - an in-context hardness of composition, pointing to an advantage for distributing a decomposed problem in a multi-agent system of LLMs. The hardness of composition is quantified by a generation complexity metric, i.e., the number of LLM generations required to sample at least one correct solution. We find a gap between the generation complexity of solving a compositional problem within the same context relative to distributing it among multiple agents, that increases exponentially with the solution's length. We prove our results theoretically and demonstrate them empirically.
翻訳日:2024-11-06 15:51:02 公開日:2024-10-03
# PCEvE:Part Contribution Evaluation based Model Explanation for Human Figure Drawing Assessment and Beyond

PCEvE: Part Contribution Evaluation Based Model Explanation for Human Figure Drawing Assessment and Beyond ( http://arxiv.org/abs/2409.18260v1 )

ライセンス: Link先を確認
Jongseo Lee, Geo Ahn, Jinwoo Choi, Seongtae Kim, (参考訳) HFD画像を用いた自閉症スペクトラム障害(ASD)の診断などの人体自動描画(HFD)評価タスクでは、モデル決定の明確化と説明性が重要である。 既存のピクセルレベルの属性に基づく説明可能なAI(XAI)アプローチでは、画像内の領域の意味情報を解釈するのにかなりの労力を要する。 そこで本研究では,PCEvE(Part Contribution Evaluation based model explanation)フレームワークを提案する。 また,各部品のシェープ値を測定し,モデル決定への寄与を評価する。 既存の属性ベースのXAIアプローチとは異なり、PCEvEはモデル決定の簡単な説明、すなわち部分寄与ヒストグラムを提供する。 さらに、PCEvEは、従来のサンプルレベルを超えて、クラスレベルとタスクレベルの洞察を含む説明の範囲を広げ、よりリッチで包括的なモデル行動の理解を提供する。 複数のHFDアセスメントデータセットに関する広範な実験を通じて,PCEvEを厳格に検証する。 また,提案手法を一組の制御実験で正当性チェックする。 さらに、フォトリアリスティックなデータセットであるStanford Carsに適用することで、我々の手法が他の領域に適用可能であることを実証する。

For automatic human figure drawing (HFD) assessment tasks, such as diagnosing autism spectrum disorder (ASD) using HFD images, the clarity and explainability of a model decision are crucial. Existing pixel-level attribution-based explainable AI (XAI) approaches demand considerable effort from users to interpret the semantic information of a region in an image, which can be often time-consuming and impractical. To overcome this challenge, we propose a part contribution evaluation based model explanation (PCEvE) framework. On top of the part detection, we measure the Shapley Value of each individual part to evaluate the contribution to a model decision. Unlike existing attribution-based XAI approaches, the PCEvE provides a straightforward explanation of a model decision, i.e., a part contribution histogram. Furthermore, the PCEvE expands the scope of explanations beyond the conventional sample-level to include class-level and task-level insights, offering a richer, more comprehensive understanding of model behavior. We rigorously validate the PCEvE via extensive experiments on multiple HFD assessment datasets. Also, we sanity-check the proposed method with a set of controlled experiments. Additionally, we demonstrate the versatility and applicability of our method to other domains by applying it to a photo-realistic dataset, the Stanford Cars.
翻訳日:2024-11-06 15:01:18 公開日:2024-10-03
# PCEvE:Part Contribution Evaluation based Model Explanation for Human Figure Drawing Assessment and Beyond

PCEvE: Part Contribution Evaluation Based Model Explanation for Human Figure Drawing Assessment and Beyond ( http://arxiv.org/abs/2409.18260v2 )

ライセンス: Link先を確認
Jongseo Lee, Geo Ahn, Seong Tae Kim, Jinwoo Choi, (参考訳) HFD画像を用いた自閉症スペクトラム障害(ASD)の診断などの人体自動描画(HFD)評価タスクでは、モデル決定の明確化と説明性が重要である。 既存のピクセルレベルの属性に基づく説明可能なAI(XAI)アプローチでは、画像内の領域の意味情報を解釈するのにかなりの労力を要する。 そこで本研究では,PCEvE(Part Contribution Evaluation based model explanation)フレームワークを提案する。 また,各部品のシェープ値を測定し,モデル決定への寄与を評価する。 既存の属性ベースのXAIアプローチとは異なり、PCEvEはモデル決定の簡単な説明、すなわち部分寄与ヒストグラムを提供する。 さらに、PCEvEは、従来のサンプルレベルを超えて、クラスレベルとタスクレベルの洞察を含む説明の範囲を広げ、よりリッチで包括的なモデル行動の理解を提供する。 複数のHFDアセスメントデータセットに関する広範な実験を通じて,PCEvEを厳格に検証する。 また,提案手法を一組の制御実験で正当性チェックする。 さらに、フォトリアリスティックなデータセットであるStanford Carsに適用することで、我々の手法が他の領域に適用可能であることを実証する。

For automatic human figure drawing (HFD) assessment tasks, such as diagnosing autism spectrum disorder (ASD) using HFD images, the clarity and explainability of a model decision are crucial. Existing pixel-level attribution-based explainable AI (XAI) approaches demand considerable effort from users to interpret the semantic information of a region in an image, which can be often time-consuming and impractical. To overcome this challenge, we propose a part contribution evaluation based model explanation (PCEvE) framework. On top of the part detection, we measure the Shapley Value of each individual part to evaluate the contribution to a model decision. Unlike existing attribution-based XAI approaches, the PCEvE provides a straightforward explanation of a model decision, i.e., a part contribution histogram. Furthermore, the PCEvE expands the scope of explanations beyond the conventional sample-level to include class-level and task-level insights, offering a richer, more comprehensive understanding of model behavior. We rigorously validate the PCEvE via extensive experiments on multiple HFD assessment datasets. Also, we sanity-check the proposed method with a set of controlled experiments. Additionally, we demonstrate the versatility and applicability of our method to other domains by applying it to a photo-realistic dataset, the Stanford Cars.
翻訳日:2024-11-06 14:51:14 公開日:2024-10-03
# WHOMP: ワッサースタイン均一性によるランダム化制御試験の最適化

WHOMP: Optimizing Randomized Controlled Trials via Wasserstein Homogeneity ( http://arxiv.org/abs/2409.18504v1 )

ライセンス: Link先を確認
Shizhou Xu, Thomas Strohmer, (参考訳) データセットを各サブグループ内の多様性を最大化するサブグループに分割する手法について検討する。 比較および制御試験において,不均衡なグループ分割や分割によって生じるI型とII型のエラーを最適に最小化する,$\textit{Wasserstein Homogeneity Partition}$ (WHOMP)と呼ばれる新しい分割法を導入する。 WHOMPを,ランダムサブサンプリング,共変量適応型ランダム化,再ランダム化,アンチクラスタリングといった既存の分割法と比較し,その利点を実証する。 さらに、WHOMP問題に対する最適解を特徴付けるとともに、サブグループ平均の安定性とこれらの解間のばらつきの間に固有のトレードオフを明らかにする。 理論的知見に基づいて、これらの最適解を得るだけでなく、望ましいトレードオフを選択するためのツールを実践者に提供するアルゴリズムを設計する。 最後に,WHOMPの有効性を数値実験により検証し,従来の手法よりも優れていることを示す。

We investigate methods for partitioning datasets into subgroups that maximize diversity within each subgroup while minimizing dissimilarity across subgroups. We introduce a novel partitioning method called the $\textit{Wasserstein Homogeneity Partition}$ (WHOMP), which optimally minimizes type I and type II errors that often result from imbalanced group splitting or partitioning, commonly referred to as accidental bias, in comparative and controlled trials. We conduct an analytical comparison of WHOMP against existing partitioning methods, such as random subsampling, covariate-adaptive randomization, rerandomization, and anti-clustering, demonstrating its advantages. Moreover, we characterize the optimal solutions to the WHOMP problem and reveal an inherent trade-off between the stability of subgroup means and variances among these solutions. Based on our theoretical insights, we design algorithms that not only obtain these optimal solutions but also equip practitioners with tools to select the desired trade-off. Finally, we validate the effectiveness of WHOMP through numerical experiments, highlighting its superiority over traditional methods.
翻訳日:2024-11-06 05:52:22 公開日:2024-10-03
# WHOMP: ワッサースタイン均一性によるランダム化制御試験の最適化

WHOMP: Optimizing Randomized Controlled Trials via Wasserstein Homogeneity ( http://arxiv.org/abs/2409.18504v2 )

ライセンス: Link先を確認
Shizhou Xu, Thomas Strohmer, (参考訳) データセットを各サブグループ内の多様性を最大化するサブグループに分割する手法について検討する。 比較および制御試験において,不均衡なグループ分割や分割によって生じるI型とII型のエラーを最適に最小化する,$\textit{Wasserstein Homogeneity Partition}$ (WHOMP)と呼ばれる新しい分割法を導入する。 WHOMPを,ランダムサブサンプリング,共変量適応型ランダム化,再ランダム化,アンチクラスタリングといった既存の分割法と比較し,その利点を実証する。 さらに、WHOMP問題に対する最適解を特徴付けるとともに、サブグループ平均の安定性とこれらの解間のばらつきの間に固有のトレードオフを明らかにする。 理論的知見に基づいて、これらの最適解を得るだけでなく、望ましいトレードオフを選択するためのツールを実践者に提供するアルゴリズムを設計する。 最後に,WHOMPの有効性を数値実験により検証し,従来の手法よりも優れていることを示す。

We investigate methods for partitioning datasets into subgroups that maximize diversity within each subgroup while minimizing dissimilarity across subgroups. We introduce a novel partitioning method called the $\textit{Wasserstein Homogeneity Partition}$ (WHOMP), which optimally minimizes type I and type II errors that often result from imbalanced group splitting or partitioning, commonly referred to as accidental bias, in comparative and controlled trials. We conduct an analytical comparison of WHOMP against existing partitioning methods, such as random subsampling, covariate-adaptive randomization, rerandomization, and anti-clustering, demonstrating its advantages. Moreover, we characterize the optimal solutions to the WHOMP problem and reveal an inherent trade-off between the stability of subgroup means and variances among these solutions. Based on our theoretical insights, we design algorithms that not only obtain these optimal solutions but also equip practitioners with tools to select the desired trade-off. Finally, we validate the effectiveness of WHOMP through numerical experiments, highlighting its superiority over traditional methods.
翻訳日:2024-11-06 05:52:22 公開日:2024-10-03
# ドメイン特化埋め込みモデルが必要か? : 実証的研究

Do We Need Domain-Specific Embedding Models? An Empirical Investigation ( http://arxiv.org/abs/2409.18511v1 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, (参考訳) 埋め込みモデルは、様々なNLPアプリケーションにまたがる情報の表現と検索において重要な役割を果たす。 大規模言語モデル(LLM)の最近の進歩は、ほとんどすべてのドメインをカバーする大量のテキストに基づいて訓練された埋め込みモデルの性能をさらに向上させた。 これらのモデルはしばしば、より優れたパフォーマンスを示すMTEB(Massive Text Embedding Benchmark)のような汎用データセットでベンチマークされる。 汎用モデルがすでに特殊なドメインテキストを含む巨大なコーパスでトレーニングされている場合、ドメイン固有の埋め込みモデルの開発は必要か? 本稿では,金融分野を事例として,この課題を実証的に検討する。 金融ドメイン固有のテキストデータセットからなるMTEBに対抗して、ファイナンス質量テキスト埋め込みベンチマーク(FinMTEB)を導入する。 我々は、FinMTEB上での7つの最先端埋め込みモデルの性能評価を行い、MTEB上でのパフォーマンスと比較して顕著な性能低下を観測した。 この低下がFinMTEBの複雑さの増大によって引き起こされる可能性を考慮するため、本分析では、データセットの複雑さを定量化し、この要因の制御を行うための4つの方法を提案する。 我々の分析は、大規模な汎用コーパスで訓練しても、最先端の埋め込みモデルがドメイン固有の言語的・意味的なパターンを捉えるのに苦労していることを示す。 この研究は、LLM時代にドメイン固有の埋め込みモデルを開発する必要性に光を当て、研究者や実践者に貴重な洞察を提供する。

Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advancements in Large Language Models (LLMs) have further enhanced the performance of embedding models, which are trained on massive amounts of text covering almost every domain. These models are often benchmarked on general-purpose datasets like Massive Text Embedding Benchmark (MTEB), where they demonstrate superior performance. However, a critical question arises: Is the development of domain-specific embedding models necessary when general-purpose models are trained on vast corpora that already include specialized domain texts? In this paper, we empirically investigate this question, choosing the finance domain as an example. We introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a counterpart to MTEB that consists of financial domain-specific text datasets. We evaluate the performance of seven state-of-the-art embedding models on FinMTEB and observe a significant performance drop compared to their performance on MTEB. To account for the possibility that this drop is driven by FinMTEB's higher complexity, we propose four measures to quantify dataset complexity and control for this factor in our analysis. Our analysis provides compelling evidence that state-of-the-art embedding models struggle to capture domain-specific linguistic and semantic patterns, even when trained on large general-purpose corpora. This study sheds light on the necessity of developing domain-specific embedding models in the LLM era, offering valuable insights for researchers and practitioners.
翻訳日:2024-11-06 05:52:22 公開日:2024-10-03
# ドメイン特化埋め込みモデルが必要か? : 実証的研究

Do We Need Domain-Specific Embedding Models? An Empirical Investigation ( http://arxiv.org/abs/2409.18511v2 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, (参考訳) 埋め込みモデルは、様々なNLPアプリケーションにまたがる情報の表現と検索において重要な役割を果たす。 大規模言語モデル(LLM)の最近の進歩は、ほとんどすべてのドメインをカバーする大量のテキストに基づいて訓練された埋め込みモデルの性能をさらに向上させた。 これらのモデルはしばしば、より優れたパフォーマンスを示すMTEB(Massive Text Embedding Benchmark)のような汎用データセットでベンチマークされる。 汎用モデルがすでに特殊なドメインテキストを含む巨大なコーパスでトレーニングされている場合、ドメイン固有の埋め込みモデルの開発は必要か? 本稿では,金融分野を事例として,この課題を実証的に検討する。 金融ドメイン固有のテキストデータセットからなるMTEBに対抗して、ファイナンス質量テキスト埋め込みベンチマーク(FinMTEB)を導入する。 我々は、FinMTEB上での7つの最先端埋め込みモデルの性能評価を行い、MTEB上でのパフォーマンスと比較して顕著な性能低下を観測した。 この低下がFinMTEBの複雑さの増大によって引き起こされる可能性を考慮するため、本分析では、データセットの複雑さを定量化し、この要因の制御を行うための4つの方法を提案する。 我々の分析は、最先端の埋め込みモデルがドメイン固有の言語的および意味的なパターンを捉えるのに苦労しているという説得力のある証拠を提供する。 さらに、MTEB上の汎用埋め込みモデルの性能はFinMTEBの性能と相関せず、ドメイン固有の埋め込みモデルに対するドメイン固有の埋め込みベンチマークの必要性が示唆されている。 この研究は、LLM時代のドメイン固有の埋め込みモデルの開発に光を当てている。

Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advancements in Large Language Models (LLMs) have further enhanced the performance of embedding models, which are trained on massive amounts of text covering almost every domain. These models are often benchmarked on general-purpose datasets like Massive Text Embedding Benchmark (MTEB), where they demonstrate superior performance. However, a critical question arises: Is the development of domain-specific embedding models necessary when general-purpose models are trained on vast corpora that already include specialized domain texts? In this paper, we empirically investigate this question, choosing the finance domain as an example. We introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a counterpart to MTEB that consists of financial domain-specific text datasets. We evaluate the performance of seven state-of-the-art embedding models on FinMTEB and observe a significant performance drop compared to their performance on MTEB. To account for the possibility that this drop is driven by FinMTEB's higher complexity, we propose four measures to quantify dataset complexity and control for this factor in our analysis. Our analysis provides compelling evidence that state-of-the-art embedding models struggle to capture domain-specific linguistic and semantic patterns. Moreover, we find that the performance of general-purpose embedding models on MTEB is not correlated with their performance on FinMTEB, indicating the need for domain-specific embedding benchmarks for domain-specific embedding models. This study sheds light on developing domain-specific embedding models in the LLM era.
翻訳日:2024-11-06 05:52:22 公開日:2024-10-03
# ドメイン特化埋め込みモデルが必要か? : 実証的研究

Do We Need Domain-Specific Embedding Models? An Empirical Investigation ( http://arxiv.org/abs/2409.18511v3 )

ライセンス: Link先を確認
Yixuan Tang, Yi Yang, (参考訳) 埋め込みモデルは、様々なNLPアプリケーションにまたがる情報の表現と検索において重要な役割を果たす。 大規模言語モデル(LLM)の最近の進歩は、ほとんどすべてのドメインをカバーする大量のテキストに基づいて訓練された埋め込みモデルの性能をさらに向上させた。 これらのモデルはしばしば、より優れたパフォーマンスを示すMTEB(Massive Text Embedding Benchmark)のような汎用データセットでベンチマークされる。 汎用モデルがすでに特殊なドメインテキストを含む巨大なコーパスでトレーニングされている場合、ドメイン固有の埋め込みモデルの開発は必要か? 本稿では,金融分野を事例として,この課題を実証的に検討する。 金融ドメイン固有のテキストデータセットからなるMTEBに対抗して、ファイナンス質量テキスト埋め込みベンチマーク(FinMTEB)を導入する。 我々は、FinMTEB上での7つの最先端埋め込みモデルの性能評価を行い、MTEB上でのパフォーマンスと比較して顕著な性能低下を観測した。 この低下がFinMTEBの複雑さの増大によって引き起こされる可能性を考慮するため、本分析では、データセットの複雑さを定量化し、この要因の制御を行うための4つの方法を提案する。 我々の分析は、最先端の埋め込みモデルがドメイン固有の言語的および意味的なパターンを捉えるのに苦労しているという説得力のある証拠を提供する。 さらに、MTEB上の汎用埋め込みモデルの性能はFinMTEBの性能と相関せず、ドメイン固有の埋め込みモデルに対するドメイン固有の埋め込みベンチマークの必要性が示唆されている。 この研究は、LLM時代のドメイン固有の埋め込みモデルの開発に光を当てている。 FinMTEBはhttps://github.com/yixuantt/FinMTEBでオープンソースコードを提供する

Embedding models play a crucial role in representing and retrieving information across various NLP applications. Recent advancements in Large Language Models (LLMs) have further enhanced the performance of embedding models, which are trained on massive amounts of text covering almost every domain. These models are often benchmarked on general-purpose datasets like Massive Text Embedding Benchmark (MTEB), where they demonstrate superior performance. However, a critical question arises: Is the development of domain-specific embedding models necessary when general-purpose models are trained on vast corpora that already include specialized domain texts? In this paper, we empirically investigate this question, choosing the finance domain as an example. We introduce the Finance Massive Text Embedding Benchmark (FinMTEB), a counterpart to MTEB that consists of financial domain-specific text datasets. We evaluate the performance of seven state-of-the-art embedding models on FinMTEB and observe a significant performance drop compared to their performance on MTEB. To account for the possibility that this drop is driven by FinMTEB's higher complexity, we propose four measures to quantify dataset complexity and control for this factor in our analysis. Our analysis provides compelling evidence that state-of-the-art embedding models struggle to capture domain-specific linguistic and semantic patterns. Moreover, we find that the performance of general-purpose embedding models on MTEB is not correlated with their performance on FinMTEB, indicating the need for domain-specific embedding benchmarks for domain-specific embedding models. This study sheds light on developing domain-specific embedding models in the LLM era. FinMTEB comes with open-source code at https://github.com/yixuantt/FinMTEB
翻訳日:2024-11-06 05:52:22 公開日:2024-10-03
# プレトレーニング言語モデルを用いたマルチラベル分類を用いた安全ネット精神科病院における自殺診断

Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models ( http://arxiv.org/abs/2409.18878v2 )

ライセンス: Link先を確認
Zehan Li, Yan Hu, Scott Lane, Salih Selek, Lokesh Shahani, Rodrigo Machado-Vieira, Jair Soares, Hua Xu, Hongfang Liu, Ming Huang, (参考訳) 自殺事件の正確な特定と分類は、自殺予防の改善、手術負担の軽減、高明度精神医学的設定におけるケア品質の向上をもたらす。 事前訓練された言語モデルは、非構造的な臨床物語から自殺を識別する約束を提供する。 我々は,500の注釈付き精神評価ノートから自殺行為を検知するための2つの微調整戦略(複数ラベルと単一ラベル)を用いて,BERTに基づく4つのモデルの性能評価を行った。 メモには自殺観念(SI)、自殺未遂(SA)、自殺(ES)、自殺自傷(NSSI)が記載された。 RoBERTaは、複数のシングルラベル分類戦略(acc=0.86, F1=0.78)を使用して、他のモデルよりも優れていた。 MentalBERT (acc=0.83, F1=0.74)もBioClinicalBERT (acc=0.82, F1=0.72)を上回っ、BERT (acc=0.80, F1=0.70)を上回った。 単一マルチラベル分類で微調整されたRoBERTaはモデル性能をさらに改善した(acc=0.88, F1=0.81)。 その結果, モデル最適化, ドメイン関連データによる事前学習, 単一マルチラベル分類戦略により, 自殺表現のモデル性能が向上することが示唆された。 キーワード:EHRに基づくフェノタイピング、自然言語処理、EHRデータの二次的利用、自殺分類、BERTに基づくモデル、精神医学、メンタルヘルス

Accurate identification and categorization of suicidal events can yield better suicide precautions, reducing operational burden, and improving care quality in high-acuity psychiatric settings. Pre-trained language models offer promise for identifying suicidality from unstructured clinical narratives. We evaluated the performance of four BERT-based models using two fine-tuning strategies (multiple single-label and single multi-label) for detecting coexisting suicidal events from 500 annotated psychiatric evaluation notes. The notes were labeled for suicidal ideation (SI), suicide attempts (SA), exposure to suicide (ES), and non-suicidal self-injury (NSSI). RoBERTa outperformed other models using multiple single-label classification strategy (acc=0.86, F1=0.78). MentalBERT (acc=0.83, F1=0.74) also exceeded BioClinicalBERT (acc=0.82, F1=0.72) which outperformed BERT (acc=0.80, F1=0.70). RoBERTa fine-tuned with single multi-label classification further improved the model performance (acc=0.88, F1=0.81). The findings highlight that the model optimization, pretraining with domain-relevant data, and the single multi-label classification strategy enhance the model performance of suicide phenotyping. Keywords: EHR-based Phenotyping; Natural Language Processing; Secondary Use of EHR Data; Suicide Classification; BERT-based Model; Psychiatry; Mental Health
翻訳日:2024-11-06 05:32:49 公開日:2024-10-03
# ガウス雑音下における最小二乗・直交射影・QR分解アルゴリズムの確率論的解析

Probabilistic Analysis of Least Squares, Orthogonal Projection, and QR Factorization Algorithms Subject to Gaussian Noise ( http://arxiv.org/abs/2409.18905v2 )

ライセンス: Link先を確認
Ali Lotfi, Julien Langou, Mohammad Meysami, (参考訳) 本稿では、列が加わったとき([Q, c])に正則行列 Q の条件数がどのように変化するかを解析する Liesen et al (2002) の研究を拡張し、特に C の垂直度を Q のスパンに焦点をあてて、その結果を Liesen et al (2002) の Theorem 2.3 に示した。 本研究は, 行列 B が完全直交ではない場合でも, 完全直交性を前提とせず, 行列 B の条件数増加に関する境界を導出することにより, このギャップを解消するものである。 また、ガウス雑音下での直交射影と最小四角形の性能についての結果も提示し、この理論の発展を後押しする。

In this paper, we extend the work of Liesen et al. (2002), which analyzes how the condition number of an orthonormal matrix Q changes when a column is added ([Q, c]), particularly focusing on the perpendicularity of c to the span of Q. Their result, presented in Theorem 2.3 of Liesen et al. (2002), assumes exact arithmetic and orthonormality of Q, which is a strong assumption when applying these results to numerical methods such as QR factorization algorithms. In our work, we address this gap by deriving bounds on the condition number increase for a matrix B without assuming perfect orthonormality, even when a column is not perfectly orthogonal to the span of B. This framework allows us to analyze QR factorization methods where orthogonalization is imperfect and subject to Gaussian noise. We also provide results on the performance of orthogonal projection and least squares under Gaussian noise, further supporting the development of this theory.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-03
# LML-DAP:データ拡張予測のためのデータセットを学習する言語モデル

LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction ( http://arxiv.org/abs/2409.18957v2 )

ライセンス: Link先を確認
Praneeth Vadlapati, (参考訳) 分類タスクは一般的に機械学習(ML)モデルで処理されるが、精度と解釈可能性のバランスが欠如している。 本稿では,Large Language Models (LLMs) を解説可能な方法で分類する手法を提案する。 データクリーニングと機能エンジニアリングに大きく依存するMLモデルとは異なり、この方法はLLMを使用してプロセスを合理化する。 本稿では,データ拡張予測 (Data-Augmented Prediction, DAP) と呼ばれる新しい手法を用いて,Language Model Learning (LML) と呼ばれる新しい概念を提案する。 この分類は、人間が手動でデータを調べ、理解し、参照としてデータを用いて分類を決定する手法を用いて、LLMによって行われる。 LMLプロセスでは、データセットを要約して評価し、各ラベルの分類に最も寄与する特徴を決定する。 DAPのプロセスでは、テストデータセットのデータサマリーと行を使用して、データセットから関連する行を取得するために使用されるクエリを自動的に生成する。 データ要約と関連する行を用いてLCMによって分類が生成され、コンテキスト認識決定を用いた複雑なデータであっても良好な精度が確保される。 LMLとDAPは、新しいアプリケーションの可能性を解き放ちます。 提案手法は,予測の解釈可能性を高めるために,ユーザが各予測の背後にあるロジックをレビューできるようにすることで,「説明可能な機械学習モデルとしてのAct」という単語を使用する。 いくつかのテストケースでは、システムは90%以上の精度を記録し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを上回る性能を証明した。 コードはhttps://github.com/Pro-GenAI/LML-DAPで公開されている。

Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks in an explainable way. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)". The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. In the LML process, a dataset is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary and a row of the testing dataset to automatically generate a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data using context-aware decision-making. LML and DAP unlock the possibilities of new applications. The proposed method uses the words "Act as an Explainable Machine Learning Model" in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP
翻訳日:2024-11-06 05:22:52 公開日:2024-10-03
# 拡散モデルを用いた条件付き画像合成:サーベイ

Conditional Image Synthesis with Diffusion Models: A Survey ( http://arxiv.org/abs/2409.19365v1 )

ライセンス: Link先を確認
Zheyuan Zhan, Defang Chen, Jian-Ping Mei, Zhenghe Zhao, Jiawei Chen, Chun Chen, Siwei Lyu, Can Wang, (参考訳) ユーザ指定要求に基づく条件付き画像合成は、複雑な視覚コンテンツを作成する上で重要な要素である。 近年、拡散に基づく生成モデリングは条件付き画像合成の非常に効果的な方法となり、文献の指数的成長につながっている。 しかし、拡散に基づくモデリングの複雑さ、幅広い画像合成タスク、条件付け機構の多様性は、研究者が急速な発展に追随し、この話題の核となる概念を理解する上で重要な課題である。 本研究では,拡散モデルの基礎となる2つの要素,すなわちデノナイジングネットワークとサンプリングプロセスに条件がどのように組み込まれているかに基づいて,既存の研究を分類する。 所望の認知ネットワークを構築するためのトレーニング、再調達、特殊化の段階において、様々な条件付けアプローチの根底にある原則、利点、潜在的な課題を特に強調する。 また,本質的なサンプリングプロセスにおいて,6つの主要な条件付け機構を要約した。 すべての議論はポピュラーなアプリケーションを中心に行われます。 最後に、将来解決すべきいくつかの重要な、そしてまだ未解決の問題を指摘し、いくつかの可能な解決策を提案する。 レビューされた作品はhttps://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.comで項目化されています。

Conditional image synthesis based on user-specified requirements is a key component in creating complex visual content. In recent years, diffusion-based generative modeling has become a highly effective way for conditional image synthesis, leading to exponential growth in the literature. However, the complexity of diffusion-based modeling, the wide range of image synthesis tasks, and the diversity of conditioning mechanisms present significant challenges for researchers to keep up with rapid developments and understand the core concepts on this topic. In this survey, we categorize existing works based on how conditions are integrated into the two fundamental components of diffusion-based modeling, i.e., the denoising network and the sampling process. We specifically highlight the underlying principles, advantages, and potential challenges of various conditioning approaches in the training, re-purposing, and specialization stages to construct a desired denoising network. We also summarize six mainstream conditioning mechanisms in the essential sampling process. All discussions are centered around popular applications. Finally, we pinpoint some critical yet still open problems to be solved in the future and suggest some possible solutions. Our reviewed works are itemized at https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-03
# 拡散モデルを用いた条件付き画像合成:サーベイ

Conditional Image Synthesis with Diffusion Models: A Survey ( http://arxiv.org/abs/2409.19365v2 )

ライセンス: Link先を確認
Zheyuan Zhan, Defang Chen, Jian-Ping Mei, Zhenghe Zhao, Jiawei Chen, Chun Chen, Siwei Lyu, Can Wang, (参考訳) ユーザ指定要求に基づく条件付き画像合成は、複雑な視覚コンテンツを作成する上で重要な要素である。 近年、拡散に基づく生成モデリングは条件付き画像合成の非常に効果的な方法となり、文献の指数的成長につながっている。 しかし、拡散に基づくモデリングの複雑さ、幅広い画像合成タスク、条件付け機構の多様性は、研究者が急速な発展に追随し、この話題の核となる概念を理解する上で重要な課題である。 本研究では,拡散モデルの基礎となる2つの要素,すなわちデノナイジングネットワークとサンプリングプロセスに条件がどのように組み込まれているかに基づいて,既存の研究を分類する。 所望の認知ネットワークを構築するためのトレーニング、再調達、特殊化の段階において、様々な条件付けアプローチの根底にある原則、利点、潜在的な課題を特に強調する。 また,本質的なサンプリングプロセスにおいて,6つの主要な条件付け機構を要約した。 すべての議論はポピュラーなアプリケーションを中心に行われます。 最後に、将来解決すべきいくつかの重要な、そしてまだ未解決の問題を指摘し、いくつかの可能な解決策を提案する。 レビューされた作品はhttps://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.comで項目化されています。

Conditional image synthesis based on user-specified requirements is a key component in creating complex visual content. In recent years, diffusion-based generative modeling has become a highly effective way for conditional image synthesis, leading to exponential growth in the literature. However, the complexity of diffusion-based modeling, the wide range of image synthesis tasks, and the diversity of conditioning mechanisms present significant challenges for researchers to keep up with rapid developments and understand the core concepts on this topic. In this survey, we categorize existing works based on how conditions are integrated into the two fundamental components of diffusion-based modeling, i.e., the denoising network and the sampling process. We specifically highlight the underlying principles, advantages, and potential challenges of various conditioning approaches in the training, re-purposing, and specialization stages to construct a desired denoising network. We also summarize six mainstream conditioning mechanisms in the essential sampling process. All discussions are centered around popular applications. Finally, we pinpoint some critical yet still open problems to be solved in the future and suggest some possible solutions. Our reviewed works are itemized at https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models.
翻訳日:2024-11-05 23:48:39 公開日:2024-10-03
# ダイナミックポリシーフュージョンによるパーソナライズ

Personalisation via Dynamic Policy Fusion ( http://arxiv.org/abs/2409.20016v2 )

ライセンス: Link先を確認
Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana, (参考訳) タスク報酬の観点からは最適ではあるが、深い強化学習(RL)ポリシーは、人間の個人の好みと一致しないかもしれない。 このアライメントを確実にするためには、ユーザの特定の好みをエンコードする報酬関数を使用してエージェントを再訓練する直感的な解決策がある。 しかし、そのような報酬関数は一般に簡単には利用できないため、スクラッチからエージェントを再訓練することは違法にコストがかかる。 我々は、より実践的なアプローチを提案し、人間のフィードバックの助けを借りて、すでに訓練済みのポリシーをユーザ固有のニーズに適応させる。 この目的のために,軌道レベルのフィードバックを通じてユーザの意図を推測し,理論的に基礎付けられた動的ポリシー融合アプローチによって訓練されたタスクポリシーと組み合わせる。 提案手法では,タスクポリシの学習に使用するのと全く同じ軌道上で,人間のフィードバックを収集するので,環境との追加的なインタラクションは必要とせず,ゼロショットアプローチとなる。 提案する動的ポリシー融合アプローチが,ユーザ固有のニーズを同時に順守しながら,意図したタスクを一貫して達成していることを実証的に実証する。

Deep reinforcement learning (RL) policies, although optimal in terms of task rewards, may not align with the personal preferences of human users. To ensure this alignment, a naive solution would be to retrain the agent using a reward function that encodes the user's specific preferences. However, such a reward function is typically not readily available, and as such, retraining the agent from scratch can be prohibitively expensive. We propose a more practical approach - to adapt the already trained policy to user-specific needs with the help of human feedback. To this end, we infer the user's intent through trajectory-level feedback and combine it with the trained task policy via a theoretically grounded dynamic policy fusion approach. As our approach collects human feedback on the very same trajectories used to learn the task policy, it does not require any additional interactions with the environment, making it a zero-shot approach. We empirically demonstrate in a number of environments that our proposed dynamic policy fusion approach consistently achieves the intended task while simultaneously adhering to user-specific needs.
翻訳日:2024-11-05 16:08:18 公開日:2024-10-03
# 縦隔網膜OCTにおける平行超平面による予測疾患の進展

Forecasting Disease Progression with Parallel Hyperplanes in Longitudinal Retinal OCT ( http://arxiv.org/abs/2409.20195v2 )

ライセンス: Link先を確認
Arunava Chakravarty, Taha Emre, Dmitrii Lachinov, Antoine Rivail, Hendrik Scholl, Lars Fritsche, Sobha Sivaprasad, Daniel Rueckert, Andrew Lotery, Ursula Schmidt-Erfurth, Hrvoje Bogunović, (参考訳) 医用画像から将来の疾患進行リスクを予測することは、患者の異質性、微妙または未知の画像バイオマーカーにより困難である。 さらに、生存分析のためのディープラーニング(DL)手法は、スキャナー間の画像領域シフトの影響を受けやすい。 我々は、網膜CTスキャンによる乾燥後期黄斑変性(dAMD)の発症を予測するための課題として、これらの課題に取り組む。 本稿では,現在スキャンされているリスクスコアから,時間と変換の逆関係と,時間間隔$t$での変換確率を共同で予測する新たなDL手法を提案する。 これは、バイアス項を$t$の関数としてパラメータ化することによって生成される平行超平面の族を用いる。 さらに,オブジェクト内画像ペアによる教師なしの損失を発生させ,リスクスコアが時間とともに増加し,将来的なコンバージョン予測がAMDステージ予測と一致していることを確認する。 このような損失は、異なるスキャナーで取得した新しいラベル付きデータセット上で、トレーニングされたモデルのデータ効率の細かい調整を可能にする。 異なるスキャナーで得られた2つの大きなデータセットの大規模な評価の結果、平均AUROCはDataset-1で0.82、Dataset-2で0.83、予測間隔は6,12,24ヶ月となった。

Predicting future disease progression risk from medical images is challenging due to patient heterogeneity, and subtle or unknown imaging biomarkers. Moreover, deep learning (DL) methods for survival analysis are susceptible to image domain shifts across scanners. We tackle these issues in the task of predicting late dry Age-related Macular Degeneration (dAMD) onset from retinal OCT scans. We propose a novel DL method for survival prediction to jointly predict from the current scan a risk score, inversely related to time-to-conversion, and the probability of conversion within a time interval $t$. It uses a family of parallel hyperplanes generated by parameterizing the bias term as a function of $t$. In addition, we develop unsupervised losses based on intra-subject image pairs to ensure that risk scores increase over time and that future conversion predictions are consistent with AMD stage prediction using actual scans of future visits. Such losses enable data-efficient fine-tuning of the trained model on new unlabeled datasets acquired with a different scanner. Extensive evaluation on two large datasets acquired with different scanners resulted in a mean AUROCs of 0.82 for Dataset-1 and 0.83 for Dataset-2, across prediction intervals of 6,12 and 24 months.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-03
# 音楽のジェネレーションに必要なメロディー

Melody Is All You Need For Music Generation ( http://arxiv.org/abs/2409.20196v2 )

ライセンス: Link先を確認
Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou, (参考訳) 我々は,メロディによる楽曲生成を誘導する最初の新しいアプローチであるメロディガイド音楽生成(MMGen)モデルを提案する。 具体的には、まずメロディを、マルチモーダルアライメントモジュールを用いて、音声波形とその関連する記述と整列する。 その後、学習したメロディ表現に拡散モジュールを条件づける。 これによりMMGenは提供された音声のスタイルに合わせて音楽を生成すると同時に、与えられたテキスト記述の内容を反映した音楽を生成することができる。 高品質なデータの不足に対処するため、メロディ、テキスト、オーディオを含むマルチモーダルデータセットであるMusicSetを構築し、公開します。 本研究では,実験指標と実性能の両面において,提案モデルの優位性を実証する広範囲な実験を行う。

We present the Melody Guided Music Generation (MMGen) model, the first novel approach using melody to guide the music generation that, despite a pretty simple method and extremely limited resources, achieves excellent performance. Specifically, we first align the melody with audio waveforms and their associated descriptions using the multimodal alignment module. Subsequently, we condition the diffusion module on the learned melody representations. This allows MMGen to generate music that matches the style of the provided audio while also producing music that reflects the content of the given text description. To address the scarcity of high-quality data, we construct a multi-modal dataset, MusicSet, which includes melody, text, and audio, and will be made publicly available. We conduct extensive experiments which demonstrate the superiority of the proposed model both in terms of experimental metrics and actual performance quality.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-03
# 意味保存データ拡張による脆弱性検出のための事前学習言語モデルの強化

Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation ( http://arxiv.org/abs/2410.00249v1 )

ライセンス: Link先を確認
Weiliang Qi, Jiahao Cao, Darsh Poddar, Sophia Li, Xinda Wang, (参考訳) 先進的なネットワークシステムの急速な開発と普及により、ソフトウェア脆弱性はセキュアな通信とネットワークに重大な脅威をもたらす。 学習に基づく脆弱性検出システム、特に事前訓練された言語モデルを活用するシステムは、通信ネットワークの脆弱性を迅速に特定し、エクスプロイトのリスクを低減する上で大きな可能性を示している。 しかし、正確なラベル付き脆弱性データセットの不足は、この分野のさらなる進歩を妨げる。 現実世界の脆弱性データの多様性を表現できず、脆弱性セマンティクスを保存できないため、既存の拡張アプローチは、モデルトレーニングに限定的あるいは反生産的な貢献を提供する。 本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。 脆弱性データセットから,本手法は自然意味保存プログラム変換を行い,豊富なデータ多様性と多様性を持つ新しいサンプルを大量に生成する。 一連の代表的なコード事前トレーニングモデル(CodeBERT、GraphCodeBERT、UnixCoder、PDBERT)の微調整に当社のデータセットを組み込むことで、脆弱性検出タスクでは10.1%の精度向上と23.6%のF1増加が達成できる。 比較の結果,提案手法は,他の顕著な脆弱性拡大手法よりも大幅に優れていることが示された。

With the rapid development and widespread use of advanced network systems, software vulnerabilities pose a significant threat to secure communications and networking. Learning-based vulnerability detection systems, particularly those leveraging pre-trained language models, have demonstrated significant potential in promptly identifying vulnerabilities in communication networks and reducing the risk of exploitation. However, the shortage of accurately labeled vulnerability datasets hinders further progress in this field. Failing to represent real-world vulnerability data variety and preserve vulnerability semantics, existing augmentation approaches provide limited or even counterproductive contributions to model training. In this paper, we propose a data augmentation technique aimed at enhancing the performance of pre-trained language models for vulnerability detection. Given the vulnerability dataset, our method performs natural semantic-preserving program transformation to generate a large volume of new samples with enriched data diversity and variety. By incorporating our augmented dataset in fine-tuning a series of representative code pre-trained models (i.e., CodeBERT, GraphCodeBERT, UnixCoder, and PDBERT), up to 10.1% increase in accuracy and 23.6% increase in F1 can be achieved in the vulnerability detection task. Comparison results also show that our proposed method can substantially outperform other prominent vulnerability augmentation approaches.
翻訳日:2024-11-05 06:46:17 公開日:2024-10-03
# 意味保存データ拡張による脆弱性検出のための事前学習言語モデルの強化

Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation ( http://arxiv.org/abs/2410.00249v2 )

ライセンス: Link先を確認
Weiliang Qi, Jiahao Cao, Darsh Poddar, Sophia Li, Xinda Wang, (参考訳) 先進的なネットワークシステムの急速な開発と普及により、ソフトウェア脆弱性はセキュアな通信とネットワークに重大な脅威をもたらす。 学習に基づく脆弱性検出システム、特に事前訓練された言語モデルを活用するシステムは、通信ネットワークの脆弱性を迅速に特定し、エクスプロイトのリスクを低減する上で大きな可能性を示している。 しかし、正確なラベル付き脆弱性データセットの不足は、この分野のさらなる進歩を妨げる。 現実世界の脆弱性データの多様性を表現できず、脆弱性セマンティクスを保存できないため、既存の拡張アプローチは、モデルトレーニングに限定的あるいは反生産的な貢献を提供する。 本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。 脆弱性データセットから,本手法は自然意味保存プログラム変換を行い,豊富なデータ多様性と多様性を持つ新しいサンプルを大量に生成する。 一連の代表的なコード事前トレーニングモデル(CodeBERT、GraphCodeBERT、UnixCoder、PDBERT)の微調整に当社のデータセットを組み込むことで、脆弱性検出タスクでは10.1%の精度向上と23.6%のF1増加が達成できる。 比較の結果,提案手法は,他の顕著な脆弱性拡大手法よりも大幅に優れていることが示された。

With the rapid development and widespread use of advanced network systems, software vulnerabilities pose a significant threat to secure communications and networking. Learning-based vulnerability detection systems, particularly those leveraging pre-trained language models, have demonstrated significant potential in promptly identifying vulnerabilities in communication networks and reducing the risk of exploitation. However, the shortage of accurately labeled vulnerability datasets hinders further progress in this field. Failing to represent real-world vulnerability data variety and preserve vulnerability semantics, existing augmentation approaches provide limited or even counterproductive contributions to model training. In this paper, we propose a data augmentation technique aimed at enhancing the performance of pre-trained language models for vulnerability detection. Given the vulnerability dataset, our method performs natural semantic-preserving program transformation to generate a large volume of new samples with enriched data diversity and variety. By incorporating our augmented dataset in fine-tuning a series of representative code pre-trained models (i.e., CodeBERT, GraphCodeBERT, UnixCoder, and PDBERT), up to 10.1% increase in accuracy and 23.6% increase in F1 can be achieved in the vulnerability detection task. Comparison results also show that our proposed method can substantially outperform other prominent vulnerability augmentation approaches.
翻訳日:2024-11-05 06:46:17 公開日:2024-10-03
# NECOMIMI:拡散モデルを用いたニューラル認知型マルチモーダル脳波インフォームド画像生成

NECOMIMI: Neural-Cognitive Multimodal EEG-informed Image Generation with Diffusion Models ( http://arxiv.org/abs/2410.00712v1 )

ライセンス: Link先を確認
Chi-Sheng Chen, (参考訳) NECOMIMI(Neural-Cgnitive MultImodal EEG-Informed Image Generation with Diffusion Models)は,脳波信号から直接画像を生成する新しいフレームワークである。 コントラスト学習による脳波画像分類のみに焦点を当てた従来の研究とは異なり、NECOMIMIはこのタスクを画像生成に拡張している。 提案したNERV EEGエンコーダは,2ウェイ,4ウェイ,200ウェイを含む複数のゼロショット分類タスクにまたがる最新技術(SoTA)性能を実証し,セマンティック概念に基づく脳波生成画像の品質評価を行うカテゴリベースアセスメントテーブル(CAT)スコアの上位結果を得た。 この研究の重要な発見は、モデルが特定のオブジェクトではなく、ランドスケープのような抽象的あるいは一般化されたイメージを生成する傾向にあり、ノイズや低解像度の脳波データを詳細な視覚出力に変換するという固有の課題を強調していることである。 さらに、脳波画像評価に適した新しい指標としてCATスコアを導入し、 ThingsEEGデータセット上でベンチマークを確立する。 本研究は、視覚的表現を伴う脳活動のブリッジングに残る複雑さと課題を明らかにしながら、脳波から画像への生成の可能性を明らかにする。

NECOMIMI (NEural-COgnitive MultImodal EEG-Informed Image Generation with Diffusion Models) introduces a novel framework for generating images directly from EEG signals using advanced diffusion models. Unlike previous works that focused solely on EEG-image classification through contrastive learning, NECOMIMI extends this task to image generation. The proposed NERV EEG encoder demonstrates state-of-the-art (SoTA) performance across multiple zero-shot classification tasks, including 2-way, 4-way, and 200-way, and achieves top results in our newly proposed Category-based Assessment Table (CAT) Score, which evaluates the quality of EEG-generated images based on semantic concepts. A key discovery of this work is that the model tends to generate abstract or generalized images, such as landscapes, rather than specific objects, highlighting the inherent challenges of translating noisy and low-resolution EEG data into detailed visual outputs. Additionally, we introduce the CAT Score as a new metric tailored for EEG-to-image evaluation and establish a benchmark on the ThingsEEG dataset. This study underscores the potential of EEG-to-image generation while revealing the complexities and challenges that remain in bridging neural activity with visual representation.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-03
# NECOMIMI:拡散モデルを用いたニューラル認知型マルチモーダル脳波インフォームド画像生成

NECOMIMI: Neural-Cognitive Multimodal EEG-informed Image Generation with Diffusion Models ( http://arxiv.org/abs/2410.00712v2 )

ライセンス: Link先を確認
Chi-Sheng Chen, (参考訳) NECOMIMI(Neural-Cgnitive MultImodal EEG-Informed Image Generation with Diffusion Models)は,脳波信号から直接画像を生成する新しいフレームワークである。 コントラスト学習による脳波画像分類のみに焦点を当てた従来の研究とは異なり、NECOMIMIはこのタスクを画像生成に拡張している。 提案したNERV EEGエンコーダは,2ウェイ,4ウェイ,200ウェイを含む複数のゼロショット分類タスクにまたがる最新技術(SoTA)性能を実証し,セマンティック概念に基づく脳波生成画像の品質評価を行うカテゴリベースアセスメントテーブル(CAT)スコアの上位結果を得た。 この研究の重要な発見は、モデルが特定のオブジェクトではなく、ランドスケープのような抽象的あるいは一般化されたイメージを生成する傾向にあり、ノイズや低解像度の脳波データを詳細な視覚出力に変換するという固有の課題を強調していることである。 さらに、脳波画像評価に適した新しい指標としてCATスコアを導入し、 ThingsEEGデータセット上でベンチマークを確立する。 本研究は、視覚的表現を伴う脳活動のブリッジングに残る複雑さと課題を明らかにしながら、脳波から画像への生成の可能性を明らかにする。

NECOMIMI (NEural-COgnitive MultImodal EEG-Informed Image Generation with Diffusion Models) introduces a novel framework for generating images directly from EEG signals using advanced diffusion models. Unlike previous works that focused solely on EEG-image classification through contrastive learning, NECOMIMI extends this task to image generation. The proposed NERV EEG encoder demonstrates state-of-the-art (SoTA) performance across multiple zero-shot classification tasks, including 2-way, 4-way, and 200-way, and achieves top results in our newly proposed Category-based Assessment Table (CAT) Score, which evaluates the quality of EEG-generated images based on semantic concepts. A key discovery of this work is that the model tends to generate abstract or generalized images, such as landscapes, rather than specific objects, highlighting the inherent challenges of translating noisy and low-resolution EEG data into detailed visual outputs. Additionally, we introduce the CAT Score as a new metric tailored for EEG-to-image evaluation and establish a benchmark on the ThingsEEG dataset. This study underscores the potential of EEG-to-image generation while revealing the complexities and challenges that remain in bridging neural activity with visual representation.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-03
# 最適$T$カウントを用いた多制御パウリゲート分解の体系的構成

Systematic construction of multi-controlled Pauli gate decompositions with optimal $T$-count ( http://arxiv.org/abs/2410.00910v1 )

ライセンス: Link先を確認
Ken M. Nakanishi, Synge Todo, (参考訳) マルチコントロールされたパウリゲートは、様々な量子アルゴリズムの量子回路に現れる典型的な高レベル量子ビット演算である。 現在知られている最小の$T$-countを維持しながら、より小さなCNOT数または$T$-depthでマルチコントロールされたPauliゲート分解を見つける。 例えば CCCZ ゲートの場合、CNOT カウント 7 または $T$-depth 2 で分解し、現在知られている最小 6 で$T$-count を保持する。 これらの効率的な分解の発見は、多くの量子アルゴリズムの計算効率を向上させる。 この発見に繋がったのは、多制御されたパウリ門分解の体系的な手順である。 この手順は、量子ゲート分解の理論的な理解を深めるだけでなく、まだ発見されていないより効率的な分解をもたらす。

Multi-controlled Pauli gates are typical high-level qubit operations that appear in the quantum circuits of various quantum algorithms. We find multi-controlled Pauli gate decompositions with smaller CNOT-count or $T$-depth while keeping the currently known minimum $T$-count. For example, for the CCCZ gate, we find decompositions with CNOT-count 7 or $T$-depth 2 while keeping the $T$-count at the currently known minimum of 6. The discovery of these efficient decompositions improves the computational efficiency of many quantum algorithms. What led to this discovery is the systematic procedure for constructing multi-controlled Pauli gate decompositions. This procedure not only deepens our theoretical understanding of quantum gate decomposition but also leads to more efficient decompositions that have yet to be discovered.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-03
# 最適$T$カウントを用いた多制御パウリゲート分解の体系的構成

Systematic construction of multi-controlled Pauli gate decompositions with optimal $T$-count ( http://arxiv.org/abs/2410.00910v2 )

ライセンス: Link先を確認
Ken M. Nakanishi, Synge Todo, (参考訳) マルチコントロールされたパウリゲートは、様々な量子アルゴリズムの量子回路に現れる典型的な高レベル量子ビット演算である。 現在知られている最小の$T$-countを維持しながら、より小さなCNOT数または$T$-depthでマルチコントロールされたPauliゲート分解を見つける。 例えば CCCZ ゲートの場合、CNOT カウント 7 または $T$-depth 2 で分解し、現在知られている最小 6 で$T$-count を保持する。 これらの効率的な分解の発見は、多くの量子アルゴリズムの計算効率を向上させる。 この発見に繋がったのは、多制御されたパウリ門分解の体系的な手順である。 この手順は、量子ゲート分解の理論的な理解を深めるだけでなく、まだ発見されていないより効率的な分解をもたらす。

Multi-controlled Pauli gates are typical high-level qubit operations that appear in the quantum circuits of various quantum algorithms. We find multi-controlled Pauli gate decompositions with smaller CNOT-count or $T$-depth while keeping the currently known minimum $T$-count. For example, for the CCCZ gate, we find decompositions with CNOT-count 7 or $T$-depth 2 while keeping the $T$-count at the currently known minimum of 6. The discovery of these efficient decompositions improves the computational efficiency of many quantum algorithms. What led to this discovery is the systematic procedure for constructing multi-controlled Pauli gate decompositions. This procedure not only deepens our theoretical understanding of quantum gate decomposition but also leads to more efficient decompositions that have yet to be discovered.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-03
# 二成分回路における演算子ダイナミクスと絡み合いのモンテカルロシミュレーション

Monte Carlo Simulation of Operator Dynamics and Entanglement in Dual-Unitary Circuits ( http://arxiv.org/abs/2410.00953v1 )

ライセンス: Link先を確認
Menghan Song, Zhaoyi Zeng, Ting-Tung Wang, Yi-Zhuang You, Zi Yang Meng, Pengfei Zhang, (参考訳) ヒルベルト空間の指数複雑性を超えた効率的なシミュレーションを可能にする局所スクランブル量子系のクラスである双対ユニタリ回路の演算子ダイナミクスと絡み合い成長について検討する。 演算子進化を古典マルコフ過程にマッピングすることにより、局所演算子密度の時間発展と多項式計算コストとの絡み合いにアクセスできるモンテカルロシミュレーションを実行する。 その結果, 演算子密度は指数関数的に定常な値に収束し, 解析的境界はシミュレーションに一致することがわかった。 さらに,各部分領域にまたがる演算子の絡み合いのボリューム法則のスケーリングを観察し,回路のゲートパラメータによって支配される最大値から最大値以下の絡み合い成長への臨界遷移を同定する。 この遷移は平均場理論とモンテカルロシミュレーションの両方で確認され、量子多体系における作用素の絡み合いのダイナミクスに関する新たな洞察を提供する。 我々の研究は、長期演算子の進化と絡み合いを研究するためのスケーラブルな計算フレームワークを提供し、量子情報力学のより深い探求の道を開く。

We investigate operator dynamics and entanglement growth in dual-unitary circuits, a class of locally scrambled quantum systems that enables efficient simulation beyond the exponential complexity of the Hilbert space. By mapping the operator evolution to a classical Markov process,we perform Monte Carlo simulations to access the time evolution of local operator density and entanglement with polynomial computational cost. Our results reveal that the operator density converges exponentially to a steady-state value, with analytical bounds that match our simulations. Additionally, we observe a volume-law scaling of operator entanglement across different subregions,and identify a critical transition from maximal to sub-maximal entanglement growth, governed by the circuit's gate parameter. This transition, confirmed by both mean-field theory and Monte Carlo simulations, provides new insights into operator entanglement dynamics in quantum many-body systems. Our work offers a scalable computational framework for studying long-time operator evolution and entanglement, paving the way for deeper exploration of quantum information dynamics.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-03
# 二成分回路における演算子ダイナミクスと絡み合いのモンテカルロシミュレーション

Monte Carlo Simulation of Operator Dynamics and Entanglement in Dual-Unitary Circuits ( http://arxiv.org/abs/2410.00953v2 )

ライセンス: Link先を確認
Menghan Song, Zhaoyi Zeng, Ting-Tung Wang, Yi-Zhuang You, Zi Yang Meng, Pengfei Zhang, (参考訳) ヒルベルト空間の指数複雑性を超えた効率的なシミュレーションを可能にする局所スクランブル量子系のクラスである双対ユニタリ回路の演算子ダイナミクスと絡み合い成長について検討する。 演算子進化を古典マルコフ過程にマッピングすることにより、局所演算子密度の時間発展と多項式計算コストとの絡み合いにアクセスできるモンテカルロシミュレーションを実行する。 その結果, 演算子密度は指数関数的に定常な値に収束し, 解析的境界はシミュレーションに一致することがわかった。 さらに,各部分領域にまたがる演算子の絡み合いのボリューム法則のスケーリングを観察し,回路のゲートパラメータによって支配される最大値から最大値以下の絡み合い成長への臨界遷移を同定する。 この遷移は平均場理論とモンテカルロシミュレーションの両方で確認され、量子多体系における作用素の絡み合いのダイナミクスに関する新たな洞察を提供する。 我々の研究は、長期演算子の進化と絡み合いを研究するためのスケーラブルな計算フレームワークを提供し、量子情報力学のより深い探求の道を開く。

We investigate operator dynamics and entanglement growth in dual-unitary circuits, a class of locally scrambled quantum systems that enables efficient simulation beyond the exponential complexity of the Hilbert space. By mapping the operator evolution to a classical Markov process,we perform Monte Carlo simulations to access the time evolution of local operator density and entanglement with polynomial computational cost. Our results reveal that the operator density converges exponentially to a steady-state value, with analytical bounds that match our simulations. Additionally, we observe a volume-law scaling of operator entanglement across different subregions,and identify a critical transition from maximal to sub-maximal entanglement growth, governed by the circuit's gate parameter. This transition, confirmed by both mean-field theory and Monte Carlo simulations, provides new insights into operator entanglement dynamics in quantum many-body systems. Our work offers a scalable computational framework for studying long-time operator evolution and entanglement, paving the way for deeper exploration of quantum information dynamics.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-03
# Back to Bayesics: 統計的およびニューラルネットワークによる人体移動分布と異常の発見

Back to Bayesics: Uncovering Human Mobility Distributions and Anomalies with an Integrated Statistical and Neural Framework ( http://arxiv.org/abs/2410.01011v1 )

ライセンス: Link先を確認
Minxuan Duan, Yinlong Qian, Lingyi Zhao, Zihao Zhou, Zeeshan Rasheed, Rose Yu, Khurram Shafique, (参考訳) 既存の異常検出方法は、実世界のモビリティデータに固有の複雑さ、不均一性、高次元性を扱うことができないため、しばしば不足する。 本稿では,ベイズ原理とディープニューラルネットワークを統合し,スパースや複雑なデータセットから基礎となる多変量分布をモデル化する新しいフレームワークであるDeepBayesicを提案する。 従来のモデルとは異なり、DeepBayesicは不均一な入力を管理するように設計されており、連続データとカテゴリーデータの両方を収容して、より包括的なモビリティパターンの理解を提供する。 このフレームワークは、カスタマイズされたニューラルネットワーク密度推定器とハイブリッドアーキテクチャを備えており、多様な特徴分布をモデル化する柔軟性と、異なるデータタイプに合わせた特殊なニューラルネットワークの使用を可能にする。 提案手法では, エージェントの埋め込みを個別の異常検出に利用し, 個々のエージェントの正常な動作と異常な動作を識別する能力を高める。 我々は,いくつかのモビリティデータセットに対するアプローチを評価し,最先端の異常検出手法の大幅な改善を実証した。 以上の結果から,パーソナライズと高度なシーケンスモデリングを取り入れることで,時空間イベントシーケンスにおける微妙で複雑な異常を検出する能力を大幅に向上できる可能性が示唆された。

Existing methods for anomaly detection often fall short due to their inability to handle the complexity, heterogeneity, and high dimensionality inherent in real-world mobility data. In this paper, we propose DeepBayesic, a novel framework that integrates Bayesian principles with deep neural networks to model the underlying multivariate distributions from sparse and complex datasets. Unlike traditional models, DeepBayesic is designed to manage heterogeneous inputs, accommodating both continuous and categorical data to provide a more comprehensive understanding of mobility patterns. The framework features customized neural density estimators and hybrid architectures, allowing for flexibility in modeling diverse feature distributions and enabling the use of specialized neural networks tailored to different data types. Our approach also leverages agent embeddings for personalized anomaly detection, enhancing its ability to distinguish between normal and anomalous behaviors for individual agents. We evaluate our approach on several mobility datasets, demonstrating significant improvements over state-of-the-art anomaly detection methods. Our results indicate that incorporating personalization and advanced sequence modeling techniques can substantially enhance the ability to detect subtle and complex anomalies in spatiotemporal event sequences.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-03
# Back to Bayesics: 統計的およびニューラルネットワークによる人体移動分布と異常の発見

Back to Bayesics: Uncovering Human Mobility Distributions and Anomalies with an Integrated Statistical and Neural Framework ( http://arxiv.org/abs/2410.01011v2 )

ライセンス: Link先を確認
Minxuan Duan, Yinlong Qian, Lingyi Zhao, Zihao Zhou, Zeeshan Rasheed, Rose Yu, Khurram Shafique, (参考訳) 既存の異常検出方法は、実世界のモビリティデータに固有の複雑さ、不均一性、高次元性を扱うことができないため、しばしば不足する。 本稿では,ベイズ原理とディープニューラルネットワークを統合し,スパースや複雑なデータセットから基礎となる多変量分布をモデル化する新しいフレームワークであるDeepBayesicを提案する。 従来のモデルとは異なり、DeepBayesicは不均一な入力を管理するように設計されており、連続データとカテゴリーデータの両方を収容して、より包括的なモビリティパターンの理解を提供する。 このフレームワークは、カスタマイズされたニューラルネットワーク密度推定器とハイブリッドアーキテクチャを備えており、多様な特徴分布をモデル化する柔軟性と、異なるデータタイプに合わせた特殊なニューラルネットワークの使用を可能にする。 提案手法では, エージェントの埋め込みを個別の異常検出に利用し, 個々のエージェントの正常な動作と異常な動作を識別する能力を高める。 我々は,いくつかのモビリティデータセットに対するアプローチを評価し,最先端の異常検出手法の大幅な改善を実証した。 以上の結果から,パーソナライズと高度なシーケンスモデリングを取り入れることで,時空間イベントシーケンスにおける微妙で複雑な異常を検出する能力を大幅に向上できる可能性が示唆された。

Existing methods for anomaly detection often fall short due to their inability to handle the complexity, heterogeneity, and high dimensionality inherent in real-world mobility data. In this paper, we propose DeepBayesic, a novel framework that integrates Bayesian principles with deep neural networks to model the underlying multivariate distributions from sparse and complex datasets. Unlike traditional models, DeepBayesic is designed to manage heterogeneous inputs, accommodating both continuous and categorical data to provide a more comprehensive understanding of mobility patterns. The framework features customized neural density estimators and hybrid architectures, allowing for flexibility in modeling diverse feature distributions and enabling the use of specialized neural networks tailored to different data types. Our approach also leverages agent embeddings for personalized anomaly detection, enhancing its ability to distinguish between normal and anomalous behaviors for individual agents. We evaluate our approach on several mobility datasets, demonstrating significant improvements over state-of-the-art anomaly detection methods. Our results indicate that incorporating personalization and advanced sequence modeling techniques can substantially enhance the ability to detect subtle and complex anomalies in spatiotemporal event sequences.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-03
# StringLLM: 大きな言語モデルの文字列処理能力を理解する

StringLLM: Understanding the String Processing Capability of Large Language Models ( http://arxiv.org/abs/2410.01208v1 )

ライセンス: Link先を確認
Xilong Wang, Hao Fu, Neil Zhenqiang Gong, (参考訳) 文字列処理は、主に文字列の分析と操作を含むが、現代のコンピューティングの基本的な構成要素である。 様々な自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の大幅な進歩にもかかわらず、文字列処理におけるそれらの能力は未熟であり、未熟である。 このギャップを埋めるために、LLMの文字列処理能力について包括的な研究を行う。 特に,LLMの文字列処理能力をベンチマークするためのデータセット構築手法であるStringLLMを提案する。 StringLLMを使用して、StringBenchと呼ばれる一連のデータセットを構築します。 幅広い文字列処理タスクを含み、この分野におけるLLMの性能を体系的に評価することができる。 評価の結果,LLMは人に比べて正確に文字列を処理するのに苦労していることが明らかとなった。 この制限の根底にある理由を明らかにするため、我々は深部分析を行い、その後、微調整によりLLMの文字列処理能力を著しく向上する効果的なアプローチを提案する。 この研究は、LLMの文字列処理能力を理解するための将来の研究の基礎を提供する。 私たちのコードとデータはhttps://github.com/wxl-lxw/StringLLM.orgで公開されています。

String processing, which mainly involves the analysis and manipulation of strings, is a fundamental component of modern computing. Despite the significant advancements of large language models (LLMs) in various natural language processing (NLP) tasks, their capability in string processing remains underexplored and underdeveloped. To bridge this gap, we present a comprehensive study of LLMs' string processing capability. In particular, we first propose StringLLM, a method to construct datasets for benchmarking string processing capability of LLMs. We use StringLLM to build a series of datasets, referred to as StringBench. It encompasses a wide range of string processing tasks, allowing us to systematically evaluate LLMs' performance in this area. Our evaluations indicate that LLMs struggle with accurately processing strings compared to humans. To uncover the underlying reasons for this limitation, we conduct an in-depth analysis and subsequently propose an effective approach that significantly enhances LLMs' string processing capability via fine-tuning. This work provides a foundation for future research to understand LLMs' string processing capability. Our code and data are available at https://github.com/wxl-lxw/StringLLM.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-03
# StringLLM: 大きな言語モデルの文字列処理能力を理解する

StringLLM: Understanding the String Processing Capability of Large Language Models ( http://arxiv.org/abs/2410.01208v2 )

ライセンス: Link先を確認
Xilong Wang, Hao Fu, Jindong Wang, Neil Zhenqiang Gong, (参考訳) 文字列処理は、主に文字列の分析と操作を含むが、現代のコンピューティングの基本的な構成要素である。 様々な自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の大幅な進歩にもかかわらず、文字列処理におけるそれらの能力は未熟であり、未熟である。 このギャップを埋めるために、LLMの文字列処理能力について包括的な研究を行う。 特に,LLMの文字列処理能力をベンチマークするためのデータセット構築手法であるStringLLMを提案する。 StringLLMを使用して、StringBenchと呼ばれる一連のデータセットを構築します。 幅広い文字列処理タスクを含み、この分野におけるLLMの性能を体系的に評価することができる。 評価の結果,LLMは人に比べて正確に文字列を処理するのに苦労していることが明らかとなった。 この制限の根底にある理由を明らかにするため、我々は深部分析を行い、その後、微調整によりLLMの文字列処理能力を著しく向上する効果的なアプローチを提案する。 この研究は、LLMの文字列処理能力を理解するための将来の研究の基礎を提供する。 私たちのコードとデータはhttps://github.com/wxl-lxw/StringLLM.orgで公開されています。

String processing, which mainly involves the analysis and manipulation of strings, is a fundamental component of modern computing. Despite the significant advancements of large language models (LLMs) in various natural language processing (NLP) tasks, their capability in string processing remains underexplored and underdeveloped. To bridge this gap, we present a comprehensive study of LLMs' string processing capability. In particular, we first propose StringLLM, a method to construct datasets for benchmarking string processing capability of LLMs. We use StringLLM to build a series of datasets, referred to as StringBench. It encompasses a wide range of string processing tasks, allowing us to systematically evaluate LLMs' performance in this area. Our evaluations indicate that LLMs struggle with accurately processing strings compared to humans. To uncover the underlying reasons for this limitation, we conduct an in-depth analysis and subsequently propose an effective approach that significantly enhances LLMs' string processing capability via fine-tuning. This work provides a foundation for future research to understand LLMs' string processing capability. Our code and data are available at https://github.com/wxl-lxw/StringLLM.
翻訳日:2024-11-04 22:40:58 公開日:2024-10-03
# RGD:マルチLLMベースのエージェントデバッガ

RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance ( http://arxiv.org/abs/2410.01242v1 )

ライセンス: Link先を確認
Haolin Jin, Zechao Sun, Yiheng Yang, Huaming Chen, (参考訳) 大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しており、最近のインシデントエンジニアリングの研究により、LLMのテキスト情報に対する理解が強化されている。 しかし、生成されたコードの正確性を保証するには、プログラマによる広範なテストと検証が必要であることが多い。 LLMは通常、タスク記述に基づいてコードを生成するが、その正確性は限定的であり、特に問題ステートメントとコード生成プロセスの両方をより深く理解する必要がある複雑なタスクに対してである。 この制限は主に、LLMがテキストを同時に理解し、構文的に、意味的に正しいコードを生成する必要があるためである。 現実世界のソフトウェア開発では、プログラマはタスク記述だけで1回の試行で欠陥のないコードを生成することはめったにない。 このプロセスに触発されて、コード生成と自動デバッグのためのLLMベースのエージェントの新しいアーキテクチャ、Refinement and Guidance Debugging (RGD)を紹介した。 RGDフレームワークはマルチLLMベースのエージェントデバッガで、3つの異なるLLMエージェント-Guide Agent、Debug Agent、Feedback Agentを利用する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。 実験の結果、RGDは優れたコード生成能力を示し、HumanEvalデータセットを9.8%改善し、MBPPデータセットを16.2%改善した。 コードを自動生成・洗練するLLMの能力向上におけるRGDフレームワークの有効性を強調した。

Large Language Models (LLMs) have shown incredible potential in code generation tasks, and recent research in prompt engineering have enhanced LLMs' understanding of textual information. However, ensuring the accuracy of generated code often requires extensive testing and validation by programmers. While LLMs can typically generate code based on task descriptions, their accuracy remains limited, especially for complex tasks that require a deeper understanding of both the problem statement and the code generation process. This limitation is primarily due to the LLMs' need to simultaneously comprehend text and generate syntactically and semantically correct code, without having the capability to automatically refine the code. In real-world software development, programmers rarely produce flawless code in a single attempt based on the task description alone, they rely on iterative feedback and debugging to refine their programs. Inspired by this process, we introduce a novel architecture of LLM-based agents for code generation and automatic debugging: Refinement and Guidance Debugging (RGD). The RGD framework is a multi-LLM-based agent debugger that leverages three distinct LLM agents-Guide Agent, Debug Agent, and Feedback Agent. RGD decomposes the code generation task into multiple steps, ensuring a clearer workflow and enabling iterative code refinement based on self-reflection and feedback. Experimental results demonstrate that RGD exhibits remarkable code generation capabilities, achieving state-of-the-art performance with a 9.8% improvement on the HumanEval dataset and a 16.2% improvement on the MBPP dataset compared to the state-of-the-art approaches and traditional direct prompting approaches. We highlight the effectiveness of the RGD framework in enhancing LLMs' ability to generate and refine code autonomously.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-03
# RGD:マルチLLMベースのエージェントデバッガ

RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance ( http://arxiv.org/abs/2410.01242v2 )

ライセンス: Link先を確認
Haolin Jin, Zechao Sun, Huaming Chen, (参考訳) 大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しており、最近のインシデントエンジニアリングの研究により、LLMのテキスト情報に対する理解が強化されている。 しかし、生成されたコードの正確性を保証するには、プログラマによる広範なテストと検証が必要であることが多い。 LLMは通常、タスク記述に基づいてコードを生成するが、その正確性は限定的であり、特に問題ステートメントとコード生成プロセスの両方をより深く理解する必要がある複雑なタスクに対してである。 この制限は主に、LLMがテキストを同時に理解し、構文的に、意味的に正しいコードを生成する必要があるためである。 現実世界のソフトウェア開発では、プログラマはタスク記述だけで1回の試行で欠陥のないコードを生成することはめったにない。 このプロセスに触発されて、コード生成と自動デバッグのためのLLMベースのエージェントの新しいアーキテクチャ、Refinement and Guidance Debugging (RGD)を紹介した。 RGDフレームワークはマルチLLMベースのエージェントデバッガで、3つの異なるLLMエージェント-Guide Agent、Debug Agent、Feedback Agentを利用する。 RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。 実験の結果、RGDは優れたコード生成能力を示し、HumanEvalデータセットを9.8%改善し、MBPPデータセットを16.2%改善した。 コードを自動生成・洗練するLLMの能力向上におけるRGDフレームワークの有効性を強調した。

Large Language Models (LLMs) have shown incredible potential in code generation tasks, and recent research in prompt engineering have enhanced LLMs' understanding of textual information. However, ensuring the accuracy of generated code often requires extensive testing and validation by programmers. While LLMs can typically generate code based on task descriptions, their accuracy remains limited, especially for complex tasks that require a deeper understanding of both the problem statement and the code generation process. This limitation is primarily due to the LLMs' need to simultaneously comprehend text and generate syntactically and semantically correct code, without having the capability to automatically refine the code. In real-world software development, programmers rarely produce flawless code in a single attempt based on the task description alone, they rely on iterative feedback and debugging to refine their programs. Inspired by this process, we introduce a novel architecture of LLM-based agents for code generation and automatic debugging: Refinement and Guidance Debugging (RGD). The RGD framework is a multi-LLM-based agent debugger that leverages three distinct LLM agents-Guide Agent, Debug Agent, and Feedback Agent. RGD decomposes the code generation task into multiple steps, ensuring a clearer workflow and enabling iterative code refinement based on self-reflection and feedback. Experimental results demonstrate that RGD exhibits remarkable code generation capabilities, achieving state-of-the-art performance with a 9.8% improvement on the HumanEval dataset and a 16.2% improvement on the MBPP dataset compared to the state-of-the-art approaches and traditional direct prompting approaches. We highlight the effectiveness of the RGD framework in enhancing LLMs' ability to generate and refine code autonomously.
翻訳日:2024-11-04 22:18:46 公開日:2024-10-03
# ニューロン切断による文脈学習におけるコピーバイアスの緩和

Mitigating Copy Bias in In-Context Learning through Neuron Pruning ( http://arxiv.org/abs/2410.01288v1 )

ライセンス: Link先を確認
Ameen Ali, Lior Wolf, Ivan Titov, (参考訳) 大規模言語モデル (LLM) は、ICL(In-context Learning) 能力に目を見張るものはほとんどない。 それでも、それらが時に‘コピーバイアス’を起こしやすいことを示します。そこでは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーします。 本研究では,このような複写バイアスを緩和する新規かつ簡便な手法を提案する。 まず、我々は合成タスクを作成し、一般化よりもコピーを優先するニューロンを識別するために統合勾配法を用いる。 我々は、これらのニューロンを切断することで、多種多様なICLタスクにおけるパフォーマンスが一貫して向上することを示した。 また,本手法は変換器や状態空間モデルなど,様々なLLMアーキテクチャに適用可能であることを示す。 本分析では、ICLにおけるタスク認識の視点を採用し、モデルによって誘導されるタスクベクトル(Hendel et al , 2023)について検討する。 プルーニングはこれらのベクターの品質を高めることが分かり、プルーニングされたニューロンが以前、効果的なタスク認識を妨げていたことが示唆された。

Large language models (LLMs) have demonstrated impressive few-shot in-context learning (ICL) abilities. Still, we show that they are sometimes prone to a `copying bias', where they copy answers from provided examples instead of learning the underlying patterns. In this work, we propose a novel and simple method to mitigate such copying bias. First, we create a synthetic task and use the Integrated Gradients method to identify neurons that prioritize copying over generalization. We demonstrate that pruning these neurons consistently improves performance across a diverse set of ICL tasks. We also show that our method is applicable across various LLM architectures, including Transformers and State-Space Models, without requiring modifications. In our analysis, we adopt a task-recognition perspective on ICL and examine task vectors (Hendel et al., 2023) induced by the model. We find that pruning enhances the quality of these vectors, suggesting that the pruned neurons previously hindered effective task recognition.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-03
# ニューロン切断による文脈学習におけるコピーバイアスの緩和

Mitigating Copy Bias in In-Context Learning through Neuron Pruning ( http://arxiv.org/abs/2410.01288v2 )

ライセンス: Link先を確認
Ameen Ali, Lior Wolf, Ivan Titov, (参考訳) 大規模言語モデル (LLM) は、ICL(In-context Learning) 能力に目を見張るものはほとんどない。 それでも、それらが時に‘コピーバイアス’を起こしやすいことを示します。そこでは、基礎となるパターンを学ぶ代わりに、提供された例から回答をコピーします。 本研究では,このような複写バイアスを緩和する新規かつ簡便な手法を提案する。 まず、我々は合成タスクを作成し、一般化よりもコピーを優先するニューロンを識別するために統合勾配法を用いる。 我々は、これらのニューロンを切断することで、多種多様なICLタスクにおけるパフォーマンスが一貫して向上することを示した。 また,本手法は変換器や状態空間モデルなど,様々なLLMアーキテクチャに適用可能であることを示す。 本分析では、ICLにおけるタスク認識の視点を採用し、モデルによって誘導されるタスクベクトル(Hendel et al , 2023)について検討する。 プルーニングはこれらのベクターの品質を高めることが分かり、プルーニングされたニューロンが以前、効果的なタスク認識を妨げていたことが示唆された。

Large language models (LLMs) have demonstrated impressive few-shot in-context learning (ICL) abilities. Still, we show that they are sometimes prone to a `copying bias', where they copy answers from provided examples instead of learning the underlying patterns. In this work, we propose a novel and simple method to mitigate such copying bias. First, we create a synthetic task and use the Integrated Gradients method to identify neurons that prioritize copying over generalization. We demonstrate that pruning these neurons consistently improves performance across a diverse set of ICL tasks. We also show that our method is applicable across various LLM architectures, including Transformers and State-Space Models, without requiring modifications. In our analysis, we adopt a task-recognition perspective on ICL and examine task vectors (Hendel et al., 2023) induced by the model. We find that pruning enhances the quality of these vectors, suggesting that the pruned neurons previously hindered effective task recognition.
翻訳日:2024-11-04 21:59:16 公開日:2024-10-03
# 平衡列モデリングによる閉ループ長水平ロボット計画

Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling ( http://arxiv.org/abs/2410.01440v1 )

ライセンス: Link先を確認
Jinghan Li, Zhicheng Sun, Fei Li, Cao Sheng, Jiazhong Yu, Yadong Mu, (参考訳) 自律型ロボットにアクションを起こさせる取り組みにおいて、タスクプランニングは、ハイレベルなタスク記述を長距離アクションシーケンスに変換することを必要とする大きな課題である。 言語モデルエージェントの最近の進歩にもかかわらず、彼らは計画上のエラーを起こし、計画する能力が制限される傾向にある。 ロボット計画におけるこれらの制限に対処するため、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。 注目すべきは、このプロセスは、追加の検証や報酬モデルを調整することなく、分析の観点からエンドツーエンドに最適化することができ、簡単な教師付き学習方式で自己修正プランナーを訓練することができます。 一方、環境(または内部世界モデル)から有用なフィードバックを取り入れた効率的なクローズドループ計画のためのネスト平衡シーケンスモデリング手法が考案された。 提案手法はVirtualHome-Envベンチマークで評価され,より優れたスケーリングと推論計算性能を示す。 コードはhttps://github.com/Singularity0104/equilibrium-plannerで入手できる。

In the endeavor to make autonomous robots take actions, task planning is a major challenge that requires translating high-level task descriptions into long-horizon action sequences. Despite recent advances in language model agents, they remain prone to planning errors and limited in their ability to plan ahead. To address these limitations in robotic planning, we advocate a self-refining scheme that iteratively refines a draft plan until an equilibrium is reached. Remarkably, this process can be optimized end-to-end from an analytical perspective without the need to curate additional verifiers or reward models, allowing us to train self-refining planners in a simple supervised learning fashion. Meanwhile, a nested equilibrium sequence modeling procedure is devised for efficient closed-loop planning that incorporates useful feedback from the environment (or an internal world model). Our method is evaluated on the VirtualHome-Env benchmark, showing advanced performance with better scaling for inference computation. Code is available at https://github.com/Singularity0104/equilibrium-planner.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-03
# 平衡列モデリングによる閉ループ長軸ロボット計画

Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling ( http://arxiv.org/abs/2410.01440v2 )

ライセンス: Link先を確認
Jinghan Li, Zhicheng Sun, Fei Li, Cao Sheng, Jiazhong Yu, Yadong Mu, (参考訳) 自律型ロボットにアクションを起こさせる取り組みにおいて、タスクプランニングは、ハイレベルなタスク記述を長距離アクションシーケンスに変換することを必要とする大きな課題である。 言語モデルエージェントの最近の進歩にもかかわらず、彼らは計画上のエラーを起こし、計画する能力が制限される傾向にある。 ロボット計画におけるこれらの制限に対処するため、均衡に達するまで計画案を反復的に洗練する自己精製スキームを提唱する。 注目すべきは、このプロセスは、追加の検証や報酬モデルを調整することなく、分析の観点からエンドツーエンドに最適化することができ、簡単な教師付き学習方式で自己修正プランナーを訓練することができます。 一方、環境(または内部世界モデル)から有用なフィードバックを取り入れた効率的なクローズドループ計画のためのネスト平衡シーケンスモデリング手法が考案された。 提案手法はVirtualHome-Envベンチマークで評価され,より優れたスケーリングと推論計算性能を示す。 コードはhttps://github.com/Singularity0104/equilibrium-plannerで入手できる。

In the endeavor to make autonomous robots take actions, task planning is a major challenge that requires translating high-level task descriptions into long-horizon action sequences. Despite recent advances in language model agents, they remain prone to planning errors and limited in their ability to plan ahead. To address these limitations in robotic planning, we advocate a self-refining scheme that iteratively refines a draft plan until an equilibrium is reached. Remarkably, this process can be optimized end-to-end from an analytical perspective without the need to curate additional verifiers or reward models, allowing us to train self-refining planners in a simple supervised learning fashion. Meanwhile, a nested equilibrium sequence modeling procedure is devised for efficient closed-loop planning that incorporates useful feedback from the environment (or an internal world model). Our method is evaluated on the VirtualHome-Env benchmark, showing advanced performance with better scaling for inference computation. Code is available at https://github.com/Singularity0104/equilibrium-planner.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-03
# SurgPointTransformer: RGB-DデータによるVertebrae形状補完

SurgPointTransformer: Vertebrae Shape Completion with RGB-D Data ( http://arxiv.org/abs/2410.01443v1 )

ライセンス: Link先を確認
Aidana Massalimova, Florentin Liebmann, Sascha Jecklin, Fabio Carrillo, Farshad Mazda, Philipp Fürnstahl, (参考訳) 最先端のコンピュータおよびロボット支援手術システムは、患者の解剖の詳細な3D可視化を作成するために、CTや蛍光顕微鏡などの術中イメージング技術に大きく依存している。 撮像技術は非常に正確であるが、電離放射線をベースとし、患者や臨床医を露出させる。 本研究は,RGB-Dデータを用いた3次元脊椎解剖の再構築のための代替的,放射線のないアプローチを提案する。 手術中に外科医が形成する3D「メンタルマップ」からインスピレーションを得たSurgPointTransformerを紹介した。 提案手法は, 分割と形状完備化の2つの主要なステップを含む。 セグメンテーションのステップは、脊柱の局在とセグメンテーションを含み、続いて脊椎のワイドセグメンテーションが続く。 SurgPointTransformerは、目に見える表面の特徴と下層の解剖学の間のパターンを学習するための注意機構を利用する。 評価には,9標本の生検データセットを用いた。 それらのCTデータを用いて,提案手法の出力と比較した真理データを確立する。 提案手法は,平均チャンファー距離5.39,Fスコア0.85,アースモーバー距離0.011,信号対雑音比22.90dBを達成し,最先端のベースラインを著しく上回る。 本研究は3次元椎体形状復元法の可能性を示すものである。 これにより、電離放射線や侵襲的イメージングを伴わずに、腰椎全体を3Dで再構築し、手術指導を行うことができる。 我々の研究は、コンピュータ支援とロボット支援の手術に寄与し、これらのシステムの知覚と知性を前進させます。

State-of-the-art computer- and robot-assisted surgery systems heavily depend on intraoperative imaging technologies such as CT and fluoroscopy to generate detailed 3D visualization of the patient's anatomy. While imaging techniques are highly accurate, they are based on ionizing radiation and expose patients and clinicians. This study introduces an alternative, radiation-free approach for reconstructing the 3D spine anatomy using RGB-D data. Drawing inspiration from the 3D "mental map" that surgeons form during surgeries, we introduce SurgPointTransformer, a shape completion approach for surgical applications that can accurately reconstruct the unexposed spine regions from sparse observations of the exposed surface. Our method involves two main steps: segmentation and shape completion. The segmentation step includes spinal column localization and segmentation, followed by vertebra-wise segmentation. The segmented vertebra point clouds are then subjected to SurgPointTransformer, which leverages an attention mechanism to learn patterns between visible surface features and the underlying anatomy. For evaluation, we utilize an ex-vivo dataset of nine specimens. Their CT data is used to establish ground truth data that were used to compare to the outputs of our methods. Our method significantly outperforms the state-of-the-art baselines, achieving an average Chamfer Distance of 5.39, an F-Score of 0.85, an Earth Mover's Distance of 0.011, and a Signal-to-Noise Ratio of 22.90 dB. This study demonstrates the potential of our reconstruction method for 3D vertebral shape completion. It enables 3D reconstruction of the entire lumbar spine and surgical guidance without ionizing radiation or invasive imaging. Our work contributes to computer-aided and robot-assisted surgery, advancing the perception and intelligence of these systems.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-03
# SurgPointTransformer: RGB-DデータによるVertebrae形状補完

SurgPointTransformer: Vertebrae Shape Completion with RGB-D Data ( http://arxiv.org/abs/2410.01443v2 )

ライセンス: Link先を確認
Aidana Massalimova, Florentin Liebmann, Sascha Jecklin, Fabio Carrillo, Farshad Mazda, Philipp Fürnstahl, (参考訳) 最先端のコンピュータおよびロボット支援手術システムは、患者の解剖の詳細な3D可視化を作成するために、CTや蛍光顕微鏡などの術中イメージング技術に大きく依存している。 撮像技術は非常に正確であるが、電離放射線をベースとし、患者や臨床医を露出させる。 本研究は,RGB-Dデータを用いた3次元脊椎解剖の再構築のための代替的,放射線のないアプローチを提案する。 手術中に外科医が形成する3D「メンタルマップ」からインスピレーションを得たSurgPointTransformerを紹介した。 提案手法は, 分割と形状完備化の2つの主要なステップを含む。 セグメンテーションのステップは、脊柱の局在とセグメンテーションを含み、続いて脊椎のワイドセグメンテーションが続く。 SurgPointTransformerは、目に見える表面の特徴と下層の解剖学の間のパターンを学習するための注意機構を利用する。 評価には,9標本の生検データセットを用いた。 それらのCTデータを用いて,提案手法の出力と比較した真理データを確立する。 提案手法は,平均チャンファー距離5.39,Fスコア0.85,アースモーバー距離0.011,信号対雑音比22.90dBを達成し,最先端のベースラインを著しく上回る。 本研究は3次元椎体形状復元法の可能性を示すものである。 これにより、電離放射線や侵襲的イメージングを伴わずに、腰椎全体を3Dで再構築し、手術指導を行うことができる。 我々の研究は、コンピュータ支援とロボット支援の手術に寄与し、これらのシステムの知覚と知性を前進させます。

State-of-the-art computer- and robot-assisted surgery systems heavily depend on intraoperative imaging technologies such as CT and fluoroscopy to generate detailed 3D visualization of the patient's anatomy. While imaging techniques are highly accurate, they are based on ionizing radiation and expose patients and clinicians. This study introduces an alternative, radiation-free approach for reconstructing the 3D spine anatomy using RGB-D data. Drawing inspiration from the 3D "mental map" that surgeons form during surgeries, we introduce SurgPointTransformer, a shape completion approach for surgical applications that can accurately reconstruct the unexposed spine regions from sparse observations of the exposed surface. Our method involves two main steps: segmentation and shape completion. The segmentation step includes spinal column localization and segmentation, followed by vertebra-wise segmentation. The segmented vertebra point clouds are then subjected to SurgPointTransformer, which leverages an attention mechanism to learn patterns between visible surface features and the underlying anatomy. For evaluation, we utilize an ex-vivo dataset of nine specimens. Their CT data is used to establish ground truth data that were used to compare to the outputs of our methods. Our method significantly outperforms the state-of-the-art baselines, achieving an average Chamfer Distance of 5.39, an F-Score of 0.85, an Earth Mover's Distance of 0.011, and a Signal-to-Noise Ratio of 22.90 dB. This study demonstrates the potential of our reconstruction method for 3D vertebral shape completion. It enables 3D reconstruction of the entire lumbar spine and surgical guidance without ionizing radiation or invasive imaging. Our work contributes to computer-aided and robot-assisted surgery, advancing the perception and intelligence of these systems.
翻訳日:2024-11-04 17:44:25 公開日:2024-10-03
# 分布から見た大規模言語モデルのコンテキストウィンドウの拡張

Extending Context Window of Large Language Models from a Distributional Perspective ( http://arxiv.org/abs/2410.01490v1 )

ライセンス: Link先を確認
Yingsheng Wu. Yuxuan Gu, Xiaocheng Feng, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, (参考訳) 回転位置埋め込み(RoPE)のスケーリングは、RoPEベースの大規模言語モデル(LLM)のコンテキストウィンドウを拡張する一般的な方法となっている。 しかし、既存のスケーリング手法はしばしば経験的アプローチに依存しており、RoPEの内部分布の深い理解が欠如しているため、コンテキストウィンドウ長の拡張に最適な性能が得られた。 本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。 具体的には、まずモデル内の回転角の分布を推定し、この分布をどの長さ延長が摂動するかを解析する。 そこで本研究では,回転角分布間の乱れを最小限に抑え,事前学習フェーズとの整合性を保ち,より長い列に一般化するモデルの能力を高める新しい拡張戦略を提案する。 その結果,LLaMA2のコンテキストウィンドウを8kまで延ばすと,分布障害の最大72%,16kまで延ばすと最大32%減少することがわかった。 LongBench-Eベンチマークでは,既存の最先端手法よりも平均4.33%向上した。 さらに、コンテキストウィンドウ拡張後のHugging Face Open LLMベンチマークでは、平均的なパフォーマンス変動が-0.12から+0.22の範囲でしかなく、モデルの性能を維持できない。

Scaling the rotary position embedding (RoPE) has become a common method for extending the context window of RoPE-based large language models (LLMs). However, existing scaling methods often rely on empirical approaches and lack a profound understanding of the internal distribution within RoPE, resulting in suboptimal performance in extending the context window length. In this paper, we propose to optimize the context window extending task from the view of rotary angle distribution. Specifically, we first estimate the distribution of the rotary angles within the model and analyze the extent to which length extension perturbs this distribution. Then, we present a novel extension strategy that minimizes the disturbance between rotary angle distributions to maintain consistency with the pre-training phase, enhancing the model's capability to generalize to longer sequences. Experimental results compared to the strong baseline methods demonstrate that our approach reduces by up to 72% of the distributional disturbance when extending LLaMA2's context window to 8k, and reduces by up to 32% when extending to 16k. On the LongBench-E benchmark, our method achieves an average improvement of up to 4.33% over existing state-of-the-art methods. Furthermore, Our method maintains the model's performance on the Hugging Face Open LLM benchmark after context window extension, with only an average performance fluctuation ranging from -0.12 to +0.22.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-03
# 分布から見た大規模言語モデルのコンテキストウィンドウの拡張

Extending Context Window of Large Language Models from a Distributional Perspective ( http://arxiv.org/abs/2410.01490v2 )

ライセンス: Link先を確認
Yingsheng Wu, Yuxuan Gu, Xiaocheng Feng, Weihong Zhong, Dongliang Xu, Qing Yang, Hongtao Liu, Bing Qin, (参考訳) 回転位置埋め込み(RoPE)のスケーリングは、RoPEベースの大規模言語モデル(LLM)のコンテキストウィンドウを拡張する一般的な方法となっている。 しかし、既存のスケーリング手法はしばしば経験的アプローチに依存しており、RoPEの内部分布の深い理解が欠如しているため、コンテキストウィンドウ長の拡張に最適な性能が得られた。 本稿では,回転角分布の観点から,コンテキストウィンドウ拡張タスクの最適化を提案する。 具体的には、まずモデル内の回転角の分布を推定し、この分布をどの長さ延長が摂動するかを解析する。 そこで本研究では,回転角分布間の乱れを最小限に抑え,事前学習フェーズとの整合性を保ち,より長い列に一般化するモデルの能力を高める新しい拡張戦略を提案する。 その結果,LLaMA2のコンテキストウィンドウを8kまで延ばすと,分布障害の最大72%,16kまで延ばすと最大32%減少することがわかった。 LongBench-Eベンチマークでは,既存の最先端手法よりも平均4.33%向上した。 さらに、コンテキストウィンドウ拡張後のHugging Face Open LLMベンチマークでは、平均的なパフォーマンス変動が-0.12から+0.22の範囲でしかなく、モデルの性能を維持できない。

Scaling the rotary position embedding (RoPE) has become a common method for extending the context window of RoPE-based large language models (LLMs). However, existing scaling methods often rely on empirical approaches and lack a profound understanding of the internal distribution within RoPE, resulting in suboptimal performance in extending the context window length. In this paper, we propose to optimize the context window extending task from the view of rotary angle distribution. Specifically, we first estimate the distribution of the rotary angles within the model and analyze the extent to which length extension perturbs this distribution. Then, we present a novel extension strategy that minimizes the disturbance between rotary angle distributions to maintain consistency with the pre-training phase, enhancing the model's capability to generalize to longer sequences. Experimental results compared to the strong baseline methods demonstrate that our approach reduces by up to 72% of the distributional disturbance when extending LLaMA2's context window to 8k, and reduces by up to 32% when extending to 16k. On the LongBench-E benchmark, our method achieves an average improvement of up to 4.33% over existing state-of-the-art methods. Furthermore, Our method maintains the model's performance on the Hugging Face Open LLM benchmark after context window extension, with only an average performance fluctuation ranging from -0.12 to +0.22.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-03
# LEGO:マルチモーダル機能融合のためのグラフ演算子の学習可能な拡張

LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion ( http://arxiv.org/abs/2410.01506v1 )

ライセンス: Link先を確認
Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz, (参考訳) コンピュータビジョンタスクでは、機能はしばしばテキスト、画像、ビデオなどの様々な表現、ドメイン、モダリティから来る。 これらの機能を効果的に融合させることは、堅牢なパフォーマンス、特に視覚言語モデルのような強力な事前学習モデルの実現に不可欠である。 しかし、結合、要素演算、非線形技術といった一般的な融合法は、しばしば構造的関係、深い特徴的相互作用を捉えず、ドメイン間の機能の非効率性や不整合に悩まされる。 本稿では,高次元の特徴空間から低次元の解釈可能なグラフ空間へ移行し,例えば,クリップ,フレーム,パッチ,トークンなどの異なるレベルの特徴関係を符号化する類似性グラフを構築する。 より深い相互作用を捉えるために、我々はグラフパワー拡張を使用し、より効果的な融合のためにこれらのグラフパワーを組み合わせるために学習可能なグラフ融合演算子を導入します。 我々のアプローチは関係中心であり、等質な空間で作用し、数学的に原理化され、多線型多項式による要素的類似度スコアアグリゲーションに類似している。 ビデオ異常検出におけるグラフベース融合法の有効性を実証し,マルチ表現,マルチモーダル,マルチドメイン機能融合タスクにおいて高い性能を示す。

In computer vision tasks, features often come from diverse representations, domains, and modalities, such as text, images, and videos. Effectively fusing these features is essential for robust performance, especially with the availability of powerful pre-trained models like vision-language models. However, common fusion methods, such as concatenation, element-wise operations, and non-linear techniques, often fail to capture structural relationships, deep feature interactions, and suffer from inefficiency or misalignment of features across domains. In this paper, we shift from high-dimensional feature space to a lower-dimensional, interpretable graph space by constructing similarity graphs that encode feature relationships at different levels, e.g., clip, frame, patch, token, etc. To capture deeper interactions, we use graph power expansions and introduce a learnable graph fusion operator to combine these graph powers for more effective fusion. Our approach is relationship-centric, operates in a homogeneous space, and is mathematically principled, resembling element-wise similarity score aggregation via multilinear polynomials. We demonstrate the effectiveness of our graph-based fusion method on video anomaly detection, showing strong performance across multi-representational, multi-modal, and multi-domain feature fusion tasks.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-03
# LEGO:マルチモーダル機能融合のためのグラフ演算子の学習可能な拡張

LEGO: Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion ( http://arxiv.org/abs/2410.01506v2 )

ライセンス: Link先を確認
Dexuan Ding, Lei Wang, Liyun Zhu, Tom Gedeon, Piotr Koniusz, (参考訳) コンピュータビジョンタスクでは、機能はしばしばテキスト、画像、ビデオなどの様々な表現、ドメイン、モダリティから来る。 これらの機能を効果的に融合させることは、堅牢なパフォーマンス、特に視覚言語モデルのような強力な事前学習モデルの実現に不可欠である。 しかし、結合、要素演算、非線形技術といった一般的な融合法は、しばしば構造的関係、深い特徴的相互作用を捉えず、ドメイン間の機能の非効率性や不整合に悩まされる。 本稿では,高次元の特徴空間から低次元の解釈可能なグラフ空間へ移行し,例えば,クリップ,フレーム,パッチ,トークンなどの異なるレベルの特徴関係を符号化する類似性グラフを構築する。 より深い相互作用を捉えるために、我々はグラフパワー拡張を使用し、より効果的な融合のためにこれらのグラフパワーを組み合わせるために学習可能なグラフ融合演算子を導入します。 我々のアプローチは関係中心であり、等質な空間で作用し、数学的に原理化され、多線型多項式による要素的類似度スコアアグリゲーションに類似している。 ビデオ異常検出におけるグラフベース融合法の有効性を実証し,マルチ表現,マルチモーダル,マルチドメイン機能融合タスクにおいて高い性能を示す。

In computer vision tasks, features often come from diverse representations, domains, and modalities, such as text, images, and videos. Effectively fusing these features is essential for robust performance, especially with the availability of powerful pre-trained models like vision-language models. However, common fusion methods, such as concatenation, element-wise operations, and non-linear techniques, often fail to capture structural relationships, deep feature interactions, and suffer from inefficiency or misalignment of features across domains. In this paper, we shift from high-dimensional feature space to a lower-dimensional, interpretable graph space by constructing similarity graphs that encode feature relationships at different levels, e.g., clip, frame, patch, token, etc. To capture deeper interactions, we use graph power expansions and introduce a learnable graph fusion operator to combine these graph powers for more effective fusion. Our approach is relationship-centric, operates in a homogeneous space, and is mathematically principled, resembling element-wise similarity score aggregation via multilinear polynomials. We demonstrate the effectiveness of our graph-based fusion method on video anomaly detection, showing strong performance across multi-representational, multi-modal, and multi-domain feature fusion tasks.
翻訳日:2024-11-04 17:24:31 公開日:2024-10-03
# EUFCC-CIR:GLAMコレクションのための合成画像検索データセット

EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections ( http://arxiv.org/abs/2410.01536v1 )

ライセンス: Link先を確認
Francesc Net, Lluis Gomez, (参考訳) 人工知能とデジタルヒューマニティの交差により、研究者はより深い深さと規模で文化遺産コレクションを探索することができる。 本稿では,ギャラリー,図書館,アーカイブ,博物館(GLAM)コレクション内のコンポジション画像検索(CIR)のためのデータセットであるEUFCC-CIRを紹介する。 我々のデータセットは、EUFCC-340Kイメージラベルデータセットの上に構築されており、180K以上の注釈付きCIRトリプルを含んでいる。 各トリプルトは、マルチモーダルなクエリ(入力画像と所望の属性操作を記述した短いテキスト)と、関連するターゲット画像のセットで構成されている。 EUFCC-CIRデータセットは、デジタル人間性のためのCIR固有のリソースのギャップを埋める。 我々は、EUFCC-CIRデータセットの価値を、既存のCIRデータセットと比較し、その特徴を強調し、いくつかのゼロショットCIRベースラインの性能を評価することによって示す。

The intersection of Artificial Intelligence and Digital Humanities enables researchers to explore cultural heritage collections with greater depth and scale. In this paper, we present EUFCC-CIR, a dataset designed for Composed Image Retrieval (CIR) within Galleries, Libraries, Archives, and Museums (GLAM) collections. Our dataset is built on top of the EUFCC-340K image labeling dataset and contains over 180K annotated CIR triplets. Each triplet is composed of a multi-modal query (an input image plus a short text describing the desired attribute manipulations) and a set of relevant target images. The EUFCC-CIR dataset fills an existing gap in CIR-specific resources for Digital Humanities. We demonstrate the value of the EUFCC-CIR dataset by highlighting its unique qualities in comparison to other existing CIR datasets and evaluating the performance of several zero-shot CIR baselines.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-03
# EUFCC-CIR:GLAMコレクションのための合成画像検索データセット

EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections ( http://arxiv.org/abs/2410.01536v2 )

ライセンス: Link先を確認
Francesc Net, Lluis Gomez, (参考訳) 人工知能とデジタルヒューマニティの交差により、研究者はより深い深さと規模で文化遺産コレクションを探索することができる。 本稿では,ギャラリー,図書館,アーカイブ,博物館(GLAM)コレクション内のコンポジション画像検索(CIR)のためのデータセットであるEUFCC-CIRを紹介する。 我々のデータセットは、EUFCC-340Kイメージラベルデータセットの上に構築されており、180K以上の注釈付きCIRトリプルを含んでいる。 各トリプルトは、マルチモーダルなクエリ(入力画像と所望の属性操作を記述した短いテキスト)と、関連するターゲット画像のセットで構成されている。 EUFCC-CIRデータセットは、デジタル人間性のためのCIR固有のリソースのギャップを埋める。 我々は、EUFCC-CIRデータセットの価値を、既存のCIRデータセットと比較し、その特徴を強調し、いくつかのゼロショットCIRベースラインの性能を評価することによって示す。

The intersection of Artificial Intelligence and Digital Humanities enables researchers to explore cultural heritage collections with greater depth and scale. In this paper, we present EUFCC-CIR, a dataset designed for Composed Image Retrieval (CIR) within Galleries, Libraries, Archives, and Museums (GLAM) collections. Our dataset is built on top of the EUFCC-340K image labeling dataset and contains over 180K annotated CIR triplets. Each triplet is composed of a multi-modal query (an input image plus a short text describing the desired attribute manipulations) and a set of relevant target images. The EUFCC-CIR dataset fills an existing gap in CIR-specific resources for Digital Humanities. We demonstrate the value of the EUFCC-CIR dataset by highlighting its unique qualities in comparison to other existing CIR datasets and evaluating the performance of several zero-shot CIR baselines.
翻訳日:2024-11-04 17:14:45 公開日:2024-10-03
# 統合的デコーディング: 自己整合性の欠如によるファクチュアリティの向上

Integrative Decoding: Improve Factuality via Implicit Self-consistency ( http://arxiv.org/abs/2410.01556v1 )

ライセンス: Link先を確認
Yi Cheng, Xiao Liang, Yeyun Gong, Wen Xiao, Song Wang, Yuji Zhang, Wenjun Hou, Kaishuai Xu, Wenge Liu, Wenjie Li, Jian Jiao, Qi Chen, Peng Cheng, Wayne Xiong, (参考訳) 複数の出力を繰り返しサンプリングし、最も一貫性のあるものを最終応答として選択する自己整合性ベースのアプローチは、大きな言語モデルの事実精度を改善するのに極めて効果的である。 それでも、既存のメソッドは通常、タスクフォーマットに厳格な制約があり、その適用性はほとんど制限されています。 本稿では,オープンな生成タスクにおける自己整合性の可能性を高めるために,統合的復号化(ID)を提案する。 IDは、事前にサンプリングされた応答でプリプレドされた入力のセットを構築し、同時に処理し、次のトークンはデコードステップ毎に対応するすべての予測を集約することで選択される。 本質的に、この単純なアプローチは、デコーディングの目的に自己整合性を暗黙的に取り入れている。 広範囲な言語モデルに対してIDは一貫して事実性を向上し、TrathfulQA (+11.2%)、Biographies (+15.4%)、LongFact (+8.5%)ベンチマークを大幅に改善した。 サンプリングされた応答数が増加するにつれて、性能は徐々に向上し、繰り返しサンプリングすることでIDがスケールアップされる可能性が示唆される。

Self-consistency-based approaches, which involve repeatedly sampling multiple outputs and selecting the most consistent one as the final response, prove to be remarkably effective in improving the factual accuracy of large language models. Nonetheless, existing methods usually have strict constraints on the task format, largely limiting their applicability. In this paper, we present Integrative Decoding (ID), to unlock the potential of self-consistency in open-ended generation tasks. ID operates by constructing a set of inputs, each prepended with a previously sampled response, and then processes them concurrently, with the next token being selected by aggregating of all their corresponding predictions at each decoding step. In essence, this simple approach implicitly incorporates self-consistency in the decoding objective. Extensive evaluation shows that ID consistently enhances factuality over a wide range of language models, with substantial improvements on the TruthfulQA (+11.2%), Biographies (+15.4%) and LongFact (+8.5%) benchmarks. The performance gains amplify progressively as the number of sampled responses increases, indicating the potential of ID to scale up with repeated sampling.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-03
# 統合的デコーディング: 自己整合性の欠如によるファクチュアリティの向上

Integrative Decoding: Improve Factuality via Implicit Self-consistency ( http://arxiv.org/abs/2410.01556v2 )

ライセンス: Link先を確認
Yi Cheng, Xiao Liang, Yeyun Gong, Wen Xiao, Song Wang, Yuji Zhang, Wenjun Hou, Kaishuai Xu, Wenge Liu, Wenjie Li, Jian Jiao, Qi Chen, Peng Cheng, Wayne Xiong, (参考訳) 複数の出力を繰り返しサンプリングし、最も一貫性のあるものを最終応答として選択する自己整合性ベースのアプローチは、大きな言語モデルの事実精度を改善するのに極めて効果的である。 それでも、既存のメソッドは通常、タスクフォーマットに厳格な制約があり、その適用性はほとんど制限されています。 本稿では,オープンな生成タスクにおける自己整合性の可能性を高めるために,統合的復号化(ID)を提案する。 IDは、事前にサンプリングされた応答でプリプレドされた入力のセットを構築し、同時に処理し、次のトークンはデコードステップ毎に対応するすべての予測を集約することで選択される。 本質的に、この単純なアプローチは、デコーディングの目的に自己整合性を暗黙的に取り入れている。 広範囲な言語モデルに対してIDは一貫して事実性を向上し、TrathfulQA (+11.2%)、Biographies (+15.4%)、LongFact (+8.5%)ベンチマークを大幅に改善した。 サンプリングされた応答数が増加するにつれて、性能は徐々に向上し、繰り返しサンプリングすることでIDがスケールアップされる可能性が示唆される。

Self-consistency-based approaches, which involve repeatedly sampling multiple outputs and selecting the most consistent one as the final response, prove to be remarkably effective in improving the factual accuracy of large language models. Nonetheless, existing methods usually have strict constraints on the task format, largely limiting their applicability. In this paper, we present Integrative Decoding (ID), to unlock the potential of self-consistency in open-ended generation tasks. ID operates by constructing a set of inputs, each prepended with a previously sampled response, and then processes them concurrently, with the next token being selected by aggregating of all their corresponding predictions at each decoding step. In essence, this simple approach implicitly incorporates self-consistency in the decoding objective. Extensive evaluation shows that ID consistently enhances factuality over a wide range of language models, with substantial improvements on the TruthfulQA (+11.2%), Biographies (+15.4%) and LongFact (+8.5%) benchmarks. The performance gains amplify progressively as the number of sampled responses increases, indicating the potential of ID to scale up with repeated sampling.
翻訳日:2024-11-04 17:04:38 公開日:2024-10-03
# AIが生成した画像検出装置の逆のロバスト性について

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors ( http://arxiv.org/abs/2410.01574v1 )

ライセンス: Link先を確認
Sina Mavali, Jonas Ricker, David Pape, Yash Sharma, Asja Fischer, Lea Schoenherr, (参考訳) 生成AI(GenAI)は創造的で生産的なタスクに数え切れないほどの可能性を提供しますが、人工的に生成されたメディアは詐欺、操作、詐欺、誤情報キャンペーンなどに誤用されます。 悪意のあるメディアに関連するリスクを軽減するために、AI生成コンテンツを特定するために法医学的分類器が使用される。 しかしながら、現在の法医学的分類器は、攻撃者の存在やソーシャルメディアの劣化のような現実世界の人工物が画像に影響を及ぼす場合など、実際的なシナリオでは評価されないことが多い。 本稿では,AIGI(最先端AI生成画像)検出器を異なる攻撃シナリオ下で評価する。 本研究では,攻撃者がターゲットモデルにアクセスできない場合や,ソーシャルメディアプラットフォームで標準となっている敵の例が作成された後に後処理が行われる場合においても,現実的な設定で法医学的分類器を効果的に攻撃できることを実証する。 これらの攻撃は検出精度を著しく低下させ、検出器に依存するリスクがその利点を上回る程度に低下させる。 最後に,これらの攻撃に対して,CLIPをベースとした簡易な防御機構を提案する。

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-03
# AIが生成した画像検出装置の逆のロバスト性について

Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors ( http://arxiv.org/abs/2410.01574v2 )

ライセンス: Link先を確認
Sina Mavali, Jonas Ricker, David Pape, Yash Sharma, Asja Fischer, Lea Schönherr, (参考訳) 生成AI(GenAI)は創造的で生産的なタスクに数え切れないほどの可能性を提供しますが、人工的に生成されたメディアは詐欺、操作、詐欺、誤情報キャンペーンなどに誤用されます。 悪意のあるメディアに関連するリスクを軽減するために、AI生成コンテンツを特定するために法医学的分類器が使用される。 しかしながら、現在の法医学的分類器は、攻撃者の存在やソーシャルメディアの劣化のような現実世界の人工物が画像に影響を及ぼす場合など、実際的なシナリオでは評価されないことが多い。 本稿では,AIGI(最先端AI生成画像)検出器を異なる攻撃シナリオ下で評価する。 本研究では,攻撃者がターゲットモデルにアクセスできない場合や,ソーシャルメディアプラットフォームで標準となっている敵の例が作成された後に後処理が行われる場合においても,現実的な設定で法医学的分類器を効果的に攻撃できることを実証する。 これらの攻撃は検出精度を著しく低下させ、検出器に依存するリスクがその利点を上回る程度に低下させる。 最後に,これらの攻撃に対して,CLIPをベースとした簡易な防御機構を提案する。

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-03
# 静電対数トラップにおけるイオンの凝縮現象

Condensation phenomena of ions in an electrostatic logarithmic trap ( http://arxiv.org/abs/2410.01582v1 )

ライセンス: Link先を確認
Loris Ferrari, (参考訳) サイリンドリックチャンバーに閉じ込められたイオンガスに対する静電対数トラップ(ELT)の効果について,特にイオン-イオンクーロン相互作用と低温熱力学の影響について詳細に検討した。 放射状局在状態におけるイオンの崩壊は、軸方向陰極付近で、特別な温度$T_c$で、非退化から強い退化への急激な(しかし重要なものではない)遷移を引き起こすことが示されている。 この遷移は実際にはボソンとフェルミオンの両方に関係しており、原理的に除外されるボース=アインシュタイン凝縮 (BEC) と混同されることはない。 しかし、ボソンズにとっては、超高真空(UHV)系では圧力に対する結果として生じる影響は観測可能であるが、圧力変化が観測可能であるためにはフェルミオンの密度はUHV以下に低下する必要がある。 これは、イオン-イオン \emph{exchange}相互作用が軸陰極に沿った運動エネルギーを増加させ、フェルミ準位と非退化しきい値温度が増加するためである。

The effects of an electrostatic logarithmic trap (ELT) on an ionic gas confined in a cylindric chamber are studied in detail, with special reference to the effects of the ion-ion Coulombic interactions and the resulting low-temperature thermodynamics. The collapse of the ions in radially localized states, about the axial cathode, is shown to cause an abrupt (but not critical) transition from non degeneration to strong degeneration, at a special temperature $T_c$. This transition could actually involve both Bosons and Fermions and is not to be confused with a Bose-Einstein condensation (BEC), which is excluded in principle. However, while for Bosons the resulting effects on the pressure are observable in the ultra high vacuum (UHV) regime, the Fermions' density should fall well below UHV, for the pressure change to be observable. This is because the ion-ion \emph{exchange} interactions increase the kinetic energy along the axial cathode, which makes the Fermi level and the non degeneration threshold temperature increase accordingly.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-03
# 静電対数トラップにおけるイオンの凝縮現象

Condensation phenomena of ions in an electrostatic logarithmic trap ( http://arxiv.org/abs/2410.01582v2 )

ライセンス: Link先を確認
Loris Ferrari, (参考訳) サイリンドリックチャンバーに閉じ込められたイオンガスに対する静電対数トラップ(ELT)の効果について,特にイオン-イオンクーロン相互作用と低温熱力学の影響について詳細に検討した。 放射状局在状態におけるイオンの崩壊は、軸方向陰極付近で、特別な温度$T_c$で、非退化から強い退化への急激な(しかし重要なものではない)遷移を引き起こすことが示されている。 この遷移は実際にはボソンとフェルミオンの両方に関係しており、原理的に除外されるボース=アインシュタイン凝縮 (BEC) と混同されることはない。 しかし、ボソンズにとっては、超高真空(UHV)系では圧力に対する結果として生じる影響は観測可能であるが、圧力変化が観測可能であるためにはフェルミオンの密度はUHV以下に低下する必要がある。 これは、イオン-イオン \emph{exchange}相互作用が軸陰極に沿った運動エネルギーを増加させ、フェルミ準位と非退化しきい値温度が増加するためである。

The effects of an electrostatic logarithmic trap (ELT) on an ionic gas confined in a cylindric chamber are studied in detail, with special reference to the effects of the ion-ion Coulombic interactions and the resulting low-temperature thermodynamics. The collapse of the ions in radially localized states, about the axial cathode, is shown to cause an abrupt (but not critical) transition from non degeneration to strong degeneration, at a special temperature $T_c$. This transition could actually involve both Bosons and Fermions and is not to be confused with a Bose-Einstein condensation (BEC), which is excluded in principle. However, while for Bosons the resulting effects on the pressure are observable in the ultra high vacuum (UHV) regime, the Fermions' density should fall well below UHV, for the pressure change to be observable. This is because the ion-ion \emph{exchange} interactions increase the kinetic energy along the axial cathode, which makes the Fermi level and the non degeneration threshold temperature increase accordingly.
翻訳日:2024-11-04 16:54:49 公開日:2024-10-03
# 2状態量子プロセスとしてのファラデー効果

The Faraday Effect as a Two-State Quantum Process ( http://arxiv.org/abs/2410.01612v1 )

ライセンス: Link先を確認
Benjamin W. Butler, (参考訳) ファラデー効果は単純な2状態モデルから導出可能であることを示す。 このアプローチは量子化電磁場を使用し、左右の偏光の屈折率の違いに言及しない。 代わりに、この効果を量子化された場の2つの直交モードの間の前方レイリー散乱過程として扱い、そのため現象の量子力学的側面を強調する。

We show that the Faraday effect can be derived from a simple two-state model. This approach uses a quantized electromagnetic field and does not make reference to differences in refractive indices of left- and right-circularly polarized light. Instead it treats the effect as a forward Rayleigh scattering process between two orthogonal modes of the quantized field, and thus emphasises the quantum-mechanical aspects of the phenomenon.
翻訳日:2024-11-04 16:44:34 公開日:2024-10-03
# 2状態量子プロセスとしてのファラデー効果

The Faraday Effect as a Two-State Quantum Process ( http://arxiv.org/abs/2410.01612v2 )

ライセンス: Link先を確認
Benjamin W. Butler, (参考訳) ファラデー効果は単純な2状態モデルから導出可能であることを示す。 このアプローチは量子化電磁場を使用し、左右の偏光の屈折率の違いに言及しない。 代わりに、この効果を量子化された場の2つの直交モードの間の前方レイリー散乱過程として扱い、そのため現象の量子力学的側面を強調する。

We show that the Faraday effect can be derived from a simple two-state model. This approach uses a quantized electromagnetic field and does not make reference to differences in refractive indices of left- and right-circularly polarized light. Instead it treats the effect as a forward Rayleigh scattering process between two orthogonal modes of the quantized field, and thus emphasises the quantum-mechanical aspects of the phenomenon.
翻訳日:2024-11-04 16:34:50 公開日:2024-10-03
# 効率的な映像圧縮のためのニューラル表現の解き放つパラメータポテンシャル

Unleashing Parameter Potential of Neural Representation for Efficient Video Compression ( http://arxiv.org/abs/2410.01654v1 )

ライセンス: Link先を確認
Gai Zhang, Xinfeng Zhang, Lv Tang, Yue Li, Kai Zhang, Li Zhang, (参考訳) 何十年もの間、ビデオ圧縮技術は顕著な研究領域であった。 従来のハイブリッドビデオ圧縮フレームワークとエンドツーエンドフレームワークは、離散変換とディープラーニング技術に基づいて、フレーム内およびフレーム間参照および予測戦略を探索し続けている。 しかし、新たな暗黙的ニューラル表現(INR)技術は、ビデオ全体を基本単位としてモデル化し、フレーム内およびフレーム間相関を自動的にキャプチャし、有望なパフォーマンスを得る。 INRは、コンパクトなニューラルネットワークを使用して、ビデオ情報をネットワークパラメータに格納し、元のビデオにおける空間的および時間的冗長性を効果的に排除する。 しかし,本稿では,現在のINRビデオ圧縮手法が情報保存の可能性を十分に活用していないことを明らかにする。 パラメータ再利用によるネットワークパラメータ記憶の強化の可能性を検討する。 ネットワークをより深めることにより、圧縮性能をさらに向上させるために、実現可能なINRパラメータ再利用スキームを設計した。 実験結果から,INRビデオ圧縮の速度歪み性能が有意に向上することが示唆された。

For decades, video compression technology has been a prominent research area. Traditional hybrid video compression framework and end-to-end frameworks continue to explore various intra- and inter-frame reference and prediction strategies based on discrete transforms and deep learning techniques. However, the emerging implicit neural representation (INR) technique models entire videos as basic units, automatically capturing intra-frame and inter-frame correlations and obtaining promising performance. INR uses a compact neural network to store video information in network parameters, effectively eliminating spatial and temporal redundancy in the original video. However, in this paper, our exploration and verification reveal that current INR video compression methods do not fully exploit their potential to preserve information. We investigate the potential of enhancing network parameter storage through parameter reuse. By deepening the network, we designed a feasible INR parameter reuse scheme to further improve compression performance. Extensive experimental results show that our method significantly enhances the rate-distortion performance of INR video compression.
翻訳日:2024-11-04 16:23:10 公開日:2024-10-03
# 高能率映像圧縮のためのニューラル表現のパラメータ遅延の緩和

Releasing the Parameter Latency of Neural Representation for High-Efficiency Video Compression ( http://arxiv.org/abs/2410.01654v2 )

ライセンス: Link先を確認
Gai Zhang, Xinfeng Zhang, Lv Tang, Yue Li, Kai Zhang, Li Zhang, (参考訳) 何十年もの間、ビデオ圧縮技術は顕著な研究領域であった。 従来のハイブリッドビデオ圧縮フレームワークとエンドツーエンドフレームワークは、離散変換とディープラーニング技術に基づいて、フレーム内およびフレーム間参照および予測戦略を探索し続けている。 しかし、新たな暗黙的ニューラル表現(INR)技術は、ビデオ全体を基本単位としてモデル化し、フレーム内およびフレーム間相関を自動的にキャプチャし、有望なパフォーマンスを得る。 INRは、コンパクトなニューラルネットワークを使用して、ビデオ情報をネットワークパラメータに格納し、元のビデオにおける空間的および時間的冗長性を効果的に排除する。 しかし,本稿では,現在のINRビデオ圧縮手法が情報保存の可能性を十分に活用していないことを明らかにする。 パラメータ再利用によるネットワークパラメータ記憶の強化の可能性を検討する。 ネットワークをより深めることにより、圧縮性能をさらに向上させるために、実現可能なINRパラメータ再利用スキームを設計した。 実験結果から,INRビデオ圧縮の速度歪み性能が有意に向上することが示唆された。

For decades, video compression technology has been a prominent research area. Traditional hybrid video compression framework and end-to-end frameworks continue to explore various intra- and inter-frame reference and prediction strategies based on discrete transforms and deep learning techniques. However, the emerging implicit neural representation (INR) technique models entire videos as basic units, automatically capturing intra-frame and inter-frame correlations and obtaining promising performance. INR uses a compact neural network to store video information in network parameters, effectively eliminating spatial and temporal redundancy in the original video. However, in this paper, our exploration and verification reveal that current INR video compression methods do not fully exploit their potential to preserve information. We investigate the potential of enhancing network parameter storage through parameter reuse. By deepening the network, we designed a feasible INR parameter reuse scheme to further improve compression performance. Extensive experimental results show that our method significantly enhances the rate-distortion performance of INR video compression.
翻訳日:2024-11-04 16:13:24 公開日:2024-10-03
# ベイズ高次ReLUkanによる不確かさの定量化

Uncertainty Quantification with Bayesian Higher Order ReLU KANs ( http://arxiv.org/abs/2410.01687v1 )

ライセンス: Link先を確認
James Giroux, Cristiano Fanelli, (参考訳) 本稿では,Kolmogorov-Arnold Networks領域における不確実性定量化手法について紹介する。 本提案手法は, 自然界における一般的な手法であり, てんかんと失語症の両方へのアクセスを提供する。 また、他の様々な基底関数への一般化も可能である。 簡単な一次元関数を含む一連の閉包試験により本手法を検証し,(確率的)部分微分方程式の領域に適用する。 後者を参照して,確率項を含むことによって導入された機能的依存関係を正しく識別する手法の能力を実証する。 この作業をサポートするコードはhttps://github.com/wmdataphys/Bayesian-HR-KANにある。

We introduce the first method of uncertainty quantification in the domain of Kolmogorov-Arnold Networks, specifically focusing on (Higher Order) ReLUKANs to enhance computational efficiency given the computational demands of Bayesian methods. The method we propose is general in nature, providing access to both epistemic and aleatoric uncertainties. It is also capable of generalization to other various basis functions. We validate our method through a series of closure tests, including simple one-dimensional functions and application to the domain of (Stochastic) Partial Differential Equations. Referring to the latter, we demonstrate the method's ability to correctly identify functional dependencies introduced through the inclusion of a stochastic term. The code supporting this work can be found at https://github.com/wmdataphys/Bayesian-HR-KAN
翻訳日:2024-11-04 16:03:18 公開日:2024-10-03
# ベイズ高次ReLUkanによる不確かさの定量化

Uncertainty Quantification with Bayesian Higher Order ReLU KANs ( http://arxiv.org/abs/2410.01687v2 )

ライセンス: Link先を確認
James Giroux, Cristiano Fanelli, (参考訳) 本稿では,Kolmogorov-Arnold Networks領域における不確実性定量化手法について紹介する。 本提案手法は, 自然界における一般的な手法であり, てんかんと失語症の両方へのアクセスを提供する。 また、他の様々な基底関数への一般化も可能である。 簡単な一次元関数を含む一連の閉包試験により本手法を検証し,(確率的)部分微分方程式の領域に適用する。 後者を参照して,確率項を含むことによって導入された機能的依存関係を正しく識別する手法の能力を実証する。 この作業をサポートするコードはhttps://github.com/wmdataphys/Bayesian-HR-KANにある。

We introduce the first method of uncertainty quantification in the domain of Kolmogorov-Arnold Networks, specifically focusing on (Higher Order) ReLUKANs to enhance computational efficiency given the computational demands of Bayesian methods. The method we propose is general in nature, providing access to both epistemic and aleatoric uncertainties. It is also capable of generalization to other various basis functions. We validate our method through a series of closure tests, including simple one-dimensional functions and application to the domain of (Stochastic) Partial Differential Equations. Referring to the latter, we demonstrate the method's ability to correctly identify functional dependencies introduced through the inclusion of a stochastic term. The code supporting this work can be found at https://github.com/wmdataphys/Bayesian-HR-KAN
翻訳日:2024-11-04 16:03:18 公開日:2024-10-03
# MOREL:多目的表現学習による対人ロバスト性向上

MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning ( http://arxiv.org/abs/2410.01697v1 )

ライセンス: Link先を確認
Sedjro Salomon Hotegni, Sebastian Peitz, (参考訳) 広範囲にわたる研究によると、ディープニューラルネットワーク(DNN)は、重要でないように見えるが、モデルが劇的に異なる出力を生成する原因となる入力データに対して、わずかに敵対的な摂動に対して、$-$小変更の脆弱性があることが示されている。 特定の攻撃方法から生成された敵の例によるトレーニングデータの増加に加えて、現在の防衛戦略の多くは、元のモデルアーキテクチャコンポーネントを変更して堅牢性を改善したり、敵の攻撃に対処するためのテスト時のデータ浄化を行う必要がある。 本研究では,学習中の強機能表現学習が,元のモデルの堅牢性を大幅に向上させることを示す。 本稿では,多目的特徴表現学習手法であるMORELを提案する。 本手法は,コサイン類似性損失と多陽性コントラスト損失を用いて,モデルエンコーダの自然な特徴と対角的特徴を整合させ,密集クラスタリングを確実にする埋め込み空間を含む。 同時に、分類器は正確な予測をするために動機付けされる。 大規模な実験を通じて、我々の手法は、ホワイトボックスやブラックボックスの敵攻撃に対するDNNの堅牢性を大幅に向上させ、同様にアーキテクチャの変更やテストタイムのデータ浄化を必要としない他の手法よりも優れていることを示した。 私たちのコードはhttps://github.com/salomonhotegni/MORELで利用可能です。

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model's robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL
翻訳日:2024-11-04 15:53:34 公開日:2024-10-03
# MOREL:多目的表現学習による対人ロバスト性向上

MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning ( http://arxiv.org/abs/2410.01697v2 )

ライセンス: Link先を確認
Sedjro Salomon Hotegni, Sebastian Peitz, (参考訳) 広範囲にわたる研究によると、ディープニューラルネットワーク(DNN)は、重要でないように見えるが、モデルが劇的に異なる出力を生成する原因となる入力データに対して、わずかに敵対的な摂動に対して、$-$小変更の脆弱性があることが示されている。 特定の攻撃方法から生成された敵の例によるトレーニングデータの増加に加えて、現在の防衛戦略の多くは、元のモデルアーキテクチャコンポーネントを変更して堅牢性を改善したり、敵の攻撃に対処するためのテスト時のデータ浄化を行う必要がある。 本研究では,学習中の強機能表現学習が,元のモデルの堅牢性を大幅に向上させることを示す。 本稿では,多目的特徴表現学習手法であるMORELを提案する。 本手法は,コサイン類似性損失と多陽性コントラスト損失を用いて,モデルエンコーダの自然な特徴と対角的特徴を整合させ,密集クラスタリングを確実にする埋め込み空間を含む。 同時に、分類器は正確な予測をするために動機付けされる。 大規模な実験を通じて、我々の手法は、ホワイトボックスやブラックボックスの敵攻撃に対するDNNの堅牢性を大幅に向上させ、同様にアーキテクチャの変更やテストタイムのデータ浄化を必要としない他の手法よりも優れていることを示した。 私たちのコードはhttps://github.com/salomonhotegni/MORELで利用可能です。

Extensive research has shown that deep neural networks (DNNs) are vulnerable to slight adversarial perturbations$-$small changes to the input data that appear insignificant but cause the model to produce drastically different outputs. In addition to augmenting training data with adversarial examples generated from a specific attack method, most of the current defense strategies necessitate modifying the original model architecture components to improve robustness or performing test-time data purification to handle adversarial attacks. In this work, we demonstrate that strong feature representation learning during training can significantly enhance the original model's robustness. We propose MOREL, a multi-objective feature representation learning approach, encouraging classification models to produce similar features for inputs within the same class, despite perturbations. Our training method involves an embedding space where cosine similarity loss and multi-positive contrastive loss are used to align natural and adversarial features from the model encoder and ensure tight clustering. Concurrently, the classifier is motivated to achieve accurate predictions. Through extensive experiments, we demonstrate that our approach significantly enhances the robustness of DNNs against white-box and black-box adversarial attacks, outperforming other methods that similarly require no architectural changes or test-time data purification. Our code is available at https://github.com/salomonhotegni/MOREL
翻訳日:2024-11-04 15:53:34 公開日:2024-10-03
# 人間の直感を模倣する:認知的信念によるQ-Learning

Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning ( http://arxiv.org/abs/2410.01739v1 )

ライセンス: Link先を確認
Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao, (参考訳) 強化学習は、堅牢性と説明可能性に関連する様々な環境において課題に遭遇する。 従来のQ学習アルゴリズムは、決定を効果的に行い、歴史学習体験を利用することはできない。 これらの制約を克服するために、主観的信念モデリングをQラーニングフレームワークに統合し、エージェントに人間のような学習能力と推論能力を与えることで意思決定精度を向上させる認知的信念駆動型Qラーニング(CBDQ)を提案する。 本手法は,認知科学からインスピレーションを得て,行動期待に対する主観的信念分布を維持し,エージェントが各決定に関連する潜在的な確率を判断できるクラスタベースの主観的信念モデルを活用する。 CBDQは、過大評価された現象を効果的に軽減し、過去の経験を現在の文脈情報と統合し、人間の意思決定のダイナミクスを模倣することで意思決定ポリシーを最適化する。 各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。 その結果,CBDQはこれらの環境に対する適応性,頑健性,人間的な特性を強く示し,他のベースラインよりも優れていた。 この研究が、Q-ラーニングの理解と説明について、研究者に新たな視点を与えることを期待しています。

Reinforcement learning encounters challenges in various environments related to robustness and explainability. Traditional Q-learning algorithms cannot effectively make decisions and utilize the historical learning experience. To overcome these limitations, we propose Cognitive Belief-Driven Q-Learning (CBDQ), which integrates subjective belief modeling into the Q-learning framework, enhancing decision-making accuracy by endowing agents with human-like learning and reasoning capabilities. Drawing inspiration from cognitive science, our method maintains a subjective belief distribution over the expectation of actions, leveraging a cluster-based subjective belief model that enables agents to reason about the potential probability associated with each decision. CBDQ effectively mitigates overestimated phenomena and optimizes decision-making policies by integrating historical experiences with current contextual information, mimicking the dynamics of human decision-making. We evaluate the proposed method on discrete control benchmark tasks in various complicate environments. The results demonstrate that CBDQ exhibits stronger adaptability, robustness, and human-like characteristics in handling these environments, outperforming other baselines. We hope this work will give researchers a fresh perspective on understanding and explaining Q-learning.
翻訳日:2024-11-04 15:43:48 公開日:2024-10-03
# 人間の直感を模倣する:認知的信念によるQ-Learning

Mimicking Human Intuition: Cognitive Belief-Driven Q-Learning ( http://arxiv.org/abs/2410.01739v2 )

ライセンス: Link先を確認
Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao, (参考訳) 強化学習は、堅牢性と説明可能性に関連する様々な環境において課題に遭遇する。 従来のQ学習アルゴリズムは、決定を効果的に行い、歴史学習体験を利用することはできない。 これらの制約を克服するために、主観的信念モデリングをQラーニングフレームワークに統合し、エージェントに人間のような学習能力と推論能力を与えることで意思決定精度を向上させる認知的信念駆動型Qラーニング(CBDQ)を提案する。 本手法は,認知科学からインスピレーションを得て,行動期待に対する主観的信念分布を維持し,エージェントが各決定に関連する潜在的な確率を判断できるクラスタベースの主観的信念モデルを活用する。 CBDQは、過大評価された現象を効果的に軽減し、過去の経験を現在の文脈情報と統合し、人間の意思決定のダイナミクスを模倣することで意思決定ポリシーを最適化する。 各種複雑環境における離散制御ベンチマークタスクについて,提案手法の評価を行った。 その結果,CBDQはこれらの環境に対する適応性,頑健性,人間的な特性を強く示し,他のベースラインよりも優れていた。 この研究が、Q-ラーニングの理解と説明について、研究者に新たな視点を与えることを期待しています。

Reinforcement learning encounters challenges in various environments related to robustness and explainability. Traditional Q-learning algorithms cannot effectively make decisions and utilize the historical learning experience. To overcome these limitations, we propose Cognitive Belief-Driven Q-Learning (CBDQ), which integrates subjective belief modeling into the Q-learning framework, enhancing decision-making accuracy by endowing agents with human-like learning and reasoning capabilities. Drawing inspiration from cognitive science, our method maintains a subjective belief distribution over the expectation of actions, leveraging a cluster-based subjective belief model that enables agents to reason about the potential probability associated with each decision. CBDQ effectively mitigates overestimated phenomena and optimizes decision-making policies by integrating historical experiences with current contextual information, mimicking the dynamics of human decision-making. We evaluate the proposed method on discrete control benchmark tasks in various complicate environments. The results demonstrate that CBDQ exhibits stronger adaptability, robustness, and human-like characteristics in handling these environments, outperforming other baselines. We hope this work will give researchers a fresh perspective on understanding and explaining Q-learning.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-03
# LEOPARD : テキストリッチマルチイメージタスクの視覚言語モデル

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks ( http://arxiv.org/abs/2410.01744v1 )

ライセンス: Link先を確認
Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu, (参考訳) テキストリッチなイメージは、テキストが全体的な理解を導く中心的な視覚要素として機能し、プレゼンテーションスライド、スキャンされたドキュメント、Webページスナップショットなどの現実世界のアプリケーションで広く使われている。 複数のテキストリッチな画像を含むタスクは、個々の画像の内容を理解するだけでなく、複数の視覚入力にまたがる相互関係や論理フローを推論する必要があるため、特に困難である。 これらのシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチなマルチイメージシナリオのための高品質な命令チューニングデータセットの不足、(2)画像解像度と視覚的特徴系列長とのバランスの難しさ、という2つの主要な課題により、そのようなタスクに対処するのに苦労している。 これらの課題に対処するために,複数のテキストリッチな画像を含む視覚言語タスクに特化して設計されたMLLMである‘OurMethod’を提案する。 まず、テキストに富んだマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。 第2に、入力画像のアスペクト比と解像度に基づいて、視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。 幅広いベンチマーク実験により、テキストに富んだマルチイメージ評価と一般ドメイン評価における競合性能において、我々のモデルの優れた能力を実証した。

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose \OurMethod, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-03
# Leopard: テキストリッチなマルチイメージタスクのためのビジョン言語モデル

Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks ( http://arxiv.org/abs/2410.01744v2 )

ライセンス: Link先を確認
Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu, (参考訳) テキストリッチなイメージは、テキストが全体的な理解を導く中心的な視覚要素として機能し、プレゼンテーションスライド、スキャンされたドキュメント、Webページスナップショットなどの現実世界のアプリケーションで広く使われている。 複数のテキストリッチな画像を含むタスクは、個々の画像の内容を理解するだけでなく、複数の視覚入力にまたがる相互関係や論理フローを推論する必要があるため、特に困難である。 これらのシナリオの重要性にもかかわらず、現在のマルチモーダル大規模言語モデル(MLLM)は、(1)テキストリッチなマルチイメージシナリオのための高品質な命令チューニングデータセットの不足、(2)画像解像度と視覚的特徴系列長とのバランスの難しさ、という2つの主要な課題により、そのようなタスクに対処するのに苦労している。 これらの課題に対処するために、複数のテキストリッチな画像を含む視覚言語タスクに特化して設計されたMLLMであるLeopardを提案する。 まず、テキストに富んだマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。 第2に、入力画像のアスペクト比と解像度に基づいて、視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。 幅広いベンチマーク実験により、テキストに富んだマルチイメージ評価と一般ドメイン評価における競合性能において、我々のモデルの優れた能力を実証した。

Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose Leopard, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-03
# 大規模言語モデルの一般化複雑性の定量化

Quantifying Generalization Complexity for Large Language Models ( http://arxiv.org/abs/2410.01769v1 )

ライセンス: Link先を確認
Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass, (参考訳) 大規模言語モデル(LLM)は複雑なクエリの理解と高度なタスクの実行において例外的な能力を示してきたが、それらの一般化能力は暗記と深く絡み合っており、より正確な評価を必要としている。 この課題に対処するために, LLMの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。 Scyllaは5段階の複雑さで20のタスクを通して、ID(In-distriion)データとOOD(Out-of-distriion)データの両方でモデルパフォーマンスを評価することによって、記憶の一般化から切り離す。 広範な実験により,タスク複雑性とIDデータとOODデータのパフォーマンスギャップの非単調な関係が明らかとなり,一般化バレー(Generalization Valley)と呼ぶ。 具体的には、この現象は(臨界複雑性と呼ばれる)臨界しきい値を示し、非一般化可能な振る舞いに依存し、LLMの一般化能力の上限を示す。 モデルのサイズが大きくなるにつれて、臨界複雑性はタスクの複雑さのレベルにシフトし、大きなモデルが暗記を過度に参照する前により複雑な推論タスクを処理できることが示唆される。 Scyllaと臨界複雑性の概念を活用して、LLaMAやQwenファミリーのようなオープンソースモデルとClaudeやGPTのようなオープンソースモデルの両方を含む28LLMをベンチマークし、より堅牢な評価を提供し、LLMの一般化能力のより明確な理解を確立する。

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-03
# 大規模言語モデルの一般化複雑性の定量化

Quantifying Generalization Complexity for Large Language Models ( http://arxiv.org/abs/2410.01769v2 )

ライセンス: Link先を確認
Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass, (参考訳) 大規模言語モデル(LLM)は複雑なクエリの理解と高度なタスクの実行において例外的な能力を示してきたが、それらの一般化能力は暗記と深く絡み合っており、より正確な評価を必要としている。 この課題に対処するために, LLMの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。 Scyllaは5段階の複雑さで20のタスクを通して、ID(In-distriion)データとOOD(Out-of-distriion)データの両方でモデルパフォーマンスを評価することによって、記憶の一般化から切り離す。 広範な実験により,タスク複雑性とIDデータとOODデータのパフォーマンスギャップの非単調な関係が明らかとなり,一般化バレー(Generalization Valley)と呼ぶ。 具体的には、この現象は(臨界複雑性と呼ばれる)臨界しきい値を示し、非一般化可能な振る舞いに依存し、LLMの一般化能力の上限を示す。 モデルのサイズが大きくなるにつれて、臨界複雑性はタスクの複雑さのレベルにシフトし、大きなモデルが暗記を過度に参照する前により複雑な推論タスクを処理できることが示唆される。 Scyllaと臨界複雑性の概念を活用して、LLaMAやQwenファミリーのようなオープンソースモデルとClaudeやGPTのようなオープンソースモデルの両方を含む28LLMをベンチマークし、より堅牢な評価を提供し、LLMの一般化能力のより明確な理解を確立する。

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.
翻訳日:2024-11-04 15:24:19 公開日:2024-10-03
# TopER:グラフ表現学習におけるトポロジ的埋め込み

TopER: Topological Embeddings in Graph Representation Learning ( http://arxiv.org/abs/2410.01778v1 )

ライセンス: Link先を確認
Astrit Tola, Funmilola Mary Taiwom, Cuneyt Gurcan Akcora, Baris Coskunuzer, (参考訳) グラフ埋め込みはグラフ表現学習において重要な役割を担い、機械学習モデルによるグラフ構造化データの探索と解釈を可能にする。 しかし、既存の手法は、しばしば不透明で高次元の埋め込みに依存し、解釈可能性や現実的な可視化を制限している。 本研究では、トポロジカルデータ解析に基づく新しい低次元埋め込み手法であるトポロジカル進化速度(TopER)を紹介する。 TopERは、グラフサブストラクチャの進化率を計算することによって、重要なトポロジ的アプローチである永続化ホモロジーを単純化し、グラフデータの直感的かつ解釈可能な可視化を実現する。 このアプローチは、グラフデータセットの探索を強化するだけでなく、グラフクラスタリングや分類タスクにおける競合的なパフォーマンスも提供する。 私たちのTopERベースのモデルは、分類、クラスタリング、可視化といったタスクにおいて、分子、生物学的、およびソーシャルネットワークのデータセットにまたがる最先端の結果を達成したり、超えたりします。

Graph embeddings play a critical role in graph representation learning, allowing machine learning models to explore and interpret graph-structured data. However, existing methods often rely on opaque, high-dimensional embeddings, limiting interpretability and practical visualization. In this work, we introduce Topological Evolution Rate (TopER), a novel, low-dimensional embedding approach grounded in topological data analysis. TopER simplifies a key topological approach, Persistent Homology, by calculating the evolution rate of graph substructures, resulting in intuitive and interpretable visualizations of graph data. This approach not only enhances the exploration of graph datasets but also delivers competitive performance in graph clustering and classification tasks. Our TopER-based models achieve or surpass state-of-the-art results across molecular, biological, and social network datasets in tasks such as classification, clustering, and visualization.
翻訳日:2024-11-04 15:24:18 公開日:2024-10-03
# TopER:グラフ表現学習におけるトポロジ的埋め込み

TopER: Topological Embeddings in Graph Representation Learning ( http://arxiv.org/abs/2410.01778v2 )

ライセンス: Link先を確認
Astrit Tola, Funmilola Mary Taiwo, Cuneyt Gurcan Akcora, Baris Coskunuzer, (参考訳) グラフ埋め込みはグラフ表現学習において重要な役割を担い、機械学習モデルによるグラフ構造化データの探索と解釈を可能にする。 しかし、既存の手法は、しばしば不透明で高次元の埋め込みに依存し、解釈可能性や現実的な可視化を制限している。 本研究では、トポロジカルデータ解析に基づく新しい低次元埋め込み手法であるトポロジカル進化速度(TopER)を紹介する。 TopERは、グラフサブストラクチャの進化率を計算することによって、重要なトポロジ的アプローチである永続化ホモロジーを単純化し、グラフデータの直感的かつ解釈可能な可視化を実現する。 このアプローチは、グラフデータセットの探索を強化するだけでなく、グラフクラスタリングや分類タスクにおける競合的なパフォーマンスも提供する。 私たちのTopERベースのモデルは、分類、クラスタリング、可視化といったタスクにおいて、分子、生物学的、およびソーシャルネットワークのデータセットにまたがる最先端の結果を達成したり、超えたりします。

Graph embeddings play a critical role in graph representation learning, allowing machine learning models to explore and interpret graph-structured data. However, existing methods often rely on opaque, high-dimensional embeddings, limiting interpretability and practical visualization. In this work, we introduce Topological Evolution Rate (TopER), a novel, low-dimensional embedding approach grounded in topological data analysis. TopER simplifies a key topological approach, Persistent Homology, by calculating the evolution rate of graph substructures, resulting in intuitive and interpretable visualizations of graph data. This approach not only enhances the exploration of graph datasets but also delivers competitive performance in graph clustering and classification tasks. Our TopER-based models achieve or surpass state-of-the-art results across molecular, biological, and social network datasets in tasks such as classification, clustering, and visualization.
翻訳日:2024-11-04 15:24:18 公開日:2024-10-03
# リジェネシス:LSMは自己改善を通じて一般論に成長できる

ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement ( http://arxiv.org/abs/2410.02108v1 )

ライセンス: Link先を確認
Xiangyu Peng, Congying Xia, Xinyi Yang, Caiming Xiong, Chien-Sheng Wu, Chen Xing, (参考訳) 学習後の大規模言語モデル (LLM) は推論能力を高めることができる。 しかし、このような高品質な軌跡データを取得するには、一般的に人間や優れたモデルからの細心の注意を要する。 本稿では,LLMが学習データとして自己合成による推論を,追加の監督なしにどこまで改善できるかを考察する。 既存の自己合成手法であるSTaRは、一般化の貧弱さからドメイン外推論タスク(OOD)に苦しむ。 自己合成推論経路がタスク固有であり,一般的なタスクに依存しない推論誘導が欠如していることが原因であると仮定する。 そこで我々は,自己改善(ReGenesis)による推論一般論を,抽象的から具体的へと進化させることにより,学習後データとして自己合成する手法を提案する。 より具体的には、ReGenesisは、一般的な推論ガイドラインをタスク固有のものに変換し、推論構造を生成し、その後、既存のメソッドで使用される人間設計のタスク固有の例を必要とせずに、これらの構造を推論パスに変換することによって、推論パスを自己合成する。 ReGenesisは、既存の手法と比較してテストされたすべてのドメイン内およびOOD設定において優れた性能を発揮することを示す。 6つのOODタスクに対して、以前の手法ではトレーニング後の平均パフォーマンスは4.6%低下していたが、ReGenesisは約6.1%向上した。 また、我々のフレームワークの詳細な分析を行い、ReGenesisが様々なLLMおよび設計選択において有効であることを示す。

Post-training Large Language Models (LLMs) with explicit reasoning trajectories can enhance their reasoning abilities. However, acquiring such high-quality trajectory data typically demands meticulous supervision from humans or superior models, which can be either expensive or license-constrained. In this paper, we explore how far an LLM can improve its reasoning by self-synthesizing reasoning paths as training data without any additional supervision. Existing self-synthesizing methods, such as STaR, suffer from poor generalization to out-of-domain (OOD) reasoning tasks. We hypothesize it is due to that their self-synthesized reasoning paths are too task-specific, lacking general task-agnostic reasoning guidance. To address this, we propose Reasoning Generalist via Self-Improvement (ReGenesis), a method to self-synthesize reasoning paths as post-training data by progressing from abstract to concrete. More specifically, ReGenesis self-synthesizes reasoning paths by converting general reasoning guidelines into task-specific ones, generating reasoning structures, and subsequently transforming these structures into reasoning paths, without the need for human-designed task-specific examples used in existing methods. We show that ReGenesis achieves superior performance on all in-domain and OOD settings tested compared to existing methods. For six OOD tasks specifically, while previous methods exhibited an average performance decrease of approximately 4.6% after post training, ReGenesis delivers around 6.1% performance improvement. We also conduct in-depth analysis of our framework and show ReGenesis is effective across various LLMs and design choices.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-03
# Mamba Neural Operator:誰が勝つか? トランスフォーマー vs. PDEのための状態空間モデル

Mamba Neural Operator: Who Wins? Transformers vs. State-Space Models for PDEs ( http://arxiv.org/abs/2410.02113v1 )

ライセンス: Link先を確認
Chun-Wun Cheng, Jiahao Huang, Yi Zhang, Guang Yang, Carola-Bibiane Schönlieb, Angelica I Aviles-Rivero, (参考訳) 偏微分方程式(PDE)は複雑な物理系をモデル化するために広く用いられているが、それらを効率的に解くことは重要な課題である。 最近、複雑な依存関係をキャプチャできるため、TransformerがPDEの好みのアーキテクチャとして登場した。 しかし、彼らは連続力学と長距離相互作用を表現するのに苦労している。 これらの制限を克服するために,PDEを解くニューラルネットワーク技術を強化する新しいフレームワークであるMamba Neural Operator (MNO)を導入する。 MNOは構造化状態空間モデル(SSM)とニューラル演算子の間の公式な理論的関係を確立し、トランスフォーマーベースのモデルを含む多様なアーキテクチャに適応可能な統一構造を提供する。 SSMの構造的設計を活用することで、MNOは従来のトランスフォーマーよりもより効果的に長距離の依存関係と連続的なダイナミクスをキャプチャする。 広義解析により、MNOは神経オペレーターの表現力と精度を大幅に向上させ、PDE関連タスクの補完だけでなく優れたフレームワークとなり、効率的な表現と正確な解近似のギャップを埋めることを示した。

Partial differential equations (PDEs) are widely used to model complex physical systems, but solving them efficiently remains a significant challenge. Recently, Transformers have emerged as the preferred architecture for PDEs due to their ability to capture intricate dependencies. However, they struggle with representing continuous dynamics and long-range interactions. To overcome these limitations, we introduce the Mamba Neural Operator (MNO), a novel framework that enhances neural operator-based techniques for solving PDEs. MNO establishes a formal theoretical connection between structured state-space models (SSMs) and neural operators, offering a unified structure that can adapt to diverse architectures, including Transformer-based models. By leveraging the structured design of SSMs, MNO captures long-range dependencies and continuous dynamics more effectively than traditional Transformers. Through extensive analysis, we show that MNO significantly boosts the expressive power and accuracy of neural operators, making it not just a complement but a superior framework for PDE-related tasks, bridging the gap between efficient representation and accurate solution approximation.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-03
# 知識蒸留によるデータセット蒸留-ディープネットワークの効率的な自己監督型事前学習を目指して-

Dataset Distillation via Knowledge Distillation: Towards Efficient Self-Supervised Pre-Training of Deep Networks ( http://arxiv.org/abs/2410.02116v1 )

ライセンス: Link先を確認
Siddharth Joshi, Jiayi Ni, Baharan Mirzasoleiman, (参考訳) データセット蒸留(DD)は、限られたメモリと計算量でディープネットワークを効率的に訓練できる小さな合成データセットを生成する。 教師付き学習のためのDD手法の成功にもかかわらず、ディープモデルの自己教師付き事前学習のためのDDは、未適応のままである。 ラベル付きデータに対する事前トレーニングは、ラベル付きデータに制限のある下流タスクに効率的に一般化するために重要である。 本研究では,SSL事前トレーニングのための最初の有効なDD法を提案する。 まず、理論上かつ実証的に、SSL勾配のばらつきが大きいため、教師付きDDメソッドのSSLへの適用は失敗することを示す。 そこで本研究では,知識蒸留(KD)文献の知見に頼ってこの問題に対処する。 具体的には、SSLでトレーニングされたより大きな教師モデルの表現に合わせるために、小さな学生モデルを訓練する。 そして,学生モデルの学習軌跡をマッチングして,小さな合成データセットを生成する。 KDの目的はSSLよりもかなり分散度が低いため、我々の手法は、高品質エンコーダの事前訓練に成功できる合成データセットを生成することができる。 広範囲な実験により, 蒸留セットは, ラベル付き限られたデータの存在下で, 様々な下流タスクにおいて, 先行作業よりも最大13%高い精度で処理できることが判明した。

Dataset distillation (DD) generates small synthetic datasets that can efficiently train deep networks with a limited amount of memory and compute. Despite the success of DD methods for supervised learning, DD for self-supervised pre-training of deep models has remained unaddressed. Pre-training on unlabeled data is crucial for efficiently generalizing to downstream tasks with limited labeled data. In this work, we propose the first effective DD method for SSL pre-training. First, we show, theoretically and empirically, that naive application of supervised DD methods to SSL fails, due to the high variance of the SSL gradient. Then, we address this issue by relying on insights from knowledge distillation (KD) literature. Specifically, we train a small student model to match the representations of a larger teacher model trained with SSL. Then, we generate a small synthetic dataset by matching the training trajectories of the student models. As the KD objective has considerably lower variance than SSL, our approach can generate synthetic datasets that can successfully pre-train high-quality encoders. Through extensive experiments, we show that our distilled sets lead to up to 13% higher accuracy than prior work, on a variety of downstream tasks, in the presence of limited labeled data.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-03
# ロスシー協調型UAV中継ネットワーク:停止確率解析と位置最適化

Lossy Cooperative UAV Relaying Networks: Outage Probability Analysis and Location Optimization ( http://arxiv.org/abs/2410.02120v1 )

ライセンス: Link先を確認
Ya Lian, Wensheng Lin, Lixin Li, Fucheng Yang, Zhu Han, Tad Matsumoto, (参考訳) 本稿では,無人無人航空機(UAV)の遠隔通信システムの性能について述べる。 このシステムでは、UAVリレーは損失フォワード(LF)戦略を採用し、受信機は受信した情報に対して一定の歪み条件を有する。 上述のシステムでは、まず、システムの達成可能な速度歪み領域を導出する。 そして、地域分析に基づいて、チャネルが中上$m$の流行に苦しむ場合のシステム停止確率を解析する。 最後に,Soft Actor-Critic (SAC) アルゴリズムに基づく最適リレー位置同定アルゴリズムを設計し,停止確率を最小化するために最適なUAV位置を決定する。 シミュレーションの結果,提案アルゴリズムはUAV位置を最適化し,システム停止確率を効果的に低減できることがわかった。

In this paper, performance of a lossy cooperative unmanned aerial vehicle (UAV) relay communication system is analyzed. In this system, the UAV relay adopts lossy forward (LF) strategy and the receiver has certain distortion requirements for the received information. For the system described above, we first derive the achievable rate distortion region of the system. Then, on the basis of the region analysis, the system outage probability when the channel suffers Nakagami-$m$ fading is analyzed. Finally, we design an optimal relay position identification algorithm based on the Soft Actor-Critic (SAC) algorithm, which determines the optimal UAV position to minimize the outage probability. The simulation results show that the proposed algorithm can optimize the UAV position and reduce the system outage probability effectively.
翻訳日:2024-11-04 08:45:48 公開日:2024-10-03
# SC-CDM:コンパクト拡散モデルによる画像意味コミュニケーションの品質向上

SC-CDM: Enhancing Quality of Image Semantic Communication with a Compact Diffusion Model ( http://arxiv.org/abs/2410.02121v1 )

ライセンス: Link先を確認
Kexin Zhang, Lixin Li, Wensheng Lin, Yuna Yan, Wenchi Cheng, Zhu Han, (参考訳) セマンティックコミュニケーション(SC)は,第6世代(6G)モバイル通信システムにおいて注目されている新興技術である。 しかし、再建された像の知覚的品質を十分に考慮した文献はほとんどない。 そこで本研究では,無線画像伝送のための生成SC(SC-CDM)を提案する。 このアプローチは、コンパクトな拡散モデルを活用し、伝送後に再構成された画像の忠実度と意味的精度を改善し、帯域幅に制約のある環境でも本質的な内容が保存されることを保証する。 具体的には、スウィントランスフォーマーを効率的な意味的特徴抽出と圧縮のための新しいバックボーンとして再設計することを目指している。 次に、受信機はスリム先行と画像再構成ネットワークを統合する。 従来の拡散モデル(DM)と比較して、DMの頑健な分布マッピング機能を活用して、コンパクトな条件ベクトルを生成し、画像回復を導くことにより、再構成された画像の知覚的詳細性を高める。 最後に、提案アルゴリズムの有効性とロバスト性を検証し、さらにCNNベースのDeepJSCC上でピーク信号対雑音比(PSNR)を17%以上向上させるための一連の評価およびアブレーション研究を行った。

Semantic Communication (SC) is an emerging technology that has attracted much attention in the sixth-generation (6G) mobile communication systems. However, few literature has fully considered the perceptual quality of the reconstructed image. To solve this problem, we propose a generative SC for wireless image transmission (denoted as SC-CDM). This approach leverages compact diffusion models to improve the fidelity and semantic accuracy of the images reconstructed after transmission, ensuring that the essential content is preserved even in bandwidth-constrained environments. Specifically, we aim to redesign the swin Transformer as a new backbone for efficient semantic feature extraction and compression. Next, the receiver integrates the slim prior and image reconstruction networks. Compared to traditional Diffusion Models (DMs), it leverages DMs' robust distribution mapping capability to generate a compact condition vector, guiding image recovery, thus enhancing the perceptual details of the reconstructed images. Finally, a series of evaluation and ablation studies are conducted to validate the effectiveness and robustness of the proposed algorithm and further increase the Peak Signal-to-Noise Ratio (PSNR) by over 17% on top of CNN-based DeepJSCC.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# BayesCNS: 大規模検索システムにおけるコールドスタートと非定常性に対処するための統一ベイズ的アプローチ

BayesCNS: A Unified Bayesian Approach to Address Cold Start and Non-Stationarity in Search Systems at Scale ( http://arxiv.org/abs/2410.02126v1 )

ライセンス: Link先を確認
Randy Ardywibowo, Rakesh Sunki, Lucy Kuo, Sankalp Nayak, (参考訳) 検索やレコメンデーションプラットフォームで使用される情報検索(IR)システムでは、ユーザクエリに応じてアイテムをランク付けするためにLTR(Learning-to-Rank)モデルが頻繁に使用される。 これらのモデルは、クリックやエンゲージメントデータといったユーザーインタラクションに由来する機能に大きく依存している。 この依存は、ユーザエンゲージメントに欠ける項目に対するコールドスタートの問題を導入し、時間の経過とともにユーザ行動の定常的変化に適応する上での課題を提起する。 本稿では,オンライン学習問題として両課題に一様に対処し,大規模検索システムにおけるコールドスタートおよび非定常分布シフトを処理するベイズ型アプローチであるベイズCNSを提案する。 BayesCNSは、オンラインに集められた新しいユーザーインタラクションを継続的に更新するユーザとイテムのインタラクションの事前分布を推定することで、これを達成している。 このオンライン学習手順は、ローダモデルによりガイドされ、ローダが提供するコンテキスト情報を用いて、関連する項目の効率的な探索を可能にする。 我々はベイズCNSを大規模検索システムに導入し、オフラインおよびオンラインの総合実験を通じてその効果を実証した。 特に、オンラインのA/B実験では、新しいアイテムインタラクションが10.60%増加し、既存のプロダクションベースラインよりも総合的な成功指標が1.05%改善した。

Information Retrieval (IR) systems used in search and recommendation platforms frequently employ Learning-to-Rank (LTR) models to rank items in response to user queries. These models heavily rely on features derived from user interactions, such as clicks and engagement data. This dependence introduces cold start issues for items lacking user engagement and poses challenges in adapting to non-stationary shifts in user behavior over time. We address both challenges holistically as an online learning problem and propose BayesCNS, a Bayesian approach designed to handle cold start and non-stationary distribution shifts in search systems at scale. BayesCNS achieves this by estimating prior distributions for user-item interactions, which are continuously updated with new user interactions gathered online. This online learning procedure is guided by a ranker model, enabling efficient exploration of relevant items using contextual information provided by the ranker. We successfully deployed BayesCNS in a large-scale search system and demonstrated its efficacy through comprehensive offline and online experiments. Notably, an online A/B experiment showed a 10.60% increase in new item interactions and a 1.05% improvement in overall success metrics over the existing production baseline.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# 金型を破る:大規模MARL専門化の課題

Breaking the mold: The challenge of large scale MARL specialization ( http://arxiv.org/abs/2410.02128v1 )

ライセンス: Link先を確認
Stefan Juang, Hugh Cao, Arielle Zhou, Ruochen Liu, Nevin L. Zhang, Elvis Liu, (参考訳) マルチエージェント学習において、主なアプローチは一般化に焦点をあて、個々のエージェントの最適化を無視することが多い。 この一般化に重点を置いていると、エージェントが独自の強みを利用する能力が制限され、非効率になる。 本稿では,マルチエージェントシステムにおけるエージェントの個別化を促進する手法として,比較アドバンテージ最大化(CAM)を提案する。 CAMは2段階のプロセスを採用し、集中型集団訓練と、比較優位の最大化による個別の専門化を組み合わせている。 CAMは、個々のエージェントのパフォーマンスが13.2%向上し、最先端システムに比べて14.9%の振る舞いの多様性が向上した。 CAMの成功は、個別のエージェント専門化の重要性を強調し、マルチエージェントシステム開発の新たな方向性を示唆している。

In multi-agent learning, the predominant approach focuses on generalization, often neglecting the optimization of individual agents. This emphasis on generalization limits the ability of agents to utilize their unique strengths, resulting in inefficiencies. This paper introduces Comparative Advantage Maximization (CAM), a method designed to enhance individual agent specialization in multiagent systems. CAM employs a two-phase process, combining centralized population training with individual specialization through comparative advantage maximization. CAM achieved a 13.2% improvement in individual agent performance and a 14.9% increase in behavioral diversity compared to state-of-the-art systems. The success of CAM highlights the importance of individual agent specialization, suggesting new directions for multi-agent system development.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# DMC-Net:CT画像における膵分画のための軽量動的マルチスケール・マルチリゾリューション・コンボリューション・ネットワーク

DMC-Net: Lightweight Dynamic Multi-Scale and Multi-Resolution Convolution Network for Pancreas Segmentation in CT Images ( http://arxiv.org/abs/2410.02129v1 )

ライセンス: Link先を確認
Jin Yang, Daniel S. Marcus, Aristeidis Sotiras, (参考訳) 畳み込みニューラルネットワーク(CNN)は医用画像セグメンテーションにおいて極めて有効である。 しかし、臓器の形状や大きさの大きなオブジェクト間変異をモデル化し、グローバルな長距離コンテキスト情報を活用することに制限があるかもしれない。 これは、CNNが典型的には固定サイズの局所受容場との畳み込みを採用しており、グローバル情報を利用するメカニズムが欠如しているためである。 これらの制約に対処するため,動的マルチソリューション・コンボリューション(DMRC)と動的マルチスケール・コンボリューション(DMSC)モジュールを開発した。 どちらのモジュールも単一の畳み込みの表現能力を強化し、様々な拡張された特徴とグローバルなコンテキスト情報をキャプチャする。 これはDMRCモジュールにおいて、解像度の異なる画像に畳み込みフィルタを用いることで実現され、続いて動的メカニズムを用いて特徴間のグローバルな相互依存性をモデル化する。 対照的に、DMSCモジュールは、異なるカーネルサイズで畳み込みを採用し、動的メカニズムを利用してグローバルなコンテキスト情報を抽出することで、異なるスケールで特徴を抽出する。 DMSCモジュールにおける異なるカーネルサイズでの畳み込みの利用は、計算複雑性を増大させる可能性がある。 この負担を軽減するため,カーネルサイズが大きい畳み込み層に軽量な設計を提案する。 したがって、DMSCとDMRCモジュールは単一の畳み込みに対する軽量なドロップイン置換として設計されており、エンドツーエンドのトレーニングのために一般的なCNNアーキテクチャに容易に統合できる。 このセグメンテーションネットワークは、DMSCとDMRCモジュールを標準のU-Netアーキテクチャに組み込んだもので、動的マルチスケール・マルチレゾリューション・コンボリューション・ネットワーク(DMC-Net)と呼ばれる。 その結果,提案するDMSCとDMRCは,単一畳み込みの表現能力を向上し,セグメンテーション精度を向上させることができた。

Convolutional neural networks (CNNs) have shown great effectiveness in medical image segmentation. However, they may be limited in modeling large inter-subject variations in organ shapes and sizes and exploiting global long-range contextual information. This is because CNNs typically employ convolutions with fixed-sized local receptive fields and lack the mechanisms to utilize global information. To address these limitations, we developed Dynamic Multi-Resolution Convolution (DMRC) and Dynamic Multi-Scale Convolution (DMSC) modules. Both modules enhance the representation capabilities of single convolutions to capture varying scaled features and global contextual information. This is achieved in the DMRC module by employing a convolutional filter on images with different resolutions and subsequently utilizing dynamic mechanisms to model global inter-dependencies between features. In contrast, the DMSC module extracts features at different scales by employing convolutions with different kernel sizes and utilizing dynamic mechanisms to extract global contextual information. The utilization of convolutions with different kernel sizes in the DMSC module may increase computational complexity. To lessen this burden, we propose to use a lightweight design for convolution layers with a large kernel size. Thus, DMSC and DMRC modules are designed as lightweight drop-in replacements for single convolutions, and they can be easily integrated into general CNN architectures for end-to-end training. The segmentation network was proposed by incorporating our DMSC and DMRC modules into a standard U-Net architecture, termed Dynamic Multi-scale and Multi-resolution Convolution network (DMC-Net). The results demonstrate that our proposed DMSC and DMRC can enhance the representation capabilities of single convolutions and improve segmentation accuracy.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# MDSGen:オープンドメイン音発生のための高速かつ効率的な仮設拡散時間対応変圧器

MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation ( http://arxiv.org/abs/2410.02130v1 )

ライセンス: Link先を確認
Trung X. Pham, Tri Ton, Chang D. Yoo, (参考訳) 我々は,モデルパラメータサイズ,メモリ消費,推論速度に最適化された視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。 このフレームワークには,(1)不要な視覚情報をフィルタリングする冗長なビデオ特徴除去モジュール,(2)時間的文脈を利用して音声生成精度を向上させる時間的マスキング戦略の2つの重要な革新が含まれている。 既存の資源量の多いUnetベースモデルとは対照的に、MDSGenはマスク付き拡散トランスフォーマーを採用しており、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。 ベンチマークVGGSoundデータセットから評価すると、我々の最小のモデル(5Mパラメータ)は、97.9%のアライメント精度、パラメータの172倍の削減、メモリ371%の削減、現在の860Mパラメーター・オブ・ザ・アートモデル(93.9%の精度)よりも36倍高速な推論を提供する。 より大きなモデル(131Mパラメータ)は6.5倍のパラメータを必要とするが、精度は99%近くに達する。 これらの結果は、我々のアプローチのスケーラビリティと有効性を強調します。

We introduce MDSGen, a novel framework for vision-guided open-domain sound generation optimized for model parameter size, memory consumption, and inference speed. This framework incorporates two key innovations: (1) a redundant video feature removal module that filters out unnecessary visual information, and (2) a temporal-aware masking strategy that leverages temporal context for enhanced audio generation accuracy. In contrast to existing resource-heavy Unet-based models, MDSGen employs denoising masked diffusion transformers, facilitating efficient generation without reliance on pre-trained diffusion models. Evaluated on the benchmark VGGSound dataset, our smallest model (5M parameters) achieves 97.9% alignment accuracy, using 172x fewer parameters, 371% less memory, and offering 36x faster inference than the current 860M-parameter state-of-the-art model (93.9% accuracy). The larger model (131M parameters) reaches nearly 99% accuracy while requiring 6.5x fewer parameters. These results highlight the scalability and effectiveness of our approach.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# 微分情報を用いた不均一乱数特徴モデル

Nonuniform random feature models using derivative information ( http://arxiv.org/abs/2410.02132v1 )

ライセンス: Link先を確認
Konstantin Pieper, Zezhong Zhang, Guannan Zhang, (参考訳) ニューラルネットワークの初期化のための不均一なデータ駆動パラメータ分布を近似する関数の微分データに基づいて提案する。 これらのパラメータ分布は、浅いニューラルネットワークに基づく非パラメトリック回帰モデルの文脈で開発され、従来の重み初期化に基づく確立された一様ランダム特徴モデルと好適に比較される。 本稿では,HeavisideとReLUのアクティベーション関数とそのスムーズな近似(SigmoidとSoftplus)について考察し,ニューラルネットワークの高調波解析とスパース表現に関する最近の結果を用いた。 正確な表現を与える解析結果を拡張し、未知関数の局所微分をモデル化するのに適したニューロンに対応するパラメータ空間の領域に集中する密度を求める。 これらの結果に基づき、入力点における近似微分データに基づいて、これらの正確な密度を単純化し、非常に効率的なサンプリングを可能にし、複数のシナリオにおいて最適なネットワークに近いランダムな特徴モデルの性能をもたらすことを提案する。

We propose nonuniform data-driven parameter distributions for neural network initialization based on derivative data of the function to be approximated. These parameter distributions are developed in the context of non-parametric regression models based on shallow neural networks, and compare favorably to well-established uniform random feature models based on conventional weight initialization. We address the cases of Heaviside and ReLU activation functions, and their smooth approximations (sigmoid and softplus), and use recent results on the harmonic analysis and sparse representation of neural networks resulting from fully trained optimal networks. Extending analytic results that give exact representation, we obtain densities that concentrate in regions of the parameter space corresponding to neurons that are well suited to model the local derivatives of the unknown function. Based on these results, we suggest simplifications of these exact densities based on approximate derivative data in the input points that allow for very efficient sampling and lead to performance of random feature models close to optimal networks in several scenarios.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# TrajGPT:健康軌道分析のための不規則な時系列表現学習

TrajGPT: Irregular Time-Series Representation Learning for Health Trajectory Analysis ( http://arxiv.org/abs/2410.02133v1 )

ライセンス: Link先を確認
Ziyang Song, Qingcheng Lu, He Zhu, David Buckeridge, Yue Li, (参考訳) 医療などの多くの領域では、時系列データは観測間隔によって不規則にサンプリングされることが多い。 これは、等間隔のデータを必要とする古典的な時系列モデルに課題をもたらす。 そこで本研究では,Trjectory Generative Pre-trained Transformer (TrajGPT) と呼ばれる新しい時系列変換器を提案する。 TrajGPTはSRA(Selective Recurrent Attention)という新しいメカニズムを採用しており、これはデータ依存の減衰を利用してコンテキストに基づいて無関係な過去の情報を適応的にフィルタリングする。 TrajGPTを離散化常微分方程式(ODE)として解釈することにより、基礎となる連続力学を効果的に捉え、任意の目標時間ステップを予測する時間固有推論を可能にする。 実験の結果,TrajGPTはタスク固有の微調整を必要とせず,軌跡予測,薬物使用予測,表現型分類に優れていた。 学習された連続力学を進化させることで、TrajGPTは部分的に観察された時系列から病気リスクの軌跡を補間し、外挿することができる。 予測された健康軌道の可視化は、TrajGPTが臨床的に関連のある表現型(文脈)の歴史に基づいて、見えない病気を予測していることを示している。

In many domains, such as healthcare, time-series data is often irregularly sampled with varying intervals between observations. This poses challenges for classical time-series models that require equally spaced data. To address this, we propose a novel time-series Transformer called Trajectory Generative Pre-trained Transformer (TrajGPT). TrajGPT employs a novel Selective Recurrent Attention (SRA) mechanism, which utilizes a data-dependent decay to adaptively filter out irrelevant past information based on contexts. By interpreting TrajGPT as discretized ordinary differential equations (ODEs), it effectively captures the underlying continuous dynamics and enables time-specific inference for forecasting arbitrary target timesteps. Experimental results demonstrate that TrajGPT excels in trajectory forecasting, drug usage prediction, and phenotype classification without requiring task-specific fine-tuning. By evolving the learned continuous dynamics, TrajGPT can interpolate and extrapolate disease risk trajectories from partially-observed time series. The visualization of predicted health trajectories shows that TrajGPT forecasts unseen diseases based on the history of clinically relevant phenotypes (i.e., contexts).
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# パラメトリック部分微分方程式の非交叉表現学習

Disentangled Representation Learning for Parametric Partial Differential Equations ( http://arxiv.org/abs/2410.02136v1 )

ライセンス: Link先を確認
Ning Liu, Lu Zhang, Tian Gao, Yue Yu, (参考訳) ニューラル作用素 (NOs) は関数空間間の写像の学習において顕著に成功し、偏微分方程式 (PDE) によって支配される複雑な物理系の前方解の効率的な近似器として役立っている。 しかしながら、ブラックボックスソルバとして有効であるが、システムを駆動する物理パラメータの解釈可能な表現が欠如しているため、基礎となる物理的メカニズムについての限られた洞察を提供する。 この課題に対処するために、ニューラル演算子パラメータから不整合表現を学習する新しいパラダイムを提案し、それによって逆問題を効果的に解決する。 具体的には、ブラックボックス・ニューラル・オペレーターパラメータに埋め込まれた変動の潜在的物理的要因を明らかにし、取り除くために設計された、新しいハイパー・ニューラル・オペレーター・アーキテクチャであるDisentangOを紹介する。 DisentangOの中核にあるマルチタスク・ニューラル・オペレーターアーキテクチャは、タスクワイド適応層を通じてPDEの様々なパラメータを蒸留し、これらのバリエーションを識別可能な潜在因子に分解する階層的変分オートエンコーダと結合する。 これらの不整合表現を学習することにより、我々のモデルは物理的解釈可能性を高めるだけでなく、多様な物理系をまたいだより堅牢な一般化を可能にする。 教師付き、半教師付き、教師なしの学習コンテキストにおける実証的な評価は、DentangOが有意義で解釈可能な潜在的特徴を効果的に抽出し、ニューラルネットワークフレームワークにおける予測性能と物理的理解の分割をブリッジしていることを示している。

Neural operators (NOs) have demonstrated remarkable success in learning mappings between function spaces, serving as efficient approximators for the forward solutions of complex physical systems governed by partial differential equations (PDEs). However, while effective as black-box solvers, they offer limited insight into the underlying physical mechanism, due to the lack of interpretable representations of the physical parameters that drive the system. To tackle this challenge, we propose a new paradigm for learning disentangled representations from neural operator parameters, thereby effectively solving an inverse problem. Specifically, we introduce DisentangO, a novel hyper-neural operator architecture designed to unveil and disentangle the latent physical factors of variation embedded within the black-box neural operator parameters. At the core of DisentangO is a multi-task neural operator architecture that distills the varying parameters of the governing PDE through a task-wise adaptive layer, coupled with a hierarchical variational autoencoder that disentangles these variations into identifiable latent factors. By learning these disentangled representations, our model not only enhances physical interpretability but also enables more robust generalization across diverse physical systems. Empirical evaluations across supervised, semi-supervised, and unsupervised learning contexts show that DisentangO effectively extracts meaningful and interpretable latent features, bridging the divide between predictive performance and physical understanding in neural operator frameworks.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# 時間における量子相互情報

Quantum Mutual Information in Time ( http://arxiv.org/abs/2410.02137v1 )

ライセンス: Link先を確認
James Fullwood, Zhen Wu, Arthur J. Parzygnat, Vlatko Vedral, (参考訳) 量子相互情報は量子情報の基本的な尺度であるが、空間的に分離された量子系に対してのみ定義される。 このような制限は古典情報理論には存在しないが、2つの確率変数間の相互情報は、変数が空間内で分離されているか、時間的に分離されているかに関わらず、適切に定義されている。 この古典的相互情報と量子的相互情報の相違により、擬密度行列形式を用いて、量子的相互情報の時間領域への単純な拡張を定義する。 空間の場合と同様に、時間における量子的相互情報の概念は、時間的に区切られたシステム間の相関の自然な尺度であり、同時に、量子的相関が空間と時間を区別する方法を強調している。 また、このような量子的相互情報が量子ベイズ反転に対して時間対称であることを示し、その上で、時間的相互情報が量子状態のアンサンブル上の逐次測定から抽出される古典的情報の量に対して、どのようにホロボ境界が得られるかを示す。

While the quantum mutual information is a fundamental measure of quantum information, it is only defined for spacelike-separated quantum systems. Such a limitation is not present in the theory of classical information, where the mutual information between two random variables is well-defined irrespective of whether or not the variables are separated in space or separated in time. Motivated by this disparity between the classical and quantum mutual information, we employ the pseudo-density matrix formalism to define a simple extension of quantum mutual information into the time domain. As in the spatial case, we show that such a notion of quantum mutual information in time serves as a natural measure of correlation between timelike-separated systems, while also highlighting ways in which quantum correlations distinguish between space and time. We also show how such quantum mutual information is time-symmetric with respect to quantum Bayesian inversion, and then we conclude by showing how mutual information in time yields a Holevo bound for the amount of classical information that may be extracted from sequential measurements on an ensemble of quantum states.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# 変圧器における長さ一般化の形式的枠組み

A Formal Framework for Understanding Length Generalization in Transformers ( http://arxiv.org/abs/2410.02140v1 )

ライセンス: Link先を確認
Xinting Huang, Andy Yang, Satwik Bhattamishra, Yash Sarrof, Andreas Krebs, Hattie Zhou, Preetum Nakkiran, Michael Hahn, (参考訳) 変圧器の大きな課題は、トレーニング中に観察されたものよりも長いシーケンスに一般化することである。 以前の研究は、変圧器はタスクによって成功するか、あるいは長大な一般化で失敗するかを実証的に示していたが、この現象の理論的理解は依然として限られている。 本研究では,学習可能な絶対位置符号化を用いた因果変換器における長さ一般化解析のための厳密な理論的枠組みを提案する。 特に、ノルムベースの正則化器を用いた理想化推論スキームの下で、絶対的な位置エンコーディングを持つ十分長い入力から極限で特定可能な関数を特徴付ける。 これにより、豊富な問題族に対する長さ一般化の可能性を証明することができる。 我々は,この理論を,アルゴリズムおよび形式言語タスクにおける長さ一般化の成功と失敗の予測器として実験的に検証した。 我々の理論は、幅広い経験的観測のセットを説明するだけでなく、変圧器の長大一般化能力を予測するための道を開く。

A major challenge for transformers is generalizing to sequences longer than those observed during training. While previous works have empirically shown that transformers can either succeed or fail at length generalization depending on the task, theoretical understanding of this phenomenon remains limited. In this work, we introduce a rigorous theoretical framework to analyze length generalization in causal transformers with learnable absolute positional encodings. In particular, we characterize those functions that are identifiable in the limit from sufficiently long inputs with absolute positional encodings under an idealized inference scheme using a norm-based regularizer. This enables us to prove the possibility of length generalization for a rich family of problems. We experimentally validate the theory as a predictor of success and failure of length generalization across a range of algorithmic and formal language tasks. Our theory not only explains a broad set of empirical observations but also opens the way to provably predicting length generalization capabilities in transformers.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# 離散型マスクモデルのプラグアンドプレイ制御可能生成

Plug-and-Play Controllable Generation for Discrete Masked Models ( http://arxiv.org/abs/2410.02143v1 )

ライセンス: Link先を確認
Wei Guo, Yuchen Zhu, Molei Tao, Yongxin Chen, (参考訳) 本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。 目的は、後続分布に固執する離散確率変数のサンプルを生成し、特定の制約を満たすか、報酬関数を最適化することである。 この手法により、クラス固有の画像生成やタンパク質設計といった下流タスクを幅広く適用することができる。 マスク付きモデルの制御可能な生成に対する既存のアプローチは、通常、タスク固有の微調整や追加の修正に依存しており、非効率でリソース集約的である。 これらの制約を克服するために,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。 本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。 本研究は,タンパク質設計を含む複数の領域にまたがる多目的性を示すとともに,広範囲な実験を通じて本手法の有効性を実証する。

This article makes discrete masked models for the generative modeling of discrete data controllable. The goal is to generate samples of a discrete random variable that adheres to a posterior distribution, satisfies specific constraints, or optimizes a reward function. This methodological development enables broad applications across downstream tasks such as class-specific image generation and protein design. Existing approaches for controllable generation of masked models typically rely on task-specific fine-tuning or additional modifications, which can be inefficient and resource-intensive. To overcome these limitations, we propose a novel plug-and-play framework based on importance sampling that bypasses the need for training a conditional score. Our framework is agnostic to the choice of control criteria, requires no gradient information, and is well-suited for tasks such as posterior sampling, Bayesian inverse problems, and constrained generation. We demonstrate the effectiveness of our approach through extensive experiments, showcasing its versatility across multiple domains, including protein design.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# SoundMorpher:拡散モデルを用いた知覚的一様音像定位

SoundMorpher: Perceptually-Uniform Sound Morphing with Diffusion Model ( http://arxiv.org/abs/2410.02144v1 )

ライセンス: Link先を確認
Xinlei Niu, Jing Zhang, Charles Patrick Martin, (参考訳) 拡散モデルを用いて知覚的に均一なモーフィング軌道を生成する音響モーフィング法SoundMorpherを提案する。 従来の音響モーフィング法は、音響知覚の複雑な性質を過度に単純化し、モーフィングの質を制限する線形仮定の下で、モーフィングと刺激の知覚の間の難解な関係をモデル化する。 対照的に、SoundMorpherは、Mel-spectrogramに基づく形態素因子と知覚音の知覚刺激との明確な比例写像を探索する。 このアプローチは、中間音間のよりスムーズな遷移を可能にし、知覚的に一貫した変換を保証する。 さらに,3つの客観的基準,すなわち対応性,知覚中間性,滑らか性に基づいて,音響形態素系を包括的に評価するための定量的指標のセットを提案する。 本研究では,現実のシナリオにおけるSoundMorpherの有効性と汎用性を実証するための広範な実験を行い,創造的な音楽構成,映画ポストプロダクション,インタラクティブオーディオ技術など,様々な応用にその可能性を強調した。

We present SoundMorpher, a sound morphing method that generates perceptually uniform morphing trajectories using a diffusion model. Traditional sound morphing methods models the intractable relationship between morph factor and perception of the stimuli for resulting sounds under a linear assumption, which oversimplifies the complex nature of sound perception and limits their morph quality. In contrast, SoundMorpher explores an explicit proportional mapping between the morph factor and the perceptual stimuli of morphed sounds based on Mel-spectrogram. This approach enables smoother transitions between intermediate sounds and ensures perceptually consistent transformations, which can be easily extended to diverse sound morphing tasks. Furthermore, we present a set of quantitative metrics to comprehensively assess sound morphing systems based on three objective criteria, namely, correspondence, perceptual intermediateness, and smoothness. We provide extensive experiments to demonstrate the effectiveness and versatility of SoundMorpher in real-world scenarios, highlighting its potential impact on various applications such as creative music composition, film post-production and interactive audio technologies.
翻訳日:2024-11-04 08:35:44 公開日:2024-10-03
# パラメータ部分空間分散による高効率ソースフリー時系列適応

Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement ( http://arxiv.org/abs/2410.02147v1 )

ライセンス: Link先を確認
Gaurav Patel, Christopher Sandino, Behrooz Mahasseni, Ellen L Zippi, Erdrin Azemi, Ali Moin, Juri Minxha, (参考訳) 本稿では,パラメータ効率とデータサンプル利用の両面に焦点をあて,時系列の文脈における効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。 提案手法は,目標適応時の訓練効率の向上を目的とした,ソースモデル作成と目標側適応のための改良パラダイムを提案する。 具体的には、ソースモデル作成フェーズにおいて、ソースモデルの重みをタッカー方式で分解し、モデルをコンパクトな形式に分解する。 目標側適応では、これらの分解された要素のサブセットのみが微調整され、トレーニング効率が大幅に向上する。 PACベイズ解析を用いて、この選択的な微調整戦略は、モデルの学習能力を制限することによって適応過程を暗黙的に規則化することを示した。 さらに、この再パラメータ化により、全体のモデルサイズが減少し、推論効率が向上し、リソース制約のあるデバイスに特に適している。 さらに,本フレームワークは各種SFDA法と互換性があり,計算効率が向上し,MACの微調整パラメータの数や推定オーバーヘッドを90%以上削減し,モデル性能を維持できることを示した。

In this paper, we propose a framework for efficient Source-Free Domain Adaptation (SFDA) in the context of time-series, focusing on enhancing both parameter efficiency and data-sample utilization. Our approach introduces an improved paradigm for source-model preparation and target-side adaptation, aiming to enhance training efficiency during target adaptation. Specifically, we reparameterize the source model's weights in a Tucker-style decomposed manner, factorizing the model into a compact form during the source model preparation phase. During target-side adaptation, only a subset of these decomposed factors is fine-tuned, leading to significant improvements in training efficiency. We demonstrate using PAC Bayesian analysis that this selective fine-tuning strategy implicitly regularizes the adaptation process by constraining the model's learning capacity. Furthermore, this re-parameterization reduces the overall model size and enhances inference efficiency, making the approach particularly well suited for resource-constrained devices. Additionally, we demonstrate that our framework is compatible with various SFDA methods and achieves significant computational efficiency, reducing the number of fine-tuned parameters and inference overhead in terms of MACs by over 90% while maintaining model performance.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# パーソナライズされたリスクマップを用いたドライバー支援における警告エラーの低減

Reducing Warning Errors in Driver Support with Personalized Risk Maps ( http://arxiv.org/abs/2410.02148v1 )

ライセンス: Link先を確認
Tim Puphal, Ryohei Hirano, Takayuki Kawabuchi, Akihito Kimata, Julian Eggert, (参考訳) 運転支援の課題について考察する。 最先端のパーソナライズの概念は、車両制御システムやドライバーモデルのパラメータを推定することができる。 しかしながら、パーソナライズされたモデルを使用して、一般的なリスク警告という形での有効性を評価するアプローチは、現時点ではほとんど提案されていない。 そこで本稿では,運転者の行動に基づいて,運転者のパーソナライズされた危険因子を推定する警告システムを提案する。 システムはその後、個人化されたリスクマップで警告信号を適応することができる。 実験では,新たな警告システムにより,個人化されたドライバーを考慮しないベースラインアプローチと比較して,偽陰誤りや偽陽性誤りを効果的に低減できる,縦続追従シナリオと交叉シナリオの例を示す。 このことは、危険警告とドライバーサポートにおける警告エラーを減らすためのパーソナライズの可能性を明らかにしている。

We consider the problem of human-focused driver support. State-of-the-art personalization concepts allow to estimate parameters for vehicle control systems or driver models. However, there are currently few approaches proposed that use personalized models and evaluate the effectiveness in the form of general risk warning. In this paper, we therefore propose a warning system that estimates a personalized risk factor for the given driver based on the driver's behavior. The system afterwards is able to adapt the warning signal with personalized Risk Maps. In experiments, we show examples for longitudinal following and intersection scenarios in which the novel warning system can effectively reduce false negative errors and false positive errors compared to a baseline approach which does not use personalized driver considerations. This underlines the potential of personalization for reducing warning errors in risk warning and driver support.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 日本語におけるマトリックスと相対弱交叉 : 実験的検討

Matrix and Relative Weak Crossover in Japanese: An Experimental Investigation ( http://arxiv.org/abs/2410.02149v1 )

ライセンス: Link先を確認
Haruka Fukushima, Daniel Plesniak, Daisuke Bekki, (参考訳) 本稿では, 行列と相対節の性質に弱い交叉効果が相違することを示す。 福島ら (2024) も同様の証拠を提供し、様々な非構造的要因が排除されたとき、英語話者はマトリックスの弱いクロスオーバーケースを受け入れなかったが、しばしば相対的な弱いクロスオーバーケースを受け入れた。 しかし、これらの結果は英語の語順によって制限され、この違いが線形優先や構文構造の影響によるものなのか不確実性につながった。 本稿では,これら2つの可能性の区別を目的として,日本語を用いた実験を行った。 福島ら (2024) と定性的に一致した結果から, 両者の相違は構造的であり, 単に優越性に基づくものではないことが示唆された。

This paper provides evidence that weak crossover effects differ in nature between matrix and relative clauses. Fukushima et al. (2024) provided similar evidence, showing that, when various non-structural factors were eliminated English speakers never accepted matrix weak crossover cases, but often accepted relative weak crossover ones. Those results were limited, however, by English word order, which lead to uncertainty as to whether this difference was due to the effects of linear precedence or syntactic structure. In this paper, to distinguish between these two possibilities, we conduct an experiment using Japanese, which lacks the word-order confound that English had. We find results that are qualitatively in line with Fukushima et al. (2024) suggesting that the relevant distinction is structural and not based simply on precedence.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 非線形パラボリック方程式におけるニューラル演算子の定量的近似

Quantitative Approximation for Neural Operators in Nonlinear Parabolic Equations ( http://arxiv.org/abs/2410.02151v1 )

ライセンス: Link先を確認
Takashi Furuya, Koichi Taniguchi, Satoshi Okuda, (参考訳) ニューラル作用素は一般連続作用素の普遍近似器として機能する。 本稿では、非線形放物偏微分方程式(PDE)に対する解作用素の近似率を導出し、非線形PDEの解作用素に対する定量的近似定理に寄与する。 この結果から,モデル複雑性の指数的増大を伴わずに,これらの解演算子を効率的に近似することが可能であることが示唆された。 我々の証明における重要な洞察は、Duahamelの原理を介してPDEを対応する積分方程式に転送し、PDEを解く古典的なアルゴリズムであるニューラル演算子とPicardの反復の類似性を活用することである。 このアプローチは、パラボリック PDE を超えて、Navier-Stokes方程式、非線形Schr\\odinger方程式、非線形波動方程式など、ピカールの反復によって解ける様々な方程式に一般化できる可能性がある。

Neural operators serve as universal approximators for general continuous operators. In this paper, we derive the approximation rate of solution operators for the nonlinear parabolic partial differential equations (PDEs), contributing to the quantitative approximation theorem for solution operators of nonlinear PDEs. Our results show that neural operators can efficiently approximate these solution operators without the exponential growth in model complexity, thus strengthening the theoretical foundation of neural operators. A key insight in our proof is to transfer PDEs into the corresponding integral equations via Duahamel's principle, and to leverage the similarity between neural operators and Picard's iteration, a classical algorithm for solving PDEs. This approach is potentially generalizable beyond parabolic PDEs to a range of other equations, including the Navier-Stokes equation, nonlinear Schr\"odinger equations and nonlinear wave equations, which can be solved by Picard's iteration.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 合成映像を用いたジェスチャー認識のための大規模事前学習モデルの評価

An Evaluation of Large Pre-Trained Models for Gesture Recognition using Synthetic Videos ( http://arxiv.org/abs/2410.02152v1 )

ライセンス: Link先を確認
Arun Reddy, Ketul Shah, Corban Rivera, William Paul, Celso M. De Melo, Rama Chellappa, (参考訳) 本研究では,大規模な事前学習モデルを用いた映像に基づくジェスチャー認識における合成データの利用の可能性を検討する。 これらのモデルが「学習自由」な分類を可能にする十分な頑健かつ表現力のある表現空間を持っているかどうかを検討する。 具体的には、様々な最先端ビデオエンコーダを用いて、学習データポイントが合成ビデオからのみ抽出されるk-nearest近辺分類に使用される特徴を抽出する。 これらの結果と,各ジェスチャーのテキスト記述を用いたゼロショット分類(ゼロショット分類)を比較した。 RoCoG-v2データセットを用いて行った実験では、合成トレーニングビデオを使用することで、実際のテストビデオの分類精度が比較的低いことが判明した。 また、分類タスクで微調整されたビデオバックボーンが優れた特徴抽出器として機能し、微調整データの選択がkアレスト近傍の性能に大きな影響を与えることも観察した。 最後に,ジェスチャーを自然言語で簡単に記述できないため,ゼロショットテキストベースの分類はジェスチャー認識作業では不十分であることが判明した。

In this work, we explore the possibility of using synthetically generated data for video-based gesture recognition with large pre-trained models. We consider whether these models have sufficiently robust and expressive representation spaces to enable "training-free" classification. Specifically, we utilize various state-of-the-art video encoders to extract features for use in k-nearest neighbors classification, where the training data points are derived from synthetic videos only. We compare these results with another training-free approach -- zero-shot classification using text descriptions of each gesture. In our experiments with the RoCoG-v2 dataset, we find that using synthetic training videos yields significantly lower classification accuracy on real test videos compared to using a relatively small number of real training videos. We also observe that video backbones that were fine-tuned on classification tasks serve as superior feature extractors, and that the choice of fine-tuning data has a substantial impact on k-nearest neighbors performance. Lastly, we find that zero-shot text-based classification performs poorly on the gesture recognition task, as gestures are not easily described through natural language.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 科学研究におけるAIベースのコーディングの理由と方法

The why, what, and how of AI-based coding in scientific research ( http://arxiv.org/abs/2410.02156v1 )

ライセンス: Link先を確認
Tonghe Zhuang, Zhicheng Lin, (参考訳) コンピュータプログラミング(コーディング)は、分野を問わず研究者にとって不可欠だが、学習し、実行するのに時間がかかる。 生成AI、特に大きな言語モデル(LLM)は、コーディングを直感的な会話に変換する可能性があるが、ベストプラクティスと効果的なワークフローは現れていない。 AIベースのコーディングは、コーディングにおけるLLMの性質と役割(なぜ)、それらが提供する6種類のコーディング支援(何)、実践的な実装戦略(どのように)を備えた5ステップのワークフローという、3つの重要なレンズを通して区別します。 さらに、コーディングにおけるAIの限界と将来の展望に対処する。 実用的な洞察を提供することで、このフレームワークは研究者がAIを効果的に活用し、コーディングの実践と教育を強化し、科学的進歩を促進するのに役立つ。

Computer programming (coding) is indispensable for researchers across disciplines, yet it remains challenging to learn and time-consuming to carry out. Generative AI, particularly large language models (LLMs), has the potential to transform coding into intuitive conversations, but best practices and effective workflows are only emerging. We dissect AI-based coding through three key lenses: the nature and role of LLMs in coding (why), six types of coding assistance they provide (what), and a five-step workflow in action with practical implementation strategies (how). Additionally, we address the limitations and future outlook of AI in coding. By offering actionable insights, this framework helps to guide researchers in effectively leveraging AI to enhance coding practices and education, accelerating scientific progress.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# トラッピングトポロジカル絶縁体に対する絶対連続スペクトル

Absolutely continuous spectrum for truncated topological insulators ( http://arxiv.org/abs/2410.02157v1 )

ライセンス: Link先を確認
Alexis Drouot, Jacob Shapiro, Xiaowen Zhu, (参考訳) 位相絶縁体が2つの十分に大きな領域で平面を分離する曲線に沿って切り離された場合、エッジ系は絶対連続スペクトルを許容する。 我々のアプローチは、幾何学と内在的コンダクタンス [DZ24] を分離する曲線に沿ったバルクエッジ対応の最近のバージョンと、ストレートエッジ [BW22] に対する絶対連続スペクトルに関する結果を組み合わせたものである。

We show that if a topological insulator is truncated along a curve that separates the plane in two sufficiently large regions, then the edge system admits absolutely continuous spectrum. Our approach combines a recent version of the bulk-edge correspondence along curves that separates geometry and intrinsic conductance [DZ24], with a result about absolutely continuous spectrum for straight edges [BW22].
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# ClassContrast: ノード表現のための空間ギャップとコンテキストギャップをブリッジする

ClassContrast: Bridging the Spatial and Contextual Gaps for Node Representations ( http://arxiv.org/abs/2410.02158v1 )

ライセンス: Link先を確認
Md Joshem Uddin, Astrit Tola, Varin Sikand, Cuneyt Gurcan Akcora, Baris Coskunuzer, (参考訳) グラフニューラルネットワーク(GNN)は、メッセージパッシンググラフニューラルネットワーク(MPGNN)など、多くの一般的なアーキテクチャにおける近傍アグリゲーションスキームを活用することで、グラフ表現学習の領域に革命をもたらした。 このスキームは、隣接するノードの表現ベクトルを集約し変換することで、ノードの表現ベクトルを反復的に計算する。 その効果にもかかわらず、MPGNNは過密、過密、過密といった重大な問題に直面しており、その効果を阻害している。 さらに、エッジがよく類似のラベルや特徴とノードを結び付けるホモフィリーな仮定にMPGNNが依存しているため、接続ノードが大きな違いを持つヘテロ親和性のあるコンテキストでは、そのパフォーマンスが制限される。 これは、ホモ親和性とヘテロ親和性の両方で効果的に動作するモデルの開発を必要とする。 本稿では,これらの制約を克服するために,エネルギー景観理論に基づくクラスコントラストを提案する。 クラスコントラストは空間的および文脈的な情報を組み合わせて、物理にインスパイアされたエネルギーの景観を利用して、ホモ親和性および異好性の両方で差別的かつ堅牢なノード埋め込みをモデル化する。 本手法では,クラス間の相互作用や傾向の理解を深めるために,コントラストに基づくホモフィリ行列を導入する。 大規模な実験を通じて、ClassContrastはノード分類やリンク予測タスクにおいて従来のGNNよりも優れており、様々な実世界のシナリオにおいてその有効性と汎用性を証明している。

Graph Neural Networks (GNNs) have revolutionized the domain of graph representation learning by utilizing neighborhood aggregation schemes in many popular architectures, such as message passing graph neural networks (MPGNNs). This scheme involves iteratively calculating a node's representation vector by aggregating and transforming the representation vectors of its adjacent nodes. Despite their effectiveness, MPGNNs face significant issues, such as oversquashing, oversmoothing, and underreaching, which hamper their effectiveness. Additionally, the reliance of MPGNNs on the homophily assumption, where edges typically connect nodes with similar labels and features, limits their performance in heterophilic contexts, where connected nodes often have significant differences. This necessitates the development of models that can operate effectively in both homophilic and heterophilic settings. In this paper, we propose a novel approach, ClassContrast, grounded in Energy Landscape Theory from Chemical Physics, to overcome these limitations. ClassContrast combines spatial and contextual information, leveraging a physics-inspired energy landscape to model node embeddings that are both discriminative and robust across homophilic and heterophilic settings. Our approach introduces contrast-based homophily matrices to enhance the understanding of class interactions and tendencies. Through extensive experiments, we demonstrate that ClassContrast outperforms traditional GNNs in node classification and link prediction tasks, proving its effectiveness and versatility in diverse real-world scenarios.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 言語モデルにおける記憶の緩和

Mitigating Memorization In Language Models ( http://arxiv.org/abs/2410.02159v1 )

ライセンス: Link先を確認
Mansi Sakarvadia, Aswathy Ajith, Arham Khan, Nathaniel Hudson, Caleb Geniesse, Kyle Chard, Yaoqing Yang, Ian Foster, Michael W. Mahoney, (参考訳) 言語モデル(LM)は、トレーニングデータをその重みにエンコードすることで、推論時クエリがそのデータの冗長な復活につながるように、情報を「記憶」することができる。 このトレーニングデータを抽出する機能は、例えば、データがプライベートまたはセンシティブである場合など、問題になる可能性がある。 本研究では,3つの正則化法,3つの微調整法,11つの機械非学習法,および5つの手法を新たに導入した。 また,TinyMemは,メモリ化緩和手法の迅速な開発と評価を行うための,計算効率の小さい小型LMのスイートである。 我々は、TinyMemを用いて開発した緩和法が、生産段階のLMに適用可能であることを実証し、また、正規化による緩和法は、暗記を抑えるのに遅く、非効率であり、微調整による手法は、暗記を抑えるのに効果的であるが、特に高い精度を維持するのに非常に高価であり、非学習ベースの手法はより高速かつ効果的であり、推論に先立ってLM重みから正確な局所化と暗記情報の除去を可能にする、実験によって決定する。 特に,提案した未学習手法である BalancedSubnet は,目標タスクの性能を保ちながら,記憶情報を削除する他の緩和手法よりも優れていることを示す。

Language models (LMs) can "memorize" information, i.e., encode training data in their weights in such a way that inference-time queries can lead to verbatim regurgitation of that data. This ability to extract training data can be problematic, for example, when data are private or sensitive. In this work, we investigate methods to mitigate memorization: three regularizer-based, three finetuning-based, and eleven machine unlearning-based methods, with five of the latter being new methods that we introduce. We also introduce TinyMem, a suite of small, computationally-efficient LMs for the rapid development and evaluation of memorization-mitigation methods. We demonstrate that the mitigation methods that we develop using TinyMem can successfully be applied to production-grade LMs, and we determine via experiment that: regularizer-based mitigation methods are slow and ineffective at curbing memorization; fine-tuning-based methods are effective at curbing memorization, but overly expensive, especially for retaining higher accuracies; and unlearning-based methods are faster and more effective, allowing for the precise localization and removal of memorized information from LM weights prior to inference. We show, in particular, that our proposed unlearning method BalancedSubnet outperforms other mitigation methods at removing memorized information while preserving performance on target tasks.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# RiskSEA : Ethereumブロックチェーン上のオンチェーンのフラッドレントアクティビティを検出するためのスケーラブルなグラフ埋め込み

RiskSEA : A Scalable Graph Embedding for Detecting On-chain Fraudulent Activities on the Ethereum Blockchain ( http://arxiv.org/abs/2410.02160v1 )

ライセンス: Link先を確認
Ayush Agarwal, Lv Lu, Arjun Maheswaran, Varsha Mahadevan, Bhaskar Krishnamachari, (参考訳) 他の有用な技術と同様に、暗号通貨は犯罪活動に使用されることもある。 トランザクションはブロックチェーン上に記録されるが、不正行為に関連するアドレスを検出するために、より迅速でスケーラブルな方法が必要である。 本稿では,大規模ブロックチェーントランザクショングラフの動的性質を効果的に扱えるスケーラブルなリスクスコアリングシステムであるR RiskSEAを提案する。 Ethereum用に実装したリスクスコアシステムは、リスクスコアシステムで構成されています。 1. グラフトポロジをキャプチャするために、すべてのアドレスに対してnode2vec埋め込みを生成するスケーラブルなアプローチ 2. アドレスの取引行動パターンをキャプチャするトランザクションベースの機能 3. node2vec埋め込みと行動特徴を組み合わせたアドレスのリスクスコアを生成する分類器モデル。 大規模かつ動的に進化するブロックチェーントランザクショングラフに対するノード2vecの埋め込みを効率的に生成することは難しい。 1. node2vec 埋め込み伝播 2. 動的 node2vec 埋め込み。 本稿では,提案手法の包括的分析を行う。 本実験により, 動作特性とノード2vec特性を組み合わせることで分類性能が著しく向上し, 動的ノード2vec埋め込みはノード2vec伝播埋め込みよりも優れた性能を示した。

Like any other useful technology, cryptocurrencies are sometimes used for criminal activities. While transactions are recorded on the blockchain, there exists a need for a more rapid and scalable method to detect addresses associated with fraudulent activities. We present RiskSEA, a scalable risk scoring system capable of effectively handling the dynamic nature of large-scale blockchain transaction graphs. The risk scoring system, which we implement for Ethereum, consists of 1. a scalable approach to generating node2vec embedding for entire set of addresses to capture the graph topology 2. transaction-based features to capture the transactional behavioral pattern of an address 3. a classifier model to generate risk score for addresses that combines the node2vec embedding and behavioral features. Efficiently generating node2vec embedding for large scale and dynamically evolving blockchain transaction graphs is challenging, we present two novel approaches for generating node2vec embeddings and effectively scaling it to the entire set of blockchain addresses: 1. node2vec embedding propagation and 2. dynamic node2vec embedding. We present a comprehensive analysis of the proposed approaches. Our experiments show that combining both behavioral and node2vec features boosts the classification performance significantly, and that the dynamic node2vec embeddings perform better than the node2vec propagated embeddings.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# 麦畑におけるプランニング: LRM o1の計画とスケジューリング能力の評価と改善

Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 ( http://arxiv.org/abs/2410.02162v1 )

ライセンス: Link先を確認
Karthik Valmeekam, Kaya Stechly, Atharva Gundawar, Subbarao Kambhampati, (参考訳) 望ましい状況を達成するための行動コースを計画する能力は、長年、知的エージェントのコアコンピテンスと考えられてきた。 大きな言語モデル(LLMs)の出現により、そのような計画能力を持っているかどうかという問題にかなりの関心が寄せられているが、GPT3以降、新しいプライベートおよびオープンソース LLM が無数にあるにもかかわらず、進歩は遅いままである。 OpenAIによると、最近のo1(Strawberry)モデルは、自動回帰LPMの通常の制限から逃れるために特別に構築され、訓練されている。 本稿では,2つの LRM (o1-preview と o1-mini) の計画性能を,計画とスケジューリングのベンチマークで評価する。 o1 は自己回帰型 LLM よりも大幅に改善されているように思われるが、しかしながら、それが生み出すものに対する保証は提供していない。 また、o1モデルと外部検証器(いわゆるLRM-Moduloシステム)を組み合わせることで、システム出力の正しさが保証され、性能がさらに向上することを示す。

The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities, but -- despite the slew of new private and open source LLMs since GPT3 -- progress has remained slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs -- making it a new kind of model: a Large Reasoning Model (LRM). In this paper, we evaluate the planning capabilities of two LRMs (o1-preview and o1-mini) on both planning and scheduling benchmarks. We see that while o1 does seem to offer significant improvements over autoregressive LLMs, this comes at a steep inference cost, while still failing to provide any guarantees over what it generates. We also show that combining o1 models with external verifiers -- in a so-called LRM-Modulo system -- guarantees the correctness of the combined system's output while further improving performance.
翻訳日:2024-11-04 08:25:54 公開日:2024-10-03
# ステルス性検索毒殺のための自然逆境文書の生成制御

Controlled Generation of Natural Adversarial Documents for Stealthy Retrieval Poisoning ( http://arxiv.org/abs/2410.02163v1 )

ライセンス: Link先を確認
Collin Zhang, Tingwei Zhang, Vitaly Shmatikov, (参考訳) 近年の研究では, 組込み類似性に基づく検索(例えば, 検索強化世代)は, 有害な攻撃に対して脆弱であることが示されている。 従来のHotFlipベースの手法は、パープレキシティ・フィルタリングを用いて、非常に容易に検出可能なドキュメントを生成する。 生成された文書はLLMによって不自然なものとして認識され、検索コーパスから自動的にフィルタリングされる。 我々は,オープンソースのサロゲート LLM を用いて計算したソフトスコアに基づいて,敵対的目的(類似性を埋め込んだ)と「自然性」の目標とを組み合わせた新たな制御生成手法を設計し,実装し,評価する。 得られた逆境文書(1)は、検索コーパスにおいて有意な偽陽性を犠牲にして、パープレキシティフィルタリングや/またはその他のLCMを用いて自動的に検出することはできないが、(2)HotFlipを用いて容易に検出可能な文書に対して類似の毒性効果を達成し、(3)COLDのようなエネルギー誘導生成の従来の方法よりも有意に有効である。

Recent work showed that retrieval based on embedding similarity (e.g., for retrieval-augmented generation) is vulnerable to poisoning: an adversary can craft malicious documents that are retrieved in response to broad classes of queries. We demonstrate that previous, HotFlip-based techniques produce documents that are very easy to detect using perplexity filtering. Even if generation is constrained to produce low-perplexity text, the resulting documents are recognized as unnatural by LLMs and can be automatically filtered from the retrieval corpus. We design, implement, and evaluate a new controlled generation technique that combines an adversarial objective (embedding similarity) with a "naturalness" objective based on soft scores computed using an open-source, surrogate LLM. The resulting adversarial documents (1) cannot be automatically detected using perplexity filtering and/or other LLMs, except at the cost of significant false positives in the retrieval corpus, yet (2) achieve similar poisoning efficacy to easily-detectable documents generated using HotFlip, and (3) are significantly more effective than prior methods for energy-guided generation, such as COLD.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# 線形モデルの伝達学習における普遍性

Universality in Transfer Learning for Linear Models ( http://arxiv.org/abs/2410.02164v1 )

ライセンス: Link先を確認
Reza Ghane, Danil Akhtiamov, Babak Hassibi, (参考訳) トランスファーラーニング(Transfer Learning)は、データの曖昧さやデータ収集にコストがかかる問題に対する魅力的なフレームワークである。 トランスファーラーニングの一般的なアプローチは「モデルベース」と呼ばれ、ソース分布からのサンプルで事前訓練されたモデルを使用し、取得が容易で、ターゲット分布からのサンプルでモデルを微調整する。 本研究では、回帰と二分分類の両方において線形モデルにおける伝達学習の問題について検討する。特に、事前学習された重み付けと目標分布から設定された小さなトレーニングデータを用いた線形モデルにおける確率勾配降下(SGD)の利用について考察する。大モデルの漸近的構造では、厳密な解析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。 したがって、それらは文学で一般的になされる標準ガウスの仮定をはるかに超えている。

Transfer learning is an attractive framework for problems where there is a paucity of data, or where data collection is costly. One common approach to transfer learning is referred to as "model-based", and involves using a model that is pretrained on samples from a source distribution, which is easier to acquire, and then fine-tuning the model on a few samples from the target distribution. The hope is that, if the source and target distributions are ``close", then the fine-tuned model will perform well on the target distribution even though it has seen only a few samples from it. In this work, we study the problem of transfer learning in linear models for both regression and binary classification. In particular, we consider the use of stochastic gradient descent (SGD) on a linear model initialized with pretrained weights and using a small training data set from the target distribution. In the asymptotic regime of large models, we provide an exact and rigorous analysis and relate the generalization errors (in regression) and classification errors (in binary classification) for the pretrained and fine-tuned models. In particular, we give conditions under which the fine-tuned model outperforms the pretrained one. An important aspect of our work is that all the results are "universal", in the sense that they depend only on the first and second order statistics of the target distribution. They thus extend well beyond the standard Gaussian assumptions commonly made in the literature.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# ヒューマン・レベル・ガイドライン最適化によるLLMによる自動グラフ作成フレームワーク

A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization ( http://arxiv.org/abs/2410.02165v1 )

ライセンス: Link先を確認
Yucheng Chu, Hang Li, Kaiqi Yang, Harry Shomer, Hui Liu, Yasemin Copur-Gencturk, Jiliang Tang, (参考訳) 学習分析(LA)の文脈において,学習者の反応をより深く把握するための強力なツールとして,オープンエンド短解答(SAG)が広く認識されている。 しかし、SAGは高い作業負荷と一貫性のない評価に対する懸念から、実際に課題を提起することが多い。 自然言語処理(NLP)の最近の進歩により、自動短問合せグレーディング(ASAG)はこれらの課題に対して有望な解決策を提供する。 それにもかかわらず、現在のASAGアルゴリズムは、しばしば一般化性に制限され、特定の質問に合わせる傾向にある。 本稿では,大規模言語モデル(LLM)をSAGのグレーダとして活用する統合型マルチエージェントASAGフレームワークである GradeOpt を提案する。 さらに重要なことは、GradeOptは2つのLLMベースのエージェント(リフレクタとリフレクタ)をマルチエージェントシステムに組み込んでいる。 これにより、GradeOptはエラーに対して自己回帰を行うことで、オリジナルのグレーティングガイドラインを自動的に最適化することができる。 教育内容知識 (PCK) とコンテンツ知識 (CK) の課題の段階化を課題とするASAGタスクの実験を通じて, 代表的ベースラインと比較して, 評価精度と行動アライメントにおいて, 優れた性能を示す。 最後に、包括的アブレーション研究により、グレードオプトで設計された個々のコンポーネントの有効性が確認された。

Open-ended short-answer questions (SAGs) have been widely recognized as a powerful tool for providing deeper insights into learners' responses in the context of learning analytics (LA). However, SAGs often present challenges in practice due to the high grading workload and concerns about inconsistent assessments. With recent advancements in natural language processing (NLP), automatic short-answer grading (ASAG) offers a promising solution to these challenges. Despite this, current ASAG algorithms are often limited in generalizability and tend to be tailored to specific questions. In this paper, we propose a unified multi-agent ASAG framework, GradeOpt, which leverages large language models (LLMs) as graders for SAGs. More importantly, GradeOpt incorporates two additional LLM-based agents - the reflector and the refiner - into the multi-agent system. This enables GradeOpt to automatically optimize the original grading guidelines by performing self-reflection on its errors. Through experiments on a challenging ASAG task, namely the grading of pedagogical content knowledge (PCK) and content knowledge (CK) questions, GradeOpt demonstrates superior performance in grading accuracy and behavior alignment with human graders compared to representative baselines. Finally, comprehensive ablation studies confirm the effectiveness of the individual components designed in GradeOpt.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# 多変量確率時系列予測のためのチャネル対応コントラスト条件拡散

Channel-aware Contrastive Conditional Diffusion for Multivariate Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2410.02168v1 )

ライセンス: Link先を確認
Siyang Li, Yize Chen, Hui Xiong, (参考訳) 多変量時系列の忠実な軌跡を実際的な範囲から予測することは、合理的な意思決定に不可欠である。 近年の手法は, 時間的予測分布を推定するために, 生成条件拡散モデルを大まかに調整している。 しかし、条件拡散学習を促進するために、暗黙の時間的予測情報の活用効率を高めることは依然として障害である。 この目的のために, CCDM (Contrastive Conditional Diffusion model) と題する汎用チャネル対応コントラスト条件拡散モデルを提案する。 本稿では,まず,変量内変動と変量間相関を管理するために,チャネル中心の条件記述ネットワークを設計する。 そこで我々は,過去の観測と将来の予測との間の予測的相互情報を明確に増幅するために,アドホックな認知に基づく時間的コントラスト学習を考案した。 ステップワイドな拡散訓練を忠実に補完し、未知のテスト時系列における予測精度と一般化を改善する。 さらに、ニューラルネットワーク情報と時間分布一般化の両面から、このような補助的コントラスト訓練改善の利点を理論的に考察する。 提案したCCDMは、総合的なベンチマークよりも最先端の拡散予測器よりも優れた予測能力を示し、MSEとCRPSの最良の結果は6.67 %$と8.33 %$のケースである。 私たちのコードはhttps://github.com/LSY-Cython/CCDMで公開されています。

Forecasting faithful trajectories of multivariate time series from practical scopes is essential for reasonable decision-making. Recent methods majorly tailor generative conditional diffusion models to estimate the target temporal predictive distribution. However, it remains an obstacle to enhance the exploitation efficiency of given implicit temporal predictive information to bolster conditional diffusion learning. To this end, we propose a generic channel-aware Contrastive Conditional Diffusion model entitled CCDM to achieve desirable Multivariate probabilistic forecasting, obviating the need for curated temporal conditioning inductive biases. In detail, we first design a channel-centric conditional denoising network to manage intra-variate variations and cross-variate correlations, which can lead to scalability on diverse prediction horizons and channel numbers. Then, we devise an ad-hoc denoising-based temporal contrastive learning to explicitly amplify the predictive mutual information between past observations and future forecasts. It can coherently complement naive step-wise denoising diffusion training and improve the forecasting accuracy and generality on unknown test time series. Besides, we offer theoretic insights on the benefits of such auxiliary contrastive training refinement from both neural mutual information and temporal distribution generalization aspects. The proposed CCDM can exhibit superior forecasting capability compared to current state-of-the-art diffusion forecasters over a comprehensive benchmark, with best MSE and CRPS outcomes on $66.67\%$ and $83.33\%$ cases. Our code is publicly available at https://github.com/LSY-Cython/CCDM.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# 抽象リワードプロセス: 一貫性のあるオフポリティ評価のための状態抽象化の活用

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation ( http://arxiv.org/abs/2410.02172v1 )

ライセンス: Link先を確認
Shreyas Chaudhari, Ameet Deshpande, Bruno Castro da Silva, Philip S. Thomas, (参考訳) 医療や自動運転といった現実的な問題に強化学習を適用するためには、非政治データを用いた政策評価が不可欠である。 従来のオフ・ポリシー・アセスメント(OPE)の手法は、一般的に高いばらつきまたは既約バイアスに悩まされ、許容できないほど高い予測エラーを引き起こす。 本研究では,従来のOPEメソッドを特殊なケースとして含む広範囲な推定器を含むOPEのフレームワークであるSTARを導入し,平均2乗予測誤差を低くする。 STARは、状態抽象化を利用して、複雑な、潜在的に連続的な問題を、抽象報酬プロセス(ARP)と呼ばれるコンパクトで離散的なモデルに蒸留する。 政治外のデータから推定されるARPからの予測は、確実に一貫性がある(漸近的に正しい)。 特定の推定器を提案するのではなく、OPEの新しいフレームワークを提案し、STAR内の推定器が既存の手法より優れていることを実証的に示す。 最も優れたSTAR推定器は、調査対象の12例中7例においてベースラインを上回っ、中央値のSTAR推定器でさえベースラインを上回っている。

Evaluating policies using off-policy data is crucial for applying reinforcement learning to real-world problems such as healthcare and autonomous driving. Previous methods for off-policy evaluation (OPE) generally suffer from high variance or irreducible bias, leading to unacceptably high prediction errors. In this work, we introduce STAR, a framework for OPE that encompasses a broad range of estimators -- which include existing OPE methods as special cases -- that achieve lower mean squared prediction errors. STAR leverages state abstraction to distill complex, potentially continuous problems into compact, discrete models which we call abstract reward processes (ARPs). Predictions from ARPs estimated from off-policy data are provably consistent (asymptotically correct). Rather than proposing a specific estimator, we present a new framework for OPE and empirically demonstrate that estimators within STAR outperform existing methods. The best STAR estimator outperforms baselines in all twelve cases studied, and even the median STAR estimator surpasses the baselines in seven out of the twelve cases.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# リスク制御によるLCMの効率的なデプロイ

Efficiently Deploying LLMs with Controlled Risk ( http://arxiv.org/abs/2410.02173v1 )

ライセンス: Link先を確認
Michael J. Zellinger, Matt Thomson, (参考訳) 大規模言語モデルを本番環境に展開するには、効率性とリスク管理に同時に注意する必要がある。 以前の研究は、同様の精度を維持しながらコストを削減する可能性を示しているが、リスク管理に焦点を合わせることは無視されている。 対照的に,マルチレベルアプテンション(HCMA)を持つ階層型連鎖は,モデル固有の不確実性を用いて,LCMインテリジェンス階層に沿ってクエリをデリゲートし,ブラックボックスAPIコールのみに基づくトレーニング不要なモデル切替を可能にする。 我々の枠組みは、効率とリスクの間に新たなトレードオフをもたらす。 例えば、MMLUにHCMAをデプロイすると、モデルがクエリの20%を停止すると、Llama3 405Bのエラー率が30%削減される。 HCMAを最適性能にキャリブレーションするには,50ないし100個のラベル付き例だけでよいデータ効率のロジスティック回帰(単純な非線形特徴変換に基づく)を用いる。 自由形式生成タスクでは、チェーン・オブ・シントは選択予測に不有効であるのに対し、ゼロショットプロンプトは高い禁断率でTrathfulQAにおいてエラーを0%まで駆動する。 LLMは、さまざまな機能(モバイル、ラップトップ、クラウドなど)を持つコンピューティング環境にまたがってデプロイされるようになっているため、当社のフレームワークは、鋭いリスクコントロールを配置しながら、デプロイメント効率を維持するための道を開いたのです。

Deploying large language models in production requires simultaneous attention to efficiency and risk control. Prior work has shown the possibility to cut costs while maintaining similar accuracy, but has neglected to focus on risk control. By contrast, here we present hierarchical chains with multi-level abstention (HCMA), which use model-intrinsic uncertainty to delegate queries along the LLM intelligence hierarchy, enabling training-free model switching based solely on black-box API calls. Our framework presents novel trade-offs between efficiency and risk. For example, deploying HCMA on MMLU cuts the error rate of Llama3 405B by 30% when the model is allowed to abstain on 20% of the queries. To calibrate HCMA for optimal performance, our approach uses data-efficient logistic regressions (based on a simple nonlinear feature transformation), which require only 50 or 100 labeled examples to achieve excellent calibration error (ECE), cutting ECE by 50% compared to naive Platt scaling. On free-form generation tasks, we find that chain-of-thought is ineffectual for selective prediction, whereas zero-shot prompting drives error to 0% on TruthfulQA at high abstention rates. As LLMs are increasingly deployed across computing environments with different capabilities (such as mobile, laptop, and cloud), our framework paves the way towards maintaining deployment efficiency while putting in place sharp risk controls.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# 一般化の促進に向けて - ニューラルネットワークの低ランクバイアスを導出するウェイト・ディベイ

Towards Better Generalization: Weight Decay Induces Low-rank Bias for Neural Networks ( http://arxiv.org/abs/2410.02176v1 )

ライセンス: Link先を確認
Ke Chen, Chugang Yi, Haizhao Yang, (参考訳) Weight Decay (WD)を用いたニューラルネットワーク(NN)のトレーニングにおいて,低ランクの重み行列に対する暗黙の偏りについて検討した。 我々は,ReLU NNがSGD (Stochastic Gradient Descent) とWD (Stochastic Gradient Descent) で十分に訓練されている場合,その重み行列は約2階数行列であることを示す。 実験的に、WDは回帰と分類の両方のタスクにこの低ランクバイアスを誘導するために必要な条件であることを示した。 我々の研究は、トレーニングデータ分布、重量行列の最適性、特定のトレーニング手順に関する一般的な仮定に依存しないので、従来の研究と異なります。 さらに、低ランクバイアスを活用することにより、一般化誤差境界の改善と、より優れた一般化が達成できることを示す数値的な証拠を提供する。 そこで本研究では,WDと組み合わせることで,SGDの強力な一般化性能に関する理論的および実証的な知見を提供する。

We study the implicit bias towards low-rank weight matrices when training neural networks (NN) with Weight Decay (WD). We prove that when a ReLU NN is sufficiently trained with Stochastic Gradient Descent (SGD) and WD, its weight matrix is approximately a rank-two matrix. Empirically, we demonstrate that WD is a necessary condition for inducing this low-rank bias across both regression and classification tasks. Our work differs from previous studies as our theoretical analysis does not rely on common assumptions regarding the training data distribution, optimality of weight matrices, or specific training procedures. Furthermore, by leveraging the low-rank bias, we derive improved generalization error bounds and provide numerical evidence showing that better generalization can be achieved. Thus, our work offers both theoretical and empirical insights into the strong generalization performance of SGD when combined with WD.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# HATFormer: トランスフォーマーを用いた歴史的手書きアラビア文字認識

HATFormer: Historic Handwritten Arabic Text Recognition with Transformers ( http://arxiv.org/abs/2410.02179v1 )

ライセンス: Link先を確認
Adrian Chan, Anupam Mijar, Mehreen Saeed, Chau-Wai Wong, Akram Khater, (参考訳) アラビア語の手書き文字認識(HTR)は、様々な書体スタイルとアラビア文字の本質的な特徴のために、特に歴史的テキストでは困難である。 加えて、アラビア文字のデータセットは英語よりも小さく、一般化可能なアラビアHTRモデルを訓練することは困難である。 これらの課題に対処するために,HATFormerを提案する。HATFormerはトランスフォーマーをベースとしたエンコーダデコーダアーキテクチャで,最先端のHTRモデルに基づいている。 変換器の注意機構を活用することで、HATFormerは空間的コンテキスト情報をキャプチャして、カーシブ文字の識別、視覚的表現の分解、ダイアクリティカル文字の識別によってアラビア文字の本質的な課題に対処する。 我々の歴史的手書きアラビア語へのカスタマイズには、有効なViT情報前処理のための画像処理装置、コンパクトなアラビア文字表現のためのテキストトークンー、限られた量の歴史的アラビア文字データを扱う訓練パイプラインが含まれる。 HATFormerの文字誤り率(CER)は最大8.6%で、文献で最高のベースラインよりも51%向上している。 HATFormerはまた、最大のプライベート非歴史データセットにおいて、同等の4.2%のCERを達成している。 本研究は, 複雑な言語固有の課題を伴う低リソース言語へのHTR手法の適用の可能性を示し, 文書のデジタル化, 情報検索, 文化保護の進展に寄与している。

Arabic handwritten text recognition (HTR) is challenging, especially for historical texts, due to diverse writing styles and the intrinsic features of Arabic script. Additionally, Arabic handwriting datasets are smaller compared to English ones, making it difficult to train generalizable Arabic HTR models. To address these challenges, we propose HATFormer, a transformer-based encoder-decoder architecture that builds on a state-of-the-art English HTR model. By leveraging the transformer's attention mechanism, HATFormer captures spatial contextual information to address the intrinsic challenges of Arabic script through differentiating cursive characters, decomposing visual representations, and identifying diacritics. Our customization to historical handwritten Arabic includes an image processor for effective ViT information preprocessing, a text tokenizer for compact Arabic text representation, and a training pipeline that accounts for a limited amount of historic Arabic handwriting data. HATFormer achieves a character error rate (CER) of 8.6% on the largest public historical handwritten Arabic dataset, with a 51% improvement over the best baseline in the literature. HATFormer also attains a comparable CER of 4.2% on the largest private non-historical dataset. Our work demonstrates the feasibility of adapting an English HTR method to a low-resource language with complex, language-specific challenges, contributing to advancements in document digitization, information retrieval, and cultural preservation.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# BadCM: クロスモーダル学習に対する目に見えないバックドア攻撃

BadCM: Invisible Backdoor Attack Against Cross-Modal Learning ( http://arxiv.org/abs/2410.02182v1 )

ライセンス: Link先を確認
Zheng Zhang, Xu Yuan, Lei Zhu, Jingkuan Song, Liqiang Nie, (参考訳) 単調な学習タスクで顕著な成功を収めたにもかかわらず、複数のモダリティに関わる場合の一般化と劣悪なステルスネスのために、クロスモーダル学習に対するバックドアアタックはいまだに未発見のままである。 特に、この分野での作業は、主に単調な視覚的攻撃からアイデアを継承するため、多種多様なクロスモーダル攻撃状況への対処と、現実の応用における実践性を阻害する非受容的なトリガーサンプルの操作に苦慮している。 本稿では,クロスモーダル学習(BadCM)に対して,クロスモーダル学習(BadCM)に対して,パズルの欠落部分を埋める新たな両面バックドアを提案する。 具体的には、モダリティ不変成分を標的中毒領域として捉え、これらの領域に適切に設計されたトリガーパターンを被害者モデルにより効率的に認識するクロスモーダルマイニング手法を開発した。 この戦略はさまざまな画像テキストのクロスモーダルモデルに適応しており、当社のフレームワークはさまざまな攻撃シナリオで利用できます。 さらに,高盗難の有毒試料を生成するために,モダリティ非変質領域の明示的トリガーパターンの隠蔽を容易にする視覚的・言語的モダリティのためのモダリティ特異的ジェネレータを考案した。 私たちの知る限りでは、BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドです。 クロスモーダル検索(クロスモーダル検索)とVQA(VQA)の2つの典型的な応用に関する総合的な実験的評価により,多種類の攻撃シナリオ下での本手法の有効性と一般化が実証された。 さらに,BadCMは既存のバックドア防御を確実に回避できることを示す。 私たちのコードはhttps://github.com/xandery-geek/BadCMで利用可能です。

Despite remarkable successes in unimodal learning tasks, backdoor attacks against cross-modal learning are still underexplored due to the limited generalization and inferior stealthiness when involving multiple modalities. Notably, since works in this area mainly inherit ideas from unimodal visual attacks, they struggle with dealing with diverse cross-modal attack circumstances and manipulating imperceptible trigger samples, which hinders their practicability in real-world applications. In this paper, we introduce a novel bilateral backdoor to fill in the missing pieces of the puzzle in the cross-modal backdoor and propose a generalized invisible backdoor framework against cross-modal learning (BadCM). Specifically, a cross-modal mining scheme is developed to capture the modality-invariant components as target poisoning areas, where well-designed trigger patterns injected into these regions can be efficiently recognized by the victim models. This strategy is adapted to different image-text cross-modal models, making our framework available to various attack scenarios. Furthermore, for generating poisoned samples of high stealthiness, we conceive modality-specific generators for visual and linguistic modalities that facilitate hiding explicit trigger patterns in modality-invariant regions. To the best of our knowledge, BadCM is the first invisible backdoor method deliberately designed for diverse cross-modal attacks within one unified framework. Comprehensive experimental evaluations on two typical applications, i.e., cross-modal retrieval and VQA, demonstrate the effectiveness and generalization of our method under multiple kinds of attack scenarios. Moreover, we show that BadCM can robustly evade existing backdoor defenses. Our code is available at https://github.com/xandery-geek/BadCM.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# CodeJudge: 大規模言語モデルによるコード生成の評価

CodeJudge: Evaluating Code Generation with Large Language Models ( http://arxiv.org/abs/2410.02184v1 )

ライセンス: Link先を確認
Weixi Tong, Tianyi Zhang, (参考訳) 大規模言語モデル(LLM)は、コード生成において有望なパフォーマンスを示している。 しかし、LLMが生成したコードを確実に評価する方法は未解決の問題である。 本稿では,LLMを利用したコード評価フレームワークであるCodeJudgeについて,テストケースを必要とせずに生成したコードの意味的正当性を評価する。 本研究では,LLMの「スロー思考」を深く,信頼性の高い評価に導くための様々な方法について検討する。 4つのコード生成データセットと5つのプログラミング言語に対する評価器として4つのLLMを実験した。 その結果、CodeJudgeは、ほとんどの設定で既存のメソッドを著しく上回りました。 さらに、SOTA GPT-3.5ベースのコード評価手法と比較して、より小さなモデルであるLlama-3-8B-Instructを使用する場合でも、CodeJudgeはより良い結果を得た。 コードとデータセットはGitHub https://github.com/VichyTong/CodeJudge.comから入手可能です。

Large Language Models (LLMs) have shown promising performance in code generation. However, how to reliably evaluate code generated by LLMs remains an unresolved problem. This paper presents CodeJudge, a code evaluation framework that leverages LLMs to evaluate the semantic correctness of generated code without the need for test cases. We investigate different ways to guide the LLM in performing "slow thinking" to arrive at an in-depth and reliable evaluation. We experimented with four LLMs as evaluators on four code generation datasets and five programming languages. The results show that CodeJudge significantly outperformed existing methods in most settings. Furthermore, compared with a SOTA GPT-3.5-based code evaluation method, CodeJudge achieved better results even when using a much smaller model, Llama-3-8B-Instruct. Our code and datasets are available on GitHub https://github.com/VichyTong/CodeJudge.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# 多エージェントシステムにおけるエージェント指向計画

Agent-Oriented Planning in Multi-Agent Systems ( http://arxiv.org/abs/2410.02189v1 )

ライセンス: Link先を確認
Ao Li, Yuexiang Xie, Songze Li, Fugee Tsung, Bolin Ding, Yaliang Li, (参考訳) 多様な専門知識とツールを持つ複数のエージェントのコラボレーションを通じて、マルチエージェントシステムは現実世界の問題を解決するための驚くべき進歩を達成する。 ユーザクエリを前提として、これらのシステム内の脳として機能するメタエージェントは、クエリを複数のサブタスクに分解する必要がある。 本研究では,解答性,完全性,非冗長性を含むエージェント指向計画の3つの重要な設計原則を特定し,各サブタスクが効果的に解決されることを確認し,元のクエリに対する満足な応答をもたらす。 これらの原理は、高速なタスク分解と割り当てプロセスを利用して、報酬モデルによる効果的かつ効率的な評価を行うマルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークを提案するきっかけとなった。 計画プロセス中、メタエージェントはエキスパートエージェントのパフォーマンスを評価し、サブタスクにタイムリーに調整し、必要に応じてスケジューリングする責任も負う。 さらに,提案フレームワークにフィードバックループを組み込んで,そのような問題解決プロセスの有効性と堅牢性をさらに向上させる。 大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略の両方と比較して,現実世界の問題を解決するためのフレームワークの進歩を実証している。

Through the collaboration of multiple agents possessing diverse expertise and tools, multi-agent systems achieve impressive progress in solving real-world problems. Given the user queries, the meta-agents, serving as the brain within these systems, are required to decompose the queries into multiple sub-tasks that can be allocated to suitable agents capable of solving them, so-called agent-oriented planning. In this study, we identify three critical design principles of agent-oriented planning, including solvability, completeness, and non-redundancy, to ensure that each sub-task is effectively resolved, leading to satisfactory responses to the original queries. These principles further inspire us to propose a novel framework for agent-oriented planning in multi-agent systems, leveraging a fast task decomposition and allocation process followed by an effective and efficient evaluation via a reward model. During the planning process, the meta-agent is also responsible for evaluating the performance of the expert agents, making timely adjustments to the sub-tasks and scheduling as necessary. Besides, we integrate a feedback loop into the proposed framework to further enhance the effectiveness and robustness of such a problem-solving process. Extensive experiments demonstrate the advancement of the proposed framework in solving real-world problems compared to both single-agent systems and existing planning strategies for multi-agent systems.
翻訳日:2024-11-04 08:15:54 公開日:2024-10-03
# ポイント・オブ・インテンシブ・レコメンデーションに関する調査--モデル,アーキテクチャ,セキュリティ

A Survey on Point-of-Interest Recommendation: Models, Architectures, and Security ( http://arxiv.org/abs/2410.02191v1 )

ライセンス: Link先を確認
Qianru Zhang, Peng Yang, Junliang Yu, Haixin Wang, Xingwei He, Siu-Ming Yiu, Hongzhi Yin, (参考訳) スマートフォンや位置情報ベースのソーシャルネットワークの普及により、時空間データが非常に流入し、POI(Point-of-Interest)レコメンデーションシステムを強化するための例外のない機会が生まれている。 これらの先進的なPOIシステムは、ユーザエクスペリエンスの充実、パーソナライズされたインタラクションの実現、デジタルランドスケープにおける意思決定プロセスの最適化に不可欠である。 しかし、既存の調査では従来のアプローチに重点を置いている傾向があり、最先端の開発、新しいアーキテクチャ、そしてPOIレコメンデーションにおけるセキュリティ上の考慮事項に目を向ける人はほとんどいない。 このギャップに対処するため、私たちの調査では、POIレコメンデーションシステムの総合的かつ最新のレビューを提供し、モデル、アーキテクチャ、セキュリティ面の進歩をカバーしています。 従来のモデルから大規模言語モデルのような高度な技術への移行を体系的に検討する。 さらに,集中型から分散型およびフェデレーション型学習システムへのアーキテクチャ進化について検討し,スケーラビリティとプライバシの改善を強調した。 さらに,セキュリティの重要性の増大に対処し,潜在的な脆弱性とプライバシ保護アプローチを検討する。 我々の分類学は、POI勧告の現状を構造化した概要を提供し、また、この急速に進歩する分野における今後の研究の方向性も明らかにしている。

The widespread adoption of smartphones and Location-Based Social Networks has led to a massive influx of spatio-temporal data, creating unparalleled opportunities for enhancing Point-of-Interest (POI) recommendation systems. These advanced POI systems are crucial for enriching user experiences, enabling personalized interactions, and optimizing decision-making processes in the digital landscape. However, existing surveys tend to focus on traditional approaches and few of them delve into cutting-edge developments, emerging architectures, as well as security considerations in POI recommendations. To address this gap, our survey stands out by offering a comprehensive, up-to-date review of POI recommendation systems, covering advancements in models, architectures, and security aspects. We systematically examine the transition from traditional models to advanced techniques such as large language models. Additionally, we explore the architectural evolution from centralized to decentralized and federated learning systems, highlighting the improvements in scalability and privacy. Furthermore, we address the increasing importance of security, examining potential vulnerabilities and privacy-preserving approaches. Our taxonomy provides a structured overview of the current state of POI recommendation, while we also identify promising directions for future research in this rapidly advancing field.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# BACKTIME:多変量時系列予測のバックドア攻撃

BACKTIME: Backdoor Attacks on Multivariate Time Series Forecasting ( http://arxiv.org/abs/2410.02195v1 )

ライセンス: Link先を確認
Xiao Lin, Zhining Liu, Dongqi Fu, Ruizhong Qiu, Hanghang Tong, (参考訳) 多変量時系列(MTS)予測は、輸送、気候、疫学など多くの実世界の応用における基本的な課題である。 このタスクのために、数多くの強力なディープラーニングモデルが開発されているが、MTS予測モデルの悪意ある攻撃に対する堅牢性について調査する研究はほとんどない。 このギャップに対処するため、我々は、MTS予測モデルに対するバックドア攻撃を深く掘り下げ、BackTimeという名前の効果的な攻撃方法を提案し、いくつかのステルスなトリガをTSデータに微妙に注入することで、BackTimeは攻撃者の意図に応じて予測モデルの予測を変更することができる。 具体的には、BackTimeはまず、データ中の有害なタイムスタンプを特定し、次にGNNベースのトリガジェネレータで双方向最適化問題を解決することで、ステルスと効果的なトリガを適応的に合成する。 複数のデータセットと最先端のMSS予測モデルにわたる大規模な実験は、\method{}攻撃の有効性、汎用性、およびステルス性を示している。 コードは \url{https://github.com/xiaolin-cs/BackTime} で公開されている。

Multivariate Time Series (MTS) forecasting is a fundamental task with numerous real-world applications, such as transportation, climate, and epidemiology. While a myriad of powerful deep learning models have been developed for this task, few works have explored the robustness of MTS forecasting models to malicious attacks, which is crucial for their trustworthy employment in high-stake scenarios. To address this gap, we dive deep into the backdoor attacks on MTS forecasting models and propose an effective attack method named BackTime.By subtly injecting a few stealthy triggers into the MTS data, BackTime can alter the predictions of the forecasting model according to the attacker's intent. Specifically, BackTime first identifies vulnerable timestamps in the data for poisoning, and then adaptively synthesizes stealthy and effective triggers by solving a bi-level optimization problem with a GNN-based trigger generator. Extensive experiments across multiple datasets and state-of-the-art MTS forecasting models demonstrate the effectiveness, versatility, and stealthiness of \method{} attacks. The code is available at \url{https://github.com/xiaolin-cs/BackTime}.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 適応型言語モデルに対する参照表現を用いた一般参照モデリング

General Preference Modeling with Preference Representations for Aligning Language Models ( http://arxiv.org/abs/2410.02197v1 )

ライセンス: Link先を確認
Yifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu, (参考訳) 人間の嗜好をモデル化することは、基礎モデルと人間の価値の整合に不可欠である。 ブラッドリー・テリー(BT)報酬モデルのような伝統的な報酬モデリング手法は、特に非推移的嗜好に対処する際、表現力に乏しい。 教師付きペア選好モデル(PairPM)は一般的な選好を表現できるが、それらの実装は非常にアドホックであり、比較ペアの一貫性のある選好確率を保証できない。 さらに、複数の応答を比較する際の2次クエリの複雑さにより、高い計算コストを課す。 本稿では,遅延空間に応答を埋め込んで複雑な嗜好構造を効率的に捕捉し,線形クエリの複雑さを実現する方法である選好表現学習を提案する。 また、人間のフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般優先度最適化(GPO)を提案する。 実験結果から,我々の一般選好表現モデル(GPM)は,RewardBenchベンチマークにおいて最大5.6%のマージンでBT報酬モデルよりも優れており,BT報酬モデルがランダムな推測のように振る舞うような循環選好を効果的にモデル化できることが示唆された。 さらに、GPOによる言語モデルと一般的な嗜好モデルを用いた後、AlpacaEval2.0やMT-Benchといった下流タスクの評価では、マージンが最大9.3%向上した。 これらの結果から,本手法は基礎モデルの微妙な人的価値との整合性を高める可能性が示唆された。 コードはhttps://github.com/ general-preference/ general-preference-modelで公開されている。

Modeling human preferences is crucial for aligning foundation models with human values. Traditional reward modeling methods, such as the Bradley-Terry (BT) reward model, fall short in expressiveness, particularly in addressing intransitive preferences. Although supervised pair preference models (PairPM) can express general preferences, their implementation is highly ad-hoc and cannot guarantee a consistent preference probability of compared pairs. Additionally, they impose high computational costs due to their quadratic query complexity when comparing multiple responses. In this paper, we introduce preference representation learning, an approach that embeds responses into a latent space to capture intricate preference structures efficiently, achieving linear query complexity. Additionally, we propose preference score-based General Preference Optimization (GPO), which generalizes reward-based reinforcement learning from human feedback. Experimental results show that our General Preference representation model (GPM) outperforms the BT reward model on the RewardBench benchmark with a margin of up to 5.6% and effectively models cyclic preferences where any BT reward model behaves like a random guess. Furthermore, evaluations on downstream tasks such as AlpacaEval2.0 and MT-Bench, following the language model post-training with GPO and our general preference model, reveal substantial performance improvements with margins up to 9.3%. These findings indicate that our method may enhance the alignment of foundation models with nuanced human values. The code is available at https://github.com/general-preference/general-preference-model.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# G2T-LLM:微細可変大言語モデルによる分子生成のためのグラフからトレーテキストの符号化

G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models ( http://arxiv.org/abs/2410.02198v1 )

ライセンス: Link先を確認
Zhaoning Yu, Xiangyang Xu, Hongyang Gao, (参考訳) G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造を大規模言語モデル(LLM)に最適化した階層型テキスト形式に変換する,分子生成の新しいアプローチである。 このエンコーディングは、複雑な分子グラフをJSONやXMLのような木構造形式に変換する。 LLMの柔軟性を活用することで、自然言語のプロンプトによる直感的な相互作用を可能にし、分子設計のためのよりアクセスしやすいインターフェースを提供する。 教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。 LLMは計算集約的であるが、より優れた一般化と適応性を提供し、タスク固有の最小限のカスタマイズで多様な分子構造を生成することができる。 提案手法は、様々なベンチマーク分子生成データセットの最先端手法と同等のパフォーマンスを達成し、AI駆動分子設計のための柔軟で革新的なツールとしての可能性を示した。

We introduce G2T-LLM, a novel approach for molecule generation that uses graph-to-tree text encoding to transform graph-based molecular structures into a hierarchical text format optimized for large language models (LLMs). This encoding converts complex molecular graphs into tree-structured formats, such as JSON and XML, which LLMs are particularly adept at processing due to their extensive pre-training on these types of data. By leveraging the flexibility of LLMs, our approach allows for intuitive interaction using natural language prompts, providing a more accessible interface for molecular design. Through supervised fine-tuning, G2T-LLM generates valid and coherent chemical structures, addressing common challenges like invalid outputs seen in traditional graph-based methods. While LLMs are computationally intensive, they offer superior generalization and adaptability, enabling the generation of diverse molecular structures with minimal task-specific customization. The proposed approach achieved comparable performances with state-of-the-art methods on various benchmark molecular generation datasets, demonstrating its potential as a flexible and innovative tool for AI-driven molecular design.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# トイプリッツ行列に基づく普遍性を持つ深いクープマン層モデル

Deep Koopman-layered Model with Universal Property Based on Toeplitz Matrices ( http://arxiv.org/abs/2410.02199v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Tomoharu Iwata, (参考訳) 時系列データの動的解析のために,Toeplitz行列を用いて学習可能なパラメータを持つ深層クープマン層モデルを提案する。 提案モデルは理論的固さと柔軟性の両方を有する。 トープリッツ行列の普遍性とモデルに従属する再生性により、その普遍性と一般化性を示すことができる。 さらに,提案モデルの柔軟性により,非線形力学系から得られる時系列データを適合させることができる。 モデルのトレーニングでは、効率的な計算にKrylov部分空間法を適用する。 さらに,提案モデルはニューラルODEモデルとみなすことができる。 この意味で、提案モデルは、クープマン作用素、ニューラルODE、および数値線形代数的手法の間の新しい接続を確立する。

We propose deep Koopman-layered models with learnable parameters in the form of Toeplitz matrices for analyzing the dynamics of time-series data. The proposed model has both theoretical solidness and flexibility. By virtue of the universal property of Toeplitz matrices and the reproducing property underlined in the model, we can show its universality and the generalization property. In addition, the flexibility of the proposed model enables the model to fit time-series data coming from nonautonomous dynamical systems. When training the model, we apply Krylov subspace methods for efficient computations. In addition, the proposed model can be regarded as a neural ODE-based model. In this sense, the proposed model establishes a new connection among Koopman operators, neural ODEs, and numerical linear algebraic methods.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# プレフィックスチューニングの再検討:プロンプトにおける再パラメータ化の統計的メリット

Revisiting Prefix-tuning: Statistical Benefits of Reparameterization among Prompts ( http://arxiv.org/abs/2410.02200v1 )

ライセンス: Link先を確認
Minh Le, Chau Nguyen, Huy Nguyen, Quyen Tran, Trung Le, Nhat Ho, (参考訳) プロンプトベースの技法、例えばプロンプトチューニング(英語版)やプレフィックスチューニング(英語版)は、微調整された大規模な事前訓練モデルにおいて、その効率が顕著になった。 広く採用されているにもかかわらず、これらの手法の理論的基礎は依然として限られている。 例えば、プレフィックスチューニングでは、完全な微調整でパフォーマンスパリティを達成する上で重要な要素は、再パラメータ化戦略にある。 しかし、このアプローチの有効性を裏付ける理論的原理はまだ十分に検討されていない。 我々の研究は、再パラメータ化は単なる工学的なトリックではなく、深い理論的基礎に根ざしていることを示している。 具体的には,プレフィックスキーと値ベクトル間の共有構造を暗黙的に符号化する。 プレフィックスチューニングとエキスパートモデルの混合に関する最近の知見に基づいて、この共有構造は非共有モデルと比較してパラメータ推定におけるサンプル効率を著しく改善することを示す。 様々なタスクにまたがるプレフィックスチューニングの有効性は、視覚領域と言語領域の両方での広範な実験を通じて、共有構造によって拡張されることを実証的に確認する。 さらに、我々は、プロンプトチューニングにおける同様の構造的利点を明らかにし、その成功に対する新たな視点を提供します。 本研究は,プロンプトに基づく手法とその基盤となるメカニズムの理解を深め,理論的および経験的貢献を提供する。

Prompt-based techniques, such as prompt-tuning and prefix-tuning, have gained prominence for their efficiency in fine-tuning large pre-trained models. Despite their widespread adoption, the theoretical foundations of these methods remain limited. For instance, in prefix-tuning, we observe that a key factor in achieving performance parity with full fine-tuning lies in the reparameterization strategy. However, the theoretical principles underpinning the effectiveness of this approach have yet to be thoroughly examined. Our study demonstrates that reparameterization is not merely an engineering trick but is grounded in deep theoretical foundations. Specifically, we show that the reparameterization strategy implicitly encodes a shared structure between prefix key and value vectors. Building on recent insights into the connection between prefix-tuning and mixture of experts models, we further illustrate that this shared structure significantly improves sample efficiency in parameter estimation compared to non-shared alternatives. The effectiveness of prefix-tuning across diverse tasks is empirically confirmed to be enhanced by the shared structure, through extensive experiments in both visual and language domains. Additionally, we uncover similar structural benefits in prompt-tuning, offering new perspectives on its success. Our findings provide theoretical and empirical contributions, advancing the understanding of prompt-based methods and their underlying mechanisms.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 記憶とリコール:連想記憶に基づく軌道予測

Remember and Recall: Associative-Memory-based Trajectory Prediction ( http://arxiv.org/abs/2410.02201v1 )

ライセンス: Link先を確認
Hang Guo, Yuzhen Zhang, Tianci Gao, Junning Su, Pei Lv, Mingliang Xu, (参考訳) 軌道予測は自律走行システムの重要な要素であり、蓄積された運動体験を現在のシナリオに適用することができる。 既存のほとんどの手法は、価値ある経験を得るために連続表現を学習することに集中しているが、計算の非効率さに悩まされ、不慣れな状況に苦しむことが多い。 この問題に対処するため,Fragmented-Memory-based Trajectory Prediction (FMTP)モデルを提案する。 FMTPモデルは、過去の経験を利用する柔軟性を維持しつつ情報冗長性を低減し、計算効率を向上させるために離散表現を用いる。 具体的には、トレーニング期間中に定義された量子化操作を用いて、トレーニングセットから連続的なトラジェクトリ表現を統合することで学習可能なメモリアレイを設計する。 このアプローチは、離散形式で必須の特徴を保持しながら、余分な情報をさらに排除する。 さらに、言語モデルに基づく高度な推論エンジンを開発し、これらの離散表現間の連想規則を深く学習する。 提案手法は,ETH-UCY,inD,SDD,nuScenes,Waymo,VTL-TPなど,様々な公開データセットで評価されている。 実験結果から,本手法は重要な性能を達成し,過去の軌跡からより貴重な経験を抽出し,現状を把握できることが示唆された。

Trajectory prediction is a pivotal component of autonomous driving systems, enabling the application of accumulated movement experience to current scenarios. Although most existing methods concentrate on learning continuous representations to gain valuable experience, they often suffer from computational inefficiencies and struggle with unfamiliar situations. To address this issue, we propose the Fragmented-Memory-based Trajectory Prediction (FMTP) model, inspired by the remarkable learning capabilities of humans, particularly their ability to leverage accumulated experience and recall relevant memories in unfamiliar situations. The FMTP model employs discrete representations to enhance computational efficiency by reducing information redundancy while maintaining the flexibility to utilize past experiences. Specifically, we design a learnable memory array by consolidating continuous trajectory representations from the training set using defined quantization operations during the training phase. This approach further eliminates redundant information while preserving essential features in discrete form. Additionally, we develop an advanced reasoning engine based on language models to deeply learn the associative rules among these discrete representations. Our method has been evaluated on various public datasets, including ETH-UCY, inD, SDD, nuScenes, Waymo, and VTL-TP. The extensive experimental results demonstrate that our approach achieves significant performance and extracts more valuable experience from past trajectories to inform the current state.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 言語モデルはヒントを取ることができるか?制御可能なコンテクスト化コモンセンス推論のための試行

Can Language Models Take A Hint? Prompting for Controllable Contextualized Commonsense Inference ( http://arxiv.org/abs/2410.02202v1 )

ライセンス: Link先を確認
Pedro Colon-Hernandez, Nanxi Liu, Chelsea Joe, Peter Chin, Claire Yin, Henry Lieberman, Yida Xin, Cynthia Breazeal, (参考訳) 与えられたストーリーコンテキスト内でコモンセンスのアサーションを生成することは、現代言語モデルにとって難しい課題である。 これまでの研究では、コモンセンス推論をストーリーと整合させ、言語生成モデルを訓練することでこの問題に対処してきた。 課題の1つは、ストーリーのどのトピックやエンティティが推論されたアサーションの焦点になるべきかを決定することである。 以前のアプローチでは、生成されたアサーションの特定の側面を制御する能力がない。 本研究では、文脈化されたコモンセンス推論を強化するデータ拡張手法である"hinting"を導入する。 『Hinting』では、ハードプロンプトとソフトプロンプトを併用して推論プロセスの導出を行う。 その有効性を示すために、ParaCOMETとGLUCOSEの2つのコンテキストコモンセンス推論データセットに「隠れ」を適用し、一般およびコンテキスト固有の推論に与える影響を評価する。 さらに, ヒントに同義語やアントロニムを組み込むことで, 「隠れ」を評価する。 この結果から,"隠れ"は文脈コモンセンス推論の性能を損なうことなく,制御性の向上を図っている。

Generating commonsense assertions within a given story context remains a difficult task for modern language models. Previous research has addressed this problem by aligning commonsense inferences with stories and training language generation models accordingly. One of the challenges is determining which topic or entity in the story should be the focus of an inferred assertion. Prior approaches lack the ability to control specific aspects of the generated assertions. In this work, we introduce "hinting," a data augmentation technique that enhances contextualized commonsense inference. "Hinting" employs a prefix prompting strategy using both hard and soft prompts to guide the inference process. To demonstrate its effectiveness, we apply "hinting" to two contextual commonsense inference datasets: ParaCOMET and GLUCOSE, evaluating its impact on both general and context-specific inference. Furthermore, we evaluate "hinting" by incorporating synonyms and antonyms into the hints. Our results show that "hinting" does not compromise the performance of contextual commonsense inference while offering improved controllability.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# GraphIC:マルチステップ推論のためのグラフベースの実例検索モデル

GraphIC: A Graph-Based In-Context Example Retrieval Model for Multi-Step Reasoning ( http://arxiv.org/abs/2410.02203v1 )

ライセンス: Link先を確認
Jiale Fu, Yaqing Wang, Simeng Han, Jiaming Fan, Chen Si, Xu Yang, (参考訳) インコンテキスト学習(ICL)では、パラメータを更新することなく、いくつかのインコンテキスト例(ICE)を直接入力に組み込むことで、大規模言語モデル(LLM)を新しいタスクに一般化することができる。 しかし、ICLの有効性はICEの選択に大きく依存しており、従来のテキストベースの埋め込み手法は数学的および論理的問題解決のような多段階推論を必要とするタスクには不十分であることが多い。 これは、これらのタスクに必要な深い推論構造を捉えるのに失敗する、浅いセマンティックな類似性によって導入されたバイアスによるものである。 本稿では,推論過程のグラフベース表現を活用する新しいアプローチであるGraphICとベイジアンネットワーク(BN)を併用してICEを選択する。 グラフ構造は本質的に、コアの推論構造を保持しながら浅いセマンティクスをフィルタリングする。 重要なことに、BNはノードの属性の親ノードへの依存性を捉え、それぞれの思考が先行するノードによって形成される人間の認知の階層的な性質を忠実に反映している。 これによってBNは特に多段階推論タスクに適しており、プロセスは人間のような推論とより密に一致している。 3種類の推論タスク(数学的推論、コード生成、論理的推論)にわたる大規模な実験は、GraphICがICEの選択においてトレーニングなしモデルとトレーニングベースモデルの両方より優れており、有効性と効率の両面で優れていることを示している。 また,GraphICはICLの性能と相互運用性を向上し,多段階推論タスクにおけるICE選択を大幅に向上させることを示す。

In-context learning (ICL) enables large language models (LLMs) to generalize to new tasks by incorporating a few in-context examples (ICEs) directly in the input, without updating parameters. However, the effectiveness of ICL heavily relies on the selection of ICEs, and conventional text-based embedding methods are often inadequate for tasks that require multi-step reasoning, such as mathematical and logical problem solving. This is due to the bias introduced by shallow semantic similarities that fail to capture the deeper reasoning structures required for these tasks. We present GraphIC, a novel approach that leverages graph-based representations of reasoning processes, coupled with Bayesian Networks (BNs) to select ICEs. Graph structures inherently filter out shallow semantics while preserving the core reasoning structure. Importantly, BNs capture the dependency of a node's attributes on its parent nodes, closely mirroring the hierarchical nature of human cognition-where each thought is shaped by preceding ones. This makes BNs particularly well-suited for multi-step reasoning tasks, aligning the process more closely with human-like reasoning. Extensive experiments across three types of reasoning tasks (mathematical reasoning, code generation, and logical reasoning) demonstrate that GraphIC outperforms both training-free and training-based models in selecting ICEs, excelling in terms of both effectiveness and efficiency. We show that GraphIC enhances ICL's performance and interoperability, significantly advancing ICE selection for multi-step reasoning tasks.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 顕微鏡スライディング画像におけるメラノーマセグメンテーションへのセグメンテーションモデルの適用

Adapting Segment Anything Model to Melanoma Segmentation in Microscopy Slide Images ( http://arxiv.org/abs/2410.02207v1 )

ライセンス: Link先を確認
Qingyuan Liu, Avideh Zakhor, (参考訳) Whole Slide Images(WSIs)における黒色腫の分画は,ブレスロー深さや原発性浸潤性腫瘍の大きさといった重要な予後因子の測定に有用である。 本稿では,Segment Anything Model (SAM) を用いた顕微鏡スライド画像の自動メラノーマ分割法を提案する。 提案手法では,初期セグメンテーションモデルを用いて予備セグメンテーションマスクを生成し,SAMのプロンプトに使用する。 我々は,超高解像度スライド画像の最適カバレッジを実現するために,セントロイドとグリッドプロンプトを組み合わせた動的プロンプト戦略を設計し,生成プロンプトの品質を維持した。 侵襲性メラノーマセグメンテーションを最適化するために,インサイトメラノーマ検出と低信頼領域フィルタリングを併用することにより,プロンプト生成プロセスをさらに改善する。 我々は、Segformerを初期セグメンテーションモデルとし、EfficientSAMをパラメータ効率の微調整のためのセグメントアプライズモデルとして選択する。 実験の結果,本手法は他のメラノーマセグメンテーション法に勝るだけでなく,IoUでは9.1%の精度でベースラインセグフォーマを著しく上回っていることがわかった。

Melanoma segmentation in Whole Slide Images (WSIs) is useful for prognosis and the measurement of crucial prognostic factors such as Breslow depth and primary invasive tumor size. In this paper, we present a novel approach that uses the Segment Anything Model (SAM) for automatic melanoma segmentation in microscopy slide images. Our method employs an initial semantic segmentation model to generate preliminary segmentation masks that are then used to prompt SAM. We design a dynamic prompting strategy that uses a combination of centroid and grid prompts to achieve optimal coverage of the super high-resolution slide images while maintaining the quality of generated prompts. To optimize for invasive melanoma segmentation, we further refine the prompt generation process by implementing in-situ melanoma detection and low-confidence region filtering. We select Segformer as the initial segmentation model and EfficientSAM as the segment anything model for parameter-efficient fine-tuning. Our experimental results demonstrate that this approach not only surpasses other state-of-the-art melanoma segmentation methods but also significantly outperforms the baseline Segformer by 9.1% in terms of IoU.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 統合経路安定性選択を用いた誤差制御による高速非パラメトリック特徴選択

Fast nonparametric feature selection with error control using integrated path stability selection ( http://arxiv.org/abs/2410.02208v1 )

ライセンス: Link先を確認
Omar Melikechi, David B. Dunson, Jeffrey W. Miller, (参考訳) 特徴選択は、機械学習問題におけるパフォーマンスと解釈可能性を大幅に向上させる。 しかし、既存の非パラメトリックな特徴選択法は理論上の誤差制御を欠いているか、実際にエラーを正確に制御できないかのいずれかである。 多くの手法も遅く、特に高次元では遅い。 本稿では,疑似肯定と誤発見率を制御するために,積分経路安定性の選択をしきい値に応用する一般的な特徴選択法を提案する。 また、p値よりも高次元データに適したq値も推定する。 本稿では,勾配上昇(IPSSGB)とランダム森林(IPSSRF)に基づく一般手法の2つの特殊な事例に着目した。 RNAシークエンシングデータによる大規模なシミュレーションにより、IPSSGBとIPSSRFはエラー制御が良くなり、より真の陽性を検出し、既存の方法よりも高速であることが示された。 また,マイクロRNAと卵巣癌関連遺伝子を検出する手法も用い,他の方法よりも少ない精度で予測できることがわかった。

Feature selection can greatly improve performance and interpretability in machine learning problems. However, existing nonparametric feature selection methods either lack theoretical error control or fail to accurately control errors in practice. Many methods are also slow, especially in high dimensions. In this paper, we introduce a general feature selection method that applies integrated path stability selection to thresholding to control false positives and the false discovery rate. The method also estimates q-values, which are better suited to high-dimensional data than p-values. We focus on two special cases of the general method based on gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive simulations with RNA sequencing data show that IPSSGB and IPSSRF have better error control, detect more true positives, and are faster than existing methods. We also use both methods to detect microRNAs and genes related to ovarian cancer, finding that they make better predictions with fewer features than other methods.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# Calibrate to Discriminate: ラベルなし比較推論による文脈学習の改善

Calibrate to Discriminate: Improve In-Context Learning with Label-Free Comparative Inference ( http://arxiv.org/abs/2410.02210v1 )

ライセンス: Link先を確認
Wei Cheng, Tianlu Wang, Yanmin Ji, Fan Yang, Keren Tan, Yiyu Zheng, (参考訳) 大規模言語モデル (LLM) を用いた文脈内学習は印象的な性能を示したが, 正確かつ誤った予測が同一の信頼度に割り当てられる独自の誤校正行動が発見された。 我々はこの現象を無差別な誤認と呼ぶ。 その結果,期待校正誤差(ECE)のような従来の校正基準では,この挙動を効果的に捉えられないことがわかった。 この問題に対処するために,不特定誤校正の重症度を測定するための新しい指標を提案する。 さらに,誤校正を緩和し,分類性能を向上させるために,文脈内比較推論法を開発した。 5つのデータセットに対する広範な実験により,提案手法は通常のゼロショットや少数ショットのプロンプトよりも精度が高く校正された予測が可能であることを実証した。

While in-context learning with large language models (LLMs) has shown impressive performance, we have discovered a unique miscalibration behavior where both correct and incorrect predictions are assigned the same level of confidence. We refer to this phenomenon as indiscriminate miscalibration. We found that traditional calibration metrics, such as Expected Calibrated Errors (ECEs), are unable to capture this behavior effectively. To address this issue, we propose new metrics to measure the severity of indiscriminate miscalibration. Additionally, we develop a novel in-context comparative inference method to alleviate miscalibrations and improve classification performance. Through extensive experiments on five datasets, we demonstrate that our proposed method can achieve more accurate and calibrated predictions compared to regular zero-shot and few-shot prompting.
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 全スライド画像分類のためのハード負のサンプルマイニング

Hard Negative Sample Mining for Whole Slide Image Classification ( http://arxiv.org/abs/2410.02212v1 )

ライセンス: Link先を確認
Wentao Huang, Xiaoling Hu, Shahira Abousamra, Prateek Prasanna, Chao Chen, (参考訳) パッチレベルラベルの欠如と高い計算コストのため,WSI分類の弱さが問題となっている。 State-of-the-artメソッドは、MIL(Multiple Case Learning)のために、セルフ教師付きパッチワイズ機能表現を使用する。 近年、擬似ラベリングを用いて下流タスクの特徴表現を微調整する手法が提案されているが、主に高品質な正のパッチの選択に焦点を当てている。 本稿では,微調整中における硬質陰性試料のマイニングについて述べる。 これにより、より良い機能表現を得ることができ、トレーニングコストを削減できます。 さらに、これらのハードネガティブなサンプルをよりよく活用するために、パッチワイドなMILランキングの損失を新たに提案する。 2つの公開データセットの実験は、これらの提案されたアイデアの有効性を実証している。 私たちのコードはhttps://github.com/winston52/HNM-WSIで利用可能です。

Weakly supervised whole slide image (WSI) classification is challenging due to the lack of patch-level labels and high computational costs. State-of-the-art methods use self-supervised patch-wise feature representations for multiple instance learning (MIL). Recently, methods have been proposed to fine-tune the feature representation on the downstream task using pseudo labeling, but mostly focusing on selecting high-quality positive patches. In this paper, we propose to mine hard negative samples during fine-tuning. This allows us to obtain better feature representations and reduce the training cost. Furthermore, we propose a novel patch-wise ranking loss in MIL to better exploit these hard negative samples. Experiments on two public datasets demonstrate the efficacy of these proposed ideas. Our codes are available at https://github.com/winston52/HNM-WSI
翻訳日:2024-11-04 08:06:03 公開日:2024-10-03
# 論理演算子を用いた低オーバーヘッドフォールトトレラント量子計算

Low-overhead fault-tolerant quantum computation by gauging logical operators ( http://arxiv.org/abs/2410.02213v1 )

ライセンス: Link先を確認
Dominic J. Williamson, Theodore J. Yoder, (参考訳) 量子計算は、実際に実現可能なフォールトトレラントな方法で実行されなければならない。 近年の進歩により、少ない接続要件と一定量子ビットオーバーヘッドを持つ量子エラー訂正符号が明らかになった。 フォールトトレラントな論理測度の既存のスキームは、常に低量子ビットオーバーヘッドを達成するとは限らない。 ここでは、量子誤り訂正符号において、論理演算子を対称性として扱い、それをゲージすることで、フォールトトレラントな論理測度を実装するための低オーバーヘッド法を提案する。 ゲージング測定手順は、多対数係数まで測定される演算子の重みで線形であるキュービットオーバーヘッドを達成するために活用できる高い柔軟性を導入する。 この柔軟性により、任意の量子コードにプロシージャを適用できる。 この結果から,フォールトトレラントな量子計算を行うための新しい,より効率的なアプローチが得られた。

Quantum computation must be performed in a fault-tolerant manner to be realizable in practice. Recent progress has uncovered quantum error-correcting codes with sparse connectivity requirements and constant qubit overhead. Existing schemes for fault-tolerant logical measurement do not always achieve low qubit overhead. Here we present a low-overhead method to implement fault-tolerant logical measurement in a quantum error-correcting code by treating the logical operator as a symmetry and gauging it. The gauging measurement procedure introduces a high degree of flexibility that can be leveraged to achieve a qubit overhead that is linear in the weight of the operator being measured up to a polylogarithmic factor. This flexibility also allows the procedure to be adapted to arbitrary quantum codes. Our results provide a new, more efficient, approach to performing fault-tolerant quantum computation, making it more tractable for near-term implementation.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 任意のジオメトリに対するフェルミオンテンソルネットワーク収縮

Fermionic tensor network contraction for arbitrary geometries ( http://arxiv.org/abs/2410.02215v1 )

ライセンス: Link先を確認
Yang Gao, Huanchen Zhai, Johnnie Gray, Ruojing Peng, Gunhee Park, Wen-Yuan Liu, Eirik F. Kjønstad, Garnet Kin-Lic Chan, (参考訳) 本稿では,大域的順序と局所的順序の両方の定式化の中で,任意の格子上のフェルミオンテンソルネットワークの縮約の実装について述べる。 我々は,これらの2つの規約について,クイムライブラリに実装された図式的記述を提供する。 超最適化された近似収縮戦略を用いて、3次元ダイヤモンド格子とランダム正則グラフ上で定義された有限ハバードモデルのベンチマークフェルミオン射影対状態シミュレーションを行う。

We describe our implementation of fermionic tensor network contraction on arbitrary lattices within both a globally ordered and locally ordered formalism. We provide a pedagogical description of these two conventions as implemented for the quimb library. Using hyperoptimized approximate contraction strategies, we present benchmark fermionic projected entangled pair states simulations of finite Hubbard models defined on the three-dimensional diamond lattice and random regular graphs.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 決定論的流れモデルからの確率サンプリング

Stochastic Sampling from Deterministic Flow Models ( http://arxiv.org/abs/2410.02217v1 )

ライセンス: Link先を確認
Saurabh Singh, Ian Fischer, (参考訳) 整流フローのような決定論的フローモデルは、通常の微分方程式(ODE)のベクトル場として実現された2つの分布間の決定論的トランスポートマップを学習するための一般的なフレームワークを提供する。 しかし、それらはモデル推定と離散化エラーに敏感であり、中間状態で条件付けられた異なるサンプルを許可せず、アプリケーションを制限する。 このような流れモデルの基盤となるODEを、同じ境界分布を持つ確率微分方程式(SDE)の族に変換する一般的な方法を提案する。 この方法では,フロー場とスコア関数へのアクセスを条件として,決定的および確率的サンプリングのスペクトルを連続的に分散する,固定(eg,以前に訓練した)emph{deterministic} フローモデルに対する \emph{stochastic samplers} の族を導出することができる。 提案手法は, 決定論的サンプリング器の問題を緩和し, 実証的に性能を向上する上で, さらなる自由度を提供する。 我々は,おもちゃのガウスセットアップと大規模イメージネット生成タスクにおいて,提案手法の利点を実証的に実証した。 さらに、我々の確率的サンプルの家系は、我々の実験で定性的に示すように、生成の多様性を制御するための追加のノブを提供する。

Deterministic flow models, such as rectified flows, offer a general framework for learning a deterministic transport map between two distributions, realized as the vector field for an ordinary differential equation (ODE). However, they are sensitive to model estimation and discretization errors and do not permit different samples conditioned on an intermediate state, limiting their application. We present a general method to turn the underlying ODE of such flow models into a family of stochastic differential equations (SDEs) that have the same marginal distributions. This method permits us to derive families of \emph{stochastic samplers}, for fixed (e.g., previously trained) \emph{deterministic} flow models, that continuously span the spectrum of deterministic and stochastic sampling, given access to the flow field and the score function. Our method provides additional degrees of freedom that help alleviate the issues with the deterministic samplers and empirically outperforms them. We empirically demonstrate advantages of our method on a toy Gaussian setup and on the large scale ImageNet generation task. Further, our family of stochastic samplers provide an additional knob for controlling the diversity of generation, which we qualitatively demonstrate in our experiments.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 機械学習を利用した伸縮性スマート繊維手袋を用いた複雑な手の動きと物体相互作用のキャプチャ

Capturing complex hand movements and object interactions using machine learning-powered stretchable smart textile gloves ( http://arxiv.org/abs/2410.02221v1 )

ライセンス: Link先を確認
Arvin Tashakori, Zenan Jiang, Amir Servati, Saeid Soltanian, Harishkumar Narayana, Katherine Le, Caroline Nakayama, Chieh-ling Yang, Z. Jane Wang, Janice J. Eng, Peyman Servati, (参考訳) 器用な手の動きと相互作用の正確なリアルタイム追跡は、人間とコンピュータの相互作用、メタバース、ロボット工学、遠隔医療に多くの応用がある。 大量の調音と自由度のために、現実的な手の動きを捉えることは難しい。 本報告では,手指の伸縮性,洗浄性を有するスマートグローブとヘリカルセンサ糸と慣性測定ユニットを用いた手指運動の高精度かつ動的追跡について報告する。 センサ糸は高いダイナミックレンジを有し, 0.005 %の低い155 %のひずみに応答し, 広範囲の使用および洗浄サイクルの安定性を示す。 複数段の機械学習を用いて平均関節角度推定根の平均二乗誤差を1.21度と1.45度とすると、対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物 本稿では,センサのノイズや変動に対するロバスト性を高めるデータ拡張手法について報告する。 我々は,物体間相互作用における手の動きの正確な追跡,モックペーパーキーボードの正確なタイピング,アメリカン手話からの複雑な動的および静的なジェスチャーの認識,オブジェクト識別など,新しい手法の道を開いた。

Accurate real-time tracking of dexterous hand movements and interactions has numerous applications in human-computer interaction, metaverse, robotics, and tele-health. Capturing realistic hand movements is challenging because of the large number of articulations and degrees of freedom. Here, we report accurate and dynamic tracking of articulated hand and finger movements using stretchable, washable smart gloves with embedded helical sensor yarns and inertial measurement units. The sensor yarns have a high dynamic range, responding to low 0.005 % to high 155 % strains, and show stability during extensive use and washing cycles. We use multi-stage machine learning to report average joint angle estimation root mean square errors of 1.21 and 1.45 degrees for intra- and inter-subjects cross-validation, respectively, matching accuracy of costly motion capture cameras without occlusion or field of view limitations. We report a data augmentation technique that enhances robustness to noise and variations of sensors. We demonstrate accurate tracking of dexterous hand movements during object interactions, opening new avenues of applications including accurate typing on a mock paper keyboard, recognition of complex dynamic and static gestures adapted from American Sign Language and object identification.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 軽量多情報インタラクションネットワークによる効率的なセマンティックセグメンテーション

Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network ( http://arxiv.org/abs/2410.02224v1 )

ライセンス: Link先を確認
Yangyang Qiu, Guoan Xu, Guangwei Gao, Zhenhua Guo, Yi Yu, Chia-Wen Lin, (参考訳) 近年,畳み込みニューラルネットワーク(CNN)の局所モデリング機能とトランスフォーマーのグローバル依存性強度の統合により,セマンティックセグメンテーションコミュニティにセンセーションが生まれている。 しかし、大規模な計算ワークロードと高いハードウェアメモリ要求は、リアルタイムシナリオにおける彼らのさらなる応用の大きな障害のままである。 本研究では,CNNとトランスフォーマーを効果的に組み合わせ,冗長計算やメモリフットプリントを削減した,LMIINetと呼ばれる,リアルタイムセマンティックセマンティックセグメンテーションのための軽量なマルチ情報インタラクションネットワークを提案する。 Lightweight Feature Interaction Bottleneck (LFIB)モジュールは、コンテキスト統合を強化する効率的な畳み込みで構成されている。 さらに、Flatten Transformerは、ローカルとグローバルの機能インタラクションを拡張して、詳細なセマンティック情報をキャプチャすることで改善されている。 LFIBブロックとTransformerブロックの両方に組合せ係数学習スキームを組み込むことにより、特徴の相互作用が改善される。 大規模な実験により、LMIINetは精度と効率のバランスが優れていることが示された。 0.72Mパラメータと11.74G FLOPsで、LMIINetはCityscapesテストセットで100 FPSで72.0% mIoU、CamVidテストデータセットで1つのRTX2080Ti GPUを使用して160 FPSで69.94% mIoUを達成した。

Recently, the integration of the local modeling capabilities of Convolutional Neural Networks (CNNs) with the global dependency strengths of Transformers has created a sensation in the semantic segmentation community. However, substantial computational workloads and high hardware memory demands remain major obstacles to their further application in real-time scenarios. In this work, we propose a lightweight multiple-information interaction network for real-time semantic segmentation, called LMIINet, which effectively combines CNNs and Transformers while reducing redundant computations and memory footprint. It features Lightweight Feature Interaction Bottleneck (LFIB) modules comprising efficient convolutions that enhance context integration. Additionally, improvements are made to the Flatten Transformer by enhancing local and global feature interaction to capture detailed semantic information. The incorporation of a combination coefficient learning scheme in both LFIB and Transformer blocks facilitates improved feature interaction. Extensive experiments demonstrate that LMIINet excels in balancing accuracy and efficiency. With only 0.72M parameters and 11.74G FLOPs, LMIINet achieves 72.0% mIoU at 100 FPS on the Cityscapes test set and 69.94% mIoU at 160 FPS on the CamVid test dataset using a single RTX2080Ti GPU.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 強化学習のための二重最適政策評価

Doubly Optimal Policy Evaluation for Reinforcement Learning ( http://arxiv.org/abs/2410.02226v1 )

ライセンス: Link先を確認
Shuze Liu, Claire Chen, Shangtong Zhang, (参考訳) 政策評価は,(1)環境からのデータを収集し,(2)生データを有意義な見積に処理することにより,政策のパフォーマンスを推定する。 強化学習のシーケンシャルな性質から、不適切なデータ収集ポリシーやデータ処理手法は、長期にわたる評価結果のばらつきを著しく悪化させる。 したがって、政策評価は、しばしば大きなばらつきに悩まされ、所望の精度を達成するために大量のデータを必要とする。 本研究では,データ収集ポリシーとデータ処理ベースラインの最適組み合わせを設計する。 理論的には、我々の二重最適政策評価法は偏りがなく、従来よりも分散度が低いことが保証されている。 実験により, 従来の手法と比較して, ばらつきを著しく低減し, 優れた経験的性能が得られることを示す。

Policy evaluation estimates the performance of a policy by (1) collecting data from the environment and (2) processing raw data into a meaningful estimate. Due to the sequential nature of reinforcement learning, any improper data-collecting policy or data-processing method substantially deteriorates the variance of evaluation results over long time steps. Thus, policy evaluation often suffers from large variance and requires massive data to achieve the desired accuracy. In this work, we design an optimal combination of data-collecting policy and data-processing baseline. Theoretically, we prove our doubly optimal policy evaluation method is unbiased and guaranteed to have lower variance than previously best-performing methods. Empirically, compared with previous works, we show our method reduces variance substantially and achieves superior empirical performance.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# 量子証明における海賊行為の役割

The Role of piracy in quantum proofs ( http://arxiv.org/abs/2410.02228v1 )

ライセンス: Link先を確認
Anne Broadbent, Alex B. Grilo, Supartha Podder, Jamie Sikora, (参考訳) 量子情報のよく知られた特徴は、一般にクローン化できないことである。 近年、多くの量子対応情報処理タスクは、様々な非クローン性を示しており、これらの形態の中で、海賊行為は、クローン型攻撃と評価/検証段階の両方を制御するために、敵に最大パワーを与える敵モデルである。 本稿では、海賊行為を本質的に防止する実証システムである、海賊行為防止システムの研究を開始する。 我々は、海賊行為防止システムを定義し、オラクル問題に対するこのような証明システムを示し、またNPに対する海賊行為防止システムについても記述する。 また、クローン化可能な量子証明システムについても検討し、この設定で有名なQMA対QMA(2)論争を解決した。 最後に, QMA 対 QCMA の問題にどのようにアプローチできるかを, クローン化可能な変種について検討することによって論じる。

A well-known feature of quantum information is that it cannot, in general, be cloned. Recently, a number of quantum-enabled information-processing tasks have demonstrated various forms of uncloneability; among these forms, piracy is an adversarial model that gives maximal power to the adversary, in controlling both a cloning-type attack, as well as the evaluation/verification stage. Here, we initiate the study of anti-piracy proof systems, which are proof systems that inherently prevent piracy attacks. We define anti-piracy proof systems, demonstrate such a proof system for an oracle problem, and also describe a candidate anti-piracy proof system for NP. We also study quantum proof systems that are cloneable and settle the famous QMA vs. QMA(2) debate in this setting. Lastly, we discuss how one can approach the QMA vs. QCMA question, by studying its cloneable variants.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# CodePMP: 大規模言語モデル推論のためのスケーラブルな推論モデル準備

CodePMP: Scalable Preference Model Pretraining for Large Language Model Reasoning ( http://arxiv.org/abs/2410.02229v1 )

ライセンス: Link先を確認
Huimu Yu, Xing Wu, Weidong Yin, Debing Zhang, Songlin Hu, (参考訳) 大規模言語モデル(LLM)は、スケーラブルな事前学習と高度な微調整によって、自然言語の理解と生成に大きな進歩をもたらした。 しかし,LLMの推論能力の向上,特に人間からのフィードバックからの強化学習(RLHF)は,アノテートや報酬モデル(RM)の微調整に重きを置く高品質な選好データが不足しているため,依然として困難である。 この問題を軽減するため,我々は,公開されている高品質のソースコードから合成コード-参照ペアの大規模なコーパスを利用する,スケーラブルな選好モデル事前学習(PMP)パイプラインであるCodePMPを紹介した。 CodePMPは、大規模な合成コード-参照ペアの好みモデルを事前学習することで、RM微調整効率を向上する。 我々は,数理推論タスク (GSM8K, MATH) と論理推論タスク (ReClor, LogiQA2.0) についてCodePMPを評価し,LLMの推論性能を大幅に向上させ,効率の良い報酬モデリングのためのスケーラブルな選好モデルトレーニングの重要性を強調した。

Large language models (LLMs) have made significant progress in natural language understanding and generation, driven by scalable pretraining and advanced finetuning. However, enhancing reasoning abilities in LLMs, particularly via reinforcement learning from human feedback (RLHF), remains challenging due to the scarcity of high-quality preference data, which is labor-intensive to annotate and crucial for reward model (RM) finetuning. To alleviate this issue, we introduce CodePMP, a scalable preference model pretraining (PMP) pipeline that utilizes a large corpus of synthesized code-preference pairs from publicly available high-quality source code. CodePMP improves RM finetuning efficiency by pretraining preference models on large-scale synthesized code-preference pairs. We evaluate CodePMP on mathematical reasoning tasks (GSM8K, MATH) and logical reasoning tasks (ReClor, LogiQA2.0), consistently showing significant improvements in reasoning performance of LLMs and highlighting the importance of scalable preference model pretraining for efficient reward modeling.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# モデル前兆による下流モデルリスクの軽減

Mitigating Downstream Model Risks via Model Provenance ( http://arxiv.org/abs/2410.02230v1 )

ライセンス: Link先を確認
Keyu Wang, Abdullah Norozi Iranzad, Scott Schaffter, Doina Precup, Jonathan Lebensold, (参考訳) 研究と産業は、ファンデーションモデルベースのシステムの革新と導入を急速に進めていますが、これらのモデルを管理するためのツールは、ペースを保っていません。 モデルの起源と系統を理解することは、研究者、業界、規制当局、そして公共の信頼にとって重要である。 モデルカードとシステムカードは透明性を提供するように設計されているが、モデル系譜のトレース、マシン可読性の実現、信頼性の高い集中管理システムの提供、一貫性のある作成インセンティブの育成など、重要な領域では不足している。 この課題はソフトウェアサプライチェーンのセキュリティの問題を反映しているが、AI/MLは成熟の初期段階にある。 これらのギャップに対処するには、ファンデーションモデルパブリッシャ、オープンソースモデルイノベーター、および主要な配布プラットフォームに採用可能な、業界標準のツールが必要である。 モデルレコードの作成を簡略化し,特に新しいモデルが基礎モデルから設計の大部分を継承する場合に,エラーが発生しやすい人的労力を削減するために,機械可読モデル仕様フォーマットを提案する。 私たちのソリューションは、上流モデルと下流モデルの間の関係を明示的にトレースし、モデルのライフサイクルにおける透明性とトレーサビリティを向上します。 モデルレコードの複数のフォーマット(PDF, HTML, LaTeX)への公開を自動化し,ホストされたWebインターフェース(https://modelrecord.com/)を提供するセマンティックバージョニングシステムであるUMRレポジトリを導入する。 この概念実証の目的は、基礎モデルを管理するための新しい標準を設定し、イノベーションと責任あるモデル管理のギャップを埋めることである。

Research and industry are rapidly advancing the innovation and adoption of foundation model-based systems, yet the tools for managing these models have not kept pace. Understanding the provenance and lineage of models is critical for researchers, industry, regulators, and public trust. While model cards and system cards were designed to provide transparency, they fall short in key areas: tracing model genealogy, enabling machine readability, offering reliable centralized management systems, and fostering consistent creation incentives. This challenge mirrors issues in software supply chain security, but AI/ML remains at an earlier stage of maturity. Addressing these gaps requires industry-standard tooling that can be adopted by foundation model publishers, open-source model innovators, and major distribution platforms. We propose a machine-readable model specification format to simplify the creation of model records, thereby reducing error-prone human effort, notably when a new model inherits most of its design from a foundation model. Our solution explicitly traces relationships between upstream and downstream models, enhancing transparency and traceability across the model lifecycle. To facilitate the adoption, we introduce the unified model record (UMR) repository , a semantically versioned system that automates the publication of model records to multiple formats (PDF, HTML, LaTeX) and provides a hosted web interface (https://modelrecord.com/). This proof of concept aims to set a new standard for managing foundation models, bridging the gap between innovation and responsible model management.
翻訳日:2024-11-04 07:55:57 公開日:2024-10-03
# SEAL: 言語モデルによるSemantic-Augmented Imitation Learning

SEAL: SEmantic-Augmented Imitation Learning via Language Model ( http://arxiv.org/abs/2410.02231v1 )

ライセンス: Link先を確認
Chengyang Gu, Yuxin Pan, Haotian Bai, Hui Xiong, Yize Chen, (参考訳) 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、長期的な意思決定タスクに取り組むための有望なアプローチである。 サブゴール学習のための詳細な監督ラベルがなく、何百から何千もの専門家によるデモンストレーションに依存しているため、これは難しい作業である。 本研究では,Large Language Models(LLMs)の強力な意味と世界知識を活用して,タスク階層の事前知識を必要とせず,意味的に意味のあるサブゴール表現を実現するためのSEALを紹介する。 SEALはデュアルエンコーダ構造を採用し、教師付きLLM誘導サブゴール学習と教師なしベクトル量子化(VQ)を組み合わせることで、より堅牢なサブゴール表現を実現している。 さらにSEALは、サブゴール遷移への適応を改善するために、トランジッション強化された低レベルプランナーを組み込んでいる。 実験の結果,SEAL は現状の HIL 手法や LLM に基づく計画手法よりも優れており,特に小規模な専門家データセットや複雑な長期タスクを用いた場合の方が優れていることがわかった。

Hierarchical Imitation Learning (HIL) is a promising approach for tackling long-horizon decision-making tasks. While it is a challenging task due to the lack of detailed supervisory labels for sub-goal learning, and reliance on hundreds to thousands of expert demonstrations. In this work, we introduce SEAL, a novel framework that leverages Large Language Models (LLMs)'s powerful semantic and world knowledge for both specifying sub-goal space and pre-labeling states to semantically meaningful sub-goal representations without prior knowledge of task hierarchies. SEAL employs a dual-encoder structure, combining supervised LLM-guided sub-goal learning with unsupervised Vector Quantization (VQ) for more robust sub-goal representations. Additionally, SEAL incorporates a transition-augmented low-level planner for improved adaptation to sub-goal transitions. Our experiments demonstrate that SEAL outperforms state-of-the-art HIL methods and LLM-based planning approaches, particularly in settings with small expert datasets and complex long-horizon tasks.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# 曲面時空上の量子力学の高速フォワードスケーリング理論

Fast-forward scaling theory for quantum dynamics on curved space-time ( http://arxiv.org/abs/2410.02235v1 )

ライセンス: Link先を確認
Yuji Ando, Shumpei Masuda, (参考訳) 量子力学に固有のスケーリング特性は、加速、減速、時間反転の観点から様々な系で研究されている。 重力が重要な役割を果たす曲線時空上で量子力学のスケーリング特性を示す。 速度制御力学を実現するシステムパラメーターを導出する。 さらに,空間スケールの量子力学を実現する空間スケーリングとシステムパラメータの導出について考察する。

Scaling properties inherent in quantum dynamics have been studied for various systems in terms of acceleration, deceleration and time reversing. We show a scaling property of quantum dynamics on curved space-time where gravity plays an essential role. We derive system parameters which realize speed-controlled dynamics. Moreover, we consider spatial scaling and derive system parameters which realize spatially-scaled quantum dynamics.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# C-MORL:パレートフロントの効率的な発見による多目的強化学習

C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front ( http://arxiv.org/abs/2410.02236v1 )

ライセンス: Link先を確認
Ruohong Liu, Yuxin Pan, Linjie Xu, Lei Song, Pengcheng You, Yize Chen, Jiang Bian, (参考訳) マルチオブジェクト強化学習(MORL)は、目立たない選好であっても、複数の基準を含むタスクにおいて、急速に変化する選好を扱うのに優れている。 しかし、従来の支配的MORL法は、通常、サンプル化された選好ベクトルのみに限って、複数のトレーニング繰り返しを通じて、固定されたポリシーセットまたは選好条件ポリシーを生成し、パレートフロントの効率的な発見を確実にすることができない。 さらに、プライオリティをポリシやバリュー関数の入力に組み込むことは、特に状態とプライオリティ空間の次元が大きくなるにつれて、スケーラビリティ上の課題をもたらし、学習プロセスを複雑化し、より複雑なタスクにおけるアルゴリズムのパフォーマンスを妨げる。 これらの問題に対処するために,制約付きポリシー最適化とMORLのシームレスなブリッジとして機能する,制約付きMORL (Constrained MORL) と呼ばれる2段階のParetoフロントエンド探索アルゴリズムを提案する。 具体的には、ポリシーのセットは初期化段階で並列に訓練され、それぞれが複数の目的に対して個人の好みに最適化される。 そして、パレートフロントの残りの空白を埋めるために、制約された最適化ステップを用いて、一方の目標を最大化し、他方の目標を予め定義されたしきい値を超えるように制約する。 MORL法の最近の進歩と比較して、我々のアルゴリズムは、特に多くの目的(実験で最大9つの目的)において、離散的かつ連続的な制御タスクにおいて、超体積、期待効用、空間性の観点からより一貫性と優れた性能を達成する。

Multi-objective reinforcement learning (MORL) excels at handling rapidly changing preferences in tasks that involve multiple criteria, even for unseen preferences. However, previous dominating MORL methods typically generate a fixed policy set or preference-conditioned policy through multiple training iterations exclusively for sampled preference vectors, and cannot ensure the efficient discovery of the Pareto front. Furthermore, integrating preferences into the input of policy or value functions presents scalability challenges, in particular as the dimension of the state and preference space grow, which can complicate the learning process and hinder the algorithm's performance on more complex tasks. To address these issues, we propose a two-stage Pareto front discovery algorithm called Constrained MORL (C-MORL), which serves as a seamless bridge between constrained policy optimization and MORL. Concretely, a set of policies is trained in parallel in the initialization stage, with each optimized towards its individual preference over the multiple objectives. Then, to fill the remaining vacancies in the Pareto front, the constrained optimization steps are employed to maximize one objective while constraining the other objectives to exceed a predefined threshold. Empirically, compared to recent advancements in MORL methods, our algorithm achieves more consistent and superior performances in terms of hypervolume, expected utility, and sparsity on both discrete and continuous control tasks, especially with numerous objectives (up to nine objectives in our experiments).
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# ネイティブ話者のシャドーイングを用いたL2音声の明瞭度評価のためのシーケンス・ツー・シーケンス音声変換の適用に関する実験的検討

A Pilot Study of Applying Sequence-to-Sequence Voice Conversion to Evaluate the Intelligibility of L2 Speech Using a Native Speaker's Shadowings ( http://arxiv.org/abs/2410.02239v1 )

ライセンス: Link先を確認
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu, (参考訳) L2話者による発話は、誤発音や不適切な韻律によって理解できない。 コンピュータ支援言語学習システムでは,音声認識エンジンを用いてテキストフィードバックを行うことが多い。 しかし、L2話者にとって理想的なフィードバック形式は、L2話者の発話の理解できない部分を検出して診断できるように、非常にきめ細かな粒度でなければならない。 このパイロットスタディでは,非母国語話者(L2)の読み上げ,母国語話者(L1)のシャドウイング,スクリプトシェード音声による独特のセミパラレルデータセットを用いた。 音声変換技術を用いてL1話者の隠れL2音声の処理を再現し、仮想シャドーアシステムを構築する技術的可能性について検討する。 実験により、L1のシャドーイング挙動をシミュレートするVCシステムの実現可能性を示す。 仮想シャドーアシステムの出力は、言語面と音響面の両方において、実際のL1シャドーイング発話と合理的に類似している。

Utterances by L2 speakers can be unintelligible due to mispronunciation and improper prosody. In computer-aided language learning systems, textual feedback is often provided using a speech recognition engine. However, an ideal form of feedback for L2 speakers should be so fine-grained that it enables them to detect and diagnose unintelligible parts of L2 speakers' utterances. Inspired by language teachers who correct students' pronunciation through a voice-to-voice process, this pilot study utilizes a unique semi-parallel dataset composed of non-native speakers' (L2) reading aloud, shadowing of native speakers (L1) and their script-shadowing utterances. We explore the technical possibility of replicating the process of an L1 speaker's shadowing L2 speech using Voice Conversion techniques, to create a virtual shadower system. Experimental results demonstrate the feasibility of the VC system in simulating L1's shadowing behavior. The output of the virtual shadower system shows a reasonable similarity to the real L1 shadowing utterances in both linguistic and acoustic aspects.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# 固定点解析によるタンニューラルネットのロバストウェイト初期化

Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis ( http://arxiv.org/abs/2410.02242v1 )

ライセンス: Link先を確認
Hyunwoo Lee, Hayoung Choi, Hyunju Kim, (参考訳) ニューラルネットワークの深さが増加すると、強力な一般化性能が得られる。 しかし、グラデーションの問題により、トレーニングは困難になる。 理論的研究や様々な手法がこの問題に対処するために導入されている。 しかし、様々な大きさのタンニューラルネットに効果的に適用できる重み初期化法の研究は、まだ完了する必要がある。 本稿では,タンハアクティベーション機能を持つフィードフォワードニューラルネットワークの新しい重み初期化手法を提案する。 関数 $\tanh(ax)$ の固定点の解析に基づいて,本提案手法は,活性化の飽和を防ぐための $a$ の値を決定することを目的としている。 各種分類データセットに対する一連の実験により,提案手法は既存手法よりもネットワークサイズの変化に頑健であることが示された。 さらに、物理インフォームドニューラルネットワークに適用すると、偏微分方程式問題におけるXavier初期化と比較して、ネットワークサイズの変化に対する収束と堅牢性がより高速になる。

As a neural network's depth increases, it can achieve strong generalization performance. Training, however, becomes challenging due to gradient issues. Theoretical research and various methods have been introduced to address this issues. However, research on weight initialization methods that can be effectively applied to tanh neural networks of varying sizes still needs to be completed. This paper presents a novel weight initialization method for Feedforward Neural Networks with tanh activation function. Based on an analysis of the fixed points of the function $\tanh(ax)$, our proposed method aims to determine values of $a$ that prevent the saturation of activations. A series of experiments on various classification datasets demonstrate that the proposed method is more robust to network size variations than the existing method. Furthermore, when applied to Physics-Informed Neural Networks, the method exhibits faster convergence and robustness to variations of the network size compared to Xavier initialization in problems of Partial Differential Equations.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# 多対称特性の近似値と量子爪検出への応用

Approximate Degrees of Multisymmetric Properties with Application to Quantum Claw Detection ( http://arxiv.org/abs/2410.02243v1 )

ライセンス: Link先を確認
Seiichiro Tani, (参考訳) 爪問題は、理論計算機科学と暗号の分野において中心的な問題である。 この問題の最適量子クエリ複雑性は、入力関数 $f\colon [F]\to Z$ と $g\colon [G]\to Z$ に対して $\Omega\left(\sqrt{G}+(FG)^{1/3} \right)$ であることが知られている。 しかし、下界は、$Z$が十分大きいときに証明された(つまり、$|{Z}|=\Omega(FG)$)。 現在の論文は、下界が$|{Z}|\ge F+G$ を持つすべての小さな範囲$Z$に対してさえも成り立つことを証明している。 これは、$\Omega\left(\sqrt{G}+(FG)^{1/3} \right)$がすべてのそのような範囲に対して厳密であることを意味する。 さらに、下限の$\Omega\left(\sqrt{G}+F^{1/3}G^{1/6}M^{1/6}\right)$は、すべての$M\in [2,F+G]$のより小さな範囲$Z=[M]$に対して、|{Z}|=F+G$の爪問題を減らして提供される。 証明技法は、任意の$k$対称性(例えば、$k$-claw 問題)、すなわち、異なるサイズの領域を持つ$k$関数の集合上のブール関数 $\Phi$ と、各領域上の置換と範囲上の置換の下で$\Phi$ が不変であるような共通範囲に適用できる。 より具体的には、多対称多項式の概念を用いて、アンバイニスの議論(計算理論、1(1):37-46)を多重函数のケースに一般化する。

The claw problem is central in the fields of theoretical computer science as well as cryptography. The optimal quantum query complexity of the problem is known to be $\Omega\left(\sqrt{G}+(FG)^{1/3} \right)$ for input functions $f\colon [F]\to Z$ and $g\colon [G]\to Z$. However, the lower bound was proved when the range $Z$ is sufficiently large (i.e., $|{Z}|=\Omega(FG)$). The current paper proves the lower bound holds even for every smaller range $Z$ with $|{Z}|\ge F+G$. This implies that $\Omega\left(\sqrt{G}+(FG)^{1/3} \right)$ is tight for every such range. In addition, the lower bound $\Omega\left(\sqrt{G}+F^{1/3}G^{1/6}M^{1/6}\right)$ is provided for even smaller range $Z=[M]$ with every $M\in [2,F+G]$ by reducing the claw problem for $|{Z}|= F+G$. The proof technique is general enough to apply to any $k$-symmetric property (e.g., the $k$-claw problem), i.e., the Boolean function $\Phi$ on the set of $k$ functions with different-size domains and a common range such that $\Phi$ is invariant under the permutations over each domain and the permutations over the range. More concretely, it generalizes Ambainis's argument [Theory of Computing, 1(1):37-46] to the multiple-function case by using the notion of multisymmetric polynomials.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# LLMの視覚的プロンプトによる感情認識の強化

Visual Prompting in LLMs for Enhancing Emotion Recognition ( http://arxiv.org/abs/2410.02244v1 )

ライセンス: Link先を確認
Qixuan Zhang, Zhifeng Wang, Dylan Zhang, Wenjia Niu, Sabrina Caldwell, Tom Gedeon, Yang Liu, Zhenyue Qin, (参考訳) Vision Large Language Models (VLLM) は、コンピュータビジョンと自然言語処理の交差点を変革している。 それでも、これらのモデルで感情認識に視覚的プロンプトを使うことの可能性はほとんど解明されておらず、未解決のままである。 VLLMの伝統的な手法は空間的ローカライゼーションに苦慮し、しばしば価値あるグローバルコンテキストを捨てる。 この問題に対処するために,境界ボックスや顔のランドマークなどの空間情報を用いて,ゼロショット感情認識の精度を高めるSet-of-Vision prompting (SoV)アプローチを提案する。 SoVは、濃厚な画像コンテキストを維持しながら、顔のカウントと感情の分類の精度を向上させる。 近年の商用またはオープンソースのVLLMの実験と分析を通じて、自然環境における表情の理解能力を評価する。 以上の結果から,空間的視覚刺激をVLLMに組み込むことにより,感情認識能力を向上させる効果が示された。

Vision Large Language Models (VLLMs) are transforming the intersection of computer vision and natural language processing. Nonetheless, the potential of using visual prompts for emotion recognition in these models remains largely unexplored and untapped. Traditional methods in VLLMs struggle with spatial localization and often discard valuable global context. To address this problem, we propose a Set-of-Vision prompting (SoV) approach that enhances zero-shot emotion recognition by using spatial information, such as bounding boxes and facial landmarks, to mark targets precisely. SoV improves accuracy in face count and emotion categorization while preserving the enriched image context. Through a battery of experimentation and analysis of recent commercial or open-source VLLMs, we evaluate the SoV model's ability to comprehend facial expressions in natural environments. Our findings demonstrate the effectiveness of integrating spatial visual prompts into VLLMs for improving emotion recognition performance.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# PFGuard:プライバシと公正保護を備えた生成フレームワーク

PFGuard: A Generative Framework with Privacy and Fairness Safeguards ( http://arxiv.org/abs/2410.02246v1 )

ライセンス: Link先を確認
Soyeon Kim, Yuji Roh, Geon Heo, Steven Euijong Whang, (参考訳) 生成モデルは、信頼できるAIのプライバシと公平性を保証する必要があります。 これらの目的は別々に追求されているが、最近の研究では、両方の目標を達成するために、既存のプライバシとフェアネスのテクニックを組み合わせることを提案する。 しかし、これらの技術を組み合わせることは、プライバシとフェアネスの対立のために不十分であり、少数派のサンプルは公正さのために増幅されるが、プライバシのためにのみ抑制される。 こうした対立が、プライバシー侵害や予期せぬ公正効用トレードオフといった悪影響をいかに引き起こすかを実証する。 これらのリスクを軽減するために、プライバシと公正性保護を備えた生成フレームワークであるPFGuardを提案する。 複数の教師モデルのアンサンブルを使用することで、PFGuardは公正なトレーニングステージとプライベートトレーニングステージのプライバシとフェアネスの衝突をバランスさせ、アンサンブル学習に基づく高いユーティリティを実現する。 大規模な実験により、PFGuardは、公正収束と厳密なDP保証の両方を提供しながら、高次元データの合成データを生成することに成功した。

Generative models must ensure both privacy and fairness for Trustworthy AI. While these goals have been pursued separately, recent studies propose to combine existing privacy and fairness techniques to achieve both goals. However, naively combining these techniques can be insufficient due to privacy-fairness conflicts, where a sample in a minority group may be amplified for fairness, only to be suppressed for privacy. We demonstrate how these conflicts lead to adverse effects, such as privacy violations and unexpected fairness-utility tradeoffs. To mitigate these risks, we propose PFGuard, a generative framework with privacy and fairness safeguards, which simultaneously addresses privacy, fairness, and utility. By using an ensemble of multiple teacher models, PFGuard balances privacy-fairness conflicts between fair and private training stages and achieves high utility based on ensemble learning. Extensive experiments show that PFGuard successfully generates synthetic data on high-dimensional data while providing both fairness convergence and strict DP guarantees - the first of its kind to our knowledge.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# 微調整注意機構の理論的考察:一般化と最適化

Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization ( http://arxiv.org/abs/2410.02247v1 )

ライセンス: Link先を確認
Xinhao Yao, Hongjin Qian, Xiaolin Hu, Gengze Xu, Yong Liu, (参考訳) トランスフォーマーアーキテクチャ上に構築されたLarge Language Models (LLM) は、幅広いタスクにまたがる顕著な一般化を示す。 しかしながら、これらのモデルを特定のタスクのために微調整することは、その広範なパラメータ化のために資源集約的なままである。 本稿では, LLMの微調整中に観察される2つの顕著な現象, 特に注意機構に着目し, (1) 影響の異なる$\mathbf{W}_v$行列の最適化は, $\mathbf{W}_k$行列の最適化よりも性能を著しく向上させる。 微調整は$\mathbf{W}_q$ と $\mathbf{W}_v$ のみを計算的に効率よく行い、3つの行列すべてに対して $\mathbf{W}_q$, $\mathbf{W}_k$, $\mathbf{W}_v$ に匹敵する結果をもたらす。 2)これらの行列に対して異なる学習率を利用する効率のよい収束は最適性能に不可欠であり,$\mathbf{W}_v$行列の収束を高速化する学習率が高い。 しかし、これらの現象の理論的解析はまだ比較的限られている。 2つの観点からこれらの現象を理論的に分析する。 (i)一般化では、$\mathbf{W}_q$と$\mathbf{W}_v$のみが一般化境界を改善し、メモリ効率を向上させる。 二 注意機構の特徴学習が効率的であること、特に行列に対して異なる学習率を使用する場合、より効果的な微調整につながることを強調する最適化。 これらの知見に基づいて、ストレージと時間の両方の観点から微調整効率を向上させる新しい戦略を提案する。 ベンチマークデータセットによる実験結果から,本手法の有効性が検証され,理論的な結果が得られた。 本分析は,LLMの微調整における軽量アルゴリズムの構成と改良に関する理論的基礎を定式化したものである。

Large Language Models (LLMs), built on Transformer architectures, exhibit remarkable generalization across a wide range of tasks. However, fine-tuning these models for specific tasks remains resource-intensive due to their extensive parameterization. In this paper, we investigate two remarkable phenomena observed during the fine-tuning of LLMs, particularly focusing on the attention mechanism: (1) Different Impact, optimizing the $\mathbf{W}_v$ matrix significantly improves performance over optimizing the $\mathbf{W}_k$ matrix. Fine-tuning only the $\mathbf{W}_q$ and $\mathbf{W}_v$ matrices is computationally efficient, delivering results that are comparable to, or even better than, fine-tuning all three matrices $\mathbf{W}_q$, $\mathbf{W}_k$, and $\mathbf{W}_v$. (2) Efficient Convergence, employing distinct learning rates for these matrices is crucial for optimal performance, with a higher learning rate for the $\mathbf{W}_v$ matrix expediting convergence. However, theoretical analyses of these phenomena are still relatively limited. We present a theoretical analysis of these phenomena from two perspectives: (i) Generalization, where we demonstrate that fine-tuning only $\mathbf{W}_q$ and $\mathbf{W}_v$ improves generalization bounds, enhances memory efficiency, and (ii) Optimization, where we emphasize that the feature learning of the attention mechanism is efficient, particularly when using distinct learning rates for the matrices, which leads to more effective fine-tuning. Building on these insights, we propose a new strategy that improves fine-tuning efficiency in terms of both storage and time. Experimental results on benchmark datasets validate the effectiveness of this approach, supporting our theoretical findings. Our analysis lays the theoretical groundwork for configuring and improving lightweight algorithms in LLMs fine-tuning.
翻訳日:2024-11-04 07:46:05 公開日:2024-10-03
# 適応型イベントストリームスライダとしてのニューラルネットワークのスパイキング

Spiking Neural Network as Adaptive Event Stream Slicer ( http://arxiv.org/abs/2410.02249v1 )

ライセンス: Link先を確認
Jiahang Cao, Mingyuan Sun, Ziqing Wang, Hao Cheng, Qiang Zhang, Shibo Zhou, Renjing Xu, (参考訳) イベントベースのカメラは、リッチエッジ情報、高ダイナミックレンジ、高時間分解能を提供するため、大きな関心を集めている。 多くの最先端のイベントベースアルゴリズムは、イベントを固定グループに分割することに依存しており、特に多様な動きシナリオ(例えば、ハイ/ロースピード)を扱う場合、重要な時間情報の欠落をもたらす。 本研究では,イベントストリームを適応的に分割可能な新設計のプラグアンドプレイイベント処理手法であるSpikeSlicerを提案する。 SpikeSlicerは軽量(0.41M)で低エネルギーのスパイクニューラルネットワーク(SNN)を使用してイベントスライシングをトリガーする。 最適な時間ステップでスパイクを発生させるためのSNNの誘導として,ニューロンの状態を調整するスパイキング位置認識損失(SPA-Loss)を提案する。 さらに、下流人工ニューラルネットワーク(ANN)からのフィードバックを用いて、スライシング決定を洗練するフィードバック更新トレーニング戦略を開発する。 大規模実験により,イベントベース物体追跡・認識において,本手法が大幅な性能向上をもたらすことが示された。 特に、SpikeSlicerは、新しいSNN-ANN協調パラダイムを提供しており、SNNは、ANNが下流のパフォーマンスを改善し、新たな視点と潜在的な探索手段を注入するのを支援するために、効率的で低エネルギーのデータプロセッサとして機能する。

Event-based cameras are attracting significant interest as they provide rich edge information, high dynamic range, and high temporal resolution. Many state-of-the-art event-based algorithms rely on splitting the events into fixed groups, resulting in the omission of crucial temporal information, particularly when dealing with diverse motion scenarios (e.g., high/low speed). In this work, we propose SpikeSlicer, a novel-designed plug-and-play event processing method capable of splitting events stream adaptively. SpikeSlicer utilizes a lightweight (0.41M) and low-energy spiking neural network (SNN) to trigger event slicing. To guide the SNN to fire spikes at optimal time steps, we propose the Spiking Position-aware Loss (SPA-Loss) to modulate the neuron's state. Additionally, we develop a Feedback-Update training strategy that refines the slicing decisions using feedback from the downstream artificial neural network (ANN). Extensive experiments demonstrate that our method yields significant performance improvements in event-based object tracking and recognition. Notably, SpikeSlicer provides a brand-new SNN-ANN cooperation paradigm, where the SNN acts as an efficient, low-energy data processor to assist the ANN in improving downstream performance, injecting new perspectives and potential avenues of exploration.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 合成データとディープラーニングを用いた歴史地図の確率論的道路分類

Probabilistic road classification in historical maps using synthetic data and deep learning ( http://arxiv.org/abs/2410.02250v1 )

ライセンス: Link先を確認
Dominik J. Mühlematter, Sebastian Schweizer, Chenjing Jiao, Xue Xia, Magnus Heitzler, Lorenz Hurni, (参考訳) 歴史地図は、輸送と空間開発における長期的変化を分析するのに有用であり、進化研究のための豊富なデータソースを提供する。 しかし、これらの地図からの道路網のデジタル化と分類は、しばしば高価で時間を要するため、広く使われることは限られている。 近年の深層学習の進歩により、歴史地図からの道路の自動抽出が可能になったが、これらの手法は典型的には大量のラベル付きトレーニングデータを必要とする。 この課題に対処するために、ディープラーニングと地理情報、コンピュータベースの絵画、画像処理手法を統合する新しいフレームワークを導入する。 この枠組みは,道路分類ラベルを必要とせず,道路地形のみを用いた歴史地図からの道路の抽出と分類を可能にする。 このプロセスは、道路ジオメトリを抽出するためのバイナリセグメンテーションモデルのトレーニングから始まり、その後に形態的操作、骨格化、ベクトル化、フィルタリングアルゴリズムが続く。 合成学習データは,事前に定義された道路クラス記号を用いて,道路セグメントを人工的に塗り替える絵画機能によって生成される。 この合成データを用いて、深いアンサンブルを訓練し、道路クラスにおける分布シフトを緩和する画素ワイズ確率を生成する。 これらの予測は、抽出された道路地形に沿って離散化される。 その後、道路全体の分類にさらなる処理が使用され、道路クラスにおける潜在的な変化を識別し、ラベル付き道路クラスデータセットが作成される。 本手法は,スイスのジークフリート・マップシート2枚のうち,ロードクラス2において,それぞれ94%以上,92%以上,完全度92%以上,完全度94%以上,完全度92%以上を達成した。 本研究は, 歴史的地図から道路を効率的に抽出・分類することで, 都市計画・交通決定のための強力なツールを提供する。

Historical maps are invaluable for analyzing long-term changes in transportation and spatial development, offering a rich source of data for evolutionary studies. However, digitizing and classifying road networks from these maps is often expensive and time-consuming, limiting their widespread use. Recent advancements in deep learning have made automatic road extraction from historical maps feasible, yet these methods typically require large amounts of labeled training data. To address this challenge, we introduce a novel framework that integrates deep learning with geoinformation, computer-based painting, and image processing methodologies. This framework enables the extraction and classification of roads from historical maps using only road geometries without needing road class labels for training. The process begins with training of a binary segmentation model to extract road geometries, followed by morphological operations, skeletonization, vectorization, and filtering algorithms. Synthetic training data is then generated by a painting function that artificially re-paints road segments using predefined symbology for road classes. Using this synthetic data, a deep ensemble is trained to generate pixel-wise probabilities for road classes to mitigate distribution shift. These predictions are then discretized along the extracted road geometries. Subsequently, further processing is employed to classify entire roads, enabling the identification of potential changes in road classes and resulting in a labeled road class dataset. Our method achieved completeness and correctness scores of over 94% and 92%, respectively, for road class 2, the most prevalent class in the two Siegfried Map sheets from Switzerland used for testing. This research offers a powerful tool for urban planning and transportation decision-making by efficiently extracting and classifying roads from historical maps.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 強化学習による高機能交通シナリオのエンドツーエンド運転

End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning ( http://arxiv.org/abs/2410.02253v1 )

ライセンス: Link先を確認
Yueyuan Li, Mingyang Jiang, Songan Zhang, Wei Yuan, Chunxiang Wang, Ming Yang, (参考訳) 動的かつインタラクティブな交通シナリオは、自律運転システムに重大な課題をもたらす。 強化学習(Reinforcement Learning, RL)は、特に複雑な環境において、事前コンパイルされたデータセットや事前定義された条件の制約を越えて、ポリシーの推進を可能にする、有望なアプローチを提供する。 しかし、重要な課題は、時間とともにエラーの蓄積を最小限に抑えながら、高次元の多モード観測のシーケンスから空間的特徴と時間的特徴を効果的に抽出することである。 さらに、大規模RLモデルを効率的に誘導し、トレーニングプロセス中に頻繁な失敗を伴わずに最適な運転ポリシーに収束させるのが難しい。 これらの問題に対処するために,Ranmble というエンドツーエンドモデルベース RL アルゴリズムを提案する。 RambleはマルチビューのRGBイメージとLiDARポイントクラウドを低次元の潜在機能に処理し、各タイムステップにおけるトラフィックシナリオのコンテキストをキャプチャする。 次に、トランスフォーマーベースのアーキテクチャを使用して、時間的依存をモデル化し、将来の状態を予測します。 環境のダイナミックスモデルを学ぶことで、Rambleは今後のトラフィックイベントを予測し、より情報に富んだ戦略的決定を下すことができる。 本実装は,RLモデルの最適運転ポリシーへの収束を促進する上で,特徴抽出と意思決定の事前経験が重要な役割を担っていることを示す。 Rambleは、CARLA Leaderboard 2.0におけるルート完了率と運転スコアに関する最先端のパフォーマンスを達成し、複雑でダイナミックな交通状況を管理する上での有効性を示している。

Dynamic and interactive traffic scenarios pose significant challenges for autonomous driving systems. Reinforcement learning (RL) offers a promising approach by enabling the exploration of driving policies beyond the constraints of pre-collected datasets and predefined conditions, particularly in complex environments. However, a critical challenge lies in effectively extracting spatial and temporal features from sequences of high-dimensional, multi-modal observations while minimizing the accumulation of errors over time. Additionally, efficiently guiding large-scale RL models to converge on optimal driving policies without frequent failures during the training process remains tricky. We propose an end-to-end model-based RL algorithm named Ramble to address these issues. Ramble processes multi-view RGB images and LiDAR point clouds into low-dimensional latent features to capture the context of traffic scenarios at each time step. A transformer-based architecture is then employed to model temporal dependencies and predict future states. By learning a dynamics model of the environment, Ramble can foresee upcoming traffic events and make more informed, strategic decisions. Our implementation demonstrates that prior experience in feature extraction and decision-making plays a pivotal role in accelerating the convergence of RL models toward optimal driving policies. Ramble achieves state-of-the-art performance regarding route completion rate and driving score on the CARLA Leaderboard 2.0, showcasing its effectiveness in managing complex and dynamic traffic situations.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# MTDNS: レジリエントDNSインフラストラクチャのためのターゲットディフェンスへの移行

MTDNS: Moving Target Defense for Resilient DNS Infrastructure ( http://arxiv.org/abs/2410.02254v1 )

ライセンス: Link先を確認
Abdullah Aydeger, Pei Zhou, Sanzida Hoque, Marco Carvalho, Engin Zeydan, (参考訳) 攻撃者が悪用できるインターネットの最も重要なコンポーネントの1つはDNS(Domain Name System)プロトコルとインフラである。 研究者は、DNS攻撃、特にDNSフラッディング攻撃を検出し、防御する方法を常に開発してきた。 しかし、ほとんどのソリューションは防御的アプローチのためにパケットを破棄し、正当なパケットを落としてしまう可能性があるため、検出戦略に大きく依存する。 本稿では,ネットワーク機能仮想化(NFV)フレームワークで動的に生成・実行される代替DNSサーバにトラフィックをリダイレクトするために,ソフトウェア定義ネットワーク(SDN)スイッチを通じて移動ターゲットディフェンス技術を利用する,MTDNSを提案する。 提案手法は、DNSサーバを別個のVirtual Network Functions、NFV Manager、SDNスイッチ、SDNコントローラとして実行するテストベッド環境で実装されている。 実験結果から,MTDNSアプローチはDNSクエリの解決においてはるかに高い成功率を実現し,DNSフラッディング攻撃があっても平均遅延を著しく低減することがわかった。

One of the most critical components of the Internet that an attacker could exploit is the DNS (Domain Name System) protocol and infrastructure. Researchers have been constantly developing methods to detect and defend against the attacks against DNS, specifically DNS flooding attacks. However, most solutions discard packets for defensive approaches, which can cause legitimate packets to be dropped, making them highly dependable on detection strategies. In this paper, we propose MTDNS, a resilient MTD-based approach that employs Moving Target Defense techniques through Software Defined Networking (SDN) switches to redirect traffic to alternate DNS servers that are dynamically created and run under the Network Function Virtualization (NFV) framework. The proposed approach is implemented in a testbed environment by running our DNS servers as separate Virtual Network Functions, NFV Manager, SDN switches, and an SDN Controller. The experimental result shows that the MTDNS approach achieves a much higher success rate in resolving DNS queries and significantly reduces average latency even if there is a DNS flooding attack.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# インシデント対応成熟度能力を考慮したサイバーセキュリティインシデント優先の調整

Alignment of Cybersecurity Incident Prioritisation with Incident Response Management Maturity Capabilities ( http://arxiv.org/abs/2410.02259v1 )

ライセンス: Link先を確認
Abdulaziz Gulay, Leandros Maglaras, (参考訳) サイバーセキュリティインシデントの増加と高度化は、組織に重大な課題をもたらし、堅牢なインシデント対応機能に対する重要なニーズを強調している。 本稿では,人的・組織的要因に関連する特定の領域における組織の影響,重大度,およびインシデント応答能力に基づいて,インシデントを体系的に優先するIR CMM評価の活用の可能性を検討する。 この結果から,不適切なトレーニングやコミュニケーション不足などのインシデント対応に共通する弱点が明らかとなり,定期的なトレーニングプログラムや明確なコミュニケーションプロトコル,文書化された対応手順などのベストプラクティスが強調された。 この分析はまた、インシデント対応能力を高める上での組織文化の重要性を強調している。 リスクの高いインシデントを優先するために、ICMアセスメントのアウトプットを即座に活用する方法のギャップに対処することにより、学術や実践に貴重な洞察を与え、サイバーセキュリティの脅威に対する組織のレジリエンスを高めるための構造的アプローチを提供する。

The increasing frequency and sophistication of cybersecurity incidents pose significant challenges to organisations, highlighting the critical need for robust incident response capabilities. This paper explores a possible utilisation of IR CMMs assessments to systematically prioritise incidents based on their impact, severity, and the incident response capabilities of an organisation in specific areas associated with human and organisational factors. The findings reveal common weaknesses in incident response, such as inadequate training and poor communication, and highlight best practices, including regular training programs, clear communication protocols, and well-documented response procedures. The analysis also emphasises the importance of organisational culture in enhancing incident response capabilities. By addressing the gap in understanding how the output of IRM assessments can be immediately utilised to prioritise high-risk incidents, this paper contributes valuable insights to academia and practice, offering a structured approach to enhancing organisational resilience against cybersecurity threats.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# FedScalar: コミュニケーション効率の良いフェデレーションラーニング

FedScalar: A Communication efficient Federated Learning ( http://arxiv.org/abs/2410.02260v1 )

ライセンス: Link先を確認
M. Rostami, S. S. Kia, (参考訳) フェデレーテッド・ラーニング(FL)は、データアグリゲーションの必要性を排除して参加エージェントのプライバシを保護する能力によって、分散機械学習でかなりの人気を集めている。 それでも、FLにおけるエージェントと中央サーバ間の通信コストは大規模な問題に大きく影響しており、このアルゴリズムの制限要因として残されている。 本稿では,コミュニケーション効率の向上を目的としたフェデレート学習フレームワークに,'emph{FedScalar} という革新的なアルゴリズムを導入する。 エージェントがサーバに高次元ベクトルを送信する必要のある従来のFLメソッドとは異なり、 \emph{FedScalar} はエージェントが単一のスカラーを使って更新を通信できるようにする。 各エージェントは、更新されたモデルパラメータを、そのローカル更新差分とランダムベクトルの間の内部積を通じてスカラーにエンコードし、サーバに送信する。 サーバは、平均化されたスカラー値をランダムベクトルに投影することにより、この情報をデコードする。 これにより通信オーバーヘッドを大幅に削減できる。 技術的には、提案アルゴリズムは滑らかな非凸損失関数の定常点に$O(1/\sqrt{K})$の収束率を達成できることを実証する。 さらに,本解析により,サーバが生成するランダムベクトルの基底分布を変化させることで,アルゴリズムのアグリゲーション段階における分散を低減できることが示唆された。 最後に,本アルゴリズムの性能と通信効率を数値シミュレーションにより検証する。

Federated learning (FL) has gained considerable popularity for distributed machine learning due to its ability to preserve the privacy of participating agents by eliminating the need for data aggregation. Nevertheless, communication costs between agents and the central server in FL are substantial in large-scale problems and remain a limiting factor for this algorithm. This paper introduces an innovative algorithm, called \emph{FedScalar}, within the federated learning framework aimed at improving communication efficiency. Unlike traditional FL methods that require agents to send high-dimensional vectors to the server, \emph{FedScalar} enables agents to communicate updates using a single scalar. Each agent encodes its updated model parameters into a scalar through the inner product between its local update difference and a random vector, which is then transmitted to the server. The server decodes this information by projecting the averaged scalar values onto the random vector. Our method thereby significantly reduces communication overhead. Technically, we demonstrate that the proposed algorithm achieves a convergence rate of $O(1/\sqrt{K})$ to a stationary point for smooth, non-convex loss functions. Additionally, our analysis shows that altering the underlying distribution of the random vector generated by the server can reduce the variance during the aggregation step of the algorithm. Finally, we validate the performance and communication efficiency of our algorithm with numerical simulations.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 携帯のキーボードをデコードする「Capacitive Touch Images」

Can Capacitive Touch Images Enhance Mobile Keyboard Decoding? ( http://arxiv.org/abs/2410.02264v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Shanqing Cai, Billy Dou, Cedric Ho, Shumin Zhai, (参考訳) 静電容量タッチセンサーは、指とタッチスクリーンとの接触の2次元空間プロファイル(タッチヒートマップと呼ばれる)をキャプチャする。 しかし,タッチインターフェースを最も高速かつ高精度に要求するタッチスクリーン型モバイルキーボードの研究と設計は,タッチ画像の熱マップを入力とするタッチセンタロイドの位置に着目し,生の空間信号の残りの部分を捨てている。 本稿では,タッチスクリーンキーボードのタップデコード精度を向上させるために,タッチヒートマップを活用することができるかどうかを検討する。 具体的には,ユーザのタップを遠心点および/またはヒートマップを用いて解釈する機械学習モデルの開発と評価を行い,ヒートマップのモデル性能に対する寄与について検討した。 その結果、入力機能セットにヒートマップを追加することで、セントロイドのみを使用する場合と比較して、平均で21.4%の文字誤り率の相対的な減少が見られた。 さらに,Pixel 6 Proデバイスに組み込まれたCentroidベースのデコーダとHeatmapベースのデコーダを用いたライブユーザスタディを行い,Centroidベースのデコーダよりもエラー率,タイピング速度,自己申告による満足度スコアが高かった。 これらの知見は,モバイルキーボードのタイピング体験を改善するためにタッチヒートマップを活用するという約束を裏付けるものである。

Capacitive touch sensors capture the two-dimensional spatial profile (referred to as a touch heatmap) of a finger's contact with a mobile touchscreen. However, the research and design of touchscreen mobile keyboards -- one of the most speed and accuracy demanding touch interfaces -- has focused on the location of the touch centroid derived from the touch image heatmap as the input, discarding the rest of the raw spatial signals. In this paper, we investigate whether touch heatmaps can be leveraged to further improve the tap decoding accuracy for mobile touchscreen keyboards. Specifically, we developed and evaluated machine-learning models that interpret user taps by using the centroids and/or the heatmaps as their input and studied the contribution of the heatmaps to model performance. The results show that adding the heatmap into the input feature set led to 21.4% relative reduction of character error rates on average, compared to using the centroid alone. Furthermore, we conducted a live user study with the centroid-based and heatmap-based decoders built into Pixel 6 Pro devices and observed lower error rate, faster typing speed, and higher self-reported satisfaction score based on the heatmap-based decoder than the centroid-based decoder. These findings underline the promise of utilizing touch heatmaps for improving typing experience in mobile keyboards.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 帯域フィードバックを持つCMDPのBest-of-Both-Worlds Policy Optimization

Best-of-Both-Worlds Policy Optimization for CMDPs with Bandit Feedback ( http://arxiv.org/abs/2410.02269v1 )

ライセンス: Link先を確認
Francesco Emanuele Stradi, Anna Lunghi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 制約付きマルコフ決定過程 (CMDP) におけるオンライン学習について検討し, 報酬と制約は確率的か逆かのいずれかであることを示した。 そのような設定において、Stradi et al (2024) は、両ケースにおいて最適な後悔と制約違反境界を達成し、確率的および対角的制約をシームレスに処理できる最初のベスト・オブ・ボス・ワールド・アルゴリズムを提案した。 このアルゴリズムには2つの大きな欠点がある。 ひとつは、完全なフィードバックの下でのみ動作するため、実際には適用性を大幅に制限する。 さらに、コンベックス最適化問題を解くことを必要とする占領対策の空間を最適化すること、非常に非効率なタスクに依存している。 本稿では,CMDPにおける帯域幅フィードバックを用いたベスト・オブ・ワールドズ・アルゴリズムを提案する。 具体的には、制約が確率的であれば、アルゴリズムは$\widetilde{\mathcal{O}}(\sqrt{T})$後悔と制約違反を達成し、一方、逆ならば$\widetilde{\mathcal{O}}(\sqrt{T})$制約違反を達成し、最適報酬の密分を達成できる。 さらに,本アルゴリズムは,占有率に基づく手法よりもはるかに効率的なポリシ最適化手法に基づいている。

We study online learning in constrained Markov decision processes (CMDPs) in which rewards and constraints may be either stochastic or adversarial. In such settings, Stradi et al.(2024) proposed the first best-of-both-worlds algorithm able to seamlessly handle stochastic and adversarial constraints, achieving optimal regret and constraint violation bounds in both cases. This algorithm suffers from two major drawbacks. First, it only works under full feedback, which severely limits its applicability in practice. Moreover, it relies on optimizing over the space of occupancy measures, which requires solving convex optimization problems, an highly inefficient task. In this paper, we provide the first best-of-both-worlds algorithm for CMDPs with bandit feedback. Specifically, when the constraints are stochastic, the algorithm achieves $\widetilde{\mathcal{O}}(\sqrt{T})$ regret and constraint violation, while, when they are adversarial, it attains $\widetilde{\mathcal{O}}(\sqrt{T})$ constraint violation and a tight fraction of the optimal reward. Moreover, our algorithm is based on a policy optimization approach, which is much more efficient than occupancy-measure-based methods.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# CoLLAP: 音楽的時間構造を付加したコントラストロングフォーム言語-Audio Pretraining

CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation ( http://arxiv.org/abs/2410.02271v1 )

ライセンス: Link先を確認
Junda Wu, Warren Li, Zachary Novack, Amit Namburi, Carol Chen, Julian McAuley, (参考訳) 時間特性のモデル化は、音声波形の表現学習において重要な役割を果たす。 本稿では,入力音声(最大5分)と言語記述(250語)の認識窓を大きく拡張し,モーダル性や時間的ダイナミクスを横断するコントラスト学習を実現するために,コントラスト長文言語-監査事前学習(\textbf{CoLLAP})を提案する。 近年のMusic-LLMを用いてフル長楽曲の長文字幕を生成し,音楽時間構造を付加し,大規模なAudioSet学習データセットから51.3Kの音声テキストペアを収集し,平均音声長が288秒に達する。 本稿では,各曲をクリップに分割し,その埋め込みを抽出することにより,言語表現と構造化音声表現を融合する新しいコントラスト学習アーキテクチャを提案する。 注意機構により、マルチモーダル時間相関を捕捉し、モデルの自動重み付けを行い、最終的な融合スコアを向上し、コントラストアライメントを改善する。 最後に,異なる種類のバックボーン言語モデルを用いた2種類のCoLLAPモデルを開発した。 複数の長文音楽テキスト検索データセットの総合的な実験を通じて,ベースラインと比較して検索精度が一貫した性能向上を示した。 また,事前学習したCoLLAPモデルを,異種長モードのマルチモーダルコンテキストを用いて,様々な音楽情報検索タスクに転送可能であることを示す。

Modeling temporal characteristics plays a significant role in the representation learning of audio waveform. We propose Contrastive Long-form Language-Audio Pretraining (\textbf{CoLLAP}) to significantly extend the perception window for both the input audio (up to 5 minutes) and the language descriptions (exceeding 250 words), while enabling contrastive learning across modalities and temporal dynamics. Leveraging recent Music-LLMs to generate long-form music captions for full-length songs, augmented with musical temporal structures, we collect 51.3K audio-text pairs derived from the large-scale AudioSet training dataset, where the average audio length reaches 288 seconds. We propose a novel contrastive learning architecture that fuses language representations with structured audio representations by segmenting each song into clips and extracting their embeddings. With an attention mechanism, we capture multimodal temporal correlations, allowing the model to automatically weigh and enhance the final fusion score for improved contrastive alignment. Finally, we develop two variants of the CoLLAP model with different types of backbone language models. Through comprehensive experiments on multiple long-form music-text retrieval datasets, we demonstrate consistent performance improvement in retrieval accuracy compared with baselines. We also show the pretrained CoLLAP models can be transferred to various music information retrieval tasks, with heterogeneous long-form multimodal contexts.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 不完全な世界における完全なカウンターファクトアル:逐次的アルゴリズム的会話における行動の雑音的実装をモデル化する

Perfect Counterfactuals in Imperfect Worlds: Modelling Noisy Implementation of Actions in Sequential Algorithmic Recourse ( http://arxiv.org/abs/2410.02273v1 )

ライセンス: Link先を確認
Yueqing Xuan, Kacper Sokol, Mark Sanderson, Jeffrey Chan, (参考訳) アルゴリズムによる会話は、自動意思決定に悪影響を及ぼした個人に対して行動を与え、望ましい結果を達成するのに役立つ。 しかし、この発言を知ることは、環境の多様性や個人の選択によって、ユーザーがそれを完璧に実装することを保証しない。 したがって、リコース生成はその準最適あるいはうるさい実装を予測すべきである。 いくつかの手法は、小さな摂動に対する頑健性(すなわちノイズのあるレコースの実装)を考慮に入れたレコースを構築してきたが、彼らはすべてのレコースを単一のステップで実装すると仮定し、従って一様雑音を適用した。 このような仮定は非現実的であり、しばしば複数のシーケンシャルなステップを含み、実装が難しくなり、より多くのノイズにさらされる。 本研究では,局所的なデータ形状に適応し,各ステップで蓄積する可塑性雑音下での談話について考察する。 この問題をマルコフ決定過程とみなし、可聴雑音の分布がマルコフの性質を満たすことを実証する。 次に、RObust Sequential(ROSE)レコース生成器を提案し、不完全な実装であっても所望の結果をもたらす一連のステップを出力する。 最適でない人間の行動のもっともらしいモデリングと、蓄積された不確実性に対するリコースロバスト性の向上を考えると、ROSEは低リコースコスト下での成功率を高めることができる。 実験的な評価により,提案アルゴリズムは,低空間性と高速な計算を保証しながら,より効率よくリコースロバスト性とコストのトレードオフを管理することを示す。

Algorithmic recourse provides actions to individuals who have been adversely affected by automated decision-making and helps them achieve a desired outcome. Knowing the recourse, however, does not guarantee that users would implement it perfectly, either due to environmental variability or personal choices. Recourse generation should thus anticipate its sub-optimal or noisy implementation. While several approaches have constructed recourse that accounts for robustness to small perturbation (i.e., noisy recourse implementation), they assume an entire recourse to be implemented in a single step and thus apply one-off uniform noise to it. Such assumption is unrealistic since recourse often includes multiple sequential steps which becomes harder to implement and subject to more noise. In this work, we consider recourse under plausible noise that adapts to the local data geometry and accumulates at every step of the way. We frame this problem as a Markov Decision Process and demonstrate that the distribution of our plausible noise satisfies the Markov property. We then propose the RObust SEquential (ROSE) recourse generator to output a sequence of steps that will lead to the desired outcome even under imperfect implementation. Given our plausible modelling of sub-optimal human actions and greater recourse robustness to accumulated uncertainty, ROSE can grant users higher chances of success under low recourse costs. Empirical evaluation shows our algorithm manages the inherent trade-off between recourse robustness and costs more effectively while ensuring its low sparsity and fast computation.
翻訳日:2024-11-04 07:36:05 公開日:2024-10-03
# 政策最適化による拘束型MDPの最適ストロングレグレットと振動

Optimal Strong Regret and Violation in Constrained MDPs via Policy Optimization ( http://arxiv.org/abs/2410.02275v1 )

ライセンス: Link先を確認
Francesco Emanuele Stradi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 我々は, オンライン学習を, サブリニアの強い後悔と強い累積的制約違反の達成を目標として, CMDP(emph{constrained MDPs})で研究する。 標準(弱)の指標とは違って、これらの指標は負の項が正の項を補うことを許さず、かなりの追加の課題を生じさせる。 Efroni et al (2020) は線形プログラミングを活用することで、線形の強い後悔と強い違反を伴うアルゴリズムを最初に提案した。 したがって、それらのアルゴリズムは極めて非効率であり、政策最適化法により線形境界を達成する開放的な問題として残り、実際よりもはるかに効率的である。 つい最近、Muller et al (2024) はこの問題を部分的に解決し、$\widetilde{\mathcal{O}}(T^{0.93})$ strong regret/violation を達成するためのポリシー最適化法を提案している。 このことは、このタイプのアプローチを用いることで最適な境界が達成可能であるかどうかという疑問を、いまだに残している。 そのような疑問に対して、$\widetilde{\mathcal{O}}(\sqrt{T})$ strong regret/violation を用いた効率的なポリシー最適化アルゴリズムを提供することで、肯定的に答える。 提案アルゴリズムは, 対向的(制約のない) MDP に対して, 対向的(制約のない) MDP に対して, 両変数に対する UCB 様更新に対して, 最先端のポリシー最適化アプローチを採用するプリミラル・デュアル・スキームを実装した。

We study online learning in \emph{constrained MDPs} (CMDPs), focusing on the goal of attaining sublinear strong regret and strong cumulative constraint violation. Differently from their standard (weak) counterparts, these metrics do not allow negative terms to compensate positive ones, raising considerable additional challenges. Efroni et al. (2020) were the first to propose an algorithm with sublinear strong regret and strong violation, by exploiting linear programming. Thus, their algorithm is highly inefficient, leaving as an open problem achieving sublinear bounds by means of policy optimization methods, which are much more efficient in practice. Very recently, Muller et al. (2024) have partially addressed this problem by proposing a policy optimization method that allows to attain $\widetilde{\mathcal{O}}(T^{0.93})$ strong regret/violation. This still leaves open the question of whether optimal bounds are achievable by using an approach of this kind. We answer such a question affirmatively, by providing an efficient policy optimization algorithm with $\widetilde{\mathcal{O}}(\sqrt{T})$ strong regret/violation. Our algorithm implements a primal-dual scheme that employs a state-of-the-art policy optimization approach for adversarial (unconstrained) MDPs as primal algorithm, and a UCB-like update for dual variables.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 微分作用素の固有値計算のための改良量子アルゴリズムとその確率的インフレーションにおける摂動分布テールの減衰速度推定への応用

Improved quantum algorithm for calculating eigenvalues of differential operators and its application to estimating the decay rate of the perturbation distribution tail in stochastic inflation ( http://arxiv.org/abs/2410.02276v1 )

ライセンス: Link先を確認
Koichi Miyamoto, Yuichiro Tada, (参考訳) 科学計算のための量子アルゴリズムとその応用は活発に研究されている。 本稿では、微分作用素 $\mathcal{L}$ の第一固有値を$\mathbb{R}^d$ で推定する量子アルゴリズムとその宇宙膨張理論への応用について述べる。 この固有値問題の一般的なアプローチは、有限差分離散化を$\mathcal{L}$に適用し、結果行列の固有値を計算することであるが、この方法は次元性の呪い、すなわち$d$に関する指数複雑性に悩まされる。 我々の最初の貢献は、最近の量子特異値変換に基づく新しい量子アルゴリズムの開発である。 固有関数とよく重なり合う試行関数が与えられた場合、我々の手法は、$\widetilde{O}(d^3/\epsilon^2)$と$d$と推定精度$\epsilon$でクエリ複雑性のスケーリングを行い、$d$の多項式であり、既存の量子アルゴリズムよりも改善されていることを示す。 そこで我々は,確率的インフレーション(英語版)として知られる宇宙のインフレーションの理論的枠組みにおける問題への本手法の適用を考察し,特に主密度摂動の確率分布のテールの減衰率に関連する随伴フォッカー-プランク作用素の固有値を計算する。 いくつかのケースでは、単純な試行関数が最初の固有関数とよく重なり合っており、この問題に対して我々の手法が有望であることを示す。

Quantum algorithms for scientific computing and their applications have been studied actively. In this paper, we propose a quantum algorithm for estimating the first eigenvalue of a differential operator $\mathcal{L}$ on $\mathbb{R}^d$ and its application to cosmic inflation theory. A common approach for this eigenvalue problem involves applying the finite-difference discretization to $\mathcal{L}$ and computing the eigenvalues of the resulting matrix, but this method suffers from the curse of dimensionality, namely the exponential complexity with respect to $d$. Our first contribution is the development of a new quantum algorithm for this task, leveraging recent quantum singular value transformation-based methods. Given a trial function that overlaps well with the eigenfunction, our method runs with query complexity scaling as $\widetilde{O}(d^3/\epsilon^2)$ with $d$ and estimation accuracy $\epsilon$, which is polynomial in $d$ and shows an improvement over existing quantum algorithms. Then, we consider the application of our method to a problem in a theoretical framework for cosmic inflation known as stochastic inflation, specifically calculating the eigenvalue of the adjoint Fokker--Planck operator, which is related to the decay rate of the tail of the probability distribution for the primordial density perturbation. We numerically see that in some cases, simple trial functions overlap well with the first eigenfunction, indicating our method is promising for this problem.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# BETO言語モデルを用いた単語語彙の形態的評価

Morphological evaluation of subwords vocabulary used by BETO language model ( http://arxiv.org/abs/2410.02283v1 )

ライセンス: Link先を確認
Óscar García-Sierra, Ana Fernández-Pampillón Cesteros, Miguel Ortega-Martín, (参考訳) 大規模言語モデルで使用されるサブワードのトークン化アルゴリズムは、はるかに効率的であり、人間の介入なしに単語やサブワードの語彙を独立して構築することができる。 しかし、これらのサブワードは必ずしも実際の形態素と一致せず、モデルの性能に影響を及ぼす可能性があるが、いつ起こるかは定かではない。 本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。 本手法は, 3つの品質指標, 関連性, 凝集性, 形態的精度, およびそれらの評価方法に基づいて構築した。 この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。 本稿では、この評価を、大規模なスペイン語コーパスで訓練されたBERT言語モデルであるBETOのトークン化器に適用する。 この評価は, 過去の結果と合わせて, 語彙が低形態的品質であることを示す上で有効であり, また, より大きなコーパスでトークン化剤を訓練しても, 生成された語彙の形状的品質は向上しないことがわかった。 さらに、この評価は、著者の主張とモデルの設定の矛盾を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明確にするのに役立つ。

Subword tokenization algorithms used by Large Language Models are significantly more efficient and can independently build the necessary vocabulary of words and subwords without human intervention. However, those subwords do not always align with real morphemes, potentially impacting the models' performance, though it remains uncertain when this might occur. In previous research, we proposed a method to assess the morphological quality of vocabularies, focusing on the overlap between these vocabularies and the morphemes of a given language. Our evaluation method was built on three quality measures, relevance, cohesion, and morphological accuracy, and a procedure for their assessment. By applying this method to vocabularies created by three subword tokenization algorithms, BPE, Wordpiece, and Unigram, we concluded that these vocabularies generally exhibit very low morphological quality. In this article, we apply this evaluation to the tokenizer of BETO, a BERT language model trained on large Spanish corpora. This evaluation, along with our previous results, helped us conclude that its vocabulary has a low morphological quality, and we also found that training the tokenizer in a larger corpus does not improve the morphological quality of the generated vocabulary. Additionally, this evaluation helps clarify the algorithm used by the tokenizer, that is, Wordpiece, given the inconsistencies between the authors' claims and the model's configuration.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 言語モデルの語彙キー表現空間における相関とナビゲーション

Correlation and Navigation in the Vocabulary Key Representation Space of Language Models ( http://arxiv.org/abs/2410.02284v1 )

ライセンス: Link先を確認
Letian Peng, Chenyang An, Jingbo Shang, (参考訳) 言語モデル(LM)デコーディングは、NTP確率分布に基づく。 ニューラルLM(例えばTransformerベース)では、NTP分布は基本的に、符号化された入力コンテキスト(クエリ)と固定語彙表現(キー)の間のソフトマックス規則化されたドット積である。 本稿では,鍵分布がNTP分布に与える影響について検討し,鍵間の類似性がNTPの突発的相関を引き起こすかどうかに着目した。 知識提供タスクを通じて、NTP分布では、いくつかの上位トークンが典型的に正確であることを示す。 しかし、中間ランクの予測は、これらの上位に類似した(必ずしも意味論的ではない)トークンに対して非常に偏りがある。 例えば、"P" がトップ-1トークンとして予測された場合、"A"-"Z" はすべてNTPで上位にランクされる。 これにより、サンプリングの多様性が損なわれ、正しいロングテールの結果のサンプリングが望ましくない、騒々しいものになる。 我々は,探索領域からクエリ表現を反復的に押下する新しいインコンテキスト手法により,この問題を緩和しようと試みている。 具体的には、探索された復号結果を文脈に含み、LMに他の何かを生成するよう促すことで、探索されたキーを持つ小さなドット積を持つクエリ表現を生成することをLMに促す。 知識提供タスクの実験により,提案手法は探索されたキーから効率的にナビゲーションし,新しいキーの修正につながることが示された。 我々はさらに、提案手法をオープンエンドおよびチェーンオブソート(推論のための)世代に拡張する。 実験の結果,ICNは世代多様性の向上と自己整合性投票性能の向上に寄与していることがわかった。 最後に、固定鍵空間に起因する潜在的なトレーニング問題と、今後の研究における課題と対処方法について議論する。

Language model (LM) decoding is based on the next-token prediction (NTP) probability distribution. For neural LMs (e.g., Transformer-based), NTP distribution is essentially a softmax-regularized dot product between an encoded input context (query) and fixed vocabulary representations (keys). In this paper, we study the effect of the key distribution on the NTP distribution, with a focus on whether the similarity between keys will trigger spurious correlations in NTP. Through knowledge-probing tasks, we show that in the NTP distribution, the few top-ranked tokens are typically accurate. However, the middle-ranked prediction is highly biased towards the tokens that are distributionally (not necessarily semantically) similar to these top ones. For instance, if "P" is predicted as the top-1 token, "A"-"Z" will all be ranked high in NTP, no matter whether they can lead to correct decoding results. This hurts the sampling diversity and makes the sampling of correct, long-tail results hopeless and noisy. We attempt to alleviate this issue via a novel in-context method that iteratively pushes the query representation away from explored regions. Specifically, we include the explored decoding results in the context and prompt the LM to generate something else, which encourages the LM to produce a query representation that has small dot products with explored keys. Experiments on knowledge-probing tasks show that our method leads to efficient navigation away from explored keys to correct new keys. We further extend our method to open-ended and chain-of-thought (for reasoning) generation. Experiment results show that ICN contributes to better generation diversity and improved self-consistency voting performance. Finally, we discuss potential training issues caused by the fixed key space together with the challenges and possible ways to address them in future research.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 古典光を用いたフォトニックランダムウォークのサブディフュージョンダイナミクス

Subdiffusive dynamics in photonic random walks probed with classical light ( http://arxiv.org/abs/2410.02287v1 )

ライセンス: Link先を確認
Stefano Longhi, (参考訳) 強結合格子中の光子のランダムウォークは、古典的ランダムウォークと同様の拡散運動を示すことが知られており、量子-古典的遷移を明らかに示している。 本研究では,古典光の非古典的歩行が量子とアンサンブル平均化を乱すことで,古典的歩行と量子的歩行とは大きく異なる振る舞いを観察できることを明らかにする。 これらの知見は、結合繊維ループのパルスダイナミクスに基づいて、合成時間格子におけるフォトニックランダムウォークを提案することによって示される。

The random walk of photons in a tight-binding lattice is known to exhibit diffusive motion similar to classical random walks under decoherence, clearly illustrating the quantum-to-classical transition. In this study, we reveal that the random walk of intense classical light under dephasing dynamics can disentangle quantum and ensemble averaging, making it possible to observe a subdiffusive walker dynamics, i.e. a behavior very distinct from both a classical and a quantum walker. These findings are demonstrated through proposing photonic random walks in synthetic temporal lattices, based on pulse dynamics in coupled fiber loops.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# コンピュータ支援カラー化の現状:調査

Computer-aided Colorization State-of-the-science: A Survey ( http://arxiv.org/abs/2410.02288v1 )

ライセンス: Link先を確認
Yu Cao, Xin Duan, Xiangqiao Meng, P. Y. Mok, Ping Li, Tong-Yee Lee, (参考訳) 本稿では,コンピュータ支援カラー化技術の分野での研究成果を概説する。 カラー化タスクは,コンピュータビジョンの導入によって,コンピュータグラフィックスやプロスパーが起源であり,視覚とグラフィックの融合がちなので,分類を推し進め,時系列的に全紙を整理する。 色付けが人間の視覚的要求や感情をより緊密に満たすように、彩色画像の美的評価を導入することを考慮して、復元に基づく既存の色付け評価手法を拡張した。 本研究は,7種類の非条件色化モデルにおける色付け美的評価を行い,既存の再現基準と評価の相違について考察する。 最後に,未解決の課題を特定し,今後の研究開発のための実りある領域を提案する。 この調査に関連するプロジェクトへのアクセスはhttps://github.com/DanielCho-HK/Colorization.comで確認できる。

This paper reviews published research in the field of computer-aided colorization technology. We argue that the colorization task originates from computer graphics, prospers by introducing computer vision, and tends to the fusion of vision and graphics, so we put forward our taxonomy and organize the whole paper chronologically. We extend the existing reconstruction-based colorization evaluation techniques, considering that aesthetic assessment of colored images should be introduced to ensure that colorization satisfies human visual-related requirements and emotions more closely. We perform the colorization aesthetic assessment on seven representative unconditional colorization models and discuss the difference between our assessment and the existing reconstruction-based metrics. Finally, this paper identifies unresolved issues and proposes fruitful areas for future research and development. Access to the project associated with this survey can be obtained at https://github.com/DanielCho-HK/Colorization.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 近傍の確率的生成による線密度に基づく空間クラスタリング

Density based Spatial Clustering of Lines via Probabilistic Generation of Neighbourhood ( http://arxiv.org/abs/2410.02290v1 )

ライセンス: Link先を確認
Akanksha Das, Malay Bhattacharyya, (参考訳) $\mathbb{R}^n$ の点の密度に基づく空間的クラスタリングは、様々な産業における無数の応用を持つ。 この問題を高次元空間における直線の密度に基づくクラスタリングに一般化し、直線の三角形の不等式に従う有効な距離測度が存在しないことを念頭に置いておく。 本稿では,パラメータを連続確率密度関数として用いた,固定ボリュームの行に対して,カスタマイズされた近傍を生成するクラスタリングアルゴリズムを設計する。 このアルゴリズムは外れ値に敏感ではなく、濃度パラメータを用いてデータのノイズを効果的に識別することができる。 このアルゴリズムの重要な応用の1つは、各データのドメイン知識を活用しながら、欠落したエントリを持つ$\mathbb{R}^n$でデータポイントをクラスタリングすることである。 特に、提案アルゴリズムは、少なくとも$(n-1)$-dimensional情報を含む$n$-dimensionalデータポイントをクラスタリングすることができる。 本稿では, 連続確率密度関数を持つ標準確率分布の近傍領域について述べるとともに, 各種合成および実世界のデータセット(鉄道, 道路ネットワークなど)におけるアルゴリズムの有効性を実証する。 実験結果はまた、不完全なデータのクラスタリングにおけるその応用を強調している。

Density based spatial clustering of points in $\mathbb{R}^n$ has a myriad of applications in a variety of industries. We generalise this problem to the density based clustering of lines in high-dimensional spaces, keeping in mind there exists no valid distance measure that follows the triangle inequality for lines. In this paper, we design a clustering algorithm that generates a customised neighbourhood for a line of a fixed volume (given as a parameter), based on an optional parameter as a continuous probability density function. This algorithm is not sensitive to the outliers and can effectively identify the noise in the data using a cardinality parameter. One of the pivotal applications of this algorithm is clustering data points in $\mathbb{R}^n$ with missing entries, while utilising the domain knowledge of the respective data. In particular, the proposed algorithm is able to cluster $n$-dimensional data points that contain at least $(n-1)$-dimensional information. We illustrate the neighbourhoods for the standard probability distributions with continuous probability density functions and demonstrate the effectiveness of our algorithm on various synthetic and real-world datasets (e.g., rail and road networks). The experimental results also highlight its application in clustering incomplete data.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 適応的信頼領域法による2次ニューラルネットワークの効率的な最適化

Efficient Second-Order Neural Network Optimization via Adaptive Trust Region Methods ( http://arxiv.org/abs/2410.02293v1 )

ライセンス: Link先を確認
James Vo, (参考訳) 2次最適化法は、より高速な収束を実現するために曲率情報を利用することで、ディープニューラルネットワークのトレーニングにおいて顕著な利点を提供する。 しかし、従来の2階法は計算的に禁止されており、主に大きな行列逆転と高いメモリ要求のためである。 これらの問題を緩和するために適応的な信頼領域法が開発されたが、その性能はヘッセンのリプシッツ定数のような重要なパラメータの保守的な推定によって妨げられ、結果として準最適結果をもたらす。 本稿では,これらの制約を克服するために設計された新しい最適化アルゴリズムであるSecondOrderAdaptiveAdam(SOAA)を紹介する。 SOAAは、対角表現を用いてフィッシャー情報行列を近似し、計算複雑性を \(O(n^{2})\) から \(O(n)\) に減らし、大きな言語モデル(LLM)を含む大規模ディープラーニングモデルに適合させる。 さらに、アルゴリズムは、観測された損失低減に基づいて信頼領域サイズを動的に調整し、堅牢な収束と計算効率の両立を保証する適応信頼領域機構を統合する。 我々は、同様の計算制約の下で、SOAAがAdamのような一階最適化よりも高速でより安定した収束を達成することを実証的に実証した。 しかし、フィッシャー情報行列の対角近似は勾配間の高次相互作用を捉えるのに効果が低く、さらなる洗練と今後の研究の可能性を示唆している。

Second-order optimization methods offer notable advantages in training deep neural networks by utilizing curvature information to achieve faster convergence. However, traditional second-order techniques are computationally prohibitive, primarily due to the large matrix inversions and high memory demands they require. While adaptive trust-region methods have been developed to mitigate these issues, their performance is often hindered by conservative estimates of key parameters, such as the Lipschitz constant of the Hessian, resulting in suboptimal outcomes. In this paper, we introduce SecondOrderAdaptiveAdam (SOAA), a novel optimization algorithm designed to overcome these limitations. SOAA approximates the Fisher information matrix using a diagonal representation, reducing computational complexity from \(O(n^{2})\) to \(O(n)\), thereby making it suitable for large-scale deep learning models, including large language models (LLMs). Additionally, the algorithm integrates an adaptive trust-region mechanism that dynamically adjusts the trust region size based on observed loss reduction, ensuring both robust convergence and computational efficiency. We empirically demonstrate that SOAA achieves faster and more stable convergence compared to first-order optimizers, such as Adam, under similar computational constraints. However, the diagonal approximation of the Fisher information matrix may be less effective in capturing higher-order interactions between gradients, suggesting potential areas for further refinement and future research.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 言語モデルはグラフ学習者である

Language Models are Graph Learners ( http://arxiv.org/abs/2410.02296v1 )

ライセンス: Link先を確認
Zhe Xu, Kaveh Hassani, Si Zhang, Hanqing Zeng, Michihiro Yasunaga, Limei Wang, Dongqi Fu, Ning Yao, Bo Long, Hanghang Tong, (参考訳) 言語モデル(LM)は、グラフ学習タスクにおいて、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性にますます挑戦している。 そこで本研究では,ノード分類タスクにおける最先端のGNNに匹敵する性能を実現するために,アーキテクチャ変更を必要とせず,既製のLMを有効活用する手法を提案する。 LMの元々のアーキテクチャを保存することで、私たちのアプローチはLM命令チューニングの重要な利点を保ちます。 これを実現するために,(1)よりリッチな文脈情報を提供するトポロジカルおよびセマンティック検索手法を用いたLMの入力の強化,(2)クラス候補を効果的に特定する軽量GNN分類器によるLMの分類プロセスの指導,という2つの重要な拡張戦略を導入する。 実世界のデータセットを用いた実験により、これらの拡張戦略を備えたバックボーンFlan-T5モデルは、最先端のテキスト出力ノード分類器よりも優れ、ベクター出力ノード分類器に匹敵する。 特定のタスク固有のノード分類器と一般的なLMのギャップを埋めることにより、より汎用的で広く適用可能なグラフ学習モデルへの道を開く。 私たちは公開時にコードをオープンソース化します。

Language Models (LMs) are increasingly challenging the dominance of domain-specific models, including Graph Neural Networks (GNNs) and Graph Transformers (GTs), in graph learning tasks. Following this trend, we propose a novel approach that empowers off-the-shelf LMs to achieve performance comparable to state-of-the-art GNNs on node classification tasks, without requiring any architectural modification. By preserving the LM's original architecture, our approach retains a key benefit of LM instruction tuning: the ability to jointly train on diverse datasets, fostering greater flexibility and efficiency. To achieve this, we introduce two key augmentation strategies: (1) Enriching LMs' input using topological and semantic retrieval methods, which provide richer contextual information, and (2) guiding the LMs' classification process through a lightweight GNN classifier that effectively prunes class candidates. Our experiments on real-world datasets show that backbone Flan-T5 models equipped with these augmentation strategies outperform state-of-the-art text-output node classifiers and are comparable to top-performing vector-output node classifiers. By bridging the gap between specialized task-specific node classifiers and general LMs, this work paves the way for more versatile and widely applicable graph learning models. We will open-source the code upon publication.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 複合文を解析しやすくする: アスペクトに基づく知覚分析のための文分割学習

Make Compound Sentences Simple to Analyze: Learning to Split Sentences for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2410.02297v1 )

ライセンス: Link先を確認
Yongsik Seo, Sungwon Song, Ryang Heo, Jieyong Kim, Dongha Lee, (参考訳) Aspect-Based Sentiment Analysis (ABSA)の分野では、生成法は有望な結果を示し、実質的な進歩を遂げている。 しかし、これらの進歩にもかかわらず、文中のニュアンスされた感情表現をキャプチャする感情四重項を抽出する作業は、依然として重大な課題である。 特に、複合文は複数の四重項を含む可能性があるため、文の複雑さが増大するにつれて、抽出作業がますます困難になる。 この問題に対処するため、これらの要素の認識を容易にするために文構造を簡素化し、様々なABSAタスクとシームレスに統合するモデルを構築することに重点を置いている。 本稿では、複合文をよりシンプルで明確な形式に単純化し、その構造と意図を明確にするアスペクト・ターム・オリエント・センテンス・スプリッター(ATOSS)を提案する。 プラグアンドプレイモジュールとして,ABSAモデルのパラメータを保持するとともに,入力文中の本質的な意図を識別しやすくする。 ATOSSの利用は、感情四重項抽出の主課題であるASQPタスクとACOSタスクの両方において、既存の手法よりも優れていた。

In the domain of Aspect-Based Sentiment Analysis (ABSA), generative methods have shown promising results and achieved substantial advancements. However, despite these advancements, the tasks of extracting sentiment quadruplets, which capture the nuanced sentiment expressions within a sentence, remain significant challenges. In particular, compound sentences can potentially contain multiple quadruplets, making the extraction task increasingly difficult as sentence complexity grows. To address this issue, we are focusing on simplifying sentence structures to facilitate the easier recognition of these elements and crafting a model that integrates seamlessly with various ABSA tasks. In this paper, we propose Aspect Term Oriented Sentence Splitter (ATOSS), which simplifies compound sentence into simpler and clearer forms, thereby clarifying their structure and intent. As a plug-and-play module, this approach retains the parameters of the ABSA model while making it easier to identify essential intent within input sentences. Extensive experimental results show that utilizing ATOSS outperforms existing methods in both ASQP and ACOS tasks, which are the primary tasks for extracting sentiment quadruplets.
翻訳日:2024-11-04 04:12:15 公開日:2024-10-03
# 大規模言語モデルを用いた多目的進化型アルゴリズム--低コスト適応型アプローチ

Large Language Model Aided Multi-objective Evolutionary Algorithm: a Low-cost Adaptive Approach ( http://arxiv.org/abs/2410.02301v1 )

ライセンス: Link先を確認
Wanyi Liu, Long Chen, Zhenzhou Tang, (参考訳) 多目的進化アルゴリズム(MOEA)はこれらの問題を解決する効果的な方法の1つである。 しかし、そのランダム性はアルゴリズムが急速にグローバルな最適化に収束することを妨げ、遺伝的演算子の設計は複雑な手動チューニングを必要とすることが多い。 そこで本研究では,大規模言語モデル(LLM)と従来の進化的アルゴリズムを組み合わせて,アルゴリズムの探索能力と一般化性能を向上するフレームワークを提案する。 具体的には、適応機構内での補助的な評価機能と自動的なプロンプト構築を活用し、LLMの利用を柔軟に調整し、遺伝的演算子によってさらに洗練され最適化された高品質なソリューションを生成し、同時に、LLMとの相互作用コストを極力最小化することを目的としている。

Multi-objective optimization is a common problem in practical applications, and multi-objective evolutionary algorithm (MOEA) is considered as one of the effective methods to solve these problems. However, their randomness sometimes prevents algorithms from rapidly converging to global optimization, and the design of their genetic operators often requires complicated manual tuning. To overcome this challenge, this study proposes a new framework that combines a large language model (LLM) with traditional evolutionary algorithms to enhance the algorithm's search capability and generalization performance.In our framework, we employ adaptive and hybrid mechanisms to integrate the LLM with the MOEA, thereby accelerating algorithmic convergence. Specifically, we leverage an auxiliary evaluation function and automated prompt construction within the adaptive mechanism to flexibly adjust the utilization of the LLM, generating high-quality solutions that are further refined and optimized through genetic operators.Concurrently, the hybrid mechanism aims to minimize interaction costs with the LLM as much as possible.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# 多目的相関ダイナミクスのための意味コミュニケーションと制御協調設計

Semantic Communication and Control Co-Design for Multi-Objective Correlated Dynamics ( http://arxiv.org/abs/2410.02303v1 )

ライセンス: Link先を確認
Abanoub M. Girgis, Hyowoon Seo, Mehdi Bennis, (参考訳) このレターでは、異なる制御ルールとダイナミックスを持つ相関システムのセマンティックダイナミクスを学習するための機械学習アプローチを紹介する。 オートエンコーダ(AE)フレームワークでクープマン演算子を活用することで、システムの状態進化は動的セマンティッククープマン(DSK)モデルを用いて線形化され、ベースラインセマンティックダイナミクスをキャプチャする。 信号時相論理(STL)は、システム固有の制御ルールを符号化するために、論理意味論的クープマン(LSK)モデルによって組み込まれている。 これらのモデルは、状態予測精度と制御性能を改善しつつ、通信コストを低減し、通信サンプルの91.65%を削減し、シミュレーションにおける大幅な性能向上を示す論理的クープマンAEフレームワークを構成する。

This letter introduces a machine-learning approach to learning the semantic dynamics of correlated systems with different control rules and dynamics. By leveraging the Koopman operator in an autoencoder (AE) framework, the system's state evolution is linearized in the latent space using a dynamic semantic Koopman (DSK) model, capturing the baseline semantic dynamics. Signal temporal logic (STL) is incorporated through a logical semantic Koopman (LSK) model to encode system-specific control rules. These models form the proposed logical Koopman AE framework that reduces communication costs while improving state prediction accuracy and control performance, showing a 91.65% reduction in communication samples and significant performance gains in simulation.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# 高精度リアルタイム食品分類のための新しい手法:効率的なNetB7,CBAM,トランスファーラーニング,データ拡張の相乗的統合

A Novel Method for Accurate & Real-time Food Classification: The Synergistic Integration of EfficientNetB7, CBAM, Transfer Learning, and Data Augmentation ( http://arxiv.org/abs/2410.02304v1 )

ライセンス: Link先を確認
Shayan Rokhva, Babak Teimourpour, (参考訳) 現代の社会に人工知能を統合することは、非常に変革的であり、様々な日々のタスクを合理化することによって生産性を著しく向上させる。 AIによる認識システムは、栄養管理の改善、食品廃棄物の処理、食品生産と消費効率の向上など、食品セクターにおいて顕著な優位性を提供する。 食品の正確な分類は、このプロセスの有効性がその後の作業の成功に直接影響を与えるため、高度なAIモデルを活用するための重要な初期ステップである。 既存の研究努力にもかかわらず、そのギャップは高速な処理時間を確保しながら性能の向上を継続し、研究者はコスト効率と正確なモデルを追求する。 本研究では、このギャップを最先端のEfficientNetB7アーキテクチャを用いて解決し、転送学習、データ拡張、CBAMアテンションモジュールによって強化する。 この手法は、現実のアプリケーションに適した高速処理を維持しつつ、従来の精度の研究を超越した堅牢なモデルをもたらす。 KaggleのFood11データセットは、16643枚の不均衡な画像を11のクラスに分けて利用した。 さらに,様々な深層学習手法を駆使した提案手法は,96.40%の精度で一貫した平均精度を実現している。 特に、未確認データの推測中に1秒以内に60枚以上の画像を分類することができ、高い精度を迅速に提供できることを実証することができる。 このことは、食品の正確な分類とその後のプロセスにおける効率向上の実践的応用の可能性を浮き彫りにした。

Integrating artificial intelligence into modern society is profoundly transformative, significantly enhancing productivity by streamlining various daily tasks. AI-driven recognition systems provide notable advantages in the food sector, including improved nutrient tracking, tackling food waste, and boosting food production and consumption efficiency. Accurate food classification is a crucial initial step in utilizing advanced AI models, as the effectiveness of this process directly influences the success of subsequent operations; therefore, achieving high accuracy at a reasonable speed is essential. Despite existing research efforts, a gap persists in improving performance while ensuring rapid processing times, prompting researchers to pursue cost-effective and precise models. This study addresses this gap by employing the state-of-the-art EfficientNetB7 architecture, enhanced through transfer learning, data augmentation, and the CBAM attention module. This methodology results in a robust model that surpasses previous studies in accuracy while maintaining rapid processing suitable for real-world applications. The Food11 dataset from Kaggle was utilized, comprising 16643 imbalanced images across 11 diverse classes with significant intra-category diversities and inter-category similarities. Furthermore, the proposed methodology, bolstered by various deep learning techniques, consistently achieves an impressive average accuracy of 96.40%. Notably, it can classify over 60 images within one second during inference on unseen data, demonstrating its ability to deliver high accuracy promptly. This underscores its potential for practical applications in accurate food classification and enhancing efficiency in subsequent processes.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# ニューラルネットワークを用いた個体識別の比較

The Comparison of Individual Cat Recognition Using Neural Networks ( http://arxiv.org/abs/2410.02305v1 )

ライセンス: Link先を確認
Mingxuan Li, Kai Zhou, (参考訳) 深層学習を用いた顔認識は、認証、スマートドアロック、写真グループ化など、社会生活において広く利用されている。 ResNet、DenseNet、EfficientNet、ConvNeXt、Siameseネットワークなどのコンピュータビジョンタスクを容易にするために、ますます多くのネットワークが開発されている。 しかし、画像から個人を識別するニューラルネットワークの利点とデメリットを体系的に比較する研究はほとんどない。 本研究では, 猫認識における異なるニューラルネットワークの有効性を体系的に比較することにより, 伝達学習で訓練された従来のCNNは, 個々の猫認識における微調整法やシームズネットワークで訓練されたモデルよりも優れた性能を示した。 さらに、ConvNeXtとDenseNetは、ペットストアや野生動物において、個々の猫の認識にさらに最適化できる重要な結果をもたらす。 これらの結果は,ペットストアにおける猫の管理と野生の猫のモニタリングを改善する方法である。

Facial recognition using deep learning has been widely used in social life for applications such as authentication, smart door locks, and photo grouping, etc. More and more networks have been developed to facilitate computer vision tasks, such as ResNet, DenseNet, EfficientNet, ConvNeXt, and Siamese networks. However, few studies have systematically compared the advantages and disadvantages of such neural networks in identifying individuals from images, especially for pet animals like cats. In the present study, by systematically comparing the efficacy of different neural networks in cat recognition, we found traditional CNNs trained with transfer learning have better performance than models trained with the fine-tuning method or Siamese networks in individual cat recognition. In addition, ConvNeXt and DenseNet yield significant results which could be further optimized for individual cat recognition in pet stores and in the wild. These results provide a method to improve cat management in pet stores and monitoring of cats in the wild.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# トラヒックライトとライトトラヒック : 大規模言語モデルにおけるフェーラルセマンティクスの考察

Traffic Light or Light Traffic? Investigating Phrasal Semantics in Large Language Models ( http://arxiv.org/abs/2410.02308v1 )

ライセンス: Link先を確認
Rui Meng, Ye Liu, Lifu Tu, Daqing He, Yingbo Zhou, Semih Yavuz, (参考訳) 句は、人間が意味論を伝える基本的な言語単位である。 本研究では,3つの人間の注釈付きデータセットを用いて,言語意味論を理解するためのAPIベースの大規模言語モデル(LLM)の能力について批判的に検討する。 自然言語の指示によって導かれるフレーズ意味推論タスクの実行におけるLLMの性能を評価し,数発のデモンストレーションやChain-of-Thought推論など,一般的なプロンプト手法の影響について検討する。 以上の結果から,LLMは従来の組込み法よりも優れていることがわかったが,微調整法に比べて大きな優位性は示されていない。 高度なプロンプト戦略の有効性は可変性を示している。 句意味論の理解において, LLM が直面する制約を解釈するために, 詳細な誤り解析を行う。 コードとデータはhttps://github.com/memray/llm_phrase_semanticsにある。

Phrases are fundamental linguistic units through which humans convey semantics. This study critically examines the capacity of API-based large language models (LLMs) to comprehend phrase semantics, utilizing three human-annotated datasets. We assess the performance of LLMs in executing phrase semantic reasoning tasks guided by natural language instructions and explore the impact of common prompting techniques, including few-shot demonstrations and Chain-of-Thought reasoning. Our findings reveal that LLMs greatly outperform traditional embedding methods across the datasets; however, they do not show a significant advantage over fine-tuned methods. The effectiveness of advanced prompting strategies shows variability. We conduct detailed error analyses to interpret the limitations faced by LLMs in comprehending phrase semantics. Code and data can be found at https://github.com/memray/llm_phrase_semantics.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# 中緯度における地磁気指標のロバスト評価のための新しいニューラルネットワークに基づく地磁気ベースラインの導出

A novel neural network-based approach to derive a geomagnetic baseline for robust characterization of geomagnetic indices at mid-latitude ( http://arxiv.org/abs/2410.02311v1 )

ライセンス: Link先を確認
Rungployphan Kieokaew, Veronika Haberle, Aurélie Marchaudon, Pierre-Louis Blelly, Aude Chambodut, (参考訳) 地磁気測定から得られた地磁気指標は、太陽と地球との相互作用の強度を特徴付ける。 中央緯度における複数の磁気観測所から派生した \textit{Kp} 指数は、一般に宇宙気象観測に用いられている。 しかし、その時間周期は低く、強度スケールは粗い。 次世代の地磁気指標を導出するためには、太陽による摂動を伴わない静かな活動レベルを定義する「ベースライン」を確立することが望ましい。 本稿では,フランス,シャンボン・ラ・フォー・フェットのデータに着目し,時間依存性の静かな変化を表すベースラインを導出する新しい手法を提案する。 フィルタリング技術を用いて、測定はまず上記の日変化と24h, 12h, 8h, 6hの合計に分解される。 相関ツールとSHapley Additive exPlanationsを用いて、日々の変動と大きく相関するパラメータを同定する。 ここでは、少なくとも11年間のデータを1時間周期でトレーニングした長い短期記憶ニューラルネットワークを用いて、日々の「クイット」変動を予測する。 この日中静けさ変化は、上記の日中変動を支配的とする内在的地磁気変動に関連する世俗的傾向の線形外挿と組み合わせて、新しい地磁気基底線を生成する。 既存のベースラインとは異なり、我々のベースラインは地磁気嵐に敏感である。 したがって、太陽による摂動の強度を正確に反映した地磁気指標を定義するのに適している。 我々の手法は実装が簡単で拡張性も高く、リアルタイム操作に適しています。 地磁気ベースライン1日27日の運用予測について概説した。

Geomagnetic indices derived from ground magnetic measurements characterize the intensity of solar-terrestrial interaction. The \textit{Kp} index derived from multiple magnetic observatories at mid-latitude has commonly been used for space weather operations. Yet, its temporal cadence is low and its intensity scale is crude. To derive a new generation of geomagnetic indices, it is desirable to establish a geomagnetic `baseline' that defines the quiet-level of activity without solar-driven perturbations. We present a new approach for deriving a baseline that represents the time-dependent quiet variations focusing on data from Chambon-la-For\^et, France. Using a filtering technique, the measurements are first decomposed into the above-diurnal variation and the sum of 24h, 12h, 8h, and 6h filters, called the daily variation. Using correlation tools and SHapley Additive exPlanations, we identify parameters that dominantly correlate with the daily variation. Here, we predict the daily `quiet' variation using a long short-term memory neural network trained using at least 11 years of data at 1h cadence. This predicted daily quiet variation is combined with linear extrapolation of the secular trend associated with the intrinsic geomagnetic variability, which dominates the above-diurnal variation, to yield a new geomagnetic baseline. Unlike the existing baselines, our baseline is insensitive to geomagnetic storms. It is thus suitable for defining geomagnetic indices that accurately reflect the intensity of solar-driven perturbations. Our methodology is quick to implement and scalable, making it suitable for real-time operation. Strategies for operational forecasting of our geomagnetic baseline 1 day and 27 days in advance are presented.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# CTARR:アトラス登録によるCT画像上の解剖学的領域の迅速かつ堅牢な同定法

CTARR: A fast and robust method for identifying anatomical regions on CT images via atlas registration ( http://arxiv.org/abs/2410.02316v1 )

ライセンス: Link先を確認
Thomas Buddenkotte, Roland Opfer, Julia Krüger, Alessa Hering, Mireia Crispin-Ortuzar, (参考訳) 医療画像分析タスクは、しばしば患者の体内の特定の場所に位置する領域や構造に焦点を当てる。 多くの場合、画像の大部分が画像解析タスクには興味がない。 ディープラーニングベースのアプローチを使用する場合、これは推論中の計算負担を不要に増加させ、エラーの可能性を増大させる。 本稿では,CT解剖学的領域認識のための新しい汎用手法であるCTARRを紹介する。 この方法は、フォローアップタスクに関連する予め定義された解剖学的領域を自動的に識別し、残りの領域を除去することにより、ディープラーニングベースのCT画像解析パイプラインの事前処理ステップとして機能する。 使用することができる。 一 解剖学的に不可解な領域における偽陽性を防止し、推論を高速化するための画像分割 二 解剖学的文脈に整合した画像作物を生産するための画像分類、及び 三 迅速な事前登録の段階として画像登録を行うこと。 提案手法はアトラス登録に基づいて,脳,胸部,腹部および骨盤の非ラベルCTスキャンから1つまたは複数の境界ボックスとして符号化された解剖学的領域を抽出する高速かつ堅牢な方法を提供する。 医用画像セグメンテーションの文脈における提案手法の有用性とロバスト性を,公開セグメンテーション課題の6つのデータセット上で評価することによって示す。 関心領域のフォアグラウンドボクセルは、ほとんどのケースやタスク(97.45-100%)で保存され、深層学習ワークステーションで計算するのに1秒(0.1-0.21秒)しかかからず、セグメンテーションランタイム(2.0-12.7x)を大幅に削減する。 私たちのコードはhttps://github.com/ThomasBudd/ctarr.comから入手可能です。

Medical image analysis tasks often focus on regions or structures located in a particular location within the patient's body. Often large parts of the image may not be of interest for the image analysis task. When using deep-learning based approaches, this causes an unnecessary increases the computational burden during inference and raises the chance of errors. In this paper, we introduce CTARR, a novel generic method for CT Anatomical Region Recognition. The method serves as a pre-processing step for any deep learning-based CT image analysis pipeline by automatically identifying the pre-defined anatomical region that is relevant for the follow-up task and removing the rest. It can be used in (i) image segmentation to prevent false positives in anatomically implausible regions and speeding up the inference, (ii) image classification to produce image crops that are consistent in their anatomical context, and (iii) image registration by serving as a fast pre-registration step. Our proposed method is based on atlas registration and provides a fast and robust way to crop any anatomical region encoded as one or multiple bounding box(es) from any unlabeled CT scan of the brain, chest, abdomen and/or pelvis. We demonstrate the utility and robustness of the proposed method in the context of medical image segmentation by evaluating it on six datasets of public segmentation challenges. The foreground voxels in the regions of interest are preserved in the vast majority of cases and tasks (97.45-100%) while taking only fractions of a seconds to compute (0.1-0.21s) on a deep learning workstation and greatly reducing the segmentation runtime (2.0-12.7x). Our code is available at https://github.com/ThomasBudd/ctarr.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# QDGset: 品質多様性で生成された大規模グラフデータ

QDGset: A Large Scale Grasping Dataset Generated with Quality-Diversity ( http://arxiv.org/abs/2410.02319v1 )

ライセンス: Link先を確認
Johann Huber, François Hélénon, Mathilde Kappel, Ignacio de Loyola Páez-Ubieta, Santiago T. Puente, Pablo Gil, Faïz Ben Amar, Stéphane Doncieux, (参考訳) AIの最近の進歩は、ロボット学習に大きな成果をもたらしたが、把握のようなスキルは、まだ部分的には解決されていない。 近年の多くの研究は、未知の物体の把握を学ぶために、合成的把握データセットを利用している。 しかし,これらのデータセットは,先行データを用いた単純なサンプリング手法を用いて生成した。 近年,Quality-Diversity (QD) アルゴリズムにより,抽出の効率が著しく向上することが証明されている。 本研究では、オブジェクト中心の把握を生成するためのQDG-6DoFフレームワークを拡張し、合成的把握データセットの生成を拡大する。 本稿では,物体メッシュの変換と過去の把握レパートリーからの伝達学習を組み合わせたデータ拡張手法を提案する。 実験により, 本手法により, 検出されたロバストグリップ当たりの必要な評価回数を最大20%削減できることがわかった。 このアプローチを用いて、6DoFグリップポーズのデータセットであるQDGsetを生成した。 提案手法では, 誰でも容易にデータを生成することができ, 最終的には, 大規模で協調的な合成把握データセットに寄与する。

Recent advances in AI have led to significant results in robotic learning, but skills like grasping remain partially solved. Many recent works exploit synthetic grasping datasets to learn to grasp unknown objects. However, those datasets were generated using simple grasp sampling methods using priors. Recently, Quality-Diversity (QD) algorithms have been proven to make grasp sampling significantly more efficient. In this work, we extend QDG-6DoF, a QD framework for generating object-centric grasps, to scale up the production of synthetic grasping datasets. We propose a data augmentation method that combines the transformation of object meshes with transfer learning from previous grasping repertoires. The conducted experiments show that this approach reduces the number of required evaluations per discovered robust grasp by up to 20%. We used this approach to generate QDGset, a dataset of 6DoF grasp poses that contains about 3.5 and 4.5 times more grasps and objects, respectively, than the previous state-of-the-art. Our method allows anyone to easily generate data, eventually contributing to a large-scale collaborative dataset of synthetic grasps.
翻訳日:2024-11-04 04:00:02 公開日:2024-10-03
# スコアベース離散拡散モデルの収束性:離散時間解析

Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis ( http://arxiv.org/abs/2410.02321v1 )

ライセンス: Link先を確認
Zikun Zhang, Zixiang Chen, Quanquan Gu, (参考訳) 拡散モデルは様々なアプリケーションにまたがって高次元サンプルを生成することに成功している。 連続状態拡散モデルの理論的保証は広く研究されているが、離散状態拡散モデルの収束解析は未解明のままである。 本稿では,連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。 本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]^d$に導入する。 そこで本研究では,KL(Kulback-Leibler)のばらつきと,生成したサンプル分布とデータ分布との総変動(TV)距離の収束境界を,特定の仮定の下で早期に停止するシナリオと無関係に考慮して導出した。 特に、我々のKL分散境界は次元$d$でほぼ線形であり、拡散モデルの最先端結果と一致している。 我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立し、離散時間サンプリングプロセスの特徴付けに不可欠である。

Diffusion models have achieved great success in generating high-dimensional samples across various applications. While the theoretical guarantees for continuous-state diffusion models have been extensively studied, the convergence analysis of the discrete-state counterparts remains under-explored. In this paper, we study the theoretical aspects of score-based discrete diffusion models under the Continuous Time Markov Chain (CTMC) framework. We introduce a discrete-time sampling algorithm in the general state space $[S]^d$ that utilizes score estimators at predefined time points. We derive convergence bounds for the Kullback-Leibler (KL) divergence and total variation (TV) distance between the generated sample distribution and the data distribution, considering both scenarios with and without early stopping under specific assumptions. Notably, our KL divergence bounds are nearly linear in dimension $d$, aligning with state-of-the-art results for diffusion models. Our convergence analysis employs a Girsanov-based method and establishes key properties of the discrete score function, which are essential for characterizing the discrete-time sampling process.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# RESSCAL3D++:3次元点雲の合同獲得とセマンティックセグメンテーション

RESSCAL3D++: Joint Acquisition and Semantic Segmentation of 3D Point Clouds ( http://arxiv.org/abs/2410.02323v1 )

ライセンス: Link先を確認
Remco Royen, Kostas Pataridis, Ward van der Tempel, Adrian Munteanu, (参考訳) 3Dシーンの理解は、デジタルデバイスと物理世界とのシームレスな相互作用を促進するために不可欠である。 このシームレスな統合を実現するためには、3Dシーンのリアルタイムキャプチャと処理が不可欠である。 既存のアプローチでは、各フレームごとに取得と処理が分離されるのが一般的だが、解像度を計測可能な3Dセンサーの出現は、このパラダイムを克服し、それ以外の時間の無駄な取得時間をフル活用して処理を開始する機会を提供する。 本研究では,高分解能3Dセンサの動作を正確にシミュレートする新しい点クラウドデータセットであるVX-S3DISを紹介する。 さらに,従来の作業であるRESSCAL3Dよりも重要な改善であるRESSCAL3D++についても,更新モジュールと処理戦略を組み込むことで紹介する。 提案手法を新たなデータセットに適用することにより,3次元点群の共同獲得とセマンティックセマンティックセグメンテーションの可能性を実証する。 我々の分解能スケーラブルアプローチは、非スケーラブルベースラインに比べて15.6から63.9%のスピードアップを達成しながら、スケーラビリティコストを2%から0.2%に大幅に削減します。 さらに、我々のスケーラブルなアプローチは、ベースラインの全推測時間のわずか7%の後に最初のものが発生する早期予測を可能にします。 新しいVX-S3DISデータセットはhttps://github.com/remcoroyen/vx-s3disで公開されている。

3D scene understanding is crucial for facilitating seamless interaction between digital devices and the physical world. Real-time capturing and processing of the 3D scene are essential for achieving this seamless integration. While existing approaches typically separate acquisition and processing for each frame, the advent of resolution-scalable 3D sensors offers an opportunity to overcome this paradigm and fully leverage the otherwise wasted acquisition time to initiate processing. In this study, we introduce VX-S3DIS, a novel point cloud dataset accurately simulating the behavior of a resolution-scalable 3D sensor. Additionally, we present RESSCAL3D++, an important improvement over our prior work, RESSCAL3D, by incorporating an update module and processing strategy. By applying our method to the new dataset, we practically demonstrate the potential of joint acquisition and semantic segmentation of 3D point clouds. Our resolution-scalable approach significantly reduces scalability costs from 2% to just 0.2% in mIoU while achieving impressive speed-ups of 15.6 to 63.9% compared to the non-scalable baseline. Furthermore, our scalable approach enables early predictions, with the first one occurring after only 7% of the total inference time of the baseline. The new VX-S3DIS dataset is available at https://github.com/remcoroyen/vx-s3dis.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# Tone2Vecによる自動トーン転写とクラスタリング

Automated Tone Transcription and Clustering with Tone2Vec ( http://arxiv.org/abs/2410.02324v1 )

ライセンス: Link先を確認
Yi Yang, Yiming Wang, ZhiQiang Tang, Jiahong Yuan, (参考訳) レキシカル・トーンは、中・チベット諸語において重要な役割を担っている。 しかし、現在の音素のフィールドワークは手作業に依存しており、結果としてかなりの時間と費用がかかる。 これは、急速に消滅し、しばしば資金が限られている多くの絶滅危惧言語にとって、特に困難である。 本稿では,音の書き起こしのためのピッチに基づく類似性表現,Tone2Vecを提案する。 方言クラスタリングと分散の実験により、Tone2Vecはきめ細かなトーン変化を効果的に捉えていることが示された。 Tone2Vecを用いて,新しい転写表現変換を提示することにより,音の書き起こしとクラスタリングのための最初の自動アプローチを開発する。 さらに、これらのアルゴリズムはオープンソースで使いやすいパッケージであるToneLabに体系的に統合されている。 提案手法の有効性を実証するために大規模な実験を行った。

Lexical tones play a crucial role in Sino-Tibetan languages. However, current phonetic fieldwork relies on manual effort, resulting in substantial time and financial costs. This is especially challenging for the numerous endangered languages that are rapidly disappearing, often compounded by limited funding. In this paper, we introduce pitch-based similarity representations for tone transcription, named Tone2Vec. Experiments on dialect clustering and variance show that Tone2Vec effectively captures fine-grained tone variation. Utilizing Tone2Vec, we develop the first automatic approach for tone transcription and clustering by presenting a novel representation transformation for transcriptions. Additionally, these algorithms are systematically integrated into an open-sourced and easy-to-use package, ToneLab, which facilitates automated fieldwork and cross-regional, cross-lexical analysis for tonal languages. Extensive experiments were conducted to demonstrate the effectiveness of our methods.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# mm波車両通信における自律的自己学習チャネル状態予測法

Autonomous Self-Trained Channel State Prediction Method for mmWave Vehicular Communications ( http://arxiv.org/abs/2410.02326v1 )

ライセンス: Link先を確認
Abidemi Orimogunje, Vukan Ninkovic, Evariste Twahirwa, Gaspard Gashema, Dejan Vukobratovic, (参考訳) 5Gmm波の車体接続の確立と維持は、ビームスイッチング手順の頻繁なトリガを必要とする高いユーザモビリティのため、大きな課題となる。 ユーザ装置のチャネル状態フィードバックに基づいて反応性ビーム切替を分離し、正確なチャネル状態情報(CSI)予測を利用して、今後のビーム切替決定に備える。 本稿では,ベースステーション(gNB)がリカレントニューラルネットワーク(RNN)に基づくCSI予測モデルのトレーニングに使用するデータセットを収集・ラベル付けする,mmWave vehicularユーザを対象とした自律型CSI予測フレームワークを開発する。 提案フレームワークは,C-V2X協調認識メッセージ(CAM)の過度聴取と相まって,車載ユーザのCSIフィードバックを利用する。 我々は,DeepMIMOデータセット生成環境を用いて提案したフレームワークの実装と評価を行い,その性能を5G mmWaveの車載ユーザに対して正確にCSI予測できることを実証した。 CSI予測モデルを訓練し、様々な入力特徴から正確なCSI予測を提供する能力について検討した。

Establishing and maintaining 5G mmWave vehicular connectivity poses a significant challenge due to high user mobility that necessitates frequent triggering of beam switching procedures. Departing from reactive beam switching based on the user device channel state feedback, proactive beam switching prepares in advance for upcoming beam switching decisions by exploiting accurate channel state information (CSI) prediction. In this paper, we develop a framework for autonomous self-trained CSI prediction for mmWave vehicular users where a base station (gNB) collects and labels a dataset that it uses for training recurrent neural network (RNN)-based CSI prediction model. The proposed framework exploits the CSI feedback from vehicular users combined with overhearing the C-V2X cooperative awareness messages (CAMs) they broadcast. We implement and evaluate the proposed framework using deepMIMO dataset generation environment and demonstrate its capability to provide accurate CSI prediction for 5G mmWave vehicular users. CSI prediction model is trained and its capability to provide accurate CSI predictions from various input features are investigated.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# Llama SLayer 8B: 知識注入の鍵を握る浅層

Llama SLayer 8B: Shallow Layers Hold the Key to Knowledge Injection ( http://arxiv.org/abs/2410.02330v1 )

ライセンス: Link先を確認
Tianxiang Chen, Zhentao Tan, Tao Gong, Yue Wu, Qi Chu, Bin Liu, Jieping Ye, Nenghai Yu, (参考訳) 事前訓練された大規模言語モデル(LLM)を増強する手段として、知識注入は垂直領域の大規模モデルの開発に不可欠であり、広く研究されている。 パラメータ効率の細かいチューニング(PEFT)やブロック拡張手法を含む現在のアプローチは、全てのLCM層に一様に知識を適用するが、これは疑問を投げかける:全てのレイヤは、知識注入に等しく重要であるか? まず,各層が知識注入に最適な層範囲を見出すことの重要性を評価する。 直感的には、より重要なレイヤは知識注入においてより重要な役割を果たすべきであり、より密接な注入に値する。 浅層除去・拡張後の質問応答ベンチマークの性能低下を観察し, 浅層が深層化するにつれて劣化が減少し, 浅層が知識注入の鍵を握ることを示す。 この知見は,より有効でない深層を刈り上げつつ,浅い層を選択的に強化するポストプレトレーニング戦略であるS戦略を提案することにつながる。 この戦略に基づき,Llama Slayer-8BとLlama Slayer-8B-Instructを導入する。 コードのコーパスを$$&$で実験し、我々の戦略の有効性を実証した。 異なるLLM、Mistral-7B、および法的なコーパスにわたるさらなる実験により、このアプローチの一般適用性が確認され、その広範囲な有効性を裏付けた。 私たちのコードは以下の通りです。

As a manner to augment pre-trained large language models (LLM), knowledge injection is critical to develop vertical domain large models and has been widely studied. Although most current approaches, including parameter-efficient fine-tuning (PEFT) and block expansion methods, uniformly apply knowledge across all LLM layers, it raises the question: are all layers equally crucial for knowledge injection? We begin by evaluating the importance of each layer in finding the optimal layer range for knowledge injection. Intuitively, the more important layers should play a more critical role in knowledge injection and deserve a denser injection. We observe performance dips in question-answering benchmarks after the removal or expansion of the shallow layers, and the degradation shrinks as the layer gets deeper, indicating that the shallow layers hold the key to knowledge injection. This insight leads us to propose the S strategy, a post-pretraining strategy of selectively enhancing shallow layers while pruning the less effective deep ones. Based on this strategy, we introduce Llama Slayer-8B and Llama Slayer-8B-Instruct. We experimented on the corpus of code $\&$ math and demonstrated the effectiveness of our strategy. Further experiments across different LLM, Mistral-7B, and a legal corpus confirmed the general applicability of the approach, underscoring its wide-ranging efficacy. Our code is available at: \https://github.com/txchen-USTC/Llama-Slayer
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 医療画像分析のための自己説明型AI:調査と新たな展望

Self-eXplainable AI for Medical Image Analysis: A Survey and New Outlooks ( http://arxiv.org/abs/2410.02331v1 )

ライセンス: Link先を確認
Junlin Hou, Sicen Liu, Yequan Bie, Hongmei Wang, Andong Tan, Luyang Luo, Hao Chen, (参考訳) 透明で信頼性の高いモデルの需要の増加、特に医療画像分析などの高い意思決定領域において、eXplainable Artificial Intelligence(XAI)の出現につながっている。 トレーニング後のブラックボックスモデルの説明を目的としたポストホックXAI技術は、モデルの予測に対する忠実性に関する最近の研究で議論されている。 対照的に、Self-eXplainable AI(S-XAI)は、ディープラーニングモデルのトレーニングプロセスに直接説明可能性を導入することで、魅力的な代替手段を提供する。 このアプローチにより、モデルは内部の意思決定プロセスと密接に一致した固有の説明を生成することができる。 このような透明性の強化は、現実の医療アプリケーションにおけるAIシステムの信頼性、堅牢性、説明責任を著しく支援する。 医用画像解析のためのS-XAI法の開発を容易にするため,様々な画像モダリティと臨床応用を網羅的に検討した。 3つの重要な視点から200以上の論文をカバーしている。 1)説明可能な特徴工学と知識グラフの統合による説明可能性の入力 2)注意に基づく学習、概念に基づく学習、プロトタイプベースの学習によるモデル説明可能性 3 事実的説明及び文章的説明を提供することにより、説明可能性の出力。 さらに、本論文では、説明可能性の望ましい特性と、説明品質を評価するための既存の評価方法について概説する。 最後に,医用画像解析用S-XAIの開発における課題と今後の研究方向性について論じる。

The increasing demand for transparent and reliable models, particularly in high-stakes decision-making areas such as medical image analysis, has led to the emergence of eXplainable Artificial Intelligence (XAI). Post-hoc XAI techniques, which aim to explain black-box models after training, have been controversial in recent works concerning their fidelity to the models' predictions. In contrast, Self-eXplainable AI (S-XAI) offers a compelling alternative by incorporating explainability directly into the training process of deep learning models. This approach allows models to generate inherent explanations that are closely aligned with their internal decision-making processes. Such enhanced transparency significantly supports the trustworthiness, robustness, and accountability of AI systems in real-world medical applications. To facilitate the development of S-XAI methods for medical image analysis, this survey presents an comprehensive review across various image modalities and clinical applications. It covers more than 200 papers from three key perspectives: 1) input explainability through the integration of explainable feature engineering and knowledge graph, 2) model explainability via attention-based learning, concept-based learning, and prototype-based learning, and 3) output explainability by providing counterfactual explanation and textual explanation. Additionally, this paper outlines the desired characteristics of explainability and existing evaluation methods for assessing explanation quality. Finally, it discusses the major challenges and future research directions in developing S-XAI for medical image analysis.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 多変数量子信号処理のための多項式時間構成決定アルゴリズム

Polynomial time constructive decision algorithm for multivariable quantum signal processing ( http://arxiv.org/abs/2410.02332v1 )

ライセンス: Link先を確認
Yuki Ito, Hitomi Mori, Kazuki Sakamoto, Keisuke Fujii, (参考訳) 量子信号処理(QSP)と量子特異値変換(QSVT)は、因子化、行列反転、ハミルトンシミュレーションを含む多くの量子アルゴリズムを理解するための統一的なフレームワークを提供する。 QSPの多変数バージョンとして、多変数量子信号処理(M-QSP)を提案する。 M-QSPは、各変数に対応する信号演算子と信号処理演算子をインターリーブし、多変数多項式変換を行う効率的な手段を提供する。 しかし、M-QSPによってどの多項式が構築できるのかは、必要で十分である。 本稿では,与えられた多変数ローラン多項式のペアをM-QSPで実装できるかどうかを決定するための古典的アルゴリズムを提案する。 このアルゴリズムの最も重要な特性の1つとして、Trueを返すことが必要で十分な条件である。 提案した古典的アルゴリズムは変数数と信号演算子数で多項式時間で動作する。 また,本アルゴリズムは,M-QSPの実装に必要なパラメータを選択するための構成的手法も提供する。 これらの知見は、M-QSPの実用的応用を特定する上で貴重な知見を提供する。

Quantum signal processing (QSP) and quantum singular value transformation (QSVT) have provided a unified framework for understanding many quantum algorithms, including factorization, matrix inversion, and Hamiltonian simulation. As a multivariable version of QSP, multivariable quantum signal processing (M-QSP) is proposed. M-QSP interleaves signal operators corresponding to each variable with signal processing operators, which provides an efficient means to perform multivariable polynomial transformations. However, the necessary and sufficient condition for what types of polynomials can be constructed by M-QSP is unknown. In this paper, we propose a classical algorithm to determine whether a given pair of multivariable Laurent polynomials can be implemented by M-QSP, which returns True or False. As one of the most important properties of this algorithm, it returning True is the necessary and sufficient condition. The proposed classical algorithm runs in polynomial time in the number of variables and signal operators. Our algorithm also provides a constructive method to select the necessary parameters for implementing M-QSP. These findings offer valuable insights for identifying practical applications of M-QSP.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 都市公園におけるスマート灌水のための機械学習モデルのデータの最適化

Data Optimisation of Machine Learning Models for Smart Irrigation in Urban Parks ( http://arxiv.org/abs/2410.02335v1 )

ライセンス: Link先を確認
Nasser Ghadiri, Bahman Javadi, Oliver Obst, Sebastian Pfautsch, (参考訳) 都市環境は、極端な暑さ、干ばつ、水不足など、気候変動による重大な課題に直面しており、公衆衛生、地域経済に影響を及ぼしている。 これらの問題の効果的な管理は、特にシドニーオリンピック公園のようなオーストラリア最大の灌水システムに依存している地域で重要である。 2021年に始まったSmart Irrigation Management for Parks and Cool Towns (SIMPaCT)プロジェクトは、高度な技術と機械学習モデルを活用して、灌水を最適化し、物理的冷却を誘導する。 本稿では,SIMPaCTシステムの広帯域センサネットワークと機械学習モデルを応用した2つの新しい手法を提案する。 第1の方法は、K-シェープとK-平均アルゴリズムを用いてセンサ時系列データのクラスタリングを用いて、欠落したセンサからの読み出しを推定し、連続的で信頼性の高いデータを保証する。 このアプローチでは、異常を検出し、データソースを修正し、冗長なセンサーを特定して削除することで、メンテナンスコストを削減できる。 第2の方法は、ロボットシステムを使用して異なるセンサー位置から順次データを収集することで、大量の静止センサーの必要性を著しく低減する。 これらの手法は, センサ配置を最適化し, メンテナンスコストを低減しつつ, 正確な土壌水分予測の維持を図ることを目的としている。 本評価は,土壌水分モニタリングネットワークの効率性と費用対効果を著しく向上させるものである。 クラスタベースのセンサーの交換により、平均エラーが最大5.4%減少する。 ロボットエミュレーションとしての逐次センサーデータ収集は、円路と直線路の平均誤差を17.2%と2.1%減少させる。

Urban environments face significant challenges due to climate change, including extreme heat, drought, and water scarcity, which impact public health, community well-being, and local economies. Effective management of these issues is crucial, particularly in areas like Sydney Olympic Park, which relies on one of Australia's largest irrigation systems. The Smart Irrigation Management for Parks and Cool Towns (SIMPaCT) project, initiated in 2021, leverages advanced technologies and machine learning models to optimize irrigation and induce physical cooling. This paper introduces two novel methods to enhance the efficiency of the SIMPaCT system's extensive sensor network and applied machine learning models. The first method employs clustering of sensor time series data using K-shape and K-means algorithms to estimate readings from missing sensors, ensuring continuous and reliable data. This approach can detect anomalies, correct data sources, and identify and remove redundant sensors to reduce maintenance costs. The second method involves sequential data collection from different sensor locations using robotic systems, significantly reducing the need for high numbers of stationary sensors. Together, these methods aim to maintain accurate soil moisture predictions while optimizing sensor deployment and reducing maintenance costs, thereby enhancing the efficiency and effectiveness of the smart irrigation system. Our evaluations demonstrate significant improvements in the efficiency and cost-effectiveness of soil moisture monitoring networks. The cluster-based replacement of missing sensors provides up to 5.4% decrease in average error. The sequential sensor data collection as a robotic emulation shows 17.2% and 2.1% decrease in average error for circular and linear paths respectively.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# ワイズフリューの聴取:マルチコースQAのための選択・コピーアテンションヘッド

Listening to the Wise Few: Select-and-Copy Attention Heads for Multiple-Choice QA ( http://arxiv.org/abs/2410.02343v1 )

ライセンス: Link先を確認
Eduard Tulchinskii, Laida Kushnareva, Kristian Kuznetsov, Anastasia Voznyuk, Andrei Andriiainen, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov, (参考訳) LLMの能力を評価する標準的な方法は、複数の選択質問を提示し、モデルが予測する答えとして最も高いロジットでオプションを選択することである。 しかし、LCMの評価フォーマットには制限があり、たとえモデルが正しい答えを知っているとしても、この厳密な形式に従うのが難しいため、対応する文字を選択するのに苦労する可能性がある。 これを解決するために,クエリキースコア (QKスコア) とアテンション重みに基づくアテンションスコア (Attention Score) という,モデルの基本的知識をよりよく捉え,明らかにする新たなスコアを導入する。 これらのスコアは、人気のMulti-Choice Question Answering (MCQA)データセット間で一貫したパフォーマンスを示す特定の \textit{select-and-copy} ヘッドから抽出される。 これらのスコアに基づいて知識抽出を改善し,LLaMA2-7Bでは最大16倍,MCQAベンチマークでは最大10倍の利得を得た。 同時に、モデルが正しい答えを明示的に知っている単純な合成データセットの精度は、ほぼ完全な精度を達成し、MCQAフォーマットの制限を緩和する手法の効率を示す。 我々の主張を支持するために、ゼロショットと少数ショットの両方のセットアップにおいて70億から700億のパラメータのモデルで実験を行う。

A standard way to evaluate the abilities of LLM involves presenting a multiple-choice question and selecting the option with the highest logit as the model's predicted answer. However, such a format for evaluating LLMs has limitations, since even if the model knows the correct answer, it may struggle to select the corresponding letter simply due to difficulties in following this rigid format. To address this, we introduce new scores that better capture and reveal model's underlying knowledge: the Query-Key Score (QK-score), derived from the interaction between query and key representations in attention heads, and the Attention Score, based on attention weights. These scores are extracted from specific \textit{select-and-copy} heads, which show consistent performance across popular Multi-Choice Question Answering (MCQA) datasets. Based on these scores, our method improves knowledge extraction, yielding up to 16\% gain for LLaMA2-7B and up to 10\% for larger models on popular MCQA benchmarks. At the same time, the accuracy on a simple synthetic dataset, where the model explicitly knows the right answer, increases by almost 60\%, achieving nearly perfect accuracy, therefore demonstrating the method's efficiency in mitigating MCQA format limitations. To support our claims, we conduct experiments on models ranging from 7 billion to 70 billion parameters in both zero- and few-shot setups.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# RelChaNet: 相対的変化スコアを用いたニューラルネットワークの特徴選択

RelChaNet: Neural Network Feature Selection using Relative Change Scores ( http://arxiv.org/abs/2410.02344v1 )

ライセンス: Link先を確認
Felix Zimmer, (参考訳) 解釈可能性を改善し、計算資源を減らし、予測モデルの過度な適合を最小化するための特徴選択アルゴリズムの開発が進行中である。 ニューラルネットワークは、特徴の選択方法を構築するためのアーキテクチャとして際立っており、最近では、疎いニューラルネットワークの文献から、将来性のある新しいツールとして、ニューロンのプルーニングと再成長が生まれている。 本稿では、ニューラルネットワークの入力層にニューロンのプルーニングと再成長を利用する、新しくて軽量な特徴選択アルゴリズムであるRelChaNetを紹介する。 ニューロンのプルーニングにおいて、勾配和測定は、ある機能が入力された後にネットワーク内で誘導される相対的な変化を計測し、一方、ニューロンはランダムに再成長する。 また、実行時に入力層のサイズを適応させる拡張も提案する。 9つの異なるデータセットに対する大規模な実験により、我々のアプローチは一般的に最先端の手法よりも優れており、特にMNISTデータセットの平均精度は2%向上している。 私たちのコードはhttps://github.com/flxzimmer/relchanet.comから入手可能です。

There is an ongoing effort to develop feature selection algorithms to improve interpretability, reduce computational resources, and minimize overfitting in predictive models. Neural networks stand out as architectures on which to build feature selection methods, and recently, neuron pruning and regrowth have emerged from the sparse neural network literature as promising new tools. We introduce RelChaNet, a novel and lightweight feature selection algorithm that uses neuron pruning and regrowth in the input layer of a dense neural network. For neuron pruning, a gradient sum metric measures the relative change induced in a network after a feature enters, while neurons are randomly regrown. We also propose an extension that adapts the size of the input layer at runtime. Extensive experiments on nine different datasets show that our approach generally outperforms the current state-of-the-art methods, and in particular improves the average accuracy by 2% on the MNIST dataset. Our code is available at https://github.com/flxzimmer/relchanet.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 2層ReLUネットワークにおける単純度バイアスと最適化しきい値

Simplicity bias and optimization threshold in two-layer ReLU networks ( http://arxiv.org/abs/2410.02348v1 )

ライセンス: Link先を確認
Etienne Boursier, Nicolas Flammarion, (参考訳) 過度にパラメータ化されたニューラルネットワークの一般化を理解することは、マシンラーニングの根本的な課題である。 ほとんどの文献は補間の観点から一般化を研究しており、パラメータの収束を当然の訓練損失の最小限にまで向けている。 過度にパラメータ化されたアーキテクチャは、典型的な分類タスクのためにデータを補間したが、この補間パラダイムは、文脈内学習や拡散のようなより複雑なタスクではもはや有効とは思えない。 このようなタスクの代わりに、トレーニングされたモデルがグローバルなミニマから、トレーニングサンプルの数が最適化しきい値と呼ぶレベルよりも大きくなるにつれて、トレーニング損失の局所的な最小マへと至る、という経験的観察がなされている。 前者は真の人口減少への一般化が乏しいが、後者は実際にこの真の人口減少の最小限に対応することが観察された。 本稿では,この現象を2層ReLUネットワークの文脈で理論的に考察する。 過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するよりも単純な解に収束し、補間する解に関してテスト損失を大幅に改善する可能性があることを実証する。 我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。 この方向アライメントは、トレーニングの初期段階で発生し、単純さのバイアスをもたらし、ネットワークはトレーニング損失の世界的な最小限に収束することなく、基底真実モデルを近似する。 このバイアスは、補間がもはや到達しない最適化しきい値となり、より有益であり、訓練されたモデルの一般化を促進することを示唆している。

Understanding generalization of overparametrized neural networks remains a fundamental challenge in machine learning. Most of the literature mostly studies generalization from an interpolation point of view, taking convergence of parameters towards a global minimum of the training loss for granted. While overparametrized architectures indeed interpolated the data for typical classification tasks, this interpolation paradigm does not seem valid anymore for more complex tasks such as in-context learning or diffusion. Instead for such tasks, it has been empirically observed that the trained models goes from global minima to spurious local minima of the training loss as the number of training samples becomes larger than some level we call optimization threshold. While the former yields a poor generalization to the true population loss, the latter was observed to actually correspond to the minimiser of this true loss. This paper explores theoretically this phenomenon in the context of two-layer ReLU networks. We demonstrate that, despite overparametrization, networks often converge toward simpler solutions rather than interpolating the training data, which can lead to a drastic improvement on the test loss with respect to interpolating solutions. Our analysis relies on the so called early alignment phase, during which neurons align towards specific directions. This directional alignment, which occurs in the early stage of training, leads to a simplicity bias, wherein the network approximates the ground truth model without converging to the global minimum of the training loss. Our results suggest that this bias, resulting in an optimization threshold from which interpolation is not reached anymore, is beneficial and enhances the generalization of trained models.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 導体くさび近傍の原子--角の周りの崩壊速度と絡み合い

Atoms near a conducting wedge: decay rates and entanglement around a corner ( http://arxiv.org/abs/2410.02349v1 )

ライセンス: Link先を確認
Romuald Kilianski, Robert Bennett, (参考訳) 原子系の挙動は金属表面の導入によって影響される。 この研究は、鋭い角の存在によって、崩壊の風景をどのように変えられるかを探る。 単一原子の自発崩壊を修正し、顕微鏡における潜在的な応用について推測し、より基本的な理論的興味を持つ場合、角の近くで絡み合った原子対の挙動を推測する。 後者は、2つの原子が '`out of the line of sight'' と位置付けされた場合、' ``see around corners'' が可能なデバイスに対する調査の行を開く。

The behavior of an atomic system is influenced by introducing a metallic surface. This work explores how the decay landscape can be altered by the presence of sharp corners. We examine two scenarios: the modified spontaneous decay of a single atom, which leads us to speculate about potential applications in microscopy, and the case of a more fundamental, theoretical interest - the behavior of an entangled pair of atoms near a corner. The latter, when two atoms are positioned ``out of the line of sight'' opens up a possible line of investigation into devices which are able to ``see around corners''.
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# ProtoSeg: プロトタイプベースのポイントクラウドインスタンスセグメンテーション手法

ProtoSeg: A Prototype-Based Point Cloud Instance Segmentation Method ( http://arxiv.org/abs/2410.02352v1 )

ライセンス: Link先を確認
Remco Royen, Leon Denis, Adrian Munteanu, (参考訳) 3Dインスタンスのセグメンテーションは、ポイントクラウドシーンの理解を得るために不可欠である。 本稿では,3次元点雲上でインスタンスセグメンテーションを行うニューラルネットワークアーキテクチャを提案する。 本稿では, 並列に係数とプロトタイプを学習し, 組み合わせて実例予測を行う手法を提案する。 これらの係数は、拡張点開始と呼ばれる新しいマルチスケールモジュールを持つサンプル点のオーバーコンプリートセットを用いて計算される。 得られたインスタンスマスク予測のセットはオーバーコンプリートであるため、最終的な予測を検索するために、最大ではない抑制アルゴリズムを用いる。 このアプローチは、時間的拡張的なクラスタリングステップを省略し、より安定した推論時間をもたらす。 提案手法は,最先端技術よりも28%高速であるだけでなく,標準偏差が低いことを示す。 実験の結果, 推定時間の標準偏差は総時間の1.0%に過ぎず, 最先端の手法では10.8から53.1%の範囲であることがわかった。 最後に,本手法はS3DISブロック(Fold-5におけるmRecの4.9%)とPartNet(mAPにおける平均2.0%)において,最先端の手法よりも優れていた。

3D instance segmentation is crucial for obtaining an understanding of a point cloud scene. This paper presents a novel neural network architecture for performing instance segmentation on 3D point clouds. We propose to jointly learn coefficients and prototypes in parallel which can be combined to obtain the instance predictions. The coefficients are computed using an overcomplete set of sampled points with a novel multi-scale module, dubbed dilated point inception. As the set of obtained instance mask predictions is overcomplete, we employ a non-maximum suppression algorithm to retrieve the final predictions. This approach allows to omit the time-expensive clustering step and leads to a more stable inference time. The proposed method is not only 28% faster than the state-of-the-art, it also exhibits the lowest standard deviation. Our experiments have shown that the standard deviation of the inference time is only 1.0% of the total time while it ranges between 10.8 and 53.1% for the state-of-the-art methods. Lastly, our method outperforms the state-of-the-art both on S3DIS-blocks (4.9% in mRec on Fold-5) and PartNet (2.0% on average in mAP).
翻訳日:2024-11-04 03:50:17 公開日:2024-10-03
# 粒子はポアンカレ群の既約表現か?

Is a particle an irreducible representation of the Poincaré group? ( http://arxiv.org/abs/2410.02354v1 )

ライセンス: Link先を確認
Adam Caulton, (参考訳) 粒子がポアンカーイエ群の既約表現であると主張する主張は、いまや、私が 'emph{Wigner's Identification} と呼ぶものは、Wigner (1939) の原論文から何十年も経っている。 この論文の私の目標は次のとおりです。 一 この識別の背後にある思想を明確かつ部分的に擁護すること。 二 適切な定義であることに対する異議を提起し、 (三) 粒子の特徴のライバルとなる。 ウィグナーの同定に対する私の主な反論は、相互作用する粒子の問題と、代替時空の問題である。 時空の対称性と粒子の状態空間のジェネレータの間のウィグナーの同定に示唆されるリンクは、最も誤解を招くものであり、粒子の状態空間のジェネレータをあらゆる種類の対称性にリンクする正当な理由がない、と私は主張する。 本稿では、相対論的および非相対論的条件の両方を捉えた粒子の別の特徴付けを提案する。 私はさらに、ポアンカル・イ・ジェネレータの分解を純粋に軌道成分とスピン成分と位置、運動量、スピンの間の正準代数的関係に結びつける定理に訴えることでこの提案を擁護する。

The claim that a particle is an irreducible representation of the Poincar\'e group -- what I call \emph{Wigner's identification} -- is now, decades on from Wigner's (1939) original paper, so much a part of particle physics folklore that it is often taken as, or claimed to be, a definition. My aims in this paper are to: (i) clarify, and partially defend, the guiding ideas behind this identification; (ii) raise objections to its being an adequate definition; and (iii) offer a rival characterisation of particles. My main objections to Wigner's identification appeal to the problem of interacting particles, and to alternative spacetimes. I argue that the link implied in Wigner's identification, between a spacetime's symmetries and the generator of a particle's space of states, is at best misleading, and that there is no good reason to link the generator of a particle's space of states to symmetries of any kind. I propose an alternative characterisation of particles, which captures both the relativistic and non-relativistic setting. I further defend this proposal by appeal to a theorem which links the decomposition of Poincar\'e generators into purely orbital and spin components with canonical algebraic relations between position, momentum and spin.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# 簡単な特徴に基づく脳-コンピュータインタフェースのソースデータ選択

Source Data Selection for Brain-Computer Interfaces based on Simple Features ( http://arxiv.org/abs/2410.02360v1 )

ライセンス: Link先を確認
Frida Heskebeck, Carolina Bergeling, Bo Bernhardsson, (参考訳) 本稿では,脳-コンピュータインタフェースの校正時に利用できる簡単な特徴を,脳-コンピュータインタフェースの性能向上に活用できることを示す。 これをサポートするために、パブリックモータ画像データセットを解析に使用し、転送性能予測法と呼ばれる方法を示す。 単純な特徴は、データの共分散行列とそれらの間のリーマン距離に基づいている。 転送性能予測法は、ターゲットユーザに対してより良い転送学習性能を与えるソースデータを選択する際に、他のソースデータ選択方法よりも優れる。

This paper demonstrates that simple features available during the calibration of a brain-computer interface can be utilized for source data selection to improve the performance of the brain-computer interface for a new target user through transfer learning. To support this, a public motor imagery dataset is used for analysis, and a method called the Transfer Performance Predictor method is presented. The simple features are based on the covariance matrices of the data and the Riemannian distance between them. The Transfer Performance Predictor method outperforms other source data selection methods as it selects source data that gives a better transfer learning performance for the target users.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# 医療画像解析のためのマンバ建築の包括的調査--分類・セグメンテーション・修復など

A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond ( http://arxiv.org/abs/2410.02362v1 )

ライセンス: Link先を確認
Shubhi Bansal, Sreeharish A, Madhava Prasath J, Manikandan S, Sreekanth Madisetty, Mohammad Zia Ur Rehman, Chandravardhan Singh Raghaw, Gaurav Duggal, Nagendra Kumar, (参考訳) ステートスペースモデル(State Space Model)の特殊なケースであるMambaは、医用画像解析におけるテンプレートベースのディープラーニングアプローチの代替として人気を集めている。 トランスは強力なアーキテクチャであるが、2次計算の複雑さや長距離依存に効率的に対処できないといった欠点がある。 この制限は、多くの空間的および時間的関係がある医療画像における大規模で複雑なデータセットの分析に影響を及ぼす。 対照的に、Mambaは医療画像分析に適した利点を提供している。 線形時間の複雑さがあり、トランスよりも大幅に改善されている。 Mambaは、注意機構のない長いシーケンスを処理し、高速な推論を可能にし、メモリを少なくする。 Mambaはまた、マルチモーダルデータのマージにおいて強力なパフォーマンスを示し、診断精度と患者の結果を改善している。 本論文の組織化により,医療画像におけるマンバの能力を段階的に評価することができる。 まず、S4、S5、S6といったSSMのコアコンセプトとモデルを定義し、続いて純粋なMamba、U-Net変種、畳み込みニューラルネットワーク、トランスフォーマー、グラフニューラルネットワークを備えたハイブリッドモデルといったMambaアーキテクチャを調査します。 また、Mambaの最適化、テクニックと適応、スキャン、データセット、アプリケーション、実験結果についても取り上げ、医療画像の課題と今後の方向性について結論付けています。 本論は,医療画像における既存の障壁を克服する上で,マンバの変革的可能性を示すとともに,この分野における革新的進歩の道を開くことを目的としている。 この研究でレビューされたMambaアーキテクチャの包括的なリストはGithubで公開されている。

Mamba, a special case of the State Space Model, is gaining popularity as an alternative to template-based deep learning approaches in medical image analysis. While transformers are powerful architectures, they have drawbacks, including quadratic computational complexity and an inability to address long-range dependencies efficiently. This limitation affects the analysis of large and complex datasets in medical imaging, where there are many spatial and temporal relationships. In contrast, Mamba offers benefits that make it well-suited for medical image analysis. It has linear time complexity, which is a significant improvement over transformers. Mamba processes longer sequences without attention mechanisms, enabling faster inference and requiring less memory. Mamba also demonstrates strong performance in merging multimodal data, improving diagnosis accuracy and patient outcomes. The organization of this paper allows readers to appreciate the capabilities of Mamba in medical imaging step by step. We begin by defining core concepts of SSMs and models, including S4, S5, and S6, followed by an exploration of Mamba architectures such as pure Mamba, U-Net variants, and hybrid models with convolutional neural networks, transformers, and Graph Neural Networks. We also cover Mamba optimizations, techniques and adaptations, scanning, datasets, applications, experimental results, and conclude with its challenges and future directions in medical imaging. This review aims to demonstrate the transformative potential of Mamba in overcoming existing barriers within medical imaging while paving the way for innovative advancements in the field. A comprehensive list of Mamba architectures applied in the medical field, reviewed in this work, is available at Github.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# コンクリートから抽象へ:抽象概念学習への多モーダル生成的アプローチ

From Concrete to Abstract: A Multimodal Generative Approach to Abstract Concept Learning ( http://arxiv.org/abs/2410.02365v1 )

ライセンス: Link先を確認
Haodong Xie, Rahul Singh Maharjan, Federico Tavella, Angelo Cangelosi, (参考訳) 具体的および抽象的な概念を理解し操作することは、人間の知性の基本である。 しかし、彼らは依然として人工エージェントに挑戦している。 本稿では,高次抽象概念学習における多モーダルな生成手法を提案する。 我々のモデルはまず下層コンクリート概念を基礎とし、それらを結合して基本レベル概念を形成し、最後に基本レベル概念を基礎として上位レベル概念を重畳する。 高階抽象概念を用いた言語対視覚および視覚対言語テストによるモデル言語学習能力の評価を行った。 実験の結果,言語理解タスクと言語命名タスクの両方において,モデルの有効性が示された。

Understanding and manipulating concrete and abstract concepts is fundamental to human intelligence. Yet, they remain challenging for artificial agents. This paper introduces a multimodal generative approach to high order abstract concept learning, which integrates visual and categorical linguistic information from concrete ones. Our model initially grounds subordinate level concrete concepts, combines them to form basic level concepts, and finally abstracts to superordinate level concepts via the grounding of basic-level concepts. We evaluate the model language learning ability through language-to-visual and visual-to-language tests with high order abstract concepts. Experimental results demonstrate the proficiency of the model in both language understanding and language naming tasks.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# SageAttention: プラグインとプレイの推論高速化のための8ビットの正確なアテンション

SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration ( http://arxiv.org/abs/2410.02367v1 )

ライセンス: Link先を確認
Jintao Zhang, Jia wei, Pengle Zhang, Jun Zhu, Jianfei Chen, (参考訳) トランスアーキテクチャは様々なモデルにまたがって優位である。 変換器の中心として、線形変換のO(N)と比較して、注意はO(N^2)の計算複雑性を持つ。 大きなシーケンス長を扱う場合、注意が主要な時間消費要素となる。 量子化はモデル推論を加速させる効果的な手法であることが証明されているが、既存の量子化法は主に線形層を最適化することに焦点を当てている。 そこで本研究ではまず,注意点における量子化の実現可能性について詳細に分析する。 次に,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。 このアプローチのOPS(オペレーション/秒)は、それぞれFlashAttention2とxformerを2.1倍、xformerを2.7倍上回る。 SageAttentionはまた、FlashAttention3よりも精度の高いパフォーマンスを実現している。 包括的実験により,大規模言語処理,画像生成,ビデオ生成など,多種多様なモデルに対して,エンドツーエンドのメトリクス損失はほとんど生じないことが確認された。

The transformer architecture predominates across various models. As the heart of the transformer, attention has a computational complexity of O(N^2), compared to O(N) for linear transformations. When handling large sequence lengths, attention becomes the primary time-consuming component. Although quantization has proven to be an effective method for accelerating model inference, existing quantization methods primarily focus on optimizing the linear layer. In response, we first analyze the feasibility of quantization in attention detailedly. Following that, we propose SageAttention, a highly efficient and accurate quantization method for attention. The OPS (operations per second) of our approach outperforms FlashAttention2 and xformers by about 2.1 times and 2.7 times, respectively. SageAttention also achieves superior accuracy performance over FlashAttention3. Comprehensive experiments confirm that our approach incurs almost no end-to-end metrics loss across diverse models, including those for large language processing, image generation, and video generation.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# 音声プライバシ2024チャレンジのためのNTU-NPUシステム

NTU-NPU System for Voice Privacy 2024 Challenge ( http://arxiv.org/abs/2410.02371v1 )

ライセンス: Link先を確認
Nikita Kuzmin, Hieu-Thi Luong, Jixun Yao, Lei Xie, Kong Aik Lee, Eng Siong Chng, (参考訳) 本稿では,Voice Privacy Challenge 2024への応募について述べる。 音声の匿名化システムを提案するのではなく、必要な条件をすべて満たし、評価基準を改善するために提供されたベースラインを強化する。 具体的には、B3ベースライン用の感情埋め込みとWavLMおよびECAPA2話者埋め込みの実験を行う。 さらに,異なる話者と韻律の匿名化手法を比較した。 さらに,B5 の Mean Reversion F0 も導入した。 最後に、逆絡モデル、すなわち$\beta$-VAEとNaturalSpeech3 FACodecについて検討する。

In this work, we describe our submissions for the Voice Privacy Challenge 2024. Rather than proposing a novel speech anonymization system, we enhance the provided baselines to meet all required conditions and improve evaluated metrics. Specifically, we implement emotion embedding and experiment with WavLM and ECAPA2 speaker embedders for the B3 baseline. Additionally, we compare different speaker and prosody anonymization techniques. Furthermore, we introduce Mean Reversion F0 for B5, which helps to enhance privacy without a loss in utility. Finally, we explore disentanglement models, namely $\beta$-VAE and NaturalSpeech3 FACodec.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# 個別に観測された関数データによる分散学習

Distributed Learning with Discretely Observed Functional Data ( http://arxiv.org/abs/2410.02376v1 )

ライセンス: Link先を確認
Jiading Liu, Lei Shi, (参考訳) 異なるフィルタ関数を選択することで、スペクトルアルゴリズムは様々な正規化法を生成し、サンプルから学習するフレームワーク内の統計的逆問題を解決することができる。 本稿では,分散スペクトルアルゴリズムとソボレフカーネルを組み合わせることで,関数線形回帰問題に取り組む。 アルゴリズムの設計と数学的解析は、関数共変体が離散的なサンプルポイントで観測されることを要求する。 さらに、アルゴリズムの仮説関数空間は、ソボレフカーネルによって生成されるソボレフ空間であり、近似能力と柔軟性の両方を最適化する。 対象関数と関数共変量に対する正規性条件の確立を通じて、分散スペクトルアルゴリズムのソボレフノルムの収束に対する上下境界の一致を導出する。 このことは、提案された正則性条件が妥当であり、これらの条件下での収束解析が厳密であることを示し、汎線型回帰の本質的な特性を捉えている。 また,本論文で開発された分析手法と推定値により,過去の文献における既存の結果も向上する。

By selecting different filter functions, spectral algorithms can generate various regularization methods to solve statistical inverse problems within the learning-from-samples framework. This paper combines distributed spectral algorithms with Sobolev kernels to tackle the functional linear regression problem. The design and mathematical analysis of the algorithms require only that the functional covariates are observed at discrete sample points. Furthermore, the hypothesis function spaces of the algorithms are the Sobolev spaces generated by the Sobolev kernels, optimizing both approximation capability and flexibility. Through the establishment of regularity conditions for the target function and functional covariate, we derive matching upper and lower bounds for the convergence of the distributed spectral algorithms in the Sobolev norm. This demonstrates that the proposed regularity conditions are reasonable and that the convergence analysis under these conditions is tight, capturing the essential characteristics of functional linear regression. The analytical techniques and estimates developed in this paper also enhance existing results in the previous literature.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# 中国の有害ミームの包括的検出に向けて

Towards Comprehensive Detection of Chinese Harmful Memes ( http://arxiv.org/abs/2410.02378v1 )

ライセンス: Link先を確認
Junyu Lu, Bo Xu, Xiaokun Zhang, Hongbo Wang, Haohao Zhu, Dongyu Zhang, Liang Yang, Hongfei Lin, (参考訳) この論文はNeurIPS 2024 D & B Trackに掲載されている。 中国のインターネットでは有害ミームが増加し、信頼性のあるデータセットや効果的な検出器が存在しないため、中国の有害ミームを検出する研究は著しく遅れている。 この目的のために,中国における有害ミームの包括的検出に焦点を当てた。 我々は,中国初の有害ミームデータセットであるToxiCN MMを構築した。 さらに,LLMが生成するミーム内容の文脈情報を組み込んで,中国語のミームの理解を深めるベースライン検出器MKEを提案する。 評価フェーズでは, LLM や MKE を含む複数のベースラインについて, 広範囲な定量的実験と定性解析を行った。 実験結果から,中国の有害ミームの検出は,MKEの有効性を実証しつつ,既存のモデルでは困難であることが示唆された。 本論文のリソースはhttps://github.com/DUT-lujunyu/ToxiCN_MMで公開されている。

This paper has been accepted in the NeurIPS 2024 D & B Track. Harmful memes have proliferated on the Chinese Internet, while research on detecting Chinese harmful memes significantly lags behind due to the absence of reliable datasets and effective detectors. To this end, we focus on the comprehensive detection of Chinese harmful memes. We construct ToxiCN MM, the first Chinese harmful meme dataset, which consists of 12,000 samples with fine-grained annotations for various meme types. Additionally, we propose a baseline detector, Multimodal Knowledge Enhancement (MKE), incorporating contextual information of meme content generated by the LLM to enhance the understanding of Chinese memes. During the evaluation phase, we conduct extensive quantitative experiments and qualitative analyses on multiple baselines, including LLMs and our MKE. The experimental results indicate that detecting Chinese harmful memes is challenging for existing models while demonstrating the effectiveness of MKE. The resources for this paper are available at https://github.com/DUT-lujunyu/ToxiCN_MM.
翻訳日:2024-11-04 03:40:32 公開日:2024-10-03
# AIの盲点を解き放つ - ドメイン内、ドメイン外、および敵のエラーのためのOracle

Unveiling AI's Blind Spots: An Oracle for In-Domain, Out-of-Domain, and Adversarial Errors ( http://arxiv.org/abs/2410.02384v1 )

ライセンス: Link先を確認
Shuangpeng Han, Mengmi Zhang, (参考訳) AIモデルは、ドメイン内、ドメイン外、あるいは敵のいずれであっても、画像を認識する際に間違いを犯す。 これらのエラーを予測することは、システムの信頼性を改善し、コストのかかるミスを低減し、医療、金融、自律システムといった現実のアプリケーションで積極的な修正を可能にするために重要である。 しかし、AIモデルが犯す過ち、なぜ発生し、どのように予測するかを理解することは、依然としてオープンな課題である。 ここでは、他のモデルのエラーを予測するために設計されたディープニューラルネットワークである「メンタ」モデルを用いて、包括的な経験的評価を行う。 本研究の結果から, 教師モデルは, 対面画像の誤りから学習に長けており, ドメイン内およびドメイン外誤りの予測に有効であることがわかった。 さらに、トランスフォーマーベースのメンターモデルは、さまざまなメンテアーキテクチャにおけるエラーの予測に優れています。 次に、これらの観測結果から洞察を得て、異なるエラータイプにわたるエラーを78%の精度で予測するSuperMentorと呼ばれる"オークル"メンターモデルを開発する。 我々のエラー予測フレームワークは、AIモデルの振る舞いを予測し、修正する将来の研究の道を開く。 すべてのコード、モデル、データは公開されます。

AI models make mistakes when recognizing images-whether in-domain, out-of-domain, or adversarial. Predicting these errors is critical for improving system reliability, reducing costly mistakes, and enabling proactive corrections in real-world applications such as healthcare, finance, and autonomous systems. However, understanding what mistakes AI models make, why they occur, and how to predict them remains an open challenge. Here, we conduct comprehensive empirical evaluations using a "mentor" model-a deep neural network designed to predict another model's errors. Our findings show that the mentor model excels at learning from a mentee's mistakes on adversarial images with small perturbations and generalizes effectively to predict in-domain and out-of-domain errors of the mentee. Additionally, transformer-based mentor models excel at predicting errors across various mentee architectures. Subsequently, we draw insights from these observations and develop an "oracle" mentor model, dubbed SuperMentor, that achieves 78% accuracy in predicting errors across different error types. Our error prediction framework paves the way for future research on anticipating and correcting AI model behaviours, ultimately increasing trust in AI systems. All code, models, and data will be made publicly available.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# BiSSL: 自己監督型事前トレーニングとファインチューニングのためのバイレベル最適化

BiSSL: Bilevel Optimization for Self-Supervised Pre-Training and Fine-Tuning ( http://arxiv.org/abs/2410.02387v1 )

ライセンス: Link先を確認
Gustav Wagner Zakarias, Lars Kai Hansen, Zheng-Hua Tan, (参考訳) そこで本研究では,前文事前学習と下流の微調整段階の整合性を高めるために,バイレベル最適化を導入する,第1世代のトレーニングフレームワークであるBiSSLを紹介する。 BiSSLは、二段階最適化問題における下層および上層目標として、プリテキストと下流タスクの目的を定式化し、自己教師型学習パイプライン内の中間訓練段階として機能する。 これらのトレーニングステージの相互依存性をより明確にモデル化することで、BiSSLはそれらの間の情報共有の強化を促進し、最終的に下流タスクに適したバックボーンパラメータの初期化につながる。 本稿では,BiSSLで定義された2つの目的の最適化を交互に行うトレーニングアルゴリズムを提案する。 STL10データセット上でSimCLRで事前トレーニングしたResNet-18のバックボーンを用いて、提案するフレームワークは、従来の自己教師型学習パイプラインと比較して、下流画像分類データセットにおける改善された、あるいは競争的な分類精度を一貫して達成することを示した。 バックボーンの特徴の質的分析は、微調整の前に、BiSSLがバックボーンの下流の特徴のアライメントを強化することを示唆している。

In this work, we present BiSSL, a first-of-its-kind training framework that introduces bilevel optimization to enhance the alignment between the pretext pre-training and downstream fine-tuning stages in self-supervised learning. BiSSL formulates the pretext and downstream task objectives as the lower- and upper-level objectives in a bilevel optimization problem and serves as an intermediate training stage within the self-supervised learning pipeline. By more explicitly modeling the interdependence of these training stages, BiSSL facilitates enhanced information sharing between them, ultimately leading to a backbone parameter initialization that is better suited for the downstream task. We propose a training algorithm that alternates between optimizing the two objectives defined in BiSSL. Using a ResNet-18 backbone pre-trained with SimCLR on the STL10 dataset, we demonstrate that our proposed framework consistently achieves improved or competitive classification accuracies across various downstream image classification datasets compared to the conventional self-supervised learning pipeline. Qualitative analyses of the backbone features further suggest that BiSSL enhances the alignment of downstream features in the backbone prior to fine-tuning.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# Diffusion Meets Options: 時間的拡張タスクのための階層的生成スキル構成

Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks ( http://arxiv.org/abs/2410.02389v1 )

ライセンス: Link先を確認
Zeyu Feng, Hao Luan, Kevin Yuchen Ma, Harold Soh, (参考訳) ロボットの安全なデプロイには、複雑な計画を生成する能力だけでなく、頻繁な再計画と実行エラーの修正能力も必要である。 本稿では,時間的に拡張された目的の下での長い水平軌道計画の課題に対処する。 そこで本稿では,線形時間論理 (LTL) で指定された命令に基づいて計画を生成し,更新するデータ駆動型階層型フレームワーク DOPPLER を提案する。 提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。 拡散モデルを利用して低レベルのアクションでオプションを生成する。 バッチ生成中の行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を改善し,より効率的なクエリを実現する。 ロボットナビゲーションと操作タスクの実験により、DOPPLERは、障害物回避とシーケンシャルビジエーションの特定の公式を徐々に満足させる一連のトラジェクトリを生成できることが示されている。 デモビデオは、https://philiptheother.github.io/doppler/.comで公開されている。

Safe and successful deployment of robots requires not only the ability to generate complex plans but also the capacity to frequently replan and correct execution errors. This paper addresses the challenge of long-horizon trajectory planning under temporally extended objectives in a receding horizon manner. To this end, we propose DOPPLER, a data-driven hierarchical framework that generates and updates plans based on instruction specified by linear temporal logic (LTL). Our method decomposes temporal tasks into chain of options with hierarchical reinforcement learning from offline non-expert datasets. It leverages diffusion models to generate options with low-level actions. We devise a determinantal-guided posterior sampling technique during batch generation, which improves the speed and diversity of diffusion generated options, leading to more efficient querying. Experiments on robot navigation and manipulation tasks demonstrate that DOPPLER can generate sequences of trajectories that progressively satisfy the specified formulae for obstacle avoidance and sequential visitation. Demonstration videos are available online at: https://philiptheother.github.io/doppler/.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# manTRA: Manifold Triangulations Assemblage

MANTRA: The Manifold Triangulations Assemblage ( http://arxiv.org/abs/2410.02392v1 )

ライセンス: Link先を確認
Rubén Ballester, Ernst Röell, Daniel Bin Schmid, Mathieu Alain, Sergio Escalera, Carles Casacuberta, Bastian Rieck, (参考訳) 複雑なシステムに存在する高次相互作用を活用することへの関心が高まったことにより、データ中の高次構造を利用するより表現力のあるモデルが急増し、特にSimplicial Complexのような高次ドメイン上でニューラルネットワークを設計するトポロジカルディープラーニング(TDL)が注目されている。 しかし、この分野の進歩は、これらのアーキテクチャをベンチマークするデータセットの不足によって妨げられている。 このギャップに対処するために,3次元多様体と 43,000 以上の曲面の三角形と 249,000 以上の3次元多様体からなる高次モデルのベンチマークのための,最初の大規模,多種多様,そして本質的な高次データセットであるMANTRAを導入する。 MANTRAを用いて,3つのトポロジ的分類課題について,グラフおよび単純複素モデルの評価を行った。 単純な複雑なニューラルネットワークは、単純なトポロジ的不変量を捉えることでグラフベースのニューラルネットワークよりも優れていますが、それらもまた苦労し、TDLを再考することを示唆しています。 このように、MANTRAはトポロジカルな手法の評価と進歩のベンチマークとして機能し、より効果的な高次モデルへと導く。

The rising interest in leveraging higher-order interactions present in complex systems has led to a surge in more expressive models exploiting high-order structures in the data, especially in topological deep learning (TDL), which designs neural networks on high-order domains such as simplicial complexes. However, progress in this field is hindered by the scarcity of datasets for benchmarking these architectures. To address this gap, we introduce MANTRA, the first large-scale, diverse, and intrinsically high order dataset for benchmarking high-order models, comprising over 43,000 and 249,000 triangulations of surfaces and three-dimensional manifolds, respectively. With MANTRA, we assess several graph- and simplicial complex-based models on three topological classification tasks. We demonstrate that while simplicial complex-based neural networks generally outperform their graph-based counterparts in capturing simple topological invariants, they also struggle, suggesting a rethink of TDL. Thus, MANTRA serves as a benchmark for assessing and advancing topological methods, leading the way for more effective high-order models.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# ノイズとラベル分布の変化を考慮したオンラインマルチラベル分類

Online Multi-Label Classification under Noisy and Changing Label Distribution ( http://arxiv.org/abs/2410.02394v1 )

ライセンス: Link先を確認
Yizhang Zou, Xuegang Hu, Peipei Li, Jun Hu, You Wu, (参考訳) マルチラベルデータストリームは通常、実世界のアプリケーションでノイズの多いラベルを含み、関連するラベルと無関係なラベルの両方で発生する。 しかし、既存のオンラインマルチラベル分類手法は、ラベルの品質の点でほとんど制限されており、ノイズのあるラベルの場合に対処できない。 一方, 観測されたノイズラベル分布に隠れ, 追跡が困難である時間変化に伴い, 地絡ラベル分布が変化し, 概念のドリフト適応に大きな課題が生じる可能性がある。 そこで我々は,Nuisy and Changing Label Distribution (NCLD) に基づくオンラインマルチラベル分類アルゴリズムを提案する。 コンベックスの目的は、ラベルスコアとラベルランキングを高い精度で同時にモデル化することであり、NCLDに対するロバスト性は3つの新しい作品から得られる。 1) 局所特徴グラフを用いて、観測されたラベルと共同でラベルスコアを再構成し、不偏のランキング損失を導出し、信頼性の高いランキング情報を学習する。 2) 隣接している2つのチャンクと非バイアスラベルの濃度の差を検出することにより, 基礎構造ラベル分布の変化を識別し, 過去のランキングや全ての情報をリセットし, 新たな分布に適合させる。 3) クローズドフォーム最適モデル解から得られた更新規則に基づいて, 効率的かつ正確な更新を行う。 最後に,NCLDのインスタンス分類における本手法の有効性を実証実験により検証した。

Multi-label data stream usually contains noisy labels in the real-world applications, namely occuring in both relevant and irrelevant labels. However, existing online multi-label classification methods are mostly limited in terms of label quality and fail to deal with the case of noisy labels. On the other hand, the ground-truth label distribution may vary with the time changing, which is hidden in the observed noisy label distribution and difficult to track, posing a major challenge for concept drift adaptation. Motivated by this, we propose an online multi-label classification algorithm under Noisy and Changing Label Distribution (NCLD). The convex objective is designed to simultaneously model the label scoring and the label ranking for high accuracy, whose robustness to NCLD benefits from three novel works: 1) The local feature graph is used to reconstruct the label scores jointly with the observed labels, and an unbiased ranking loss is derived and applied to learn reliable ranking information. 2) By detecting the difference between two adjacent chunks with the unbiased label cardinality, we identify the change in the ground-truth label distribution and reset the ranking or all information learned from the past to match the new distribution. 3) Efficient and accurate updating is achieved based on the updating rule derived from the closed-form optimal model solution. Finally, empirical experimental results validate the effectiveness of our method in classifying instances under NCLD.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# モデルマージのためのパラメータ競合バランシング

Parameter Competition Balancing for Model Merging ( http://arxiv.org/abs/2410.02396v1 )

ライセンス: Link先を確認
Guodong Du, Junlin Lee, Jing Li, Runhua Jiang, Yifei Guo, Shuyang Yu, Hanting Liu, Sim Kuan Goh, Ho-Kin Tang, Daojing He, Min Zhang, (参考訳) 微調整事前学習モデルは一般的な慣行となっているが、これらのモデルは特定のドメインの外では性能が劣ることが多い。 最近開発されたモデルマージ技術により、複数のモデルの直接統合が可能になった。 この戦略は、元のデータセットを再トレーニングすることなく、マルチタスク機能を促進する。 しかし、既存の手法は、潜在的な対立やタスク間の複雑な相関、特にパラメータレベルの調整に乏しく、様々なタスク間のパラメータ競合を効果的にバランスさせることが困難である。 本稿では,PCB-Merging(Parameter Competition Balancing)という,各パラメータの係数を効果的に調整する軽量かつトレーニング不要な手法を紹介する。 PCB-Mergingは、個々のタスクにおけるパラメータの重要度を測定するために、および異なるタスク間でパラメータの類似性を評価するために、バランシング内を用いる。 重要度が低いパラメータは減少し、残りのパラメータは再スケールして最終的なマージモデルを形成する。 クロスタスク、クロスドメイン、クロストレーニング構成、ドメイン外の一般化など、さまざまな統合シナリオにおいて、私たちのアプローチを評価しました。 実験結果から,本手法は,複数のモダリティ,ドメイン,モデルサイズ,タスク数,微調整形式,大規模言語モデルにまたがる大幅な性能向上を実現し,既存のモデルマージ手法よりも優れた性能向上を実現していることが明らかとなった。 コードは: \url{https://github.com/duguodong7/pcb-merging}で公開されている。

While fine-tuning pretrained models has become common practice, these models often underperform outside their specific domains. Recently developed model merging techniques enable the direct integration of multiple models, each fine-tuned for distinct tasks, into a single model. This strategy promotes multitasking capabilities without requiring retraining on the original datasets. However, existing methods fall short in addressing potential conflicts and complex correlations between tasks, especially in parameter-level adjustments, posing a challenge in effectively balancing parameter competition across various tasks. This paper introduces an innovative technique named PCB-Merging (Parameter Competition Balancing), a lightweight and training-free technique that adjusts the coefficients of each parameter for effective model merging. PCB-Merging employs intra-balancing to gauge parameter significance within individual tasks and inter-balancing to assess parameter similarities across different tasks. Parameters with low importance scores are dropped, and the remaining ones are rescaled to form the final merged model. We assessed our approach in diverse merging scenarios, including cross-task, cross-domain, and cross-training configurations, as well as out-of-domain generalization. The experimental results reveal that our approach achieves substantial performance enhancements across multiple modalities, domains, model sizes, number of tasks, fine-tuning forms, and large language models, outperforming existing model merging methods. The code is publicly available at: \url{https://github.com/duguodong7/pcb-merging}.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# 競合自己同型と乱フロッケ符号

Competing automorphisms and disordered Floquet codes ( http://arxiv.org/abs/2410.02398v1 )

ライセンス: Link先を確認
Cory T. Aitchison, Benjamin Béri, (参考訳) トポロジカル秩序は、大規模量子コンピューティングにとって重要なマイルストーンである量子エラー補正の有望な基礎である。 フロッケ符号は、このための力学的なスキームを提供すると同時に、フロッケリッチトポロジカル秩序 (FET) も示し、どの粒子も周期的に空間で一様に振る舞う測定誘起自己同型(英語版)を受ける。 自己同型が時空間的にヘテロジニアス分布$\unicode{x2014}$ The automorphisms "compete" を持つ変形フロケ符号について検討する。 我々は,この競合がアベリア・アニオンFETに与える影響を特徴付け,自己同型写像の遷移写像の下で不変なエノンやそれらの境界において,論理情報の進化と損失がいかに結びついているかを示す。 動的自己同型カラーコードにおける障害を用いたこの挙動の顕微鏡的実現例を示す。 これは自然にそのFETの空間を記述し、異なるFETを接続するパラメータ空間パスが論理情報を保持できるかどうかを確立することで特徴付ける。 また, 異なるFET間の遷移は, 結合パーコレーションによって記述される臨界性を示すことを示した。 競合する自己同型(英語版)の観点は、可能なFETとその遷移の本質的な特徴を捉え、トポロジカル秩序、自己同型、障害を含む重要なメカニズムを解明する可能性がある。

Topological order is a promising basis for quantum error correction, a key milestone towards large-scale quantum computing. Floquet codes provide a dynamical scheme for this while also exhibiting Floquet-enriched topological order (FET) where anyons periodically undergo a measurement-induced automorphism that acts uniformly in space. We study deformed Floquet codes where automorphisms have a spatiotemporally heterogeneous distribution$\unicode{x2014}$the automorphisms "compete". We characterize the effect of this competition on Abelian-anyon FETs, showing how the evolution and loss of logical information are linked to the anyons that are invariant under the automorphisms' transition map or that localize at their boundaries. We present an example microscopic realization of this behavior using disorder in the dynamic automorphism color code. This naturally leads to a description of the space of its FETs, which we characterize by establishing when parameter-space paths connecting distinct FETs can preserve logical information. We also show that transitions between distinct FETs display criticality described by bond percolation. The perspective of competing automorphisms captures essential features of possible FETs and their transitions, and may elucidate key mechanisms involving topological order, automorphisms, and disorder.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# 良性一般化ナッシュ平衡問題に対するオンライン対応点法

An Online Feasible Point Method for Benign Generalized Nash Equilibrium Problems ( http://arxiv.org/abs/2410.02400v1 )

ライセンス: Link先を確認
Sarah Sachs, Hedi Hadiji, Tim van Erven, Mathias Staudigl, (参考訳) 繰り返しプレイされた一般化ナッシュ均衡ゲームを考える。 これにより、共同制約を伴う複数エージェントのオンライン学習問題が発生する。 この設定における重要な課題は、各エージェントの実行可能なセットが他のエージェントの同時移動に依存するため、時間とともに変化することである。 その結果、エージェントは時間的な制約に直面し、逆境ではなく、システムに内在的である。 この設定における以前の研究は、目的の制約をペナルティ関数として統合することで、限界における実現可能な解への収束に焦点を当てていた。 しかしながら、すべての反復に対して制約が満たされることを保証し、同時に一般化されたナッシュ均衡への収束を保証するような既存の作業は存在しない。 これは基本的な理論的関心と実践的関連性の問題である。 本研究では,新しいオンライン・ファジブル・ポイント・メソッドを提案する。 エージェント間の通信が制限されているという仮定の下で、本手法は実現可能性を保証する。 我々は、我々の方法の平衡への収束が保証される良性一般化ナッシュ均衡問題のクラスを特定する。 このような良質な一般化されたナッシュ均衡ゲームは、既存の定義とコンテキストで設定し、実例で方法を説明する。

We consider a repeatedly played generalized Nash equilibrium game. This induces a multi-agent online learning problem with joint constraints. An important challenge in this setting is that the feasible set for each agent depends on the simultaneous moves of the other agents and, therefore, varies over time. As a consequence, the agents face time-varying constraints, which are not adversarial but rather endogenous to the system. Prior work in this setting focused on convergence to a feasible solution in the limit via integrating the constraints in the objective as a penalty function. However, no existing work can guarantee that the constraints are satisfied for all iterations while simultaneously guaranteeing convergence to a generalized Nash equilibrium. This is a problem of fundamental theoretical interest and practical relevance. In this work, we introduce a new online feasible point method. Under the assumption that limited communication between the agents is allowed, this method guarantees feasibility. We identify the class of benign generalized Nash equilibrium problems, for which the convergence of our method to the equilibrium is guaranteed. We set this class of benign generalized Nash equilibrium games in context with existing definitions and illustrate our method with examples.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# SU(d)の既約表現からの量子誤り訂正符号

Qudit-based quantum error-correcting codes from irreducible representations of SU(d) ( http://arxiv.org/abs/2410.02407v1 )

ライセンス: Link先を確認
Robert Frederik Uy, Dorian A. Gangloff, (参考訳) クイディットは自然に、量子情報処理への効率的な経路を提供するマルチレベル量子システムに対応するが、その信頼性は量子エラー補正能力に依存している。 本稿では,任意の奇数に対して$\mathrm{SU}(d)$の既約表現を用いて誤り訂正コーデックを構築するための一般的な手順について述べる。 次に、2種類の置換不変量と$\mathfrak{su}(d)$のハイゼンベルク・ワイル対称性をどのように利用して誤り訂正符号の構成を単純化するかについて議論する。 最後に、論理キューディットを$(d-1)^2$の物理キューディットに符号化する無限クラスの誤り訂正符号を構築する。

Qudits naturally correspond to multi-level quantum systems, which offer an efficient route towards quantum information processing, but their reliability is contingent upon quantum error correction capabilities. In this paper, we present a general procedure for constructing error-correcting qudit codes through the irreducible representations of $\mathrm{SU}(d)$ for any odd integer $d \geq 3.$ Using the Weyl character formula and inner product of characters, we deduce the relevant branching rules, through which we identify the physical Hilbert spaces that contain valid code spaces. We then discuss how two forms of permutation invariance and the Heisenberg-Weyl symmetry of $\mathfrak{su}(d)$ can be exploited to simplify the construction of error-correcting codes. Finally, we use our procedure to construct an infinite class of error-correcting codes encoding a logical qudit into $(d-1)^2$ physical qudits.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# 疎線形系の加速解に対する最適化ハイブリッド古典量子アルゴリズム

Optimised Hybrid Classical-Quantum Algorithm for Accelerated Solution of Sparse Linear Systems ( http://arxiv.org/abs/2410.02408v1 )

ライセンス: Link先を確認
Hakikat Singh, (参考訳) 大規模疎線形系を効果的に解くことは、特に物理学、工学、機械学習、ファイナンスといった分野において、計算科学において重要な課題となっている。 従来のアルゴリズムは、これらのシステムのサイズが大きくなるにつれてスケーラビリティの問題に直面し、性能が低下する。 一方、Harrow-Hassidim-Lloyd (HHL)アルゴリズムのような量子アルゴリズムは線形系を解くために指数的なスピードアップを提供するが、量子ハードウェアの現在の状態と行列条件数に対する感度に制約される。 本稿では, CUDA加速プレコンディショニング手法とHHLアルゴリズムを併用して, 疎線形系をより効率的に解くハイブリッド古典量子アルゴリズムを提案する。 古典的なGPU並列処理は、行列を前処理し、その条件数を減らし、一方量子コンピューティングは、HHLアルゴリズムを用いて事前条件付きシステムを解くために使用される。 さらに、アルゴリズムは機械学習モデル、特に強化学習を統合し、リアルタイムのパフォーマンスデータに基づいてブロックサイズやプレコンディショニングストラテジーなどのシステムパラメータを動的に最適化する。 実験結果から,提案手法は速度と拡張性において従来の手法を超越するだけでなく,量子アルゴリズム固有の制約を緩和することを示した。 この研究は効率的な計算の境界を推し進め、ハイブリッド計算フレームワークの今後の進歩の基盤を提供する。

Efficiently solving large-scale sparse linear systems poses a significant challenge in computational science, especially in fields such as physics, engineering, machine learning, and finance. Traditional classical algorithms face scalability issues as the size of these systems increases, leading to performance degradation. On the other hand, quantum algorithms, like the Harrow-Hassidim-Lloyd (HHL) algorithm, offer exponential speedups for solving linear systems, yet they are constrained by the current state of quantum hardware and sensitivity to matrix condition numbers. This paper introduces a hybrid classical-quantum algorithm that combines CUDA-accelerated preconditioning techniques with the HHL algorithm to solve sparse linear systems more efficiently. The classical GPU parallelism is utilised to preprocess and precondition the matrix, reducing its condition number, while quantum computing is employed to solve the preconditioned system using the HHL algorithm. Additionally, the algorithm integrates machine learning models, particularly reinforcement learning, to dynamically optimise system parameters, such as block sizes and preconditioning stratgies, based on real-time performance data. Our experimental results show that the proposed approach not only surpasses traditional methods in speed and scalability but also mitigates some of the inherent limitations of quantum algorithms. This work pushes the boundaries of efficient computing and provides a foundation for future advancements in hybrid computational frameworks.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# IBM量子コンピュータを用いた宇宙粒子生成のディジタル量子シミュレーション

Digital quantum simulation of cosmological particle creation with IBM quantum computers ( http://arxiv.org/abs/2410.02412v1 )

ライセンス: Link先を確認
Marco Díaz Maceda, Carlos Sabín, (参考訳) ディジタル量子コンピューティングを用いて、動的時空における粒子の生成をシミュレートする。 等質で等方的な膨張を経た時空において,最小結合の量子スカラー場からなる系を定常状態から短時間のインフレーション期間へと遷移させる。 時間発展を具現化する量子回路を考案することにより、与えられた場の運動量に対して正と負の2つの振動モードをシミュレートする。 本回路では、回路のシミュレーションと、数百個の量子ゲートからなるIBM量子コンピュータへの実際の実験実装により、宇宙が所定の速度で膨張した後の粒子数を調べる。 粒子数と状態の忠実度を推定する上で, 最先端の誤差軽減技術が有用であることがわかった。

We use digital quantum computing to simulate the creation of particles in a dynamic spacetime. We consider a system consisting of a minimally coupled massive quantum scalar field in a spacetime undergoing homogeneous and isotropic expansion, transitioning from one stationary state to another through a brief inflationary period. We simulate two vibration modes, positive and negative for a given field momentum, by devising a quantum circuit that implements the time evolution. With this circuit, we study the number of particles created after the universe expands at a given rate, both by simulating the circuit and by actual experimental implementation on IBM quantum computers, consisting of hundreds of quantum gates. We find that state-of-the-art error mitigation techniques are useful to improve the estimation of the number of particles and the fidelity of the state.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# 混合状態に対するクビットチャネルの準逆

Quasi Inverse of Qubit Channels for Mixed States ( http://arxiv.org/abs/2410.02414v1 )

ライセンス: Link先を確認
Muhammad Faizan, Muhammad Faryad, (参考訳) 任意の qubit チャネル $\mathcal{E}$ および任意の入力状態に対して、入力状態からチャネルへの平均トレース距離と準逆チャネルの出力を最小化することにより、qubit チャネルの準逆をユニタリマップ $\mathcal{E}^i$ として見つけた。 チャネル $\mathcal{E}$ は完全に正でトレース保存であると仮定された。 混合状態に対する擬似逆数を求めるために,原チャネルの混合入力状態の平均距離(MSTD)と擬似逆数の出力に基づいて,擬似逆数の代替定義を提案した。 トレース距離に基づく定義は、擬似逆入力状態から混合入力状態への容易に一般化を可能にした。 パウリ準逆、一般化振幅減衰、混合ユニタリ、テトラヘドロンチャネルは、入力状態が純粋である特別な場合において忠実性を用いて計算されたものと一致したトレース距離に基づいて計算された。

We found the quasi inverse of qubit channels as a unitary map, $\mathcal{E}^i$, by minimizing the average trace distance between the input state to the channel and the output of the quasi inverse channel for arbitrary qubit channel $\mathcal{E}$ and for arbitrary input states. The channel $\mathcal{E}$ was assumed completely positive and trace-preserving. To find the quasi inverse for mixed states, we proposed an alternative definition of the quasi inverse based on the mean square of the trace distance (MSTD) of the mixed input state of the original channel and the output of the quasi inverse. The definition based on the trace distance allowed easy generalization of the quasi inverse to mixed input states. The quasi inverse of the Pauli, generalized amplitude damping, mixed unitary, and tetrahedron channels calculated based on trace distance agreed with the one computed using fidelity in the special case of input states being pure.
翻訳日:2024-11-04 03:30:37 公開日:2024-10-03
# 拡散モデルにおける高誘導スケールの過飽和とアーチファクトの除去

Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models ( http://arxiv.org/abs/2410.02416v1 )

ライセンス: Link先を確認
Seyedmorteza Sadat, Otmar Hilliges, Romann M. Weber, (参考訳) 拡散モデルにおける入力条件と最終的な出力の間に生じる生成品質と整合性を改善するためには,CFGが不可欠である。 一般的にこれらの側面を強化するために高いガイダンススケールが必要であるが、過飽和や非現実的なアーティファクトを引き起こす。 本稿では,CFG更新規則を再検討し,この問題に対処するための修正を導入する。 まず、CFGの更新項を条件付きモデル予測に関して並列成分と直交成分に分解し、並列成分が主に過飽和を引き起こすのに対して、直交成分は画質を高めることを観察する。 そこで我々は,過飽和のない高品質な世代を実現するために並列成分の低重み付けを提案する。 さらに,CFGと勾配上昇の関係を描き,この知見に基づいて新たな再スケーリングと運動量法を導入する。 アダプティブ・プロジェクテッド・ガイダンス(APG)と呼ばれる我々のアプローチは、CFGの品質向上の利点を保ちながら、過飽和を伴わずにより高いガイダンススケールを使用できる。 APGは実装が容易で、サンプリングプロセスに計算オーバーヘッドが全くない。 広範にわたる実験により,APGは様々な条件拡散モデルやサンプル装置と互換性があり,FID,リコール,飽和度が向上し,CFGに匹敵する精度を維持した。

Classifier-free guidance (CFG) is crucial for improving both generation quality and alignment between the input condition and final output in diffusion models. While a high guidance scale is generally required to enhance these aspects, it also causes oversaturation and unrealistic artifacts. In this paper, we revisit the CFG update rule and introduce modifications to address this issue. We first decompose the update term in CFG into parallel and orthogonal components with respect to the conditional model prediction and observe that the parallel component primarily causes oversaturation, while the orthogonal component enhances image quality. Accordingly, we propose down-weighting the parallel component to achieve high-quality generations without oversaturation. Additionally, we draw a connection between CFG and gradient ascent and introduce a new rescaling and momentum method for the CFG update rule based on this insight. Our approach, termed adaptive projected guidance (APG), retains the quality-boosting advantages of CFG while enabling the use of higher guidance scales without oversaturation. APG is easy to implement and introduces practically no additional computational overhead to the sampling process. Through extensive experiments, we demonstrate that APG is compatible with various conditional diffusion models and samplers, leading to improved FID, recall, and saturation scores while maintaining precision comparable to CFG, making our method a superior plug-and-play alternative to standard classifier-free guidance.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# MenakBERT -- Hebrew Diacriticizer

MenakBERT -- Hebrew Diacriticizer ( http://arxiv.org/abs/2410.02417v1 )

ライセンス: Link先を確認
Ido Cohen, Jacob Gidron, Idan Pinto, (参考訳) ヘブライ語のダイアクリティカルマークは、彼らの声のついた形を与える。 平易なヘブライ語のテキストにダイアクリティカルマークを加えるという作業は、いまだに人為的なリソースに大きく依存するシステムによって支配されている。 ダイアクリッド化されたヘブライ語のテキストで訓練された最近のモデルは、未だに性能のギャップを呈している。 我々は、このギャップを狭く埋めるために、最近開発されたシャルベースPLMを使用します。 MenakBERTはヘブライ語のテキストで事前訓練された文字レベルのトランスフォーマーで、ヘブライ語の文のダイアクリティカルマークを生成するために微調整された。 音声タグ付けなどのタスクへの移動を分類するためのモデルを微調整する方法を引き続き示す。

Diacritical marks in the Hebrew language give words their vocalized form. The task of adding diacritical marks to plain Hebrew text is still dominated by a system that relies heavily on human-curated resources. Recent models trained on diacritized Hebrew texts still present a gap in performance. We use a recently developed char-based PLM to narrowly bridge this gap. Presenting MenakBERT, a character level transformer pretrained on Hebrew text and fine-tuned to produce diacritical marks for Hebrew sentences. We continue to show how finetuning a model for diacritizing transfers to a task such as part of speech tagging.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# LoGDesc:ロバストポイントクラウド登録のための局所幾何学的特徴集約

LoGDesc: Local geometric features aggregation for robust point cloud registration ( http://arxiv.org/abs/2410.02420v1 )

ライセンス: Link先を確認
Karim Slimani, Brahim Tamadazte, Catherine Achard, (参考訳) 本稿では,各点の近傍構造記述に局所的幾何学的性質と学習に基づく特徴伝搬を組み合わせた3次元点マッチングと点雲登録のためのハイブリッドディスクリプタを提案する。 提案アーキテクチャはまず,主成分分析 (PCA) を用いて各点の平面性, 異方性, 均一性を計算することによって, 先行幾何学情報を抽出する。 この事前情報は、三角形に基づく近傍の構築により推定される正規ベクトルに基づいて記述子によって完成される。 最終幾何学的記述子は局所グラフ畳み込みとアテンション機構を用いて点間に伝播する。 新しい特徴抽出器は、ポイントクラウド登録のためのModelNet40、Bunny Stanfordデータセット、KITTI、MVP(Multi-View partial)-RGで評価され、特にノイズと低い重複点クラウドにおいて興味深い結果を示す。

This paper introduces a new hybrid descriptor for 3D point matching and point cloud registration, combining local geometrical properties and learning-based feature propagation for each point's neighborhood structure description. The proposed architecture first extracts prior geometrical information by computing each point's planarity, anisotropy, and omnivariance using a Principal Components Analysis (PCA). This prior information is completed by a descriptor based on the normal vectors estimated thanks to constructing a neighborhood based on triangles. The final geometrical descriptor is propagated between the points using local graph convolutions and attention mechanisms. The new feature extractor is evaluated on ModelNet40, Bunny Stanford dataset, KITTI and MVP (Multi-View Partial)-RG for point cloud registration and shows interesting results, particularly on noisy and low overlapping point clouds.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# PnP-Flow:フローマッチングによるプラグアンドプレイ画像復元

PnP-Flow: Plug-and-Play Image Restoration with Flow Matching ( http://arxiv.org/abs/2410.02423v1 )

ライセンス: Link先を確認
Ségolène Martin, Anne Gagneux, Paul Hagemann, Gabriele Steidl, (参考訳) 本稿では,画像逆問題解決アルゴリズムであるPlug-and-Play (PnP) Flow Matchingを提案する。 PnP法は、最適化スキームにそれらを統合することにより、事前訓練されたデノイザ(しばしばディープニューラルネットワーク)の強度を利用する。 画像における様々な逆問題に対して最先端のパフォーマンスを達成する一方で、PnPアプローチは、インペイントのようなより生成的なタスクに固有の制限に直面している。 一方、フローマッチングのような生成モデルは、画像サンプリングにおいて境界を押し上げたが、画像復元において効率的に使うための明確な方法が欠けていた。 本稿では,PnP フレームワークと Flow Matching (FM) を組み合わせて,事前学習した FM モデルを用いて時間依存デノイザを定義することを提案する。 提案アルゴリズムは,データ忠実度項の勾配降下ステップ,学習したFMパスへの再投影,およびデノイングを交互に行う。 特に,本手法は,ODEやトレース計算によるバックプロパゲーションを回避するため,計算効率が高く,メモリフレンドリーである。 我々は,従来のPnPアルゴリズムやFlow Matchingに基づく最先端手法と比較して,その性能評価を行い,性能評価を行った。

In this paper, we introduce Plug-and-Play (PnP) Flow Matching, an algorithm for solving imaging inverse problems. PnP methods leverage the strength of pre-trained denoisers, often deep neural networks, by integrating them in optimization schemes. While they achieve state-of-the-art performance on various inverse problems in imaging, PnP approaches face inherent limitations on more generative tasks like inpainting. On the other hand, generative models such as Flow Matching pushed the boundary in image sampling yet lack a clear method for efficient use in image restoration. We propose to combine the PnP framework with Flow Matching (FM) by defining a time-dependent denoiser using a pre-trained FM model. Our algorithm alternates between gradient descent steps on the data-fidelity term, reprojections onto the learned FM path, and denoising. Notably, our method is computationally efficient and memory-friendly, as it avoids backpropagation through ODEs and trace computations. We evaluate its performance on denoising, super-resolution, deblurring, and inpainting tasks, demonstrating superior results compared to existing PnP algorithms and Flow Matching based state-of-the-art methods.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# LLM-Pilot: LLM推論サービスの性能評価と最適化

LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services ( http://arxiv.org/abs/2410.02425v1 )

ライセンス: Link先を確認
Małgorzata Łazuka, Andreea Anghel, Thomas Parnell, (参考訳) LLM(Large Language Models)が急速に普及しているため、LCM推論サービスは、パフォーマンス要件を満たしながら何千ものユーザからのリクエストを処理できなければならない。 LLM推論サービスのパフォーマンスは、デプロイされるハードウェアによって決定されることが多いが、どのハードウェアがパフォーマンス要求を満たすかを理解することは依然として難しい。 本研究では, LLM推論サービスの性能を特徴付け, 予測するシステム LLM-Pilot を提案する。 LLM-Pilotは、現実的なワークロードの下で、さまざまなGPUにわたってLLM推論サービスのベンチマークを実行し、検討された各GPUのサービス構成を最適化して、パフォーマンスを最大化する。 最後に、この特徴データを用いて、LLM-Pilotは予測モデルを学ぶ。 既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。

As Large Language Models (LLMs) are rapidly growing in popularity, LLM inference services must be able to serve requests from thousands of users while satisfying performance requirements. The performance of an LLM inference service is largely determined by the hardware onto which it is deployed, but understanding of which hardware will deliver on performance requirements remains challenging. In this work we present LLM-Pilot - a first-of-its-kind system for characterizing and predicting performance of LLM inference services. LLM-Pilot performs benchmarking of LLM inference services, under a realistic workload, across a variety of GPUs, and optimizes the service configuration for each considered GPU to maximize performance. Finally, using this characterization data, LLM-Pilot learns a predictive model, which can be used to recommend the most cost-effective hardware for a previously unseen LLM. Compared to existing methods, LLM-Pilot can deliver on performance requirements 33% more frequently, whilst reducing costs by 60% on average.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# データからゲームの潜在ルールを学ぶ:チェスストーリー

Learning the Latent Rules of a Game from Data: A Chess Story ( http://arxiv.org/abs/2410.02426v1 )

ライセンス: Link先を確認
Ben Fauber, (参考訳) 我々は、数百万のパラメータを持つ小さな事前学習された基礎生成言語モデルが、プロセスに関連するデータからプロセスの潜在ルールを学習できることを実証した。 ステファン・ツヴァイクの小説『Schachnovelle』に触発され、英語で「The Royal Game」とも呼ばれるが、28Mと125Mパラメータの事前訓練された基礎的小言語モデル(SLM)は、チェスのルールを学習し、法的動きを提案し、チェスの問題を正確に解くために、1000から1000,000の例で微調整できる。 また、逐次的な言語モデル微調整エポックが改善成果に与える影響についても検討し、命令微調整例の数を増やすことで、モデル幻覚の減少を実証する。

We demonstrate that small pretrained foundational generative language models with millions of parameters can learn the latent rules of a process from data associated with the process. Inspired by Stefan Zweig's novella "Schachnovelle," also known as "The Royal Game" in English, we show that 28M and 125M parameter pretrained foundational small language models (SLMs) can be instruction fine-tuned with 1,000-to-1,000,000 examples to learn the rules of chess, propose legal moves, and accurately solve chess problems. We also explore the impact of successive language model fine-tuning epochs on improved outcomes and demonstrate reductions in model hallucinations by increasing the number of instruction fine-tuning examples.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# 創造的ストーリー生成のための集合的批評

Collective Critics for Creative Story Generation ( http://arxiv.org/abs/2410.02428v1 )

ライセンス: Link先を確認
Minwook Bae, Hyounghun Kim, (参考訳) LLM(Large Language Models)を用いた物語コヒーレンスによる数千語の長文生成が課題となっている。 従来の研究は、ストーリープランを作成し、その計画に基づいて長いストーリーを生成する様々なフレームワークを提案することで、この問題に対処してきた。 しかし、これらの枠組みは主に物語における物語の一貫性の維持に重点を置いており、しばしばストーリープランニングにおける創造性や、読者の関心をつかむのに望ましい特性であるストーリーの表現性を見落としている。 本稿では,計画修正段階(CrPlan)とストーリー生成段階(CrText)からなる創造的ストーリー生成のための集合的批評フレームワーク(CritiCS)を提案する。 具体的には、各ステージにおいて、LLM批評家と1人のリーダのグループが協力して、複数のラウンドを通じて計画とストーリーのドラフトを段階的に洗練します。 広範囲にわたる人的評価は、CritiCSが物語の創造性と読者のエンゲージメントを著しく向上させつつ、物語のコヒーレンスを維持していることを示している。 さらに、このフレームワークの設計は、批評プロセスにおけるあらゆる役割において、人間の作家の積極的な参加を可能にし、ストーリーライティングにおける対話的な人間と機械の協調を可能にする。

Generating a long story of several thousand words with narrative coherence using Large Language Models (LLMs) has been a challenging task. Previous research has addressed this challenge by proposing different frameworks that create a story plan and generate a long story based on that plan. However, these frameworks have been mainly focusing on maintaining narrative coherence in stories, often overlooking creativity in story planning and the expressiveness of the stories generated from those plans, which are desirable properties to captivate readers' interest. In this paper, we propose Collective Critics for Creative Story Generation framework (CritiCS), which is composed of plan refining stage (CrPlan) and story generation stage (CrText), to integrate a collective revision mechanism that promotes those properties into long-form story generation process. Specifically, in each stage, a group of LLM critics and one leader collaborate to incrementally refine drafts of plan and story throughout multiple rounds. Extensive human evaluation shows that the CritiCS can significantly enhance story creativity and reader engagement, while also maintaining narrative coherence. Furthermore, the design of the framework allows active participation from human writers in any role within the critique process, enabling interactive human-machine collaboration in story writing.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# 予測トラクターモデル

Predictive Attractor Models ( http://arxiv.org/abs/2410.02430v1 )

ライセンス: Link先を確認
Ramy Mounir, Sudeep Sarkar, (参考訳) シークエンシャルメモリ(シークエンシャルメモリ)は、出来事や刺激の順序を正しい順序で正確に記憶する能力であり、多くの認知機能(例えば、言語理解、計画、エピソード記憶形成など)を基盤として、生物学的および人工知能にとって基本的な前提条件である。 生物学的に検証可能な認知の神経科学理論に着想を得て, 生成特性が望ましい新規なシーケンスメモリアーキテクチャである「textit{Predictive Attractor Models (PAM)」を提案する。 PAMは、各入力 \textit{only once} を観察して、オンラインで連続的なシーケンスを学習するストリーミングモデルである。 さらに,大脳皮質小柱の側方抑制により,過去の文脈を一意に表現することで,破滅的な記憶を回避し,新しい記憶が従来学習されていた知識を上書きすることを防ぐことが確認された。 PAMは、予測可能性の連合集合からサンプリングすることで将来の予測を生成し、この生成能力は、予測者と一緒に訓練されたアトラクタモデルによって実現される。 PAMは, 生物学的に妥当な枠組みで, ヘビアン可塑性規則による局所計算で訓練されていることを示す。 その他の望ましい特徴(例えば、耐雑音性、CPUベースの学習、キャパシティスケーリング)は、論文全体で議論されている。 以上の結果から,PAMは生物学的に妥当かつ計算学的に効率的なシーケンシャルメモリモデルの追求において重要な一歩であり,認知科学や人工知能研究に幅広い意味があることが示唆された。

Sequential memory, the ability to form and accurately recall a sequence of events or stimuli in the correct order, is a fundamental prerequisite for biological and artificial intelligence as it underpins numerous cognitive functions (e.g., language comprehension, planning, episodic memory formation, etc.) However, existing methods of sequential memory suffer from catastrophic forgetting, limited capacity, slow iterative learning procedures, low-order Markov memory, and, most importantly, the inability to represent and generate multiple valid future possibilities stemming from the same context. Inspired by biologically plausible neuroscience theories of cognition, we propose \textit{Predictive Attractor Models (PAM)}, a novel sequence memory architecture with desirable generative properties. PAM is a streaming model that learns a sequence in an online, continuous manner by observing each input \textit{only once}. Additionally, we find that PAM avoids catastrophic forgetting by uniquely representing past context through lateral inhibition in cortical minicolumns, which prevents new memories from overwriting previously learned knowledge. PAM generates future predictions by sampling from a union set of predicted possibilities; this generative ability is realized through an attractor model trained alongside the predictor. We show that PAM is trained with local computations through Hebbian plasticity rules in a biologically plausible framework. Other desirable traits (e.g., noise tolerance, CPU-based learning, capacity scaling) are discussed throughout the paper. Our findings suggest that PAM represents a significant step forward in the pursuit of biologically plausible and computationally efficient sequential memory models, with broad implications for cognitive science and artificial intelligence research.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# より優れたコールSAUL: 生成規則化によるフルーレントで一貫性のある言語モデル編集

Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization ( http://arxiv.org/abs/2410.02433v1 )

ライセンス: Link先を確認
Mingyang Wang, Lukas Lange, Heike Adel, Jannik Strötgen, Hinrich Schütze, (参考訳) 大きな言語モデルに最新の知識が含まれていることを保証するためには、定期的に更新する必要がある。 しかし、新しいデータとは無関係な知識にも影響する可能性があるため、モデル編集は困難である。 State-of-the-artメソッドは特定の知識に関連するパラメータを特定し、直接重み付けによって修正する。 しかし、これらの位置と編集法は計算オーバーヘッドが重く、理論的検証に欠ける。 対照的に、要求された編集をモデルに直接微調整することは、無関係な知識に対するモデルの振舞いに影響し、モデルの生成頻度と一貫性を著しく損なう。 これらの課題に対処するために,文結合と拡張ランダムな事実を結合して生成規則化を行うモデル編集手法であるSAULを提案する。 3つのモデル編集ベンチマークの評価から,SAULは生成品質を保ち,計算オーバーヘッドを低減しつつ,最先端の手法より優れたモデル編集を行うための実用的で信頼性の高いソリューションであることが示された。

To ensure large language models contain up-to-date knowledge, they need to be updated regularly. However, model editing is challenging as it might also affect knowledge that is unrelated to the new data. State-of-the-art methods identify parameters associated with specific knowledge and then modify them via direct weight updates. However, these locate-and-edit methods suffer from heavy computational overhead and lack theoretical validation. In contrast, directly fine-tuning the model on requested edits affects the model's behavior on unrelated knowledge, and significantly damages the model's generation fluency and consistency. To address these challenges, we propose SAUL, a streamlined model editing method that uses sentence concatenation with augmented random facts for generation regularization. Evaluations on three model editing benchmarks show that SAUL is a practical and reliable solution for model editing outperforming state-of-the-art methods while maintaining generation quality and reducing computational overhead.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# 一定の複雑さを持つK-U-Netの学習:時系列予測への応用

Learning K-U-Net with constant complexity: An Application to time series forecasting ( http://arxiv.org/abs/2410.02438v1 )

ライセンス: Link先を確認
Jiang You, Arben Cela, René Natowicz, Jacob Ouanounou, Patrick Siarry, (参考訳) 時系列予測のための深層モデルのトレーニングは、時間複雑性の固有の課題において重要なタスクである。 現在の手法は一般に線形時間的複雑性を保証しているが、時間的冗長性に関する我々の観測では、高次特徴は低次特徴よりも98.44\%遅いことが示されている。 この問題に対処するために,ディープラーニングモデルにおいて一定の時間的複雑性を実現するために,指数関数的に重み付けされた確率勾配降下アルゴリズムを導入する。 この学習手法の理論的複雑さは一定であることを示す。 合成データセット上でのKernel U-Net(K-U-Net)におけるこの手法の評価は,テストセットの精度を向上しつつ,複雑さを著しく低減することを示す。

Training deep models for time series forecasting is a critical task with an inherent challenge of time complexity. While current methods generally ensure linear time complexity, our observations on temporal redundancy show that high-level features are learned 98.44\% slower than low-level features. To address this issue, we introduce a new exponentially weighted stochastic gradient descent algorithm designed to achieve constant time complexity in deep learning models. We prove that the theoretical complexity of this learning method is constant. Evaluation of this method on Kernel U-Net (K-U-Net) on synthetic datasets shows a significant reduction in complexity while improving the accuracy of the test set.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# 言語モデルにおけるコンテンツ透かしに対する適応的攻撃の最適化

Optimizing Adaptive Attacks against Content Watermarks for Language Models ( http://arxiv.org/abs/2410.02440v1 )

ライセンス: Link先を確認
Abdulrahman Diaa, Toluwani Aremu, Nils Lukas, (参考訳) 大規模言語モデル(LLMs)は、オンラインスパムや誤報を拡散するためにemph{misused} と呼ばれる。 コンテンツ透かしは、モデル生成出力にメッセージを隠すことで誤用を検知し、秘密の透かしキーを使用して検出する。 ロバストネスは中核的なセキュリティ特性であり、検出を回避するにはコンテンツの品質を(重要な)劣化させる必要がある、と述べている。 多くのLSM透かし法が提案されているが、ロバスト性は、透かし法の知識が無く、準最適攻撃しか見つからない 'emph{non-adaptive} 攻撃者に対してのみ試験される。 目的関数としてLLM透かしのロバスト性を定式化し、特定の透かし法に対して \emph{adaptive} 攻撃をチューニングするための選好に基づく最適化を提案する。 私たちの評価は i)適応攻撃は非適応的ベースラインを大幅に上回る。 二 適応的でない状況にあっても、いくつかの既知の透かしに対して最適化された適応的攻撃は、他の目に見えない透かしに対して試験しても、非常に効果的である。 3) 最適化ベースの攻撃は実用的であり、7時間未満のGPU時間を必要とする。 本研究は,アダプティブアタッカーに対するロバスト性テストの必要性を浮き彫りにした。

Large Language Models (LLMs) can be \emph{misused} to spread online spam and misinformation. Content watermarking deters misuse by hiding a message in model-generated outputs, enabling their detection using a secret watermarking key. Robustness is a core security property, stating that evading detection requires (significant) degradation of the content's quality. Many LLM watermarking methods have been proposed, but robustness is tested only against \emph{non-adaptive} attackers who lack knowledge of the watermarking method and can find only suboptimal attacks. We formulate the robustness of LLM watermarking as an objective function and propose preference-based optimization to tune \emph{adaptive} attacks against the specific watermarking method. Our evaluation shows that (i) adaptive attacks substantially outperform non-adaptive baselines. (ii) Even in a non-adaptive setting, adaptive attacks optimized against a few known watermarks remain highly effective when tested against other unseen watermarks, and (iii) optimization-based attacks are practical and require less than seven GPU hours. Our findings underscore the need to test robustness against adaptive attackers.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# ウィキフィケーションにより強化された埋め込みトピックモデル

Embedded Topic Models Enhanced by Wikification ( http://arxiv.org/abs/2410.02441v1 )

ライセンス: Link先を確認
Takashi Shibuya, Takehito Utsuro, (参考訳) トピックモデリングは文書の集合を分析し、意味のある単語のパターンを学習する。 しかし、従来の話題モデルは単語の綴りのみを考慮し、単語のホモグラフィーを考慮しない。 本研究では、ウィキペディアの知識をニューラルネットワークモデルに組み込んで、名前付きエンティティを認識させる。 提案手法を2つのデータセット上で評価する。 1)『textit{New York Times}』及び『New York Times』のニュース記事 2) AIDA-CoNLLデータセット。 実験により,本手法は一般化可能性において,ニューラルトピックモデルの性能を向上させることが示された。 さらに、各トピックにおける頻繁な用語とトピック間の時間的依存関係を分析し、エンティティ対応トピックモデルがトピックの時系列開発をうまく捉えることができることを示す。

Topic modeling analyzes a collection of documents to learn meaningful patterns of words. However, previous topic models consider only the spelling of words and do not take into consideration the homography of words. In this study, we incorporate the Wikipedia knowledge into a neural topic model to make it aware of named entities. We evaluate our method on two datasets, 1) news articles of \textit{New York Times} and 2) the AIDA-CoNLL dataset. Our experiments show that our method improves the performance of neural topic models in generalizability. Moreover, we analyze frequent terms in each topic and the temporal dependencies between topics to demonstrate that our entity-aware topic models can capture the time-series development of topics well.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# GNSS攻撃下での無人航空機の自己救助システムに向けて

Towards a Self-rescuing System for UAVs Under GNSS Attack ( http://arxiv.org/abs/2410.02442v1 )

ライセンス: Link先を確認
Giulio Rigoni, Nicola Scremin, Mauro Conti, (参考訳) UAV市場はアプリケーションの拡大とともに大幅に成長している。 しかし、UAVミッションの成功は GNSS の使用に依存していることが多い。 残念ながら、GNSS信号の脆弱性は、暗号化と認証の欠如により、重大なサイバーセキュリティ問題を引き起こしている。 この脆弱性は様々な攻撃、特に「GNSS妨害攻撃」や「GNSS妨害攻撃」を容易に実行できるようにする。 一般的には、この攻撃の間、ドローンは経路を変えるように操作され、通常は即時着陸またはクラッシュする。 われわれが知る限り、我々はまず、ドローンがGNSS攻撃を受けており、GNSSが利用できないと仮定して、自らを自律的に救助できる軽量ソリューションを提案している。 飛行中は、ドローンの位置を瞬時に変更できるため、風が重要な役割を果たす。 この問題を解決するために,我々は高効率な2相解を考案した。 一 前経過の監視及び記録のための前段階 二 逆相、逆相及び風の存在に基づく後進経路を生成すること。 最終的な解決策は、非常に高速な計算時間を維持しながら、風の状況下であっても、ドローンを元の位置に一貫して戻すことの強いパフォーマンスを保証する。

There has been substantial growth in the UAV market along with an expansion in their applications. However, the successful execution of a UAV mission is very often dependent on the use of a GNSS. Unfortunately, the vulnerability of GNSS signals, due to their lack of encryption and authentication, poses a significant cybersecurity issue. This vulnerability makes various attacks, particularly the "GNSS spoofing attack," and "GNSS jamming attack" easily executable. Generally speaking, during this attack, the drone is manipulated into altering its path, usually resulting in an immediate forced landing or crash. As far as we know, we are the first to propose a lightweight-solution that enable a drone to autonomously rescue itself, assuming it is under GNSS attack and the GNSS is no longer available, and return safely to its initial takeoff position, thereby preventing any potential crashes. During the flight, wind plays a critical role as it can instantaneously alter the drone's position. To solve this problem, we have devised a highly effective 2-phases solution: (i) Forward Phase, for monitoring and recording the forward journey, and (ii) Backward Phase, that generates a backward route, based on the Forward Phase and wind presence. The final solution ensures strong performance in consistently returning the drone to the original position, even in wind situations, while maintaining a very fast computation time.
翻訳日:2024-11-04 03:20:51 公開日:2024-10-03
# Clinnova Federated Learning Proof of Concept: 国境を越えたコラボレーションから学ぶ

Clinnova Federated Learning Proof of Concept: Key Takeaways from a Cross-border Collaboration ( http://arxiv.org/abs/2410.02443v1 )

ライセンス: Link先を確認
Julia Alekseenko, Bram Stieltjes, Michael Bach, Melanie Boerries, Oliver Opitz, Alexandros Karargyris, Nicolas Padoy, (参考訳) フランス、ドイツ、スイス、ルクセンブルクを含む共同イニシアチブであるClinnovaは、データフェデレーション、標準化、相互運用性を通じて、精密医療の力を解き放つことを目的としている。 この欧州大地域イニシアチブは、人工知能(AI)とデータサイエンスを使って、医療の成果と効率を高めるために相互運用可能な欧州標準を作成しようとしている。 主なコンポーネントは、多分野の研究センター、フェデレートされたバイオバンク戦略、デジタルヘルスイノベーションプラットフォーム、フェデレーションされたAI戦略である。 炎症性腸疾患、リウマチ、多発性硬化症(MS)を対象とし、データ品質を強調し、パーソナライズされた治療と翻訳研究のためのAIアルゴリズムを開発する。 IHU Strasbourg (Institute of Minimal-invasive Surgery)は、このイニシアチブにおいて、医療におけるAIの進歩の基礎となる、連邦学習(FL)概念実証(POC)の開発を主導している。 中心となるClinnova-MSは、FLを用いて病気の進行を検知し、介入を誘導し、複数のサイトにわたってデジタルバイオマーカーを検証する、より正確なモデルを開発することで、MS患者のケアを強化することを目的としている。 この技術報告は、Clinnovaフレームワーク内のMRI画像のMSセグメント化に関する、最初の国境を越えたPOCからの洞察と重要な知見を提示する。 私たちの研究は、国境を越えたコラボレーションを通じてMSセグメンテーションを進める上で重要なマイルストーンとなる一方で、医療環境におけるFLの可能性を実現するために、技術的、論理的、倫理的考察に取り組むことの重要性を強調しています。

Clinnova, a collaborative initiative involving France, Germany, Switzerland, and Luxembourg, is dedicated to unlocking the power of precision medicine through data federation, standardization, and interoperability. This European Greater Region initiative seeks to create an interoperable European standard using artificial intelligence (AI) and data science to enhance healthcare outcomes and efficiency. Key components include multidisciplinary research centers, a federated biobanking strategy, a digital health innovation platform, and a federated AI strategy. It targets inflammatory bowel disease, rheumatoid diseases, and multiple sclerosis (MS), emphasizing data quality to develop AI algorithms for personalized treatment and translational research. The IHU Strasbourg (Institute of Minimal-invasive Surgery) has the lead in this initiative to develop the federated learning (FL) proof of concept (POC) that will serve as a foundation for advancing AI in healthcare. At its core, Clinnova-MS aims to enhance MS patient care by using FL to develop more accurate models that detect disease progression, guide interventions, and validate digital biomarkers across multiple sites. This technical report presents insights and key takeaways from the first cross-border federated POC on MS segmentation of MRI images within the Clinnova framework. While our work marks a significant milestone in advancing MS segmentation through cross-border collaboration, it also underscores the importance of addressing technical, logistical, and ethical considerations to realize the full potential of FL in healthcare settings.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# デジタルヘルスのための量子機械学習 : システムレビュー

Quantum Machine Learning for Digital Health? A Systematic Review ( http://arxiv.org/abs/2410.02446v1 )

ライセンス: Link先を確認
Riddhi S. Gupta, Carolyn E. Wood, Teyl Engstrom, Jason D. Pole, Sally Shrapnel, (参考訳) 健康データのデジタル化により、電子健康と医療記録の成長は、データ分析にアルゴリズム技術を使用する際の障壁を低くする。 医療データに対する古典的な機械学習技術は商業化にアプローチするが、量子機械学習(QML)がデジタルヘルスデータ処理に実証的な優位性をもたらすかどうかはまだ明らかではない。 この体系的な文献レビューでは、QMLアルゴリズムが既存の古典的手法よりも有効か効率が高いかを評価する。 デジタル電子健康医療記録(EH/MR)と、EH/MRの適切なプロキシであると考えられるデータを含める。 QMLアルゴリズムは量子に着想を得た技術とは対照的に、量子コンピューティングハードウェア向けに設計されなければならない。 PubMed、Embase、IEEE、Scopus、arXivは2015年から2024年6月10日までに4915の研究を行った。 対象とした研究169件を検診した後,QMLに関する技術的誤解が広範囲に及んだ結果,分析の厳格性に乏しい123件を除外した。 残りの46の研究のうち、量子ハードウェア上でアルゴリズムをテストするか、QMLアルゴリズムを評価する際にノイズの多い量子回路を使用するかによって、現実的なQML動作条件を考えるのは16の研究のみである。 デジタルヘルスにおけるQMLの応用は、主に医療サービス提供や公衆衛生ではなく、臨床上の意思決定支援に焦点を当てている。 ほぼ全てのQMLモデルは線形量子モデルであり、従って一般量子アルゴリズムのサブセットを表す。 一方、新しいデータエンコーディング戦略はスケーラビリティの問題に対処しないが、量子ハードウェアに関する制限的な仮定を必要とするレジームでは、これらのプロトコルは大規模な健康データセットの一般的なエンコーディングには非効率的である。 デジタルヘルスにおけるQML利用事例発見に関する有意義な対話の道を開いた。

With the digitization of health data, the growth of electronic health and medical records lowers barriers for using algorithmic techniques for data analysis. While classical machine learning techniques for health data approach commercialization, there is not yet clear evidence whether quantum machine learning (QML) will provide any empirical advantage for digital health data processing. In this systematic literature review we assess whether QML algorithms have the potential to outperform existing classical methods in efficacy or efficiency. We include digital electronic health/medical records (EH/MRs) and data considered to be a reasonable proxy to EH/MRs. Eligible QML algorithms must be designed for quantum computing hardware, as opposed to quantum-inspired techniques. PubMed, Embase, IEEE, Scopus and arXiv yielded 4915 studies between 2015 to 10 June 2024. After screening 169 eligible studies, most studies contained widespread technical misconceptions about QML and we excluded 123 studies for insufficient rigor in analysis. Of the remaining 46 studies, only 16 studies consider realistic QML operating conditions, either by testing algorithms on quantum hardware, or using noisy quantum circuits when assessing QML algorithms. We find QML applications in digital health focus primarily on clinical decision support rather than health service delivery or public health. Nearly all QML models are linear quantum models, and therefore represent a subset of general quantum algorithms. Meanwhile, novel data-encoding strategies do not address scalability issues, except in regimes requiring restrictive assumptions about quantum hardware, rendering these protocols inefficient for the general encoding of large health datasets. By establishing the current state of evidence for QML-based health applications, we pave the way for meaningful dialogue about QML use-case discovery in digital health.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# 生成型AI支援セマンティックコミュニケーションのための個人化フェデレーション学習

Personalized Federated Learning for Generative AI-Assisted Semantic Communications ( http://arxiv.org/abs/2410.02450v1 )

ライセンス: Link先を確認
Yubo Peng, Feibo Jiang, Li Dong, Kezhi Wang, Kun Yang, (参考訳) 意味コミュニケーション(SC)は、生データではなく意味情報のみを伝達することに焦点を当てている。 このアプローチは、モバイルユーザ(MU)における様々なインテリジェントアプリケーションによって引き起こされるスペクトルリソース利用の問題に対する効率的な解決策を提供する。 生成人工知能(GAI)モデルは近年,SCを向上する新たな機会として,顕著なコンテンツ生成と信号処理能力を示した。 そこで本稿では,MUと基地局(BS)の間に配置されたGAI支援SC(GSC)モデルを提案する。 次に、MUのローカルデータを用いてGSCモデルをトレーニングし、プライバシーを確保し、MUの異種要件を緩和するために、パーソナライズされたセマンティック・フェデレーション・ラーニング(PSFL)を導入する。 このアプローチには、Personalized Local Distillation(PLD)とAdaptive Global Pruning(AGP)が組み込まれている。 PLDでは、各MUは、ローカルリソースに合わせてパーソナライズされたGSCモデルと、学生としてCNN(Convolutional Neural Networks)ベースのSC(CSC)モデルを選択する。 このメンターモデルは、グローバルアグリゲーションのための学生モデルに蒸留される。 AGPでは、リアルタイム通信環境に応じて集約されたグローバルモデル上でネットワークプルーニングを行い、通信エネルギーを削減します。 最後に,提案手法の有効性と有効性を示す数値計算を行った。

Semantic Communication (SC) focuses on transmitting only the semantic information rather than the raw data. This approach offers an efficient solution to the issue of spectrum resource utilization caused by the various intelligent applications on Mobile Users (MUs). Generative Artificial Intelligence (GAI) models have recently exhibited remarkable content generation and signal processing capabilities, presenting new opportunities for enhancing SC. Therefore, we propose a GAI-assisted SC (GSC) model deployed between MUs and the Base Station (BS). Then, to train the GSC model using the local data of MUs while ensuring privacy and accommodating heterogeneous requirements of MUs, we introduce Personalized Semantic Federated Learning (PSFL). This approach incorporates a novel Personalized Local Distillation (PLD) and Adaptive Global Pruning (AGP). In PLD, each MU selects a personalized GSC model as a mentor tailored to its local resources and a unified Convolutional Neural Networks (CNN)-based SC (CSC) model as a student. This mentor model is then distilled into the student model for global aggregation. In AGP, we perform network pruning on the aggregated global model according to real-time communication environments, reducing communication energy. Finally, numerical results demonstrate the feasibility and efficiency of the proposed PSFL scheme.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# 価値アライメントのロバスト性に対する強い評価

Strong Preferences Affect the Robustness of Value Alignment ( http://arxiv.org/abs/2410.02451v1 )

ライセンス: Link先を確認
Ziwei Xu, Mohan Kankanhalli, (参考訳) 大きな言語モデル(LLM)や他のAIエージェントが人間の価値観に従って行動することを確実にすることを目的としたバリューアライメントは、これらのシステムの安全性と信頼性を保証するために重要である。 価値アライメントの重要な要素は、人間の価値観の表現としての人間の嗜好のモデリングである。 本稿では,嗜好モデルの感度を調べた結果,値アライメントの堅牢性について検討する。 特定の選好の確率の変化は、他の選好に対するこれらのモデルの予測にどのように影響しますか? この疑問に対処するために、我々は、広く使われている嗜好モデルの頑健さを、その嗜好の微妙な変化に対する感性を調べることによって理論的に分析する。 その結果,Bradley-Terry モデルと Placket-Luce モデルでは,選好の確率は,他の選好の変化とともに大きく変化することが明らかとなった。 この感度がこれらのモデルにとって重要となる特定の条件を特定し、AIシステムにおける価値アライメントの堅牢性と安全性の実践的意義について議論する。

Value alignment, which aims to ensure that large language models (LLMs) and other AI agents behave in accordance with human values, is critical for ensuring safety and trustworthiness of these systems. A key component of value alignment is the modeling of human preferences as a representation of human values. In this paper, we investigate the robustness of value alignment by examining the sensitivity of preference models. Specifically, we ask: how do changes in the probabilities of some preferences affect the predictions of these models for other preferences? To answer this question, we theoretically analyze the robustness of widely used preference models by examining their sensitivities to minor changes in preferences they model. Our findings reveal that, in the Bradley-Terry and the Placket-Luce model, the probability of a preference can change significantly as other preferences change, especially when these preferences are dominant (i.e., with probabilities near 0 or 1). We identify specific conditions where this sensitivity becomes significant for these models and discuss the practical implications for the robustness and safety of value alignment in AI systems.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# 光量子の運動非感性時間最適制御

Motion-Insensitive Time-Optimal Control of Optical Qubits ( http://arxiv.org/abs/2410.02452v1 )

ライセンス: Link先を確認
Léo Van Damme, Zhao Zhang, Amit Devra, Steffen J. Glaser, Andrea Alberti, (参考訳) 閉じ込められた原子量子コンピュータでは、トラップ内の原子の動きのために光量子ビットの高忠実度制御が困難である。 修正されない場合、原子の運動は2つの基本的なメカニズムを通して、自由度で絡み合わされる。 i) Photon recoil and (II) 熱運動はどちらもゲートの忠実度を低下させる。 我々は、駆動レーザ磁場の位相を時間的に調節することで、両源の不忠実さを抑制する動作不感パルスを開発する。 光子再コイルを除去するため,従来のパルスに比べてゲート長を約20倍短縮する時間最適制御を用いてバンバンパルスを$-$由来とする。 しかし, 光子再コイルを除去しても, ゲート誤差は消えるのではなく, 熱的動きによる絡み合いによって生じる境界によって制限されることがわかった。 顕著なことに、この境界はラビ周波数とは独立であり、光子リコイルとは異なり、解決されたサイドバンド状態の動作は、この不整合の源を緩和しない。 この境界を克服するために、典型的な熱原子に対して1桁以上の大きさでゲート誤差を低減できる滑らかな位相パルスを導出する。 動作に敏感なパルスは、レーザーの不均一性を補償するために洗練され、実用的な状況下でのゲート性能が向上する。 本結果は,光ツイーザアレイに閉じ込められた$$$}^{88}$Sr原子の光クロック遷移で動作する1量子ゲートのシミュレーションにより検証した。

In trapped-atom quantum computers, high-fidelity control of optical qubits is challenging due to the motion of atoms in the trap. If not corrected, the atom motion gets entangled with the qubit degrees of freedom through two fundamental mechanisms, (i) photon recoil and (ii) thermal motion, both leading to a reduction of the gate fidelity. We develop motion-insensitive pulses that suppress both sources of infidelity by modulating the phase of the driving laser field in time. To eliminate photon recoil, we use bang-bang pulses$-$derived using time-optimal control$-$which shorten the gate duration by about 20 times compared to conventional pulses. However, even when photon recoil is eliminated, we find that the gate error does not vanish, but is rather limited by a bound arising from thermal motion-induced entanglement. Remarkably, this bound is independent of the Rabi frequency, meaning that, unlike for photon recoil, operating in the resolved sideband regime does not mitigate this source of infidelity. To overcome this bound, we derive smooth-phase pulses, which allow for a further reduction of the gate error by more than an order of magnitude for typical thermal atoms. Motion-insensitive pulses can be refined to compensate for laser inhomogeneities, enhancing the gate performance in practical situations. Our results are validated through simulations of one-qubit gates operating on the optical clock transition of ${}^{88}$Sr atoms trapped in an optical tweezers array.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# ユーザコヒーレンスを定量化する - クロスドメインレコメンデーション分析のための統一フレームワーク

Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis ( http://arxiv.org/abs/2410.02453v1 )

ライセンス: Link先を確認
Michaël Soumm, Alexandre Fournier-Montgieux, Adrian Popescu, Bertrand Delezoide, (参考訳) Recommender Systems (RS) の有効性は, ユーザプロファイルの品質と特徴性に密接に関連している。 本稿では,リコメンデータシステムを理解するための新しい情報理論的尺度について紹介する。ユーザ選択の偏差を定量化する「サプライズ」尺度と,ユーザインタラクションのコヒーレンスを捉える「条件的サプライズ」尺度である。 9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。 厳密な統計フレームワークを用いて、ユーザプロファイル密度と情報測定がドメイン間のアルゴリズム性能に与える影響を定量化する。 これらの測定値に基づいてユーザをセグメント化することにより、データ削減によるパフォーマンスの向上を実現し、より単純なアルゴリズムが、低コヒーレンスユーザにとって複雑なものと一致することを示す。 さらに,提案手法を用いて,予測におけるユーザの嗜好の一貫性と多様性を良好に維持し,アルゴリズムの挙動に関する洞察を提供する。 この研究は、パーソナライズされたレコメンデーションシステムのためのユーザ行動と実践的ヒューリスティックの理論的理解を促進し、より効率的で適応的なアーキテクチャを促進する。

The effectiveness of Recommender Systems (RS) is closely tied to the quality and distinctiveness of user profiles, yet despite many advancements in raw performance, the sensitivity of RS to user profile quality remains under-researched. This paper introduces novel information-theoretic measures for understanding recommender systems: a "surprise" measure quantifying users' deviations from popular choices, and a "conditional surprise" measure capturing user interaction coherence. We evaluate 7 recommendation algorithms across 9 datasets, revealing the relationships between our measures and standard performance metrics. Using a rigorous statistical framework, our analysis quantifies how much user profile density and information measures impact algorithm performance across domains. By segmenting users based on these measures, we achieve improved performance with reduced data and show that simpler algorithms can match complex ones for low-coherence users. Additionally, we employ our measures to analyze how well different recommendation algorithms maintain the coherence and diversity of user preferences in their predictions, providing insights into algorithm behavior. This work advances the theoretical understanding of user behavior and practical heuristics for personalized recommendation systems, promoting more efficient and adaptive architectures.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# 文書検証のための繰り返しFew-Shotモデル

Recurrent Few-Shot model for Document Verification ( http://arxiv.org/abs/2410.02456v1 )

ライセンス: Link先を確認
Maxime Talarmain, Carlos Boned, Sanket Biswas, Oriol Ramos, (参考訳) 汎用ID, 旅行, 文書画像, 映像ベースの検証システムはまだ, 解決すべき問題として十分な性能を達成できていない。 低解像度の画像やビデオ、モデルのトレーニングに十分なデータが不足しているなど、パフォーマンスに悪影響を及ぼす要因がいくつかある。 このタスクは、未確認のIDクラスや旅行用ドキュメントを扱う場合、特に難しい。 本稿では,数ショットのシナリオで偽文書を検出可能なリカレントベースモデルを提案することで,この問題に対処する。 リカレントアーキテクチャは、モデルをドキュメント解像度の可変性に堅牢にする。 さらに、数発のアプローチでは、目に見えない文書のクラスであっても、モデルの性能が向上する。 SIDTDとFinditデータセットの予備的な結果は、このタスクにおいて、このモデルの優れたパフォーマンスを示している。

General-purpose ID, or travel, document image- and video-based verification systems have yet to achieve good enough performance to be considered a solved problem. There are several factors that negatively impact their performance, including low-resolution images and videos and a lack of sufficient data to train the models. This task is particularly challenging when dealing with unseen class of ID, or travel, documents. In this paper we address this task by proposing a recurrent-based model able to detect forged documents in a few-shot scenario. The recurrent architecture makes the model robust to document resolution variability. Moreover, the few-shot approach allow the model to perform well even for unseen class of documents. Preliminary results on the SIDTD and Findit datasets show good performance of this model for this task.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# 応答チューニング: 命令なしの大規模言語モデルの調整

Response Tuning: Aligning Large Language Models without Instruction ( http://arxiv.org/abs/2410.02465v1 )

ライセンス: Link先を確認
Seokhyun An, Hyounghun Kim, (参考訳) 命令-応答対を用いた教師付き微調整は、事前学習された大言語モデル(LLM)を有用な安全なチャットアシスタントに移行するための基本的なステップである。 我々の仮説は、事前学習されたLLMに固有の能力を考えると、十分な出力空間を確立することで、そのような遷移を可能にするというものである。 これを検証するために,命令チューニングにおける命令条件のステップを排除し,応答空間の監督にのみ焦点をあてるResponse Tuning (RT)を提案する。 実験により, RTモデルは応答のみを用いて訓練され, 広範囲の命令に効果的に対応し, 学習した命令に匹敵する有用性を示すことができた。 さらに, トレーニング応答分布の制御は, ユーザの嗜好を著しく改善したり, 安全でないクエリに対する支援を拒否するなど, 対象行動の緩和を図っている。 本研究は, 予め学習したLLMの広範囲な能力の可能性を浮き彫りにして, 適切な出力空間を整備する役割を解明するものである。

Instruction tuning-supervised fine-tuning using instruction-response pairs-is a foundational step in transitioning pre-trained Large Language Models (LLMs) into helpful and safe chat assistants. Our hypothesis is that establishing an adequate output space can enable such a transition given the capabilities inherent in pre-trained LLMs. To verify this, we propose Response Tuning (RT), which eliminates the instruction-conditioning step in instruction tuning and solely focuses on response space supervision. Our experiments demonstrate that RT models, trained only using responses, can effectively respond to a wide range of instructions and exhibit helpfulness comparable to that of their instruction-tuned counterparts. Furthermore, we observe that controlling the training response distribution can significantly improve their user preference or elicit target behaviors such as refusing assistance for unsafe queries. Our findings illuminate the role of establishing an adequate output space in alignment, highlighting the potential of the extensive inherent capabilities of pre-trained LLMs.
翻訳日:2024-11-04 03:11:05 公開日:2024-10-03
# Universal Dexterous GraspingのためのMixture-of-Expertsを用いた効率的な残留学習

Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping ( http://arxiv.org/abs/2410.02475v1 )

ライセンス: Link先を確認
Ziye Huang, Haoqi Yuan, Yuhui Fu, Zongqing Lu, (参考訳) 多様な物体にまたがる普遍的な巧妙な把握は、ロボット学習の基本的な課題である。 拡張学習(RL)によるオブジェクトデータセットのポリシー開発には、マルチタスク学習のための複雑なカリキュラム設計や、目に見えないオブジェクトへの限定的な一般化など、重要な制約がある。 これらの課題を克服するために、ResDexは、残留ポリシー学習とMix-of-experts(MoE)フレームワークを統合する新しいアプローチである。 ResDexは、個々のオブジェクトに対して効率的に取得され、幅広い未知のオブジェクトをまたいで一般化できる幾何学的無意識な基本ポリシーを使用することで区別される。 私たちのMoEフレームワークは、様々なオブジェクトに適した多様な把握スタイルを促進するために、いくつかの基本ポリシーを組み込んでいます。 ResDexはこれらの基本方針を組み合わす重みを伴う残留作用を学習することにより、普遍的なデクスタリーグルーピングのための効率的なマルチタスクRLを可能にする。 ResDexは3200のオブジェクトと88.8%の成功率からなるDexGraspNetデータセット上で最先端のパフォーマンスを達成する。 目に見えないオブジェクトとの一般化のギャップがなく、訓練効率が良く、1つのGPUでたった12時間ですべてのタスクをマスターできる。

Universal dexterous grasping across diverse objects presents a fundamental yet formidable challenge in robot learning. Existing approaches using reinforcement learning (RL) to develop policies on extensive object datasets face critical limitations, including complex curriculum design for multi-task learning and limited generalization to unseen objects. To overcome these challenges, we introduce ResDex, a novel approach that integrates residual policy learning with a mixture-of-experts (MoE) framework. ResDex is distinguished by its use of geometry-unaware base policies that are efficiently acquired on individual objects and capable of generalizing across a wide range of unseen objects. Our MoE framework incorporates several base policies to facilitate diverse grasping styles suitable for various objects. By learning residual actions alongside weights that combine these base policies, ResDex enables efficient multi-task RL for universal dexterous grasping. ResDex achieves state-of-the-art performance on the DexGraspNet dataset comprising 3,200 objects with an 88.8% success rate. It exhibits no generalization gap with unseen objects and demonstrates superior training efficiency, mastering all tasks within only 12 hours on a single GPU.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# 多様なバイマン的デクスタラスマニピュレーションスキルの学習

Learning Diverse Bimanual Dexterous Manipulation Skills from Human Demonstrations ( http://arxiv.org/abs/2410.02477v1 )

ライセンス: Link先を確認
Bohan Zhou, Haoqi Yuan, Yuhui Fu, Zongqing Lu, (参考訳) 両義足の操作はロボティクスにおいて重要だが未発見の領域である。 その高次元のアクション空間と固有のタスク複雑性は、ポリシー学習の重要な課題を示し、既存のベンチマークにおけるタスクの多様性が、汎用的なスキル開発を妨げる。 既存のアプローチは強化学習に大きく依存しており、しばしば狭いタスクに合わせた複雑な設計の報酬関数によって制約される。 本研究では,多彩な人的デモンストレーションから多彩な両義的なスキルを効果的に学習するための新しいアプローチを提案する。 具体的には、既存のバイマニュアルデータセットからタスク構築を統一するフレームワークであるBiDexHDを導入し、教師によるポリシー学習を用いて全てのタスクに対処する。 教師は、共有行動のあるタスクにまたがる一般的な2段階報酬関数を用いて、国家ベースの政策を学習し、学生は学習したマルチタスクポリシーを視覚ベースのポリシーに蒸留する。 BiDexHDでは、自動構築タスクからの多数のバイマン的デキスタラススキルのスケーラブルな学習が実現可能となり、ユニバーサルなバイマン的デキスタラス操作への有望な進歩を提供する。 TACOデータセットに対する実証的な評価は、6つのカテゴリにまたがる141のタスクにまたがって、訓練されたタスクに74.59%、見えないタスクに51.07%のタスク充足率を示し、BiDexHDの有効性と競争力のあるゼロショット一般化能力を示す。 ビデオや詳細については、プロジェクトページ https://sites.google.com/view/bidexhd.comを参照してください。

Bimanual dexterous manipulation is a critical yet underexplored area in robotics. Its high-dimensional action space and inherent task complexity present significant challenges for policy learning, and the limited task diversity in existing benchmarks hinders general-purpose skill development. Existing approaches largely depend on reinforcement learning, often constrained by intricately designed reward functions tailored to a narrow set of tasks. In this work, we present a novel approach for efficiently learning diverse bimanual dexterous skills from abundant human demonstrations. Specifically, we introduce BiDexHD, a framework that unifies task construction from existing bimanual datasets and employs teacher-student policy learning to address all tasks. The teacher learns state-based policies using a general two-stage reward function across tasks with shared behaviors, while the student distills the learned multi-task policies into a vision-based policy. With BiDexHD, scalable learning of numerous bimanual dexterous skills from auto-constructed tasks becomes feasible, offering promising advances toward universal bimanual dexterous manipulation. Our empirical evaluation on the TACO dataset, spanning 141 tasks across six categories, demonstrates a task fulfillment rate of 74.59% on trained tasks and 51.07% on unseen tasks, showcasing the effectiveness and competitive zero-shot generalization capabilities of BiDexHD. For videos and more information, visit our project page https://sites.google.com/view/bidexhd.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# 分散学習における勾配圧縮のための時間予測符号化

Temporal Predictive Coding for Gradient Compression in Distributed Learning ( http://arxiv.org/abs/2410.02478v1 )

ライセンス: Link先を確認
Adrian Edin, Zheng Chen, Michel Kieffer, Mikael Johansson, (参考訳) 本稿では,イベントトリガー通信を用いた分散学習のための予測に基づく勾配圧縮手法を提案する。 我々のゴールは、局所勾配の時間的相関を利用して、分散エージェントからパラメータサーバに送信される情報量を削減することである。 線形予測器を用いて,最小二乗問題の解法により最適化された係数を用いて,過去の勾配を近似し,電流勾配の予測を行う。 各イテレーションでは、各エージェントが予測係数をサーバに送信し、予測された局所勾配を計算することができる。 真の局所勾配と予測された勾配の差は \textit{prediction residual と呼ばれ、そのノルムがしきい値を超えるときのみ伝達される。 } この追加の通信ステップが省略された場合、サーバは推定勾配として予測を使用する。 提案手法は,既存手法と比較して顕著な性能向上を示し,通信コストの低減を図り,コンバージェンスを実現している。

This paper proposes a prediction-based gradient compression method for distributed learning with event-triggered communication. Our goal is to reduce the amount of information transmitted from the distributed agents to the parameter server by exploiting temporal correlation in the local gradients. We use a linear predictor that \textit{combines past gradients to form a prediction of the current gradient}, with coefficients that are optimized by solving a least-square problem. In each iteration, every agent transmits the predictor coefficients to the server such that the predicted local gradient can be computed. The difference between the true local gradient and the predicted one, termed the \textit{prediction residual, is only transmitted when its norm is above some threshold.} When this additional communication step is omitted, the server uses the prediction as the estimated gradient. This proposed design shows notable performance gains compared to existing methods in the literature, achieving convergence with reduced communication costs.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# 強化学習を用いたクロス・エボディメント・デキステラス・グラスピング

Cross-Embodiment Dexterous Grasping with Reinforcement Learning ( http://arxiv.org/abs/2410.02479v1 )

ライセンス: Link先を確認
Haoqi Yuan, Bohan Zhou, Yuhui Fu, Zongqing Lu, (参考訳) デクスタースハンドは、複雑な現実世界の把握タスクに重要な可能性を秘めている。 最近の研究は、主に特定のロボットハンドの学習ポリシーに焦点を当てているが、多様な器用な手を制御する普遍的なポリシーの開発はほとんど調査されていない。 本研究では,強化学習(RL)を用いたクロス・エボディーズ・デキスタラス・グリーティング・ポリシーの学習について検討する。 遠隔操作により手の動きを制御できる能力に着想を得て,人間の手の固有グラスプに基づく普遍的な行動空間を提案する。 ポリシーは固有グリップ動作を出力し、その後、リターゲティングマッピングを通じて各ロボットハンドに対して特定の関節動作に変換する。 我々は,指先と手のひらの位置のみを含むロボットハンドの受容を簡略化し,異なるロボットハンドに統一された観察空間を提供する。 提案手法は,1つの視覚に基づくポリシーを用いて,YCBデータセットからオブジェクトを4つの異なる実施形態で把握する上で,80%の成功率を示す。 さらに, 従来の2つの実施形態に対するゼロショットの一般化と, 効率的な微調整の大幅な改善を図っている。 詳細とビデオについては、プロジェクトページ https://sites.google.com/view/crossdex.comを参照してください。

Dexterous hands exhibit significant potential for complex real-world grasping tasks. While recent studies have primarily focused on learning policies for specific robotic hands, the development of a universal policy that controls diverse dexterous hands remains largely unexplored. In this work, we study the learning of cross-embodiment dexterous grasping policies using reinforcement learning (RL). Inspired by the capability of human hands to control various dexterous hands through teleoperation, we propose a universal action space based on the human hand's eigengrasps. The policy outputs eigengrasp actions that are then converted into specific joint actions for each robot hand through a retargeting mapping. We simplify the robot hand's proprioception to include only the positions of fingertips and the palm, offering a unified observation space across different robot hands. Our approach demonstrates an 80% success rate in grasping objects from the YCB dataset across four distinct embodiments using a single vision-based policy. Additionally, our policy exhibits zero-shot generalization to two previously unseen embodiments and significant improvement in efficient finetuning. For further details and videos, visit our project page https://sites.google.com/view/crossdex.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# 開発者にとってフェアネスが重要な理由

It is Giving Major Satisfaction: Why Fairness Matters for Developers ( http://arxiv.org/abs/2410.02482v1 )

ライセンス: Link先を確認
Emeralda Sesari, Federica Sarro, Ayushi Rastogi, (参考訳) ソフトウェア実践者は、コントリビューションの不平等、性別バイアス、パフォーマンスレビューの不明確な基準など、仕事において不公平に直面していることが多い。 フェアネスと仕事の満足度との関係は他の分野でも確立されているが、ソフトウェア専門家との関係はいまだ未解明である。 本研究は、ソフトウェア実践者の間での公正感と仕事満足度との関連性について、一般的な傾向と人口統計学的差異の両方に着目して検討することを目的とする。 我々は,108人のソフトウェア実践者のオンライン調査を行い,それに続いて,ソフトウェア工学の文脈における公正感と仕事満足度との関係を分析し,この関係が集団間でどのように異なるのかをモデレーション分析した。 その結果,4つの公平性,分配性,手続き性,対人性,情報性は,仕事の満足度と仕事のセキュリティに対する満足度の両方に有意な影響を及ぼすことが明らかとなった。 このうち、対人フェアネスは、仕事全体の満足度に2倍以上の影響を及ぼす。 公正感と仕事満足度との関係は、女性、民族的に劣る、経験の浅い実践者、仕事の制限のある者にとって顕著に強い。 著作者の公正さは、雇用満足度をまとめる重要な要因として現れ、政策実施の公正さ、需要の高い状況、労働時間などは、特に特定の人口集団に影響を及ぼした。 本研究は,ソフトウェア工学における公正性のユニークな役割を強調し,公正な実践を促進するための戦略と,特定の人口集団に特有のアプローチを目標とする。

Software practitioners often face unfairness in their work, such as unequal recognition of contributions, gender bias, and unclear criteria for performance reviews. While the link between fairness and job satisfaction has been established in other fields, its relevance to software professionals remains underexplored. This study aims to examine how fairness perceptions relate to job satisfaction among software practitioners, focusing on both general trends and demographic-specific differences. We conducted an online survey of 108 software practitioners, followed by ordinal logistic regression to analyze the relationship between fairness perceptions and job satisfaction in software engineering contexts, with moderation analysis examining how this relationship varies across demographic groups. Our findings indicate that all four fairness dimensions, distributive, procedural, interpersonal, and informational, significantly affect both overall job satisfaction and satisfaction with job security. Among these, interpersonal fairness has the biggest impact, being more than twice as influential on overall job satisfaction. The relationship between fairness perceptions and job satisfaction is notably stronger for female, ethnically underrepresented, less experienced practitioners, and those with work limitations. Fairness in authorship emerged as an important factor for job satisfaction collectively, while fairness in policy implementation, high-demand situations, and working hours particularly impacted specific demographic groups. This study highlights the unique role of fairness in software engineering, offering strategies for organizations to promote fair practices and targeted approaches specific for certain demographic groups.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# イベントカスタマイズ画像生成

Event-Customized Image Generation ( http://arxiv.org/abs/2410.02483v1 )

ライセンス: Link先を確認
Zhen Wang, Yilei Jiang, Dong Zheng, Jun Xiao, Long Chen, (参考訳) ユーザが指定したコンセプトでカスタマイズされたイメージを生成するカスタマイズイメージ生成は、その創造性と斬新さから、大きな注目を集めている。 主題のカスタマイズにおいて顕著な進歩が達成され、いくつかの先駆的な研究は、実体(人間、動物、物体)の外観を超えた行動と相互作用のカスタマイズをさらに探求した。 しかし、これらの手法は2つの実体間の基本的な動作と相互作用にのみ焦点を当てており、それらの効果は不十分な「正確には同じ」参照画像によって制限される。 より複雑なシーンにカスタマイズされた画像生成を拡張すべく,イベントカスタマイズ画像生成という新たな課題を提案する。 単一の参照イメージが与えられた場合、シーン内の異なるエンティティ間のすべてのアクション、ポーズ、関係、インタラクションとして'event'を定義します。 このタスクは、複雑なイベントを正確にキャプチャし、さまざまなターゲットエンティティでカスタマイズされたイメージを生成することを目的としている。 そこで我々は,この課題を解決するために,新しいトレーニング不要イベントカスタマイズ手法,FreeEventを提案した。 具体的には、FreeEventは2つの余分なパスを、一般的な拡散分極プロセスと一緒に導入する。 1) エンティティスイッチングパス: 対象エンティティの生成に対して、クロスアテンションガイダンスと規制を適用する。 2)イベント転送経路:参照画像から対象画像に空間的特徴と自己認識マップを注入してイベント生成を行う。 この新しいタスクをさらに促進するため、我々はSWiG-EventとReal-Eventの2つの評価ベンチマークを収集した。 大規模な実験と改善により、FreeEventの有効性が実証された。

Customized Image Generation, generating customized images with user-specified concepts, has raised significant attention due to its creativity and novelty. With impressive progress achieved in subject customization, some pioneer works further explored the customization of action and interaction beyond entity (i.e., human, animal, and object) appearance. However, these approaches only focus on basic actions and interactions between two entities, and their effects are limited by insufficient ''exactly same'' reference images. To extend customized image generation to more complex scenes for general real-world applications, we propose a new task: event-customized image generation. Given a single reference image, we define the ''event'' as all specific actions, poses, relations, or interactions between different entities in the scene. This task aims at accurately capturing the complex event and generating customized images with various target entities. To solve this task, we proposed a novel training-free event customization method: FreeEvent. Specifically, FreeEvent introduces two extra paths alongside the general diffusion denoising process: 1) Entity switching path: it applies cross-attention guidance and regulation for target entity generation. 2) Event transferring path: it injects the spatial feature and self-attention maps from the reference image to the target image for event generation. To further facilitate this new task, we collected two evaluation benchmarks: SWiG-Event and Real-Event. Extensive experiments and ablations have demonstrated the effectiveness of FreeEvent.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# 暗号化フレンドリーなLLMアーキテクチャ

Encryption-Friendly LLM Architecture ( http://arxiv.org/abs/2410.02486v1 )

ライセンス: Link先を確認
Donghwan Rho, Taeseong Kim, Minje Park, Jung Woo Kim, Hyunsik Chae, Jung Hee Cheon, Ernest K. Ryu, (参考訳) 大規模言語モデル(LLM)は、ユーザインタラクションに基づいたパーソナライズされた応答を提供するが、このユースケースは深刻なプライバシー上の懸念を引き起こす。 ホモモルフィック暗号化(HE)は、暗号化された状態における算術演算をサポートし、プライバシー保護機械学習(PPML)の潜在的な解決策を提供する暗号プロトコルである。 しかし, 変圧器の計算強度は, HEをLLMに適用する上での課題となっている。 本研究では,パーソナライズされた(プライベートな)微調整による推論を重視した改良型HE型トランスフォーマーアーキテクチャを提案する。 LoRAファインチューニングとガウスカーネルを利用することで、計算速度の大幅な向上 – 微調整は6.94倍、推論は2.3倍 – を実現し、平文モデルに匹敵するパフォーマンスを維持している。 我々の発見は、データ保護が不可欠である領域において、プライバシ保護のLLMサービスを提供するための、実用的な概念実証を提供する。

Large language models (LLMs) offer personalized responses based on user interactions, but this use case raises serious privacy concerns. Homomorphic encryption (HE) is a cryptographic protocol supporting arithmetic computations in encrypted states and provides a potential solution for privacy-preserving machine learning (PPML). However, the computational intensity of transformers poses challenges for applying HE to LLMs. In this work, we propose a modified HE-friendly transformer architecture with an emphasis on inference following personalized (private) fine-tuning. Utilizing LoRA fine-tuning and Gaussian kernels, we achieve significant computational speedups -- 6.94x for fine-tuning and 2.3x for inference -- while maintaining performance comparable to plaintext models. Our findings provide a viable proof of concept for offering privacy-preserving LLM services in areas where data protection is crucial.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# ブレス=ヴァッサーシュタイン多様体上の確率分散-還元ガウス変分推論

Stochastic variance-reduced Gaussian variational inference on the Bures-Wasserstein manifold ( http://arxiv.org/abs/2410.02490v1 )

ライセンス: Link先を確認
Hoang Phuc Hau Luu, Hanlin Yu, Bernardo Williams, Marcelo Hartmann, Arto Klami, (参考訳) Bures-Wasserstein 空間における最適化は、変分推論と Wasserstein 勾配フローの間の接続を引き出すため、機械学習コミュニティで人気を集めている。 Kullback-Leibler分散の変分推論目的関数は負のエントロピーとポテンシャルエネルギーの和として記述することができ、前方のオイラーを選択の方法とすることができる。 特に、後方ステップは、この場合の閉形式解を認め、スキームの実用性を促進する。 しかし、ポテンシャルエネルギーのバーレス=ヴァッサーシュタイン勾配は「難解」な期待を伴うため、前進ステップはもはや正確ではない。 近年のアプローチでは、モンテカルロ法(実際には単サンプル推定器)を用いてこれらの項を近似し、高いばらつきと性能の低下をもたらす。 本稿では,制御変数の原理に基づく分散推定器を提案する。 理論的には、この推定器は興味のあるシナリオにおけるモンテカルロ推定器よりも分散が小さいことを示す。 また、分散低減が現在の解析の最適化限界を改善することを証明した。 提案した推定器は以前のビュール=ヴァッサーシュタイン法よりも次数次改善が得られることを示す。

Optimization in the Bures-Wasserstein space has been gaining popularity in the machine learning community since it draws connections between variational inference and Wasserstein gradient flows. The variational inference objective function of Kullback-Leibler divergence can be written as the sum of the negative entropy and the potential energy, making forward-backward Euler the method of choice. Notably, the backward step admits a closed-form solution in this case, facilitating the practicality of the scheme. However, the forward step is no longer exact since the Bures-Wasserstein gradient of the potential energy involves "intractable" expectations. Recent approaches propose using the Monte Carlo method -- in practice a single-sample estimator -- to approximate these terms, resulting in high variance and poor performance. We propose a novel variance-reduced estimator based on the principle of control variates. We theoretically show that this estimator has a smaller variance than the Monte-Carlo estimator in scenarios of interest. We also prove that variance reduction helps improve the optimization bounds of the current analysis. We demonstrate that the proposed estimator gains order-of-magnitude improvements over the previous Bures-Wasserstein methods.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# マルチソース非正規グラフィカルモデルにおける差分ネットワークの効率的な学習

Efficient learning of differential network in multi-source non-paranormal graphical models ( http://arxiv.org/abs/2410.02496v1 )

ライセンス: Link先を確認
Mojtaba Nikahd, Seyed Abolfazl Motahari, (参考訳) 本稿では,2種類の非正規グラフィカルモデル間のスパース構造変化や差分ネットワークの学習に対処する。 共分散行列は、すべての非正規なグラフィカルモデルと同一である。 差分精度行列によって符号化された差分ネットワークは、ラッソペナル化Dトラス損失関数を最適化することにより復号することができる。 そこで本研究では, 解経路からのみサンプリングする従来の手法を, あらかじめ選択した正則化パラメータで上回り, 正確な解経路を出力する効率的な手法を提案する。 提案手法は,特に差分ネットワークが疎い場合,計算量が少なくなる。 合成データのシミュレーションは,既存の手法と比較して,速度と精度の点で,我々の戦略に優れた性能を示す。 さらに,複数の情報源からのデータセットを組み合わせることの戦略は,実世界の問題における差分ネットワークの推測に非常に効果的であることを示す。 これは癌に対する薬剤耐性の実験結果に裏付けられている。 後者では, 各種独立研究ですでに確認されている薬剤耐性の重要な遺伝子を抽出する。

This paper addresses learning of sparse structural changes or differential network between two classes of non-paranormal graphical models. We assume a multi-source and heterogeneous dataset is available for each class, where the covariance matrices are identical for all non-paranormal graphical models. The differential network, which are encoded by the difference precision matrix, can then be decoded by optimizing a lasso penalized D-trace loss function. To this aim, an efficient approach is proposed that outputs the exact solution path, outperforming the previous methods that only sample from the solution path in pre-selected regularization parameters. Notably, our proposed method has low computational complexity, especially when the differential network are sparse. Our simulations on synthetic data demonstrate a superior performance for our strategy in terms of speed and accuracy compared to an existing method. Moreover, our strategy in combining datasets from multiple sources is shown to be very effective in inferring differential network in real-world problems. This is backed by our experimental results on drug resistance in tumor cancers. In the latter case, our strategy outputs important genes for drug resistance which are already confirmed by various independent studies.
翻訳日:2024-11-04 03:01:18 公開日:2024-10-03
# オンラインデータ混合のための動的勾配アライメント

Dynamic Gradient Alignment for Online Data Mixing ( http://arxiv.org/abs/2410.02498v1 )

ライセンス: Link先を確認
Simin Fan, David Grangier, Pierre Ablin, (参考訳) 大規模な言語モデル(LLM)を効果的にトレーニングするには,データ混合のトレーニングが不可欠である。 我々のゴールは、いくつかの例にしかアクセスできない特定のタスクのためのLLMを専門化する最適なデータ混合物を特定することである。 この問題に対する従来のアプローチには、アドホックリウェイト法、重要サンプリング、勾配アライメント技術などがある。 本稿では、勾配アライメントに着目し、スケーラブルなオンライン勾配アライメントアルゴリズムである動的勾配アライメント(DGA)を導入する。 DGAは、モデルの勾配と特定のタスク上のモデルの勾配が一致した事前学習データ混合物を動的に推定する。 DGAは、標準的な事前学習と比較して最小限のオーバーヘッドを発生させ、競争モデルを出力する最初の勾配アライメントアプローチである。 実験では,2つの主要なシナリオにおいて,重要なサンプリングよりも顕著な改善が示された。 一 予習セットが小さければ、限られたデータによるサンプリング過多が重要となるとき。 2) 専門データが不十分な場合、狭いポケットから重要データを抽出する。 本研究は,特にデータ制約のある環境での学習データ混合の最適化における勾配アライメント手法の有効性を実証し,データ可用性に制限のある特定のタスクにおけるLCM性能向上のための実用的なソリューションを提供する。

The composition of training data mixtures is critical for effectively training large language models (LLMs), as it directly impacts their performance on downstream tasks. Our goal is to identify an optimal data mixture to specialize an LLM for a specific task with access to only a few examples. Traditional approaches to this problem include ad-hoc reweighting methods, importance sampling, and gradient alignment techniques. This paper focuses on gradient alignment and introduces Dynamic Gradient Alignment (DGA), a scalable online gradient alignment algorithm. DGA dynamically estimates the pre-training data mixture on which the models' gradients align as well as possible with those of the model on the specific task. DGA is the first gradient alignment approach that incurs minimal overhead compared to standard pre-training and outputs a competitive model, eliminating the need for retraining the model. Experimentally, we demonstrate significant improvements over importance sampling in two key scenarios: (i) when the pre-training set is small and importance sampling overfits due to limited data; and (ii) when there is insufficient specialized data, trapping importance sampling on narrow pockets of data. Our findings underscore the effectiveness of gradient alignment methods in optimizing training data mixtures, particularly in data-constrained environments, and offer a practical solution for enhancing LLM performance on specific tasks with limited data availability.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 知識の定義:ブリッジング認識論と大規模言語モデル

Defining Knowledge: Bridging Epistemology and Large Language Models ( http://arxiv.org/abs/2410.02499v1 )

ライセンス: Link先を確認
Constanza Fierro, Ruchira Dhar, Filippos Stamatiou, Nicolas Garneau, Anders Søgaard, (参考訳) 大きな言語モデル(LLM)に関する文献では知識の主張が豊富だが、GPT-4は本当に地球が丸いことを「知っている」と言えるだろうか? 本稿では,認識論における知識の標準的な定義を概観し,LLMに適用可能な解釈を定式化する。 そこで我々は,現在のNLP研究が認識論的な枠組みに関して知識を概念化する過程において,矛盾とギャップを識別する。 さらに、100人のプロの哲学者やコンピュータ科学者を対象に、知識定義における彼らの好みと、LLMが本当に知っていけるかどうかについての見解を比較する。 最後に、最も関連する定義に従って知識をテストするための評価プロトコルを提案する。

Knowledge claims are abundant in the literature on large language models (LLMs); but can we say that GPT-4 truly "knows" the Earth is round? To address this question, we review standard definitions of knowledge in epistemology and we formalize interpretations applicable to LLMs. In doing so, we identify inconsistencies and gaps in how current NLP research conceptualizes knowledge with respect to epistemological frameworks. Additionally, we conduct a survey of 100 professional philosophers and computer scientists to compare their preferences in knowledge definitions and their views on whether LLMs can really be said to know. Finally, we suggest evaluation protocols for testing knowledge in accordance to the most relevant definitions.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# エゴセントリックメモリを用いた混合セッション会話

Mixed-Session Conversation with Egocentric Memory ( http://arxiv.org/abs/2410.02503v1 )

ライセンス: Link先を確認
Jihyoung Jang, Taeyoung Kim, Hyounghun Kim, (参考訳) 近年,対話システムのユーザビリティが向上している。 しかし、現実の会話のシナリオを反映してはいない。 現在の対話システムは、複数のパートナーを含む動的、連続的、長期的相互作用を複製することができない。 この欠点は、長期対話における深い階層化相互作用と、複数の参加者を含む広範囲な会話ネットワークという、現実世界の対話の両側面を考慮しようとする努力が限られていることから生じる。 これらの側面を統合するために,多セッション対話システムであるMixed-Session Conversationを導入する。 このシステムを実装するために、MISCと呼ばれる新しいデータセットを提案する。 MiSCの対話エピソードは6つの連続セッションで構成され、各エピソードには4人のスピーカー(1人のメインスピーカー、3人のパートナー)が登場する。 また,新たなメモリ管理機構を備えた対話モデルであるEgocentric Memory Enhanced Mixed-Session Conversation Agent (EMMA)を提案する。 EMMAは、パートナーとの会話中にメインスピーカーの視点から記憶を収集し、保持し、その後の対話においてシームレスな連続を可能にする。 会話相手が各セッションで変化しても,MISCの対話はシームレスに会話の流れを示す。 MiSCで訓練したEMMAは、会話全体を通して矛盾なく高い記憶力を維持するために評価される。

Recently introduced dialogue systems have demonstrated high usability. However, they still fall short of reflecting real-world conversation scenarios. Current dialogue systems exhibit an inability to replicate the dynamic, continuous, long-term interactions involving multiple partners. This shortfall arises because there have been limited efforts to account for both aspects of real-world dialogues: deeply layered interactions over the long-term dialogue and widely expanded conversation networks involving multiple participants. As the effort to incorporate these aspects combined, we introduce Mixed-Session Conversation, a dialogue system designed to construct conversations with various partners in a multi-session dialogue setup. We propose a new dataset called MiSC to implement this system. The dialogue episodes of MiSC consist of 6 consecutive sessions, with four speakers (one main speaker and three partners) appearing in each episode. Also, we propose a new dialogue model with a novel memory management mechanism, called Egocentric Memory Enhanced Mixed-Session Conversation Agent (EMMA). EMMA collects and retains memories from the main speaker's perspective during conversations with partners, enabling seamless continuity in subsequent interactions. Extensive human evaluations validate that the dialogues in MiSC demonstrate a seamless conversational flow, even when conversation partners change in each session. EMMA trained with MiSC is also evaluated to maintain high memorability without contradiction throughout the entire conversation.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 人間のフィードバックによる強化学習のためのデュアルアクティブ学習

Dual Active Learning for Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2410.02504v1 )

ライセンス: Link先を確認
Pangpang Liu, Chengchun Shi, Will Wei Sun, (参考訳) 人選好を伴う大規模言語モデル(LLM)の調整は、生成的人工知能の最近の進歩に不可欠である。 人間のフィードバックからの強化学習(RLHF)がこの目的を達成するために広く応用されている。 RLHFの重要なステップは、人間のフィードバックから報酬関数を学ぶことである。 しかし、人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。 加えて、異なる人間の教師は異なるレベルの専門知識を持っている。 そのため、最も適切な教師に意見を求めることが重要である。 本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。 D$-optimalデザインのアイデアに触発されて、会話と教師の同時選択のための2つのアクティブ報酬学習アルゴリズムを最初に提案する。 次に、学習した報酬推定器に基づいて、悲観的RLを用いてアライメント問題を解決する。 理論的には、提案した適応選択戦略によって得られる報酬推定器は、漸近的に最小限の一般化分散を達成し、我々の悲観的政策の準最適性が与えられたサンプル予算$T$で$O(1/\sqrt{T})$にスケールすることを証明する。 LLMのシミュレーションや実験を通じて,我々のアルゴリズムの有効性と最先端技術に対する優位性を実証した。

Aligning large language models (LLMs) with human preferences is critical to recent advances in generative artificial intelligence. Reinforcement learning from human feedback (RLHF) is widely applied to achieve this objective. A key step in RLHF is to learn the reward function from human feedback. However, human feedback is costly and time-consuming, making it essential to collect high-quality conversation data for human teachers to label. Additionally, different human teachers have different levels of expertise. It is thus critical to query the most appropriate teacher for their opinions. In this paper, we use offline reinforcement learning (RL) to formulate the alignment problem. Motivated by the idea of $D$-optimal design, we first propose a dual active reward learning algorithm for the simultaneous selection of conversations and teachers. Next, we apply pessimistic RL to solve the alignment problem, based on the learned reward estimator. Theoretically, we show that the reward estimator obtained through our proposed adaptive selection strategy achieves minimal generalized variance asymptotically, and prove that the sub-optimality of our pessimistic policy scales as $O(1/\sqrt{T})$ with a given sample budget $T$. Through simulations and experiments on LLMs, we demonstrate the effectiveness of our algorithm and its superiority over state-of-the-arts.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# Cut the Crap: LLMベースのマルチエージェントシステムのための経済コミュニケーションパイプライン

Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems ( http://arxiv.org/abs/2410.02506v1 )

ライセンス: Link先を確認
Guibin Zhang, Yanwei Yue, Zhixun Li, Sukwon Yun, Guancheng Wan, Kun Wang, Dawei Cheng, Jeffrey Xu Yu, Tianlong Chen, (参考訳) 大規模言語モデル(LLM)を用いたエージェントの最近の進歩は、集団知能が個々の能力を大幅に上回っていることを示している。 パフォーマンスは優れていますが、既存のマルチエージェントパイプラインは本質的に、大規模なデプロイメントの課題となる経済的コストの増加とともに、トークンのオーバーヘッドを大幅に増加させています。 この課題に対応するために、我々は$\texttt{AgentPrune}$という、経済的、シンプルで堅牢なマルチエージェント通信フレームワークを提案します。 技術的には、$\texttt{AgentPrune}$は、現在のLLMベースのマルチエージェントパイプラインに存在する \textit{communication redundancy} 問題を特定し、正式に定義し、空間的時間的メッセージパッシンググラフ上でワンショットプルーニングを効率よく実行し、トークン経済的かつ高性能な通信トポロジを生成する最初のものである。 6つのベンチマークにわたる大規模な実験により、$\texttt{AgentPrune}$ \textbf{(I)} は、$$$43.7$, \textbf{(II)} が既存のマルチエージェントフレームワークとシームレスに統合され、$28.1\%\sim72.8\%\downarrow$ トークンリダクションと$3.5\%\sim10.8\%\uparrow$ の2種類のエージェントベースの逆アタックに対して、$3.5\%\sim10.8\%\uparrow$パフォーマンス向上を達成できた。

Recent advancements in large language model (LLM)-powered agents have shown that collective intelligence can significantly outperform individual capabilities, largely attributed to the meticulously designed inter-agent communication topologies. Though impressive in performance, existing multi-agent pipelines inherently introduce substantial token overhead, as well as increased economic costs, which pose challenges for their large-scale deployments. In response to this challenge, we propose an economical, simple, and robust multi-agent communication framework, termed $\texttt{AgentPrune}$, which can seamlessly integrate into mainstream multi-agent systems and prunes redundant or even malicious communication messages. Technically, $\texttt{AgentPrune}$ is the first to identify and formally define the \textit{communication redundancy} issue present in current LLM-based multi-agent pipelines, and efficiently performs one-shot pruning on the spatial-temporal message-passing graph, yielding a token-economic and high-performing communication topology. Extensive experiments across six benchmarks demonstrate that $\texttt{AgentPrune}$ \textbf{(I)} achieves comparable results as state-of-the-art topologies at merely $\$5.6$ cost compared to their $\$43.7$, \textbf{(II)} integrates seamlessly into existing multi-agent frameworks with $28.1\%\sim72.8\%\downarrow$ token reduction, and \textbf{(III)} successfully defend against two types of agent-based adversarial attacks with $3.5\%\sim10.8\%\uparrow$ performance boost.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 大規模言語モデルでは法理論は成り立つか? マルチエージェント協調による法的推論の促進

Can Large Language Models Grasp Legal Theories? Enhance Legal Reasoning with Insights from Multi-Agent Collaboration ( http://arxiv.org/abs/2410.02507v1 )

ライセンス: Link先を確認
Weikang Yuan, Junjie Cao, Zhuoren Jiang, Yangyang Kang, Jun Lin, Kaisong Song, tianqianjin lin, Pengwei Yan, Changlong Sun, Xiaozhong Liu, (参考訳) 大きな言語モデル(LLM)は、法的理論を完全に理解し、複雑な法的推論タスクを実行するのに苦労する可能性がある。 本研究では,LLMの法理論と推論能力に対する理解をよりよく評価するための課題(電荷予測の解釈)を紹介する。 また,MALR(Multi-Agent framework for improve complex Legal Reasoning capabilities)を提案する。 MALRは非パラメトリック学習を採用し、LLMが複雑な法的タスクを自動分解し、人間の学習プロセスを模倣して法的規則から洞察を抽出し、LLMが法理論をよりよく理解し、法的推論能力を高める手助けをする。 複数の実世界のデータセットに対する大規模な実験により、提案されたフレームワークは、現実的なシナリオにおける複雑な推論問題に効果的に対処し、法的領域におけるより信頼性の高いアプリケーションへの道を開いた。

Large Language Models (LLMs) could struggle to fully understand legal theories and perform complex legal reasoning tasks. In this study, we introduce a challenging task (confusing charge prediction) to better evaluate LLMs' understanding of legal theories and reasoning capabilities. We also propose a novel framework: Multi-Agent framework for improving complex Legal Reasoning capability (MALR). MALR employs non-parametric learning, encouraging LLMs to automatically decompose complex legal tasks and mimic human learning process to extract insights from legal rules, helping LLMs better understand legal theories and enhance their legal reasoning abilities. Extensive experiments on multiple real-world datasets demonstrate that the proposed framework effectively addresses complex reasoning issues in practical scenarios, paving the way for more reliable applications in the legal domain.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# LLMは効率的なマルチエージェント探索を可能にする

Choices are More Important than Efforts: LLM Enables Efficient Multi-Agent Exploration ( http://arxiv.org/abs/2410.02511v1 )

ライセンス: Link先を確認
Yun Qu, Boyuan Wang, Yuhang Jiang, Jianzhun Shao, Yixiu Mao, Cheems Wang, Chang Liu, Xiangyang Ji, (参考訳) 拡張された状態対応空間では、効率的なマルチエージェント探索は強化学習における長年にわたる課題である。 新規性、多様性、不確実性を追求することは注意を惹きつけるが、適切なガイダンスの選択なしに探検によってもたらされる余分な努力は、コミュニティにとって現実的な問題となっている。 本稿では,LEMAEと呼ばれる系統的な手法を導入し,多言語探索の効率化を目的としたLarge Language Model (LLM) から情報伝達タスク関連ガイダンスを導出する手法を提案する。 具体的には,LLM の言語知識を,低 LLM 推論コストで識別的に,タスク遂行に不可欠な記号的キー状態に分類する。 鍵状態のパワーを解き放つため,代償密度を増大させることによりエージェントを鍵状態へ誘導するサブスペースベースの隠れ固有リワード(SHIR)を設計する。 さらに、キー状態間の遷移を組織的な探索のために特定のタスクで追跡するキー状態記憶木(KSMT)を構築します。 LEMAEは冗長な探索を減らし、既存のSOTAアプローチよりも大きなマージン(例えば、SMAC、MPE)で性能を向上し、特定のシナリオにおいて10倍の加速を実現している。

With expansive state-action spaces, efficient multi-agent exploration remains a longstanding challenge in reinforcement learning. Although pursuing novelty, diversity, or uncertainty attracts increasing attention, redundant efforts brought by exploration without proper guidance choices poses a practical issue for the community. This paper introduces a systematic approach, termed LEMAE, choosing to channel informative task-relevant guidance from a knowledgeable Large Language Model (LLM) for Efficient Multi-Agent Exploration. Specifically, we ground linguistic knowledge from LLM into symbolic key states, that are critical for task fulfillment, in a discriminative manner at low LLM inference costs. To unleash the power of key states, we design Subspace-based Hindsight Intrinsic Reward (SHIR) to guide agents toward key states by increasing reward density. Additionally, we build the Key State Memory Tree (KSMT) to track transitions between key states in a specific task for organized exploration. Benefiting from diminishing redundant explorations, LEMAE outperforms existing SOTA approaches on the challenging benchmarks (e.g., SMAC and MPE) by a large margin, achieving a 10x acceleration in certain scenarios.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# SAFLEX: 特徴ラベル外挿による自己適応的拡張

SAFLEX: Self-Adaptive Augmentation via Feature Label Extrapolation ( http://arxiv.org/abs/2410.02512v1 )

ライセンス: Link先を確認
Mucong Ding, Bang An, Yuancheng Xu, Anirudh Satheesh, Furong Huang, (参考訳) 深層学習の基盤となるデータ拡張は,特にラベル付きデータが少ないモデルの性能向上に不可欠である。 従来のテクニックは効果的だが、手作りのメソッドへの依存は、さまざまなデータタイプやタスクにまたがる適用性を制限している。 現代の学習可能な拡張手法は適応性の向上を提供するが、計算コストが高く、一般的な拡張ワークフローに組み込むのは難しい。 本研究では,既存の拡張戦略と新たなデータセットと学習タスクのギャップを効果的に埋める,データ拡張のための新しい効率的な方法を提案する。 SFLEX (Self-Adaptive Augmentation via Feature Label Extrapolation) では,任意のアップストリーム拡張パイプラインによって提供されるサンプルの標本重量と軟質ラベルを,特に設計された2段階最適化アルゴリズムを用いて学習する。 注目すべきは、SAFLEXはアップストリーム拡張パイプラインのノイズとラベルエラーを、限界計算コストで効果的に低減することである。 汎用モジュールとして、SAFLEXは、自然および医学的な画像や表データを含むさまざまなデータセットを網羅し、数ショットの学習とアウト・オブ・ディストリビューションの一般化におけるその長所を誇示している。 SAFLEXはRandAugやCutMixといった一般的な拡張戦略とシームレスに統合され、安定した拡散のようなトレーニング済みの大規模な生成モデルからのもので、CLIPの微調整のようなフレームワークとも互換性がある。 我々の発見は、既存の拡張パイプラインを新しいデータタイプとタスクに適用する可能性を強調し、より適応性がありレジリエントなトレーニングフレームワークへの移行を示唆している。

Data augmentation, a cornerstone technique in deep learning, is crucial in enhancing model performance, especially with scarce labeled data. While traditional techniques are effective, their reliance on hand-crafted methods limits their applicability across diverse data types and tasks. Although modern learnable augmentation methods offer increased adaptability, they are computationally expensive and challenging to incorporate within prevalent augmentation workflows. In this work, we present a novel, efficient method for data augmentation, effectively bridging the gap between existing augmentation strategies and emerging datasets and learning tasks. We introduce SAFLEX (Self-Adaptive Augmentation via Feature Label EXtrapolation), which learns the sample weights and soft labels of augmented samples provided by any given upstream augmentation pipeline, using a specifically designed efficient bilevel optimization algorithm. Remarkably, SAFLEX effectively reduces the noise and label errors of the upstream augmentation pipeline with a marginal computational cost. As a versatile module, SAFLEX excels across diverse datasets, including natural and medical images and tabular data, showcasing its prowess in few-shot learning and out-of-distribution generalization. SAFLEX seamlessly integrates with common augmentation strategies like RandAug, CutMix, and those from large pre-trained generative models like stable diffusion and is also compatible with frameworks such as CLIP's fine-tuning. Our findings highlight the potential to adapt existing augmentation pipelines for new data types and tasks, signaling a move towards more adaptable and resilient training frameworks.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 戦略分類におけるミニマックス群フェアネス

Minimax Group Fairness in Strategic Classification ( http://arxiv.org/abs/2410.02513v1 )

ライセンス: Link先を確認
Emily Diana, Saeed Sharifi-Malvajerdi, Ali Vakilian, (参考訳) 戦略的分類において、エージェントは、学習者の分類器から肯定的な分類結果を受け取るために、その特徴をコストで操作する。 このような環境での学習者の目標は、戦略的操作に堅牢な分類器を学習することである。 この領域のほとんどの研究は、精度を学習者の主目的とみなしているが、本研究では、精度の保証に加えて、グループ公正性を保証する学習目標について検討する。 我々は、集団群間の最大群誤差率を最小化するミニマックス群フェアネスの概念で研究する。 我々は,複数のグループからなるエージェントの集団間の公正性を意識したStackelbergゲームを,各グループが独自のコスト関数を持ち,学習者が仮説クラスHで作業している不可知的PAC設定において学習者が学習する形で形式化する。 このアルゴリズムは、H がすべての分類器の集合である場合でも、統計的にも計算的にも効率的である。 次に、必ずしも分離可能ではないコスト関数を考察し、Hが有限な戦略的VC次元を持つ場合、学習者に対してほぼ最適なランダム化分類器を求めるオラクル効率アルゴリズムの存在を示す。 学習者は、エージェントが特徴ベクトルを操作する前に、その分布(ランダム化分類器)から分類器を引き出す。 オラクル効率のアルゴリズム開発におけるこのような透明性の有効性を強調した。 実験により,実データに対するアルゴリズムの有効性を検証した。

In strategic classification, agents manipulate their features, at a cost, to receive a positive classification outcome from the learner's classifier. The goal of the learner in such settings is to learn a classifier that is robust to strategic manipulations. While the majority of works in this domain consider accuracy as the primary objective of the learner, in this work, we consider learning objectives that have group fairness guarantees in addition to accuracy guarantees. We work with the minimax group fairness notion that asks for minimizing the maximal group error rate across population groups. We formalize a fairness-aware Stackelberg game between a population of agents consisting of several groups, with each group having its own cost function, and a learner in the agnostic PAC setting in which the learner is working with a hypothesis class H. When the cost functions of the agents are separable, we show the existence of an efficient algorithm that finds an approximately optimal deterministic classifier for the learner when the number of groups is small. This algorithm remains efficient, both statistically and computationally, even when H is the set of all classifiers. We then consider cost functions that are not necessarily separable and show the existence of oracle-efficient algorithms that find approximately optimal randomized classifiers for the learner when H has finite strategic VC dimension. These algorithms work under the assumption that the learner is fully transparent: the learner draws a classifier from its distribution (randomized classifier) before the agents respond by manipulating their feature vectors. We highlight the effectiveness of such transparency in developing oracle-efficient algorithms. We conclude with verifying the efficacy of our algorithms on real data by conducting an experimental analysis.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 多エージェント環境における独立RLエージェント間の相互作用パターンの学習

Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments ( http://arxiv.org/abs/2410.02516v1 )

ライセンス: Link先を確認
Vasanth Reddy Baddam, Suat Gumussoy, Almuatazbellah Boker, Hoda Eldardiry, (参考訳) ドローンの群れや都市交通の制御など、現実世界の多くの問題は、自然にマルチエージェント強化学習(RL)問題としてモデリングに役立っている。 しかし、既存のマルチエージェントRL法は、主にエージェント間の通信の導入によってスケーラビリティの問題に悩まされることが多い。 したがって、シングルエージェントRLにおけるディープラーニングの成功をマルチエージェント設定に適応させることが重要な課題である。 この課題に対して,我々は,マルチエージェント環境を根本的に再構築するアプローチを提案する。 エージェントを個別に個別にモデル化する従来の手法とは異なり、我々のアプローチであるボトムアップネットワーク(BUN)はユニークな視点を採用している。 BUNは、独立した学習を促進する専門的なウェイト初期化戦略を採用しながら、マルチエージェントの集合を統一的な実体として扱う。 さらに、勾配情報を用いてエージェント間の接続を動的に確立し、これらの接続を限定的かつスパースに維持しながら、必要な調整を可能にし、計算予算を効果的に管理する。 協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する広範な実証評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。

Many real-world problems, such as controlling swarms of drones and urban traffic, naturally lend themselves to modeling as multi-agent reinforcement learning (RL) problems. However, existing multi-agent RL methods often suffer from scalability challenges, primarily due to the introduction of communication among agents. Consequently, a key challenge lies in adapting the success of deep learning in single-agent RL to the multi-agent setting. In response to this challenge, we propose an approach that fundamentally reimagines multi-agent environments. Unlike conventional methods that model each agent individually with separate networks, our approach, the Bottom Up Network (BUN), adopts a unique perspective. BUN treats the collective of multi-agents as a unified entity while employing a specialized weight initialization strategy that promotes independent learning. Furthermore, we dynamically establish connections among agents using gradient information, enabling coordination when necessary while maintaining these connections as limited and sparse to effectively manage the computational budget. Our extensive empirical evaluations across a variety of cooperative multi-agent scenarios, including tasks such as cooperative navigation and traffic control, consistently demonstrate BUN's superiority over baseline methods with substantially reduced computational costs.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 解釈可能な特徴工学のための意味誘導型RL

Semantic-Guided RL for Interpretable Feature Engineering ( http://arxiv.org/abs/2410.02519v1 )

ライセンス: Link先を確認
Mohamed Bouadi, Arta Alavi, Salima Benbernou, Mourad Ouziri, (参考訳) 機械学習(ML)モデルの品質は入力データに強く依存する。 このプロセスは、Feature Engineering (FE)と呼ばれる。 しかし、手動のフィーチャーエンジニアリングは時間がかかり、ケースバイケースのドメイン知識を必要とするため、Automated Feature Engineering(AutoFE)は重要です。 残る大きな課題は、解釈可能な機能を生成することです。 この問題に対処するために,セマンティック技術を用いた2段階のプロセスで解釈可能な特徴の生成を導くハイブリッドアプローチであるSMARTを紹介した。 前者は知識グラフ(KG)に埋め込まれた意味を推論するために記述論理(DL)を使用し、後者は知識グラフを利用して深層強化学習(DRL)を通して探索空間のガイド付き探索を行う。 公開データセットを用いた実験により,SMARTは高い解釈性を確保しつつ予測精度を大幅に向上することを示した。

The quality of Machine Learning (ML) models strongly depends on the input data, as such generating high-quality features is often required to improve the predictive accuracy. This process is referred to as Feature Engineering (FE). However, since manual feature engineering is time-consuming and requires case-by-case domain knowledge, Automated Feature Engineering (AutoFE) is crucial. A major challenge that remains is to generate interpretable features. To tackle this problem, we introduce SMART, a hybrid approach that uses semantic technologies to guide the generation of interpretable features through a two-step process: Exploitation and Exploration. The former uses Description Logics (DL) to reason on the semantics embedded in Knowledge Graphs (KG) to infer domain-specific features, while the latter exploits the knowledge graph to conduct a guided exploration of the search space through Deep Reinforcement Learning (DRL). Our experiments on public datasets demonstrate that SMART significantly improves prediction accuracy while ensuring a high level of interpretability.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 対圧駆動による特発的な小ギャップ対策

Fighting Exponentially Small Gaps by Counterdiabatic Driving ( http://arxiv.org/abs/2410.02520v1 )

ライセンス: Link先を確認
Federico Balducci, András Grabarits, Adolfo del Campo, (参考訳) 一階量子相転移による断熱流の加速における近似的反断熱駆動(CD)の効率について検討する。 具体的には、分析的に抽出可能な極小スピングラスボトルネックモデルを分析し、遷移点における指数的に小さなギャップと、スピンのマクロな再配置を伴う基底状態の変化の両方を示す。 変分フロケ・クリロフ展開を用いてCD項を構成すると、励起の生成は著しく抑制されるが、完全に断熱的な進化は困難であり、拡張において高次非局所項を必要とする。 本研究は,NP-hard Ising問題の特徴である極めて小さなギャップを越える場合,ローカルCD戦略が有効性に制限されていることを示す。 この制限に対処するため,量子ブラキストロン反断熱駆動(QBCD)と呼ばれる別の方法を提案する。

We investigate the efficiency of approximate counterdiabatic driving (CD) in accelerating adiabatic passage through a first-order quantum phase transition. Specifically, we analyze a minimal spin-glass bottleneck model that is analytically tractable and exhibits both an exponentially small gap at the transition point and a change in the ground state that involves a macroscopic rearrangement of spins. Using the variational Floquet-Krylov expansion to construct CD terms, we find that while the formation of excitations is significantly suppressed, achieving fully adiabatic evolution remains challenging, necessitating high-order nonlocal terms in the expansion. Our results demonstrate that local CD strategies have limited effectiveness when crossing the extremely small gaps characteristic of NP-hard Ising problems. To address this limitation, we propose an alternative method, termed quantum brachistochrone counterdiabatic driving (QBCD), which significantly increases the fidelity to the target state over the expansion method by directly addressing the gap-closing point and the associated edge states.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# 符号切替音声の自動行列言語決定法

Methods for Automatic Matrix Language Determination of Code-Switched Speech ( http://arxiv.org/abs/2410.02521v1 )

ライセンス: Link先を確認
Olga Iakovenko, Thomas Hain, (参考訳) コードスイッチング(Code-switching, CS)とは、2つ以上の言語間の話者交換プロセスであり、現代の世界ではますます一般的になっている。 CS音声をよりよく記述するために、マトリックス言語フレーム(MLF)理論は、CS発話の文法構造を提供する言語であるマトリックス言語の概念を導入している。 この研究において、MLID(Matrix Language Identity)決定のためのシステムを開発するために、MLF理論が用いられた。 英語/マンダリン語と英語/スペイン語のCSテキストと音声のMLIDは、単言語発話における言語識別の典型的な方法であるアコースティック言語アイデンティティ(LID)と比較された。 音声からのMLID予測器はLIDよりも高い相関を示し,F1マクロ (60\%) と相関スコア (0.38) に基づくMLID認識タスクではLIDよりも優れていた。 この新しいアプローチは、英語以外の言語(マンダリン語とスペイン語)が、LIDの単言語的選択に反するMLとして英語よりも好まれていることを特定している。

Code-switching (CS) is the process of speakers interchanging between two or more languages which in the modern world becomes increasingly common. In order to better describe CS speech the Matrix Language Frame (MLF) theory introduces the concept of a Matrix Language, which is the language that provides the grammatical structure for a CS utterance. In this work the MLF theory was used to develop systems for Matrix Language Identity (MLID) determination. The MLID of English/Mandarin and English/Spanish CS text and speech was compared to acoustic language identity (LID), which is a typical way to identify a language in monolingual utterances. MLID predictors from audio show higher correlation with the textual principles than LID in all cases while also outperforming LID in an MLID recognition task based on F1 macro (60\%) and correlation score (0.38). This novel approach has identified that non-English languages (Mandarin and Spanish) are preferred over the English language as the ML contrary to the monolingual choice of LID.
翻訳日:2024-11-04 02:51:33 公開日:2024-10-03
# Med-TTT:医用画像分割のための視力試験時間訓練モデル

Med-TTT: Vision Test-Time Training model for Medical Image Segmentation ( http://arxiv.org/abs/2410.02523v1 )

ライセンス: Link先を確認
Jiashu Xu, (参考訳) 医用画像分割は臨床診断と治療計画において重要な役割を担っている。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーに基づくモデルは、医療画像のセグメンテーションタスクにおいて顕著な成功を収めているが、長い範囲の依存関係をキャプチャする際の、高い計算複雑性や局所的な特徴の喪失といった課題に直面している。 これらの制約に対処するため,動的調整機能を備えたテスト時間トレーニング(TTT)レイヤと統合されたビジュアルバックボーンネットワークであるMed-TTTを提案する。 Med-TTTはVision-TTTレイヤを導入し、線形計算複雑性による長距離依存の効果的なモデリングと推論時の適応パラメータ調整を可能にする。 さらに,複雑な背景の微妙な病変特性の同定を容易にするため,画像特徴を異なるスケールで組み合わせる多分解能融合機構を設計した。 同時に、ハイパスフィルタリングに基づく周波数領域特徴強調戦略を採用し、画像のテクスチャやきめ細かな細部をより正確に捉えることができる。 実験の結果,Med-TTTは複数の医用画像データセットにおいて既存の手法よりも優れており,特に複雑な画像背景において強いセグメンテーション能力を示すことがわかった。 このモデルは精度,感度,Dice係数の面で先行的な性能を実現し,医用画像セグメンテーションの分野における効率的かつ堅牢なソリューションを提供する。

Medical image segmentation plays a crucial role in clinical diagnosis and treatment planning. Although models based on convolutional neural networks (CNNs) and Transformers have achieved remarkable success in medical image segmentation tasks, they still face challenges such as high computational complexity and the loss of local features when capturing long-range dependencies. To address these limitations, we propose Med-TTT, a visual backbone network integrated with Test-Time Training (TTT) layers, which incorporates dynamic adjustment capabilities. Med-TTT introduces the Vision-TTT layer, which enables effective modeling of long-range dependencies with linear computational complexity and adaptive parameter adjustment during inference. Furthermore, we designed a multi-resolution fusion mechanism to combine image features at different scales, facilitating the identification of subtle lesion characteristics in complex backgrounds. At the same time, we adopt a frequency domain feature enhancement strategy based on high pass filtering, which can better capture texture and fine-grained details in images. Experimental results demonstrate that Med-TTT significantly outperforms existing methods on multiple medical image datasets, exhibiting strong segmentation capabilities, particularly in complex image backgrounds. The model achieves leading performance in terms of accuracy, sensitivity, and Dice coefficient, providing an efficient and robust solution for the field of medical image segmentation.The code is available at https://github.com/Jiashu-Xu/Med-TTT .
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# Tensor Augmentationsによるオフラインファウンデーション機能から学ぶ

Learning from Offline Foundation Features with Tensor Augmentations ( http://arxiv.org/abs/2410.02527v1 )

ライセンス: Link先を確認
Emir Konuk, Christos Matsoukas, Moein Sorkhei, Phitchapha Lertsiravaramet, Kevin Smith, (参考訳) 我々は, 直接開発が不可能な限られた資源環境において, 基礎モデルの能力を活用するための効率的なトレーニングスキームである, テンソル拡張付きオフライン基礎機能からの学習を紹介する。 LOFF-TAは、凍結したファンデーションモデルからキャッシュされた機能の埋め込みに関するコンパクトな分類器をトレーニングする。 拡張画像の埋め込みは保存するには多すぎるが、トレーニングには拡張プロセスが不可欠であるため、元の非拡張画像のキャッシュ埋め込みにテンソル拡張を適用することを提案する。 LOFF-TAは、基礎モデルのサイズに関わらず、計算能力に制限のある設定で、基礎モデルのパワーを活用できるようにする。 さらに、LOFF-TAは計算量を増やすことなく、基礎モデルを高解像度画像に適用することができる。 特定のシナリオでは、LOFF-TAを用いたトレーニングは基礎モデルを直接微調整するよりも良い結果が得られる。

We introduce Learning from Offline Foundation Features with Tensor Augmentations (LOFF-TA), an efficient training scheme designed to harness the capabilities of foundation models in limited resource settings where their direct development is not feasible. LOFF-TA involves training a compact classifier on cached feature embeddings from a frozen foundation model, resulting in up to $37\times$ faster training and up to $26\times$ reduced GPU memory usage. Because the embeddings of augmented images would be too numerous to store, yet the augmentation process is essential for training, we propose to apply tensor augmentations to the cached embeddings of the original non-augmented images. LOFF-TA makes it possible to leverage the power of foundation models, regardless of their size, in settings with limited computational capacity. Moreover, LOFF-TA can be used to apply foundation models to high-resolution images without increasing compute. In certain scenarios, we find that training with LOFF-TA yields better results than directly fine-tuning the foundation model.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# ARM TrustZone 技術を用いたエッジコンピューティングによる産業用ゲートウェイ

An Edge-Computing based Industrial Gateway for Industry 4.0 using ARM TrustZone Technology ( http://arxiv.org/abs/2410.02529v1 )

ライセンス: Link先を確認
Sandeep Gupta, (参考訳) 典型的な自動化ピラミッドの5つのレベル間のシームレスなネクサスを確立するための安全で効率的なコミュニケーションは、Industrial 4.0に最優先される。 具体的には、これらのレベルの垂直および水平の統合は、生産性を加速し、運用活動を改善するための包括的な要件である。 垂直統合は、システムとアプリケーションを接続することで、可視性、柔軟性、生産性を向上させることができる。 水平統合は、サプライチェーン内の内部生産施設、多地点運用、およびサードパーティパートナーを接続することで、より良いコラボレーションと適応性を提供する。 本稿では,産業用4.0垂直・水平統合を実現するためのエッジ計算型産業用ゲートウェイを提案する。 その後、セキュリティ面とエッジパラダイムに重点を置き、データソースに計算資源やデータストレージを近づけるリモート生産ラインメンテナンスユースケースを実演するプロトタイプを設計・開発する。

Secure and efficient communication to establish a seamless nexus between the five levels of a typical automation pyramid is paramount to Industry 4.0. Specifically, vertical and horizontal integration of these levels is an overarching requirement to accelerate productivity and improve operational activities. Vertical integration can improve visibility, flexibility, and productivity by connecting systems and applications. Horizontal integration can provide better collaboration and adaptability by connecting internal production facilities, multi-site operations, and third-party partners in a supply chain. In this paper, we propose an Edge-computing-based Industrial Gateway for interfacing information technology and operational technology that can enable Industry 4.0 vertical and horizontal integration. Subsequently, we design and develop a working prototype to demonstrate a remote production-line maintenance use case with a strong focus on security aspects and the edge paradigm to bring computational resources and data storage closer to data sources.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# 太陽ダイナミクス観測のための基礎モデル

A Foundation Model for the Solar Dynamics Observatory ( http://arxiv.org/abs/2410.02530v1 )

ライセンス: Link先を確認
James Walsh, Daniel G. Gass, Raul Ramos Pollan, Paul J. Wright, Richard Galvez, Noah Kasmanoff, Jason Naradowsky, Anne Spalding, James Parr, Atılım Güneş Baydin, (参考訳) SDO-FMは、NASAのソーラー・ダイナミクス・オブザーバ(SDO)衛星のデータを用いた基礎モデルであり、太陽の複雑な物理的相互作用を多モードの埋め込み空間にカプセル化するために3つの別々の機器を統合する。 このモデルはSDOに関する科学的研究の合理化に役立てることができる。 機械学習対応データセットを作成するための取り込みパイプライン、モデルアーキテクチャとトレーニングアプローチ、結果の埋め込みと微調整可能なモデル、そして最後に下流の微調整されたアプリケーションについて論じる。 この取り組みの重要な構成要素は、開発の各段階での課題スペシャリスト、科学的価値のレビュー、モデルアーキテクチャ、データセット、訓練パラダイム決定のためのガイダンスの提供である。 本稿では、Hugging Faceとsdofm.orgのコミュニティで利用可能な、事前トレーニングされたモデルと埋め込みデータセットのリリースを示す。

SDO-FM is a foundation model using data from NASA's Solar Dynamics Observatory (SDO) spacecraft; integrating three separate instruments to encapsulate the Sun's complex physical interactions into a multi-modal embedding space. This model can be used to streamline scientific investigations involving SDO by making the enormous datasets more computationally accessible for heliophysics research and enable investigations that require instrument fusion. We discuss four key components: an ingestion pipeline to create machine learning ready datasets, the model architecture and training approach, resultant embeddings and fine-tunable models, and finally downstream fine-tuned applications. A key component of this effort has been to include subject matter specialists at each stage of development; reviewing the scientific value and providing guidance for model architecture, dataset, and training paradigm decisions. This paper marks release of our pretrained models and embedding datasets, available to the community on Hugging Face and sdofm.org.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# グラフの到達可能性に対するスキーマ対応論理変換法

A Schema-aware Logic Reformulation for Graph Reachability ( http://arxiv.org/abs/2410.02533v1 )

ライセンス: Link先を確認
Davide Di Pierro, Stefano Ferilli, (参考訳) グラフ到達性(Graph reachability)とは、グラフ内の2つの異なる点が、一般に意味論が付随する弧によって相互接続されているかどうかを理解するタスクである。 到達可能性には、モーションプランニングからルーティングまで、多くのアプリケーションがあります。 リーチビリティの向上には、論理言語で実装された従来の深さ優先戦略と幅優先戦略の複雑さを避けるために、関係の構造的な知識が必要である。 いくつかの文脈では、グラフはスキーマ定義を豊かにし、すべての弧に対して領域と範囲を確立する。 探索を導くためのスキーマ対応の形式化の導入は、未使用のパスを切断し、原則として、より早くターゲットに到達することを優先することで、センシティブな改善をもたらす可能性がある。 本研究では,インスタンスの高レベルな概念化を活用することで,グラフパスを自動的に排除・ソートする戦略を提案する。 目的は、時間、空間要求、バックトラック数の観点から従来のアルゴリズムを改善することができるグラフ到達可能性シナリオの新しい一階述語論理の再構成を得ることである。 実験では,探索戦略中のバックトラック数を減らし,時間と空間を節約できるというアプローチの利点が期待されている。

Graph reachability is the task of understanding whether two distinct points in a graph are interconnected by arcs to which in general a semantic is attached. Reachability has plenty of applications, ranging from motion planning to routing. Improving reachability requires structural knowledge of relations so as to avoid the complexity of traditional depth-first and breadth-first strategies, implemented in logic languages. In some contexts, graphs are enriched with their schema definitions establishing domain and range for every arc. The introduction of a schema-aware formalization for guiding the search may result in a sensitive improvement by cutting out unuseful paths and prioritising those that, in principle, reach the target earlier. In this work, we propose a strategy to automatically exclude and sort certain graph paths by exploiting the higher-level conceptualization of instances. The aim is to obtain a new first-order logic reformulation of the graph reachability scenario, capable of improving the traditional algorithms in terms of time, space requirements, and number of backtracks. The experiments exhibit the expected advantages of the approach in reducing the number of backtracks during the search strategy, resulting in saving time and space as well.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# Pseudo-Stereo Inputs: 自己監督ステレオマッチングにおけるOcclusion Challengeの解法

Pseudo-Stereo Inputs: A Solution to the Occlusion Challenge in Self-Supervised Stereo Matching ( http://arxiv.org/abs/2410.02534v1 )

ライセンス: Link先を確認
Ruizhi Yang, Xingqiang Li, Jiajun Bai, Jinsong Du, (参考訳) 自己教師型ステレオマッチングは、高価なラベル付きデータから独立しているため、アプリケーションと研究にとって非常に有望である。 しかし、光学的損失関数に基づく自己監督型ステレオマッチングのパラダイムは、オクルージョン問題により、常に性能問題に悩まされてきた。 隠蔽画素の位置が入力ステレオ画像によって定義されるエピポーラ探索方向と一貫して一致していることが、自己監督訓練中の固定位置での情報損失と誤フィードバックをもたらすという事実による。 本研究では,コアオクルージョン問題に対処するため,単純な擬似ステレオ入力方式を提案する。 この戦略は、入力とフィードバックの画像を分離し、ネットワークに隠蔽対象の両側から情報を確率的にサンプリングするように促す。 その結果、上記固定閉塞領域における情報の持続的欠如が軽減される。 これに基づいて、我々は、この戦略から生じるフィードバックの矛盾と過度に適合する問題にさらに対処します。 これらのコンポーネントを統合することで,既存手法に比べて安定かつ大幅な性能向上を実現している。 性能評価のための定量的実験を行った。 定性的実験はさらに、閉鎖領域においても正確な不均一性推論を示す。 これらの結果は,光度損失に基づく直接自己教師型ステレオマッチングの分野において,従来の手法よりも顕著に進歩したことを示す。 提案した擬似ステレオ入力戦略は、その単純さと有効性から、直接自己教師型ステレオマッチングのための新しいパラダイムとして機能する可能性がある。 コードはhttps://github.com/qrzyang/Pseudo-Stereo.comで入手できる。

Self-supervised stereo matching holds great promise for application and research due to its independence from expensive labeled data. However, direct self-supervised stereo matching paradigms based on photometric loss functions have consistently struggled with performance issues due to the occlusion challenge. The crux of the occlusion challenge lies in the fact that the positions of occluded pixels consistently align with the epipolar search direction defined by the input stereo images, leading to persistent information loss and erroneous feedback at fixed locations during self-supervised training. In this work, we propose a simple yet highly effective pseudo-stereo inputs strategy to address the core occlusion challenge. This strategy decouples the input and feedback images, compelling the network to probabilistically sample information from both sides of the occluding objects. As a result, the persistent lack of information in the aforementioned fixed occlusion areas is mitigated. Building upon this, we further address feedback conflicts and overfitting issues arising from the strategy. By integrating these components, our method achieves stable and significant performance improvements compared to existing methods. Quantitative experiments are conducted to evaluate the performance. Qualitative experiments further demonstrate accurate disparity inference even at occluded regions. These results demonstrate a significant advancement over previous methods in the field of direct self-supervised stereo matching based on photometric loss. The proposed pseudo-stereo inputs strategy, due to its simplicity and effectiveness, has the potential to serve as a new paradigm for direct self-supervised stereo matching. Code is available at https://github.com/qrzyang/Pseudo-Stereo.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# 音声認識システムにおけるロシア語テキストの自動アクセントと転写アルゴリズム

Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems ( http://arxiv.org/abs/2410.02538v1 )

ライセンス: Link先を確認
Olga Iakovenko, Ivan Bondarenko, Mariya Borovikova, Daniil Vodolazsky, (参考訳) 本稿では,ASR (Automatic Speech Recognition) などの音声接続タスク用ロシア語テキストの自動アクセント化と音素転写のためのルールベースシステムの概要について述べる。 開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。 アクセントは、A.A.ザリズニャクとウィクタリーコーパスの「ロシア語の文法辞書」に基づいている。 ホモグラフを識別するために、アクセントシステムは、リカレントニューラルネットワーク(RNN)に基づく文の形態情報も活用する。 転写アルゴリズムは、B.M. Lobanov と L.I. Tsirulnik "Computer Synthesis and Voice Cloning" のモノグラフに示された規則を適用している。 本稿では,ASR や Speech To Text (STT) タスクに関連する科学研究に使用可能な,オープンソースモジュールで実装したルールについて述べる。 自動マークアップされたロシアのVoxforgeデータベースのテキストアノテーションは、CMU Sphinxの音響モデルのトレーニングデータとして使用された。 得られた音響モデルはクロスバリデーションで評価され、平均単語精度は71.2%であった。 開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。

This paper presents an overview of rule-based system for automatic accentuation and phonemic transcription of Russian texts for speech connected tasks, such as Automatic Speech Recognition (ASR). Two parts of the developed system, accentuation and transcription, use different approaches to achieve correct phonemic representations of input phrases. Accentuation is based on "Grammatical dictionary of the Russian language" of A.A. Zaliznyak and wiktionary corpus. To distinguish homographs, the accentuation system also utilises morphological information of the sentences based on Recurrent Neural Networks (RNN). Transcription algorithms apply the rules presented in the monograph of B.M. Lobanov and L.I. Tsirulnik "Computer Synthesis and Voice Cloning". The rules described in the present paper are implemented in an open-source module, which can be of use to any scientific study connected to ASR or Speech To Text (STT) tasks. Automatically marked up text annotations of the Russian Voxforge database were used as training data for an acoustic model in CMU Sphinx. The resulting acoustic model was evaluated on cross-validation, mean Word Accuracy being 71.2%. The developed toolkit is written in the Python language and is accessible on GitHub for any researcher interested.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# GPUサイドチャネルインサイトのためのHDMIとUSBポートのエクスプロイト

Exploiting HDMI and USB Ports for GPU Side-Channel Insights ( http://arxiv.org/abs/2410.02539v1 )

ライセンス: Link先を確認
Sayed Erfan Arefin, Abdul Serwadda, (参考訳) 現代のコンピュータは、外部の周辺機器とディスプレイ機器を接続するためのUSBとHDMIポートに依存している。 セキュリティ対策が組み込まれているにもかかわらず、これらのポートは受動電源ベースのサイドチャネル攻撃の影響を受けやすいままである。 本稿では,これらのポートにおける電力消費パターンを利用してGPUアクティビティを推定する新たな攻撃方法を提案する。 我々は、これらのポートに差し込むカスタムデバイスを開発し、その高解像度のパワー測定が、ニューラルネットワーク計算やビデオレンダリングなどのGPUプロセスに関する推論を成功させることを示す。 ユビキタスなUSBポートとHDMIポートの存在により、デバイスは不適切な配置が可能となり、データチャネルとの非干渉により、セキュリティアラートがトリガーされないことが保証される。 我々の研究結果は、HDMIおよびUSBポートセキュリティの現在の世代を再評価し、強化する必要性を浮き彫りにした。

Modern computers rely on USB and HDMI ports for connecting external peripherals and display devices. Despite their built-in security measures, these ports remain susceptible to passive power-based side-channel attacks. This paper presents a new class of attacks that exploit power consumption patterns at these ports to infer GPU activities. We develop a custom device that plugs into these ports and demonstrate that its high-resolution power measurements can drive successful inferences about GPU processes, such as neural network computations and video rendering. The ubiquitous presence of USB and HDMI ports allows for discreet placement of the device, and its non-interference with data channels ensures that no security alerts are triggered. Our findings underscore the need to reevaluate and strengthen the current generation of HDMI and USB port security defenses.
翻訳日:2024-11-04 02:41:38 公開日:2024-10-03
# 公平な分散学習

Fair Decentralized Learning ( http://arxiv.org/abs/2410.02541v1 )

ライセンス: Link先を確認
Sayan Biswas, Anne-Marie Kermarrec, Rishi Sharma, Thibaud Trinca, Martijn de Vos, (参考訳) 分散学習(DL)は、ノードが生データを共有せずに機械学習モデルを協調的にトレーニングすることを可能にする、新たなアプローチである。 医療などの多くのアプリケーション領域において、このアプローチはトレーニングデータの特徴空間における異種性のレベルが高いため、課題に直面します。 このような特徴の不均一性はモデルの有用性を低下させ、特に未表現のトレーニングデータを持つノードに対して、公平性に悪影響を及ぼす。 本稿では,クラスタリングに基づくDLアルゴリズムである \textsc{Facade} について紹介する。 textsc{Facade}の課題は、個々のノードがどのクラスタに属しているのかを知る必要がなく、ローカルデータの特徴の類似性に基づいて、各機能ごとにノードをクラスタに割り当てることである。 \textsc{Facade} (1) は、時間とともにノードを適切なクラスタに動的に割り当て、(2) ノードは、完全に分散された方法で各クラスタの特別なモデルを協調的にトレーニングすることができる。 理論的には、textsc{Facade} の収束を証明し、我々のアルゴリズムを実装し、3つの最先端のベースラインと比較する。 3つのデータセットに対する実験結果は、モデル精度と公平性の観点から、我々のアプローチの優位性を示すものである。 CIFAR-10データセットの‘textsc{Facade}’は、最高のパフォーマンスのベースラインと比較して、クラスタサイズが不均衡な場合にターゲット精度に達するために通信コストを32.3\%削減する。

Decentralized learning (DL) is an emerging approach that enables nodes to collaboratively train a machine learning model without sharing raw data. In many application domains, such as healthcare, this approach faces challenges due to the high level of heterogeneity in the training data's feature space. Such feature heterogeneity lowers model utility and negatively impacts fairness, particularly for nodes with under-represented training data. In this paper, we introduce \textsc{Facade}, a clustering-based DL algorithm specifically designed for fair model training when the training data exhibits several distinct features. The challenge of \textsc{Facade} is to assign nodes to clusters, one for each feature, based on the similarity in the features of their local data, without requiring individual nodes to know apriori which cluster they belong to. \textsc{Facade} (1) dynamically assigns nodes to their appropriate clusters over time, and (2) enables nodes to collaboratively train a specialized model for each cluster in a fully decentralized manner. We theoretically prove the convergence of \textsc{Facade}, implement our algorithm, and compare it against three state-of-the-art baselines. Our experimental results on three datasets demonstrate the superiority of our approach in terms of model accuracy and fairness compared to all three competitors. Compared to the best-performing baseline, \textsc{Facade} on the CIFAR-10 dataset also reduces communication costs by 32.3\% to reach a target accuracy when cluster sizes are imbalanced.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 量子寿命拡大による余剰消去コスト

Extra cost of erasure due to quantum lifetime broadening ( http://arxiv.org/abs/2410.02546v1 )

ライセンス: Link先を確認
Joe Dunlop, Federico Cerisola, Juliette Monsel, Sofia Sevitz, Jorge Tabanera-Bravo, Jonathan Dexter, Federico Fedele, Natalia Ares, Janet Anders, (参考訳) 情報の一部を消去するエネルギーコストは、Landauerによって、その環境の温度に関して、基本的に低く抑えられた:$W\geq k_\mathrm{B} T \ln 2$。 しかし、実際の電子機器では、情報伝達系は通常、2つ以上の電極と接触し、温度と化学的ポテンシャルが異なる。 このような非平衡状態における消去コストをどう設定するかは明らかではない。 情報処理の熱力学的限界をテストするための有望な技術は量子ドットであり、あるビットが1つの電子の有無で符号化される。 ここでは、このタイプのデバイスの熱力学的記述を開発し、電極温度に加えて、量子ドット間のポテンシャル差とエネルギーレベルの寿命拡大が、消去の最小作業コストに寄与することを発見した。 現実的な文脈では、これらの貢献は温度のみによるコストを大幅に上回る可能性がある。

The energy cost of erasing a bit of information was fundamentally lower bounded by Landauer, in terms of the temperature of its environment: $W\geq k_\mathrm{B} T \ln 2$. However, in real electronic devices, the information-bearing system is usually in contact with two or more electrodes, with different temperatures and chemical potentials. It is not clear what sets the cost of erasure in such nonequilibrium situations. One promising technology for testing the thermodynamic limits of information processing is quantum dots, in which a bit is encoded in the presence or absence of a single electron. We here develop a thermodynamic description of devices of this type and find that, in addition to the electrode temperatures, the potential difference across the quantum dot and lifetime broadening of its energy level contribute to the minimum work cost of erasure. In practical contexts, these contributions may significantly outweigh the cost due to temperature alone.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# プライバシ画像分類のためのパーソナライズされた量子フェデレーション学習

Personalized Quantum Federated Learning for Privacy Image Classification ( http://arxiv.org/abs/2410.02547v1 )

ライセンス: Link先を確認
Jinjing Shi, Tian Chen, Shichao Zhang, Xuelong Li, (参考訳) 量子フェデレーション学習は、プライバシ画像分類の改善をもたらし、クライアントモデルの個性の欠如は、量子フェデレーション学習の亜最適化に寄与する可能性がある。 プライバシ画像分類のためのパーソナライズされた量子フェデレーション学習アルゴリズムを提案する。 まず、パーソナライズされた量子フェデレーション学習モデルを構築し、パーソナライズされたパラメータを維持するために、クライアントモデルにパーソナライズされたレイヤを設定する。 第2に、クライアントとサーバ間で交換された情報を保護するために、パーソナライズされた量子フェデレーション学習アルゴリズムを導入し、FashionMNISTデータセット上の画像分類にパーソナライズされたフェデレーション学習を適用し、その実験結果から、ローカルトレーニングサンプルが不均衡な状況であっても、パーソナライズされた量子フェデレーション学習アルゴリズムが、優れた性能でグローバルおよびローカルモデルを得ることができることを示す。 サーバの精度は8つのクライアントと100の分散パラメータで100%であり、非個人化モデルよりも7%高い。 平均クライアント精度は2つのクライアントを持つ非個人化モデルよりも2.9%高く、分布パラメータは1。 従来の量子フェデレーション学習アルゴリズムと比較して、提案されたパーソナライズされた量子フェデレーション学習アルゴリズムは、モデルとデータプライバシの両方を保護しながら、追加のローカルトレーニングの必要性を排除し、量子技術の広範な採用と適用を促進し、よりセキュアでスケーラブルで効率的な量子分散機械学習ソリューションの道を開く可能性がある。

Quantum federated learning has brought about the improvement of privacy image classification, while the lack of personality of the client model may contribute to the suboptimal of quantum federated learning. A personalized quantum federated learning algorithm for privacy image classification is proposed to enhance the personality of the client model in the case of an imbalanced distribution of images. First, a personalized quantum federated learning model is constructed, in which a personalized layer is set for the client model to maintain the personalized parameters. Second, a personalized quantum federated learning algorithm is introduced to secure the information exchanged between the client and server.Third, the personalized federated learning is applied to image classification on the FashionMNIST dataset, and the experimental results indicate that the personalized quantum federated learning algorithm can obtain global and local models with excellent performance, even in situations where local training samples are imbalanced. The server's accuracy is 100% with 8 clients and a distribution parameter of 100, outperforming the non-personalized model by 7%. The average client accuracy is 2.9% higher than that of the non-personalized model with 2 clients and a distribution parameter of 1. Compared to previous quantum federated learning algorithms, the proposed personalized quantum federated learning algorithm eliminates the need for additional local training while safeguarding both model and data privacy.It may facilitate broader adoption and application of quantum technologies, and pave the way for more secure, scalable, and efficient quantum distribute machine learning solutions.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 局所フローマッチング生成モデル

Local Flow Matching Generative Models ( http://arxiv.org/abs/2410.02548v1 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie, (参考訳) フローマッチング(英: Flow Matching, FM)は、2つの分布間の補間を連続的かつ非可逆的に学習し、特に生成モデルにおけるノイズからデータを生成するためのシミュレーション不要な手法である。 本稿では,FMサブモデルのシーケンスを学習し,データ・ツー・ノイズ方向のステップサイズまで拡散過程を一致させるローカルフローマッチング(LFM)を提案する。 各ステップにおいて、サブモデルによって補間される2つの分布は、データ対ノイズよりも互いに近接しており、より高速なトレーニングを伴うより小さなモデルの使用を可能にする。 LFMの段階的な構造は自然に蒸留され、異なる蒸留技術を用いて生成を高速化することができる。 理論的には、生成したデータ分布と真のデータ分布の間の$\chi^2$-divergenceの観点から、提案したフローモデルの生成保証を証明する。 実験では,表形式データと画像データセットの無条件生成と,ロボット操作ポリシーの条件生成について,FMと比較して,FMの訓練効率の向上と競争的生成性能を実証した。

Flow Matching (FM) is a simulation-free method for learning a continuous and invertible flow to interpolate between two distributions, and in particular to generate data from noise in generative modeling. In this paper, we introduce Local Flow Matching (LFM), which learns a sequence of FM sub-models and each matches a diffusion process up to the time of the step size in the data-to-noise direction. In each step, the two distributions to be interpolated by the sub-model are closer to each other than data vs. noise, and this enables the use of smaller models with faster training. The stepwise structure of LFM is natural to be distilled and different distillation techniques can be adopted to speed up generation. Theoretically, we prove a generation guarantee of the proposed flow model in terms of the $\chi^2$-divergence between the generated and true data distributions. In experiments, we demonstrate the improved training efficiency and competitive generative performance of LFM compared to FM on the unconditional generation of tabular data and image datasets, and also on the conditional generation of robotic manipulation policies.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# ColaCare: 大規模言語モデル駆動マルチエージェントコラボレーションによる電子健康記録モデリングの強化

ColaCare: Enhancing Electronic Health Record Modeling through Large Language Model-Driven Multi-Agent Collaboration ( http://arxiv.org/abs/2410.02551v1 )

ライセンス: Link先を確認
Zixiang Wang, Yinghao Zhu, Huiya Zhao, Xiaochen Zheng, Tianlong Wang, Wen Tang, Yasha Wang, Chengwei Pan, Ewen M. Harrison, Junyi Gao, Liantao Ma, (参考訳) 大規模言語モデル(LLM)によって駆動されるマルチエージェントコラボレーションを通じて電子健康記録(EHR)モデリングを強化するフレームワークであるColaCareを紹介する。 我々のアプローチは、構造化されたEHRデータとテキストベースの推論の間のギャップを埋めるために、ドメイン固有のエキスパートモデルとLLMをシームレスに統合する。 臨床相談にインスパイアされたColaCareは、2種類のエージェント(DoctorAgentとMetaAgent)を雇用している。 専門家モデルでは、数値EHRデータから予測を処理し、LLMエージェントは、協調的なコンサルテーションフレームワーク内で推論参照と意思決定レポートを生成する。 また,Merck Manual of Diagnosis and Therapy (MSD) の医療ガイドラインを検索強化世代 (RAG) モジュールに組み込んで,信頼できるエビデンス支援を行った。 4つの異なるEHRデータセットで実施された大規模な実験は、ColaCareの死亡予測タスクにおける優れたパフォーマンスを示し、臨床決定支援システムを革新し、パーソナライズされた精密医療を前進させる可能性を示している。 コード、完全なプロンプトテンプレート、さらなるケーススタディなどは匿名のリンクで公開されている。

We introduce ColaCare, a framework that enhances Electronic Health Record (EHR) modeling through multi-agent collaboration driven by Large Language Models (LLMs). Our approach seamlessly integrates domain-specific expert models with LLMs to bridge the gap between structured EHR data and text-based reasoning. Inspired by clinical consultations, ColaCare employs two types of agents: DoctorAgent and MetaAgent, which collaboratively analyze patient data. Expert models process and generate predictions from numerical EHR data, while LLM agents produce reasoning references and decision-making reports within the collaborative consultation framework. We additionally incorporate the Merck Manual of Diagnosis and Therapy (MSD) medical guideline within a retrieval-augmented generation (RAG) module for authoritative evidence support. Extensive experiments conducted on four distinct EHR datasets demonstrate ColaCare's superior performance in mortality prediction tasks, underscoring its potential to revolutionize clinical decision support systems and advance personalized precision medicine. The code, complete prompt templates, more case studies, etc. are publicly available at the anonymous link: https://colacare.netlify.app.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 操舵シナリオにおける高次元絡み合いに対する半定緩和

Semidefinite relaxations for high-dimensional entanglement in the steering scenario ( http://arxiv.org/abs/2410.02554v1 )

ライセンス: Link先を確認
Nicola D'Alessandro, Carles Roch i Carceller, Armin Tavakoli, (参考訳) ステアリングシナリオに対応する一方のデバイス非依存実験において,高次元の絡み合いをベンチマークするための半定型プログラミング階層を導入する。 まず,Schmidt番号の認証によりソースの絡み目次元を検出する一般的な方法を提案する。 その主な特徴は、計算コストが検討中のシュミット数とは独立であることである。 第二に、任意の次元において任意の最大絡み合った状態にソースの忠実度を束縛する方法を提供する。 これにより、ステアリングシナリオにおける実験的に自然な絡み合いの定量化が可能になる。 基本的な計算手段のみを用いて,これらの手法の有用性をいくつかのケーススタディで実証する。

We introduce semidefinite programming hierarchies for benchmarking high-dimensional entanglement in the one-sided device-independent experiments corresponding to the steering scenario. Firstly, we provide a general method for detecting the entanglement dimensionality of the source through certification of its Schmidt number. Its key feature is that the computational cost is independent of the Schmidt number under consideration. Secondly, we provide a method to bound the fidelity of the source with any maximally entangled state in any given dimension. This enables experimentally natural entanglement quantification in the steering scenario. Using only basic computational means, we demonstrate the usefulness of these methods in several case studies.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 意味情報の最大化による教師なし選挙区パーシングの改善

Improving Unsupervised Constituency Parsing via Maximizing Semantic Information ( http://arxiv.org/abs/2410.02558v1 )

ライセンス: Link先を確認
Junjie Chen, Xiangheng He, Yusuke Miyao, Danushka Bollegala, (参考訳) 教師なし選挙区パーサーは、文内のフレーズを、文意味論の組織を反映した木型の構文構成構造に整理する。 しかし、文対数類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していないため、LL値と解析精度の間には弱い相関関係が生じる。 本稿では,構造化構造と文意味論(SemInfo)間の情報の最大化という,教師なしのパーサを学習するための新たな目標を提案する。 本稿では,セマンティックスを表現するためにサブストリングのバッグモデルを導入し,セム情報の推定に確率重み付け情報メトリクスを適用した。 さらに,木条件ランダムフィールド(TreeCRF)に基づくモデルを開発し,SemInfoの最大化目標を確率論的文脈自由文法(PCFG)誘導に適用する。 実験により、SemInfoはLLよりも解析精度が強いことが示されている。 提案アルゴリズムは5つのPCFG変種と4つの言語で平均7.85ポイントのパース精度を著しく向上させ、4つの言語のうち3言語で新たな最先端結果を達成する。

Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective for training unsupervised parsers: maximizing the information between constituent structures and sentence semantics (SemInfo). We introduce a bag-of-substrings model to represent the semantics and apply the probability-weighted information metric to estimate the SemInfo. Additionally, we develop a Tree Conditional Random Field (TreeCRF)-based model to apply the SemInfo maximization objective to Probabilistic Context-Free Grammar (PCFG) induction, the state-of-the-art method for unsupervised constituency parsing. Experiments demonstrate that SemInfo correlates more strongly with parsing accuracy than LL. Our algorithm significantly enhances parsing accuracy by an average of 7.85 points across five PCFG variants and in four languages, achieving new state-of-the-art results in three of the four languages.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 軽量ゼロ階近似勾配アルゴリズムによる低次クエリ複雑性の実現

Obtaining Lower Query Complexities through Lightweight Zeroth-Order Proximal Gradient Algorithms ( http://arxiv.org/abs/2410.02559v1 )

ライセンス: Link先を確認
Bin Gu, Xiyuan Wei, Hualin Zhang, Yi Chang, Heng Huang, (参考訳) Zeroth-order (ZO) 最適化は、勾配計算が高価または不可能な機械学習問題の鍵となる手法である。 非滑らかな問題に対するZO最適化を高速化するために、いくつかの分散低減ZO近似アルゴリズムが提案されており、これらは全て、真の勾配を近似する際にランダムなZO推定器に対して座標ZO推定器を選択した。 ランダムZO推定器は、座標ZO推定器よりも大きい誤差を導入し、収束解析をより困難にするが、問題空間の次元が$d$であるような、座標ZO推定器の$\mathcal{O}(d)$よりもはるかに小さい$\mathcal{O}(1)$計算しか必要としない。 ランダムZO推定器の計算効率の良い性質を生かし、まず2種類の誤差を収束速度の上界に組み込むZO目標減少(ZOOD)特性を提案する。 次に, 内部解法がZOOD特性を満たす限り, 凸問題と非凸問題に対する収束結果を自動的に導出できるZO最適化のための2つの一般還元フレームワークを提案する。 提案した ZOR-ProxSVRG と ZOR-ProxSAGA に対する2つの還元フレームワークの適用により、完全ランダムな ZO 推定器によるZO 近似アルゴリズムを2つの分散化することにより、非凸問題に対して $\mathcal{O}\left(\min\{\frac{dn^{1/2}}{\epsilon^2}, \frac{d}{\epsilon^3}\right)$ から $\tilde{\mathcal{O}}\left(\frac{n+d}{\epsilon^2}\right)$ と $d > n^{\frac{1}{2}}$ から $\mathcal{O}\left(\frac{d}{\epsilon^2}\right)$ から $\tilde{\mathcal{O}}\left(\frac{n+d}{\epsilon^2}\right)$ へ、そして $\mathcal{O}\left(\frac{d}{\epsilon^2}})$ から $\tilde{\mathcal{O}\left(\tilde{\frac{O}}\right)$ へと改善する。

Zeroth-order (ZO) optimization is one key technique for machine learning problems where gradient calculation is expensive or impossible. Several variance reduced ZO proximal algorithms have been proposed to speed up ZO optimization for non-smooth problems, and all of them opted for the coordinated ZO estimator against the random ZO estimator when approximating the true gradient, since the former is more accurate. While the random ZO estimator introduces bigger error and makes convergence analysis more challenging compared to coordinated ZO estimator, it requires only $\mathcal{O}(1)$ computation, which is significantly less than $\mathcal{O}(d)$ computation of the coordinated ZO estimator, with $d$ being dimension of the problem space. To take advantage of the computationally efficient nature of the random ZO estimator, we first propose a ZO objective decrease (ZOOD) property which can incorporate two different types of errors in the upper bound of convergence rate. Next, we propose two generic reduction frameworks for ZO optimization which can automatically derive the convergence results for convex and non-convex problems respectively, as long as the convergence rate for the inner solver satisfies the ZOOD property. With the application of two reduction frameworks on our proposed ZOR-ProxSVRG and ZOR-ProxSAGA, two variance reduced ZO proximal algorithms with fully random ZO estimators, we improve the state-of-the-art function query complexities from $\mathcal{O}\left(\min\{\frac{dn^{1/2}}{\epsilon^2}, \frac{d}{\epsilon^3}\}\right)$ to $\tilde{\mathcal{O}}\left(\frac{n+d}{\epsilon^2}\right)$ under $d > n^{\frac{1}{2}}$ for non-convex problems, and from $\mathcal{O}\left(\frac{d}{\epsilon^2}\right)$ to $\tilde{\mathcal{O}}\left(n\log\frac{1}{\epsilon}+\frac{d}{\epsilon}\right)$ for convex problems.
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# オンラインコンフォーマル予測におけるベイズ的ベネフィット

The Benefit of Being Bayesian in Online Conformal Prediction ( http://arxiv.org/abs/2410.02561v1 )

ライセンス: Link先を確認
Zhiyu Zhang, Zhou Lu, Heng Yang, (参考訳) コンフォーマル予測(CP)の枠組みに基づいて,ブラックボックス機械学習モデルを用いて,有効信頼セットのオンライン構築について検討する。 ターゲットの信頼レベルを量子レベルに変換することで、問題を減らし、シーケンシャルに明らかにされたデータシーケンスの量子(後部)を予測する。 これまで2つの非常に異なるアプローチが研究されてきた。 (i)直接アプローチ:データシーケンスがイドまたは交換可能であると仮定すると、観測されたデータの経験的分布をアルゴリズム的信念として維持し、その量子化を直接予測することができる。 (二)間接的アプローチ:統計的仮定が実際は成立しないことが多いため、近年の傾向は、敵対的設定を考慮し、量子的損失の移動に一階オンライン最適化を適用することである(Gibbs & Cand\`es, 2021)。 対象の量子レベルを事前に知る必要があり、関連する損失線形化のため、得られた信頼度セットに対する一定の妥当性の問題に悩まされる。 本稿では,その強みを組み合わせた新しいベイズCPフレームワークを提案する。 統計的仮定がなければ、両方が成り立つ。 (i)オンライン上で複数の任意の信頼度レベルの質問に回答すること (II)「データ中心」ではなく「データ中心」であるため、一階最適化ベースラインが抱える妥当性を克服する。 技術的観点から言えば、我々はベイズ先行者による上記の直接アプローチのアルゴリズム的信念を正則化し、非線型化 Follow the Regularized Leader (FTRL) アルゴリズムを出力上でシミュレートすることでそれを「悪用」する。 統計学者にとって、これはベイズ推定のオンライン逆説と見なすことができる。 重要な点として、提案された信念更新バックボーンは、異なる信頼レベルをターゲットにした予測ヘッドによって共有され、U-キャリブレーションに類似した実用的なメリットをもたらす(Kleinberg et al , 2023)。

Based on the framework of Conformal Prediction (CP), we study the online construction of valid confidence sets given a black-box machine learning model. By converting the target confidence levels into quantile levels, the problem can be reduced to predicting the quantiles (in hindsight) of a sequentially revealed data sequence. Two very different approaches have been studied previously. (i) Direct approach: Assuming the data sequence is iid or exchangeable, one could maintain the empirical distribution of the observed data as an algorithmic belief, and directly predict its quantiles. (ii) Indirect approach: As statistical assumptions often do not hold in practice, a recent trend is to consider the adversarial setting and apply first-order online optimization to moving quantile losses (Gibbs & Cand\`es, 2021). It requires knowing the target quantile level beforehand, and suffers from certain validity issues on the obtained confidence sets, due to the associated loss linearization. This paper presents a novel Bayesian CP framework that combines their strengths. Without any statistical assumption, it is able to both: (i) answer multiple arbitrary confidence level queries online, with provably low regret; and (ii) overcome the validity issues suffered by first-order optimization baselines, due to being "data-centric" rather than "iterate-centric". From a technical perspective, our key idea is to regularize the algorithmic belief of the above direct approach by a Bayesian prior, which "robustifies" it by simulating a non-linearized Follow the Regularized Leader (FTRL) algorithm on the output. For statisticians, this can be regarded as an online adversarial view of Bayesian inference. Importantly, the proposed belief update backbone is shared by prediction heads targeting different confidence levels, bringing practical benefits analogous to U-calibration (Kleinberg et al., 2023).
翻訳日:2024-11-04 02:31:52 公開日:2024-10-03
# 深層学習に基づく多軸車におけるサスペンションダイナミクス性能の予測

Deep Learning-Based Prediction of Suspension Dynamics Performance in Multi-Axle Vehicles ( http://arxiv.org/abs/2410.02566v1 )

ライセンス: Link先を確認
Kai Chun Lin, Bo-Yi Lin, (参考訳) 本稿では,多軸車におけるサスペンションシステムの動的性能を予測するためのディープラーニングベースのフレームワークを提案する。 MTL-DBN-DNN(Multi-Task Deep Belief Network Deep Neural Network)を開発した。 このモデルは数値シミュレーションから生成されたデータに基づいて訓練し、従来のDNNモデルと比較して精度が優れていることを示した。 各種車両およびサスペンションパラメータが動的サスペンション性能に及ぼす影響を評価するため, 総合感度解析を行った。 さらに、サスペンション・ダイナミック・パフォーマンス・インデックス(SDPI)は、総合的なサスペンション・パフォーマンスを定量化するための総合尺度として導入され、複数のパラメータの複合効果を考慮に入れられた。 この結果は,複雑な車両システムにおける予測モデルの改善におけるマルチタスク学習の有効性を浮き彫りにした。

This paper presents a deep learning-based framework for predicting the dynamic performance of suspension systems in multi-axle vehicles, emphasizing the integration of machine learning with traditional vehicle dynamics modeling. A Multi-Task Deep Belief Network Deep Neural Network (MTL-DBN-DNN) was developed to capture the relationships between key vehicle parameters and suspension performance metrics. The model was trained on data generated from numerical simulations and demonstrated superior prediction accuracy compared to conventional DNN models. A comprehensive sensitivity analysis was conducted to assess the impact of various vehicle and suspension parameters on dynamic suspension performance. Additionally, the Suspension Dynamic Performance Index (SDPI) was introduced as a holistic measure to quantify overall suspension performance, accounting for the combined effects of multiple parameters. The findings highlight the effectiveness of multitask learning in improving predictive models for complex vehicle systems.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# RAWビデオにおける前処理と後処理の併用によるノイズ除去

Combining Pre- and Post-Demosaicking Noise Removal for RAW Video ( http://arxiv.org/abs/2410.02572v1 )

ライセンス: Link先を確認
Marco Sánchez-Beeckman, Antoni Buades, Nicola Brandonisio, Bilel Kanoun, (参考訳) Denoisingは、カメラセンサーが捉えたデータをディスプレイ対応の画像やビデオに変換する処理パイプラインの基本ステップの1つである。 一般にパイプラインの初期段階で、通常は解体前に行われるが、注文を交換したり、共同で実施する研究も提案されている。 ディープラーニングの出現に伴い、アルゴリズムの質は着実に向上している。 それでも、現代のニューラルネットワークは、新しいノイズレベルやシーンに適応するのは難しい。 そこで本稿では,ベイア型CFAビデオデータに対して,事前および復号化後のデノイザを重み付けする自己相似型デノイザ方式を提案する。 両者のバランスが画像品質の向上につながることを示し、高ノイズレベルがより高影響のプレデモーザックの恩恵を受けることを実証的に見出した。 また,各デノイザの前に時間的軌道前フィルタリングのステップを統合することで,テクスチャ再構築をさらに改善する。 提案手法は, センサのノイズモデルの推定を必要とせず, 任意のノイズレベルに正確に適応し, 最先端技術と競合し, 実世界のビデオ撮影に適している。

Denoising is one of the fundamental steps of the processing pipeline that converts data captured by a camera sensor into a display-ready image or video. It is generally performed early in the pipeline, usually before demosaicking, although studies swapping their order or even conducting them jointly have been proposed. With the advent of deep learning, the quality of denoising algorithms has steadily increased. Even so, modern neural networks still have a hard time adapting to new noise levels and scenes, which is indispensable for real-world applications. With those in mind, we propose a self-similarity-based denoising scheme that weights both a pre- and a post-demosaicking denoiser for Bayer-patterned CFA video data. We show that a balance between the two leads to better image quality, and we empirically find that higher noise levels benefit from a higher influence pre-demosaicking. We also integrate temporal trajectory prefiltering steps before each denoiser, which further improve texture reconstruction. The proposed method only requires an estimation of the noise model at the sensor, accurately adapts to any noise level, and is competitive with the state of the art, making it suitable for real-world videography.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 異なるイメージングシステムにおける合成物理コピー検出パターンの実用性の評価

Assessing the Viability of Synthetic Physical Copy Detection Patterns on Different Imaging Systems ( http://arxiv.org/abs/2410.02575v1 )

ライセンス: Link先を確認
Roman Chaban, Brian Pulfer, Slava Voloshynovskiy, (参考訳) 本稿では,CDP (Synthetic physical Copy Detection Patterns) の可能性を探り,反偽造防止システムのロバスト性を改善する。 合成物理CDPを活用することにより,様々な実世界のアプリケーションにおけるセキュリティとコスト効率の向上を目指す。 本研究は,従来のデジタルテンプレートをベースとしたCDPに比べて,認証精度が大幅に向上したことを示す。 我々は,スキャナと多種多様な携帯電話を用いて広範囲なテストを行い,ROC分析によるアプローチの検証を行った。 結果は、合成CDPが元のサンプルと偽のサンプルとを確実に区別できることを示し、このアプローチを現実のアプリケーションにとって実行可能なソリューションにするが、この技術を様々なイメージングデバイスでスケーラブルにするためには、さらなる研究が必要であることを示唆している。

This paper explores the potential of synthetic physical Copy Detection Patterns (CDP) to improve the robustness of anti-counterfeiting systems. By leveraging synthetic physical CDP, we aim at enhancing security and cost-effectiveness across various real-world applications. Our research demonstrates that synthetic CDP offer substantial improvements in authentication accuracy compared to one based on traditional digital templates. We conducted extensive tests using both a scanner and a diverse range of mobile phones, validating our approach through ROC analysis. The results indicate that synthetic CDP can reliably differentiate between original and fake samples, making this approach a viable solution for real-world applications, though requires an additional research to make this technology scalable across a variety of imaging devices.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 深部回帰2D-3D超音波による肝腫瘍温熱アブレーションの肝運動補正

Deep Regression 2D-3D Ultrasound Registration for Liver Motion Correction in Focal Tumor Thermal Ablation ( http://arxiv.org/abs/2410.02579v1 )

ライセンス: Link先を確認
Shuwei Xing, Derek W. Cool, David Tessier, Elvis C. S. Chen, Terry M. Peters, Aaron Fenster, (参考訳) 肝腫瘍のアブレーションは, 腫瘍中心部における針の塗布を正確に行う必要がある。 超音波(US)の低費用・リアルタイム性はCT(Computed tomography)よりも優れているが,一部の患者では肝腫瘍は米国に密着しており,腫瘍の模倣は病変の同定を困難にする可能性がある。 画像登録技術は、解剖学的詳細の解釈や腫瘍の同定に有効であるが、その臨床応用は、特に患者の呼吸や運動による肝臓の動きの補正において、アライメント精度と実行時のパフォーマンスのトレードオフによって妨げられている。 そこで本研究では,肝運動による誤りを軽減できる2D-3DUS登録手法を提案する。 具体的には,不均衡な2次元と3次元の米国画像の特徴を相関させ,連続した6次元回転表現を用いてモデルの訓練安定性を向上させる。 データセットはそれぞれ、トレーニング、検証、テストのために2388、196、193のイメージペアに分割された。 提案手法は,平均ユークリッド距離誤差 2.28 mm $\pm$ 1.81 mm および平均測地角誤差 2.99$^{\circ}$ $\pm$ 1.95$^{\circ}$ を達成した。 以上より,本手法は正確なアライメントと臨床的に許容されるランタイムを実現し,臨床翻訳の可能性を示している。

Liver tumor ablation procedures require accurate placement of the needle applicator at the tumor centroid. The lower-cost and real-time nature of ultrasound (US) has advantages over computed tomography (CT) for applicator guidance, however, in some patients, liver tumors may be occult on US and tumor mimics can make lesion identification challenging. Image registration techniques can aid in interpreting anatomical details and identifying tumors, but their clinical application has been hindered by the tradeoff between alignment accuracy and runtime performance, particularly when compensating for liver motion due to patient breathing or movement. Therefore, we propose a 2D-3D US registration approach to enable intra-procedural alignment that mitigates errors caused by liver motion. Specifically, our approach can correlate imbalanced 2D and 3D US image features and use continuous 6D rotation representations to enhance the model's training stability. The dataset was divided into 2388, 196 and 193 image pairs for training, validation and testing, respectively. Our approach achieved a mean Euclidean distance error of 2.28 mm $\pm$ 1.81 mm and a mean geodesic angular error of 2.99$^{\circ}$ $\pm$ 1.95$^{\circ}$, with a runtime of 0.22 seconds per 2D-3D US image pair. These results demonstrate that our approach can achieve accurate alignment and clinically acceptable runtime, indicating potential for clinical translation.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 1次元構造量子状態に対するサンプル最適量子状態トモグラフィ

Sample-Optimal Quantum State Tomography for Structured Quantum States in One Dimension ( http://arxiv.org/abs/2410.02583v1 )

ライセンス: Link先を確認
Zhen Qin, Casey Jameson, Alireza Goldar, Michael B. Wakin, Zhexuan Gong, Zhihui Zhu, (参考訳) 量子状態トモグラフィ(QST)は、量子デバイスをベンチマークし検証するための金の標準である。 近年の研究では、量子ビット$n$の行列積演算子(MPO)状態の有界回復誤差を保証するために、Haarランダム射影測定では、$O(n^3)$状態コピーの数だけが必要であることが証明されている。 この結果は、効率的な古典的表現を持つ量子状態が効率的な状態コピー数で再構成可能であるという公式な証拠を提供するが、必要な状態コピーの数は、古典的表現の独立したパラメータの数よりもはるかに大きい。 本稿では、このギャップを狭め、物理量子計測を用いて、状態コピーの数が情報理論境界(例えば、$O(n)$, the number of parameters in the MPOs)を飽和させることができるかどうかを検討する。 我々は、対称IC-POVM(SIC-POVMs)や球面$t$-designsを含む情報完全正の演算子値測度(IC-POVMs)のクラスを用いて、この疑問に肯定的に答える。 SIC-POVM と (近似) 球面 2-次元設計の場合、制約最小二乗推定器を持つMPO状態の有界回復誤差を保証する状態コピーの数は、POVM の下でのMPOの確率分布に依存するが、分布が概ね均一であるときのみ$n$と線形にスケールする。 spherical $t$-designs with $t\ge3$, we prove that only a number of state copys to the number of independent parameters in the MPO is required for a guaranteeed recovery of any state represented by an MPO。 さらに,制約付き最小二乗問題の解法として,予測勾配降下法(PGD)を提案する。

Quantum state tomography (QST) remains the gold standard for benchmarking and verifying quantum devices. A recent study has proved that, with Haar random projective measurements, only a $O(n^3)$ number of state copies is required to guarantee bounded recovery error of an matrix product operator (MPO) state of qubits $n$. While this result provides a formal evidence that quantum states with an efficient classical representation can be reconstructed with an efficient number of state copies, the number of state copies required is still significantly larger than the number of independent parameters in the classical representation. In this paper, we attempt to narrow this gap and study whether the number of state copies can saturate the information theoretic bound (i.e., $O(n)$, the number of parameters in the MPOs) using physical quantum measurements. We answer this question affirmatively by using a class of Informationally Complete Positive Operator-Valued Measures (IC-POVMs), including symmetric IC-POVMs (SIC-POVMs) and spherical $t$-designs. For SIC-POVMs and (approximate) spherical 2-designs, we show that the number of state copies to guarantee bounded recovery error of an MPO state with a constrained least-squares estimator depends on the probability distribution of the MPO under the POVM but scales only linearly with $n$ when the distribution is approximately uniform. For spherical $t$-designs with $t\ge3$, we prove that only a number of state copies proportional to the number of independent parameters in the MPO is needed for a guaranteed recovery of any state represented by an MPO. Moreover, we propose a projected gradient descent (PGD) algorithm to solve the constrained least-squares problem and show that it can efficiently find an estimate with bounded recovery error when appropriately initialized.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# マルチエージェントLDMインタラクションにおけるインシシトバイアス検出と緩和に向けて

Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions ( http://arxiv.org/abs/2410.02584v1 )

ライセンス: Link先を確認
Angana Borah, Rada Mihalcea, (参考訳) 大規模言語モデル(LLM)は進化を続けており、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。 しかし、LSMは人為的なデータに曝されることで社会的偏見に影響を受けやすい。 LLMは様々な社会的側面の洞察を得るために使われており、これらのバイアスを軽減することが不可欠である。 そこで本研究では,多エージェントLDM相互作用における性バイアスの存在を調査し,これらのバイアスを軽減するための2つの方法を提案する。 まず、暗黙の性別バイアスが発生するシナリオのデータセットを作成し、その後、バイアスの有無を評価する指標を開発する。 実験分析の結果,LLMは強い暗黙バイアス相関(=50%)を特徴とする出力を生成することがわかった。 さらに、これらのバイアスはマルチエージェント相互作用の後にエスカレートする傾向がある。 そこで本研究では,テキスト内例を用いた自己回帰(ICE)と教師付き微調整の2つの手法を提案する。 我々の研究は、どちらの手法も暗黙の偏見を効果的に軽減し、微調整と自己回帰のアンサンブルが最も成功したことを実証している。

As Large Language Models (LLMs) continue to evolve, they are increasingly being employed in numerous studies to simulate societies and execute diverse social tasks. However, LLMs are susceptible to societal biases due to their exposure to human-generated data. Given that LLMs are being used to gain insights into various societal aspects, it is essential to mitigate these biases. To that end, our study investigates the presence of implicit gender biases in multi-agent LLM interactions and proposes two strategies to mitigate these biases. We begin by creating a dataset of scenarios where implicit gender biases might arise, and subsequently develop a metric to assess the presence of biases. Our empirical analysis reveals that LLMs generate outputs characterized by strong implicit bias associations (>= 50\% of the time). Furthermore, these biases tend to escalate following multi-agent interactions. To mitigate them, we propose two strategies: self-reflection with in-context examples (ICE); and supervised fine-tuning. Our research demonstrates that both methods effectively mitigate implicit biases, with the ensemble of fine-tuning and self-reflection proving to be the most successful.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 画像デノイングのための改良された変分法

An Improved Variational Method for Image Denoising ( http://arxiv.org/abs/2410.02587v1 )

ライセンス: Link先を確認
Jing-En Huang, Jia-Wei Liao, Ku-Te Lin, Yu-Ju Tsai, Mei-Heng Yueh, (参考訳) 本手法は,画像の総変動を最小化し,画素強度の変動を計測することにより,ノイズを低減することを目的とした画像デノナイズ手法である。 本手法は,エッジの保存と画質向上のために,画像処理やコンピュータビジョンに広く応用されている。 本稿では,複数のノイズと組み合わせの除去に特に有効である,画像復調のための改良型テレビモデルとそれに関連する数値アルゴリズムを提案する。 改良されたモデルでは,一意の解が認められ,関連する数値アルゴリズムにより収束が保証される。 数値実験により, 他のテレビモデルと比較して, 有効性の向上と品質の劣化が示された。 このような奨励的な結果は、画像処理におけるTV法の有用性をさらに向上させる。

The total variation (TV) method is an image denoising technique that aims to reduce noise by minimizing the total variation of the image, which measures the variation in pixel intensities. The TV method has been widely applied in image processing and computer vision for its ability to preserve edges and enhance image quality. In this paper, we propose an improved TV model for image denoising and the associated numerical algorithm to carry out the procedure, which is particularly effective in removing several types of noises and their combinations. Our improved model admits a unique solution and the associated numerical algorithm guarantees the convergence. Numerical experiments are demonstrated to show improved effectiveness and denoising quality compared to other TV models. Such encouraging results further enhance the utility of the TV method in image processing.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# Max-Cutとその他の組合せ最適化問題におけるマクシミンフェアネスの期待

Expected Maximin Fairness in Max-Cut and other Combinatorial Optimization Problems ( http://arxiv.org/abs/2410.02589v1 )

ライセンス: Link先を確認
Jad Salem, Reuben Tate, Stephan Eidenbenz, (参考訳) 最大公平性(英: Maximin fairness)とは、最悪の集団(または個人)を可能な限り扱うことである。 近年, 意思決定環境におけるマキシミンの公平性に関する文献が増えているが, 理論的結果は少ない。 本稿では,組合せ最適化における最大公平性に固有の課題について検討する。 まず,(1) 最適最大値解は非最大値解で有界であり,(2) 確率最大値解は幅広い組合せ最適化問題のクラスを期待する決定論的解を超えていることを示す。 論文の残りの部分では、Max-Cut の特別なケースを用いて、最大公平性の定義と実装の課題を実証する。

Maximin fairness is the ideal that the worst-off group (or individual) should be treated as well as possible. Literature on maximin fairness in various decision-making settings has grown in recent years, but theoretical results are sparse. In this paper, we explore the challenges inherent to maximin fairness in combinatorial optimization. We begin by showing that (1) optimal maximin-fair solutions are bounded by non-maximin-fair optimal solutions, and (2) stochastic maximin-fair solutions exceed their deterministic counterparts in expectation for a broad class of combinatorial optimization problems. In the remainder of the paper, we use the special case of Max-Cut to demonstrate challenges in defining and implementing maximin fairness.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 自己組織型学習ネットワークにおける局所最適化から一般化が生まれる

Generalization emerges from local optimization in a self-organized learning network ( http://arxiv.org/abs/2410.02590v1 )

ライセンス: Link先を確認
S. Barland, L. Gil, (参考訳) 我々は,グローバルなエラー関数に頼ることなく,局所最適化ルールのみによって駆動される,教師付き学習ネットワーク構築のための新しいパラダイムを設計・分析する。 固定トポロジを持つ従来のニューラルネットワークは、同一ノードで構成され、接続重みの適切な調整から表現性を引き出す。 対照的に、我々のネットワークは、ルックアップテーブルの形で、ノードに新しい知識を正確かつ瞬時に保存する。 その時だけ、これらの情報のいくつかはネットワーク幾何学に構造化され、組み込まれている。 トレーニングエラーは最初はゼロであり、ネットワークトポロジー変換フェーズを通して継続する。 後者は、ノードの分割やマージ、それらの間のバイナリ接続の追加など、少数の局所的なトポロジ変換を含む。 実行すべき操作の選択は、局所的なスケールでの表現率の最適化によってのみ引き起こされる。 学習ネットワークで私たちが主に求めているのは、一般化する能力、すなわち、その答えを一度も学ばない質問に正しく答える能力である。 本稿では,学習例数が十分に大きくなると,アルゴリズムによって生成されたネットワークが完全な一般化状態に体系的に到達する,分類タスクの多くの例を示す。 我々は状態変化のダイナミクスについて報告し、それが突然であり、従来の学習ネットワークですでに観察されている現象である1次相転移の特徴を持つことを示す。 学習ネットワーク構築のための非ポテンシャル的アプローチを提案することに加えて,本アルゴリズムは,学習データとトポロジカルなデータの取得が完全に切り離された現象である新たな光のグルーキング遷移を再考することを可能にする。

We design and analyze a new paradigm for building supervised learning networks, driven only by local optimization rules without relying on a global error function. Traditional neural networks with a fixed topology are made up of identical nodes and derive their expressiveness from an appropriate adjustment of connection weights. In contrast, our network stores new knowledge in the nodes accurately and instantaneously, in the form of a lookup table. Only then is some of this information structured and incorporated into the network geometry. The training error is initially zero by construction and remains so throughout the network topology transformation phase. The latter involves a small number of local topological transformations, such as splitting or merging of nodes and adding binary connections between them. The choice of operations to be carried out is only driven by optimization of expressivity at the local scale. What we are primarily looking for in a learning network is its ability to generalize, i.e. its capacity to correctly answer questions for which it has never learned the answers. We show on numerous examples of classification tasks that the networks generated by our algorithm systematically reach such a state of perfect generalization when the number of learned examples becomes sufficiently large. We report on the dynamics of the change of state and show that it is abrupt and has the distinctive characteristics of a first order phase transition, a phenomenon already observed for traditional learning networks and known as grokking. In addition to proposing a non-potential approach for the construction of learning networks, our algorithm makes it possible to rethink the grokking transition in a new light, under which acquisition of training data and topological structuring of data are completely decoupled phenomena.
翻訳日:2024-11-04 02:22:08 公開日:2024-10-03
# 正方形誤差を超えて:ジェネレーティブフローネットワークの強化のための損失設計

Beyond Squared Error: Exploring Loss Design for Enhanced Training of Generative Flow Networks ( http://arxiv.org/abs/2410.02596v1 )

ライセンス: Link先を確認
Rui Hu, Yifan Zhang, Zhuoran Li, Longbo Huang, (参考訳) Generative Flow Networks (GFlowNets) は、正規化されていない分布のサンプルとして設計された新しい生成モデルのクラスであり、様々な重要なタスクに応用されている。 一般的に、GFlowNetはサンプルトレーニングオブジェクトの後方フローに前方フローを適合させることでトレーニングされる。 以前の作業は、訓練対象の選択、パラメータ化、サンプリングと再サンプリング戦略、および後方方針に重点を置いており、訓練プロセスの信用割り当て、探索、利用を促進することを目的としていた。 しかし、未訓練政策の探索・搾取行動に大きな影響を与える回帰損失の選択は見過ごされている。 適切な回帰損失を選択するための理論的理解が欠如しているため、既存のアルゴリズムの多くは2次回帰損失を用いて、対数空間における前方および後方フローの2乗誤差を最小化することでフローネットワークを訓練している。 本研究では, 個別の回帰損失が特定の発散対策に対応することを厳格に証明し, 対応する発散対策の所望の特性に応じて, 退散損失を設計・解析することを可能にする。 具体的には、ゼロ強制とゼロ回避の2つの重要な特性について検討し、前者は搾取とより高い報酬を推進し、後者は探索と多様性の向上を奨励する。 理論的枠組みに基づいて,シフトドコッシュ,リニアス(1/2),リニアス(1)という3つの新たな回帰損失を提案する。 それらをハイパーグリッド,ビットシーケンス生成,分子生成の3つのベンチマークで評価した。 提案した損失は既存のトレーニングアルゴリズムと互換性があり、収束速度、サンプルの多様性、堅牢性に関するアルゴリズムの性能を大幅に向上させる。

Generative Flow Networks (GFlowNets) are a novel class of generative models designed to sample from unnormalized distributions and have found applications in various important tasks, attracting great research interest in their training algorithms. In general, GFlowNets are trained by fitting the forward flow to the backward flow on sampled training objects. Prior work focused on the choice of training objects, parameterizations, sampling and resampling strategies, and backward policies, aiming to enhance credit assignment, exploration, or exploitation of the training process. However, the choice of regression loss, which can highly influence the exploration and exploitation behavior of the under-training policy, has been overlooked. Due to the lack of theoretical understanding for choosing an appropriate regression loss, most existing algorithms train the flow network by minimizing the squared error of the forward and backward flows in log-space, i.e., using the quadratic regression loss. In this work, we rigorously prove that distinct regression losses correspond to specific divergence measures, enabling us to design and analyze regression losses according to the desired properties of the corresponding divergence measures. Specifically, we examine two key properties: zero-forcing and zero-avoiding, where the former promotes exploitation and higher rewards, and the latter encourages exploration and enhances diversity. Based on our theoretical framework, we propose three novel regression losses, namely, Shifted-Cosh, Linex(1/2), and Linex(1). We evaluate them across three benchmarks: hyper-grid, bit-sequence generation, and molecule generation. Our proposed losses are compatible with most existing training algorithms, and significantly improve the performances of the algorithms concerning convergence speed, sample diversity, and robustness.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 3-in-One:ハイブリッド自己回帰型ASRのための高速かつ高精度なトランスデューサ

Three-in-One: Fast and Accurate Transducer for Hybrid-Autoregressive ASR ( http://arxiv.org/abs/2410.02597v1 )

ライセンス: Link先を確認
Hainan Xu, Travis M. Bartley, Vladimir Bataev, Boris Ginsburg, (参考訳) 本稿では,Token-and-Duration Transducer (TDT) モデルを拡張した音声認識の新しいアーキテクチャである Tr\textbf{H}ybrid-\textbf{A}utoregressive \textbf{IN}ference Tr\textbf{AN}sducers (HAINAN) を提案する。 ランダムにマスクされたネットワーク出力でトレーニングされたHAINANは、すべてのネットワークコンポーネントによる自己回帰推論と、予測子を使わずに非自己回帰推論の両方をサポートする。 さらに,最初に非自己回帰推論を用いて初期仮説を生成する半自己回帰推論パラダイムを提案し,その後,初期仮説上で並列化された自己回帰を用いて各トークン予測を再生する改良ステップを提案する。 異なる言語にまたがる複数のデータセットの実験では、HAINANは非自己回帰モードではCTC、自己回帰モードではTDTと効率が同等であることが示されている。 自己回帰型HAINANはTDT, RNN-Tより優れ, 非自己回帰型HAINANはCTCより有意に優れていた。 半自己回帰推論は、計算オーバーヘッドを最小限にしてモデルの精度をさらに高め、場合によってはTDT結果よりも優れる。 これらの結果から,HAINANの精度と速度のバランスの柔軟性が強調され,実世界の音声認識応用の強力な候補として位置づけられた。

We present \textbf{H}ybrid-\textbf{A}utoregressive \textbf{IN}ference Tr\textbf{AN}sducers (HAINAN), a novel architecture for speech recognition that extends the Token-and-Duration Transducer (TDT) model. Trained with randomly masked predictor network outputs, HAINAN supports both autoregressive inference with all network components and non-autoregressive inference without the predictor. Additionally, we propose a novel semi-autoregressive inference paradigm that first generates an initial hypothesis using non-autoregressive inference, followed by refinement steps where each token prediction is regenerated using parallelized autoregression on the initial hypothesis. Experiments on multiple datasets across different languages demonstrate that HAINAN achieves efficiency parity with CTC in non-autoregressive mode and with TDT in autoregressive mode. In terms of accuracy, autoregressive HAINAN outperforms TDT and RNN-T, while non-autoregressive HAINAN significantly outperforms CTC. Semi-autoregressive inference further enhances the model's accuracy with minimal computational overhead, and even outperforms TDT results in some cases. These results highlight HAINAN's flexibility in balancing accuracy and speed, positioning it as a strong candidate for real-world speech recognition applications.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 階層型予測学習による高能率ニューラルビデオ圧縮

High-Efficiency Neural Video Compression via Hierarchical Predictive Learning ( http://arxiv.org/abs/2410.02598v1 )

ライセンス: Link先を確認
Ming Lu, Zhihao Duan, Wuyang Cong, Dandan Ding, Fengqing Zhu, Zhan Ma, (参考訳) 拡張されたDeep Hierarchical Video Compression-DHVC 2.0が導入された。 このシングルモデルニューラルビデオコーデックは、幅広いビットレートで動作し、代表メソッドよりも優れた圧縮性能を提供するだけでなく、目覚ましい複雑さの効率も提供し、標準GPUのメモリフットプリントをはるかに小さくしたリアルタイム処理を可能にする。 これらの顕著な進歩は階層的な予測符号化の使用に起因している。 各ビデオフレームは、階層的変動オートエンコーダにより、一様にマルチスケール表現に変換される。 フレームの特定のスケールの特徴表現について、対応する潜在残差変数は、同一フレームから下位の空間的特徴を参照して生成し、そのパラメータが前フレームからの同スケールの時間的参照と現在のフレームの下位の空間的参照を用いて予測される確率モデルを用いて条件付きエントロピー符号化する。 この特徴空間処理は、各フレームの最低から最高スケールまで動作し、何十年もビデオコーデックで標準であった複雑さ集約的な動き推定と補償技術の必要性を完全に排除した。 階層的なアプローチは並列処理を促進し、符号化と復号の両方を高速化し、トランスミッションフレンドリーなプログレッシブデコーディングをサポートする。 ソースコードは利用可能になる。

The enhanced Deep Hierarchical Video Compression-DHVC 2.0-has been introduced. This single-model neural video codec operates across a broad range of bitrates, delivering not only superior compression performance to representative methods but also impressive complexity efficiency, enabling real-time processing with a significantly smaller memory footprint on standard GPUs. These remarkable advancements stem from the use of hierarchical predictive coding. Each video frame is uniformly transformed into multiscale representations through hierarchical variational autoencoders. For a specific scale's feature representation of a frame, its corresponding latent residual variables are generated by referencing lower-scale spatial features from the same frame and then conditionally entropy-encoded using a probabilistic model whose parameters are predicted using same-scale temporal reference from previous frames and lower-scale spatial reference of the current frame. This feature-space processing operates from the lowest to the highest scale of each frame, completely eliminating the need for the complexity-intensive motion estimation and compensation techniques that have been standard in video codecs for decades. The hierarchical approach facilitates parallel processing, accelerating both encoding and decoding, and supports transmission-friendly progressive decoding, making it particularly advantageous for networked video applications in the presence of packet loss. Source codes will be made available.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# Chaitin相転移

Chaitin Phase Transition ( http://arxiv.org/abs/2410.02600v1 )

ライセンス: Link先を確認
James Purcell, Zhi Li, Toby Cubitt, (参考訳) 位相図が単一位相遷移を持つことが保証されているハミルトニアンの族を構築するが、この位相遷移の位置は計算不可能である。 ハミルトン群 $H(\phi)$ は、連続パラメータ $\phi\in(0,1]$ でチューニングされた変換不変で最も近い近傍相互作用を持つ2次元正方格子上の四角形を記述する。 すべての$\phi\in(0,1]$に対して、$H(\phi)$は2つの位相のうちの1つであり、一方はギャップレス位相、もう一方はギャップ付き位相である。 位相遷移は、Chaitinの定数 $\Omega$ がハルティング問題を符号化するよく定義された実数であり、チューリングマシンでは計算不可能であり、数学の任意の一貫した再帰的公理化に対しては決定不能であるときに起こる。 この結果から, 位相図が極めて単純であるという約束の下でも, 位相図を決定するアルゴリズムが存在しないことが示唆され, 物理系において計算不能な数がどのように現れるかが示される。

We construct a family of Hamiltonians whose phase diagram is guaranteed to have a single phase transition, yet the location of this phase transition is uncomputable. The Hamiltonians $H(\phi)$ describe qudits on a two-dimensional square lattice with translationally invariant, nearest-neighbour interactions tuned by a continuous parameter $\phi\in(0,1]$. For all $\phi\in(0,1]$, $H(\phi)$ is in one of two phases, one a gapless phase, the other a gapped phase. The phase transition occurs when $\phi$ equals the Chaitin's constant $\Omega$, a well-defined real number that encodes the Halting problem, and hence is uncomputable for Turing machines and undecidable for any consistent recursive axiomatization of mathematics. Our result implies that no general algorithm exists to determine the phase diagrams even under the promise that the phase diagram is exceedingly simple, and illustrates how uncomputable numbers may manifest in physical systems.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 反復的局所マルコフフィッティングによる拡散・逆シュレーディンガー橋

Diffusion & Adversarial Schrödinger Bridges via Iterative Proportional Markovian Fitting ( http://arxiv.org/abs/2410.02601v1 )

ライセンス: Link先を確認
Sergei Kholkin, Grigoriy Ksenofontov, David Li, Nikita Kornilov, Nikita Gushchin, Evgeny Burnaev, Alexander Korotin, (参考訳) 反復的マルコフ整合法(IMF)は、最近シュリンガー橋の問題を解決する強力な方法として提案されている。 しかし,本手法を実用化するためには,各イテレーションにおいて前方と後方の時間拡散を交互に行うことが重要である。 このような実装は実践的ヒューリスティックであると考えられており、訓練を安定させ、未経験領域翻訳のような応用において良い結果を得るのに必要である。 本稿では,このヒューリスティックな手法が,Iterative Proportional Fitting (IPF) 法に基づくSchr\"odinger Bridgeの先駆的アプローチと密接に関連していることを示す。 すなわち、IMFの実践的な実施は、実際、IMFとIPFの手続きの組み合わせであり、我々はこの組み合わせをIPMF(Iterative Proportional Markovian Fitting)手順と呼ぶ。 この組み合わせ IPMF 手順がより一般的な設定で収束できることを理論的にも実用的にも示し、したがって IPMF 手順が Schr\\odinger Bridge 問題を解くための統一的な枠組み構築への扉を開くことを示す。

The Iterative Markovian Fitting (IMF) procedure based on iterative reciprocal and Markovian projections has recently been proposed as a powerful method for solving the Schr\"odinger Bridge problem. However, it has been observed that for the practical implementation of this procedure, it is crucial to alternate between fitting a forward and backward time diffusion at each iteration. Such implementation is thought to be a practical heuristic, which is required to stabilize training and obtain good results in applications such as unpaired domain translation. In our work, we show that this heuristic closely connects with the pioneer approaches for the Schr\"odinger Bridge based on the Iterative Proportional Fitting (IPF) procedure. Namely, we find that the practical implementation of IMF is, in fact, a combination of IMF and IPF procedures, and we call this combination the Iterative Proportional Markovian Fitting (IPMF) procedure. We show both theoretically and practically that this combined IPMF procedure can converge under more general settings, thus, showing that the IPMF procedure opens a door towards developing a unified framework for solving Schr\"odinger Bridge problems.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# エージェントの部屋:多段階コラボレーションによる物語生成

Agents' Room: Narrative Generation through Multi-step Collaboration ( http://arxiv.org/abs/2410.02603v1 )

ライセンス: Link先を確認
Fantine Huot, Reinald Kim Amplayo, Jennimaria Palomaki, Alice Shoshana Jakobovits, Elizabeth Clark, Mirella Lapata, (参考訳) 魅力的なフィクションを書くことは、プロットの作成、面白いキャラクターの育成、エボクティブ言語の使用といった要素を組み合わせた多面的プロセスである。 大きな言語モデル(LLM)はストーリー記述の約束を示すが、現在は複雑なプロンプトに大きく依存しているため、使用が制限されている。 本稿では,物語理論に着想を得た世代間枠組みであるエージェントルームを提案し,物語記述を特殊エージェントが取り組んだサブタスクに分解する。 本稿では,提案手法を説明するために,複雑な文章のプロンプトと人間による物語の高品質なデータセットであるTell Me A Storyと,長文評価に特化して設計された新しい評価フレームワークを紹介する。 エージェントの部屋は, 複雑なストーリー作成タスクを抽出可能なコンポーネントに分解するために, 協調と専門化を活用して, ベースラインシステムによって生み出されたストーリーに対して, 専門家評価者が好むストーリーを生成することを示す。 生成した出力の自動化および人為的メトリクスを用いて、広範な分析を行う。

Writing compelling fiction is a multifaceted process combining elements such as crafting a plot, developing interesting characters, and using evocative language. While large language models (LLMs) show promise for story writing, they currently rely heavily on intricate prompting, which limits their use. We propose Agents' Room, a generation framework inspired by narrative theory, that decomposes narrative writing into subtasks tackled by specialized agents. To illustrate our method, we introduce Tell Me A Story, a high-quality dataset of complex writing prompts and human-written stories, and a novel evaluation framework designed specifically for assessing long narratives. We show that Agents' Room generates stories that are preferred by expert evaluators over those produced by baseline systems by leveraging collaboration and specialization to decompose the complex story writing task into tractable components. We provide extensive analysis with automated and human-based metrics of the generated output.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 長期的勧告モデルには非結合な埋め込みが必要である

Long-Sequence Recommendation Models Need Decoupled Embeddings ( http://arxiv.org/abs/2410.02604v1 )

ライセンス: Link先を確認
Ningya Feng, Junwei Pan, Jialong Wu, Baixu Chen, Ximei Wang, Qian Li, Xian Hu, Jie Jiang, Mingsheng Long, (参考訳) 最大数万の履歴行動からなる生涯のユーザ行動シーケンスは、ユーザの興味を捉え、現代のレコメンデーションシステムにおけるユーザの反応を予測するために不可欠である。 2段階のパラダイムは、一般的にこれらの長いシーケンスを扱うために採用され、いくつかの関連する動作は、最初に最初の段階で注意機構を介して元の長いシーケンスから探索され、次にターゲットアイテムと集約されて、第2段階の予測のための識別的表現を構成する。 本研究では,従来の長期推薦モデルにおいて無視された欠陥を初めて認識し,特徴付けする: 埋め込みの1組は注意と表現の両方を学ぶのに苦労し,これら2つのプロセスの間に干渉をもたらす。 言語処理から借用されたテクニックである線形プロジェクションを使ってこの問題に対処する最初の試みは効果が無く、レコメンデーションモデルのユニークな課題に光を当てた。 これを解決するために,2つの異なる埋め込みテーブルを初期化し,個別に学習し,注意と表現を完全に分離するデカップリング・アテンション・アンド・リテンション・エンベッドディング(DARE)モデルを提案する。 大規模な実験と分析により、DAREは相関行動のより正確な検索を提供し、AUCによるベースラインのパフォーマンスは、パブリックデータセットと注目すべきオンラインシステムの改善で最大0.9%向上した。 さらに,組込み空間を疎結合することで,より効率的で高性能なオンラインサービスを実現することができ,注意込み次元を小さくし,検索手順を50%高速化することができる。

Lifelong user behavior sequences, comprising up to tens of thousands of history behaviors, are crucial for capturing user interests and predicting user responses in modern recommendation systems. A two-stage paradigm is typically adopted to handle these long sequences: a few relevant behaviors are first searched from the original long sequences via an attention mechanism in the first stage and then aggregated with the target item to construct a discriminative representation for prediction in the second stage. In this work, we identify and characterize, for the first time, a neglected deficiency in existing long-sequence recommendation models: a single set of embeddings struggles with learning both attention and representation, leading to interference between these two processes. Initial attempts to address this issue using linear projections -- a technique borrowed from language processing -- proved ineffective, shedding light on the unique challenges of recommendation models. To overcome this, we propose the Decoupled Attention and Representation Embeddings (DARE) model, where two distinct embedding tables are initialized and learned separately to fully decouple attention and representation. Extensive experiments and analysis demonstrate that DARE provides more accurate search of correlated behaviors and outperforms baselines with AUC gains up to 0.9% on public datasets and notable online system improvements. Furthermore, decoupling embedding spaces allows us to reduce the attention embedding dimension and accelerate the search procedure by 50% without significant performance impact, enabling more efficient, high-performance online serving.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 期待されるリターンを超えて: 累積的確率論的強化学習のためのポリシーグラディエントアルゴリズム

Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning ( http://arxiv.org/abs/2410.02605v1 )

ライセンス: Link先を確認
Olivier Lepel, Anas Barakat, (参考訳) 広く用いられている実用性理論は、心理学や行動経済学の文献における人間の嗜好と実証的に一致していないことが示されている。 累積プロスペクト理論(CPT)は、このギャップを埋め、実証的な証拠によって支持される人間に基づく意思決定のためのより良いモデルを提供するために開発された。 リスク、利益、損失に対する幅広い態度と認識を表現することができる。 数年前,CPTと強化学習(Reinforcement Learning, RL)が組み合わさって, CPT政策最適化問題を定式化している。 本研究では, この政策最適化問題を再考し, 検討中の実用機能に応じて, 最適政策とその性質に関する新たな知見を提供する。 さらに、標準RLのセミナル対応結果を一般化するCPTポリシー最適化目的に対して、新しいポリシー勾配定理を導出する。 これにより、CPT-RL問題を解決するために、モデルフリーポリシー勾配アルゴリズムを設計できる。 本稿では,交通制御と電力管理を応用した簡単な例で,本アルゴリズムの性能について述べる。 また, 政策勾配アルゴリズムは, 同じ問題を解くため, 既存のゼロ次アルゴリズムと比較して, より大きな状態空間に拡張可能であることを示した。

The widely used expected utility theory has been shown to be empirically inconsistent with human preferences in the psychology and behavioral economy literatures. Cumulative Prospect Theory (CPT) has been developed to fill in this gap and provide a better model for human-based decision-making supported by empirical evidence. It allows to express a wide range of attitudes and perceptions towards risk, gains and losses. A few years ago, CPT has been combined with Reinforcement Learning (RL) to formulate a CPT policy optimization problem where the goal of the agent is to search for a policy generating long-term returns which are aligned with their preferences. In this work, we revisit this policy optimization problem and provide new insights on optimal policies and their nature depending on the utility function under consideration. We further derive a novel policy gradient theorem for the CPT policy optimization objective generalizing the seminal corresponding result in standard RL. This result enables us to design a model-free policy gradient algorithm to solve the CPT-RL problem. We illustrate the performance of our algorithm in simple examples motivated by traffic control and electricity management applications. We also demonstrate that our policy gradient algorithm scales better to larger state spaces compared to the existing zeroth order algorithm for solving the same problem.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 変分的量子誤り訂正符号:位相的洞察による調整可能な符号

Variational Graphical Quantum Error Correction Codes: adjustable codes from topological insights ( http://arxiv.org/abs/2410.02608v1 )

ライセンス: Link先を確認
Yuguo Shao, Fuchuan Wei, Zhaohui Wei, Zhengwei Liu, (参考訳) 本稿では、量子情報のための図形言語Quonの知見を活用し、変分量子量子誤り訂正(VGQEC)符号と呼ばれる新しい種類の量子誤り訂正符号を開発する。 VGQEC符号は、符号の誤り訂正能力を決定する上で重要な役割を果たす調整可能な構成パラメータを備えている。 この重要な機能は、様々なノイズモデルのために高品質な量子エラー訂正コードをカスタマイズする際、顕著な柔軟性を提供する。 例えば、5ビットの繰り返しコードから[5,1,3]コードへのスムーズな変換を可能にする、パラメータのシームレスな遷移を示す特定のVGQECコードを示す。 また,現実的な量子デバイスにおいて,VGQEC符号の実装と最適化を行うための一般的な物理スキームを提案する。 最後に、振幅減衰雑音にアプローチを適用し、数値計算により、ノイズを効果的に軽減できる予期せぬ3ビット符号を発見する。

In this paper, we leverage the insights from Quon, a picture language for quantum information, to develop a new class of quantum error-correcting codes termed Variational Graphical Quantum Error Correction~(VGQEC) codes. The VGQEC codes feature adjustable configuration parameters that play a pivotal role in determining the error-correcting capability of the codes. This key feature offers remarkable flexibility in customizing high-quality quantum error-correcting codes for various noise models. For instance, we will present a specific VGQEC code that exhibits a seamless transition of parameters, enabling the smooth transformation of the code from the five-qubit repetition code to the [[5,1,3]] code, and furthermore, the new VGQEC code has a better performance than the above two well-known codes under certain noise models. Meanwhile, we also propose a general physical scheme to implement and optimize VGQEC codes in realistic quantum devices. Lastly, we apply our approach to amplitude damping noise, and by numerical calculations, we discover an unexpected novel three-qubit code that can effectively mitigate the noise.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# Ethio-Fake: 説明可能なAIを用いたオープンソース下言語におけるフェイクニュースの圧縮アプローチ

Ethio-Fake: Cutting-Edge Approaches to Combat Fake News in Under-Resourced Languages Using Explainable AI ( http://arxiv.org/abs/2410.02609v1 )

ライセンス: Link先を確認
Mesay Gemeda Yigezu, Melkamu Abay Mersha, Girma Yohannis Bade, Jugal Kalita, Olga Kolesnikova, Alexander Gelbukh, (参考訳) フェイクニュースの拡散は、特にソーシャルメディアプラットフォームにおける情報拡散の完全性に対する重大な脅威として浮上している。 誤報は、コンテンツの作成と普及の容易さから急速に広まり、世論や社会政治の出来事に影響を及ぼす。 したがって、偽情報の特定は、そのネガティブな影響を減らし、オンラインニュースソースの信頼性を維持するために不可欠である。 伝統的に偽ニュース検出のアプローチは、しばしばコンテンツに基づく特徴のみに依存し、ニュース記事の認識と伝播を形作る上での社会的文脈の重要な役割を見落としている。 本稿では,ソーシャル・コンテクストに基づく機能とニュースコンテンツ機能を統合した包括的アプローチを提案し,アンダー・ソース言語における偽ニュース検出の精度を高める。 従来の機械学習,ニューラルネットワーク,アンサンブル学習,トランスファー学習など,さまざまな手法を用いた実験を行っている。 実験の結果を評価すると, アンサンブル学習法が最も精度が高く, 0.99 F1 のスコアが得られた。 さらに、単言語モデルと比較すると、ターゲット言語による微調整モデルは他のモデルよりも優れ、0.94 F1スコアを達成した。 我々は、説明可能なAI技術を用いて、モデルの性能に寄与する重要な特徴を考慮し、モデルの機能を解析する。

The proliferation of fake news has emerged as a significant threat to the integrity of information dissemination, particularly on social media platforms. Misinformation can spread quickly due to the ease of creating and disseminating content, affecting public opinion and sociopolitical events. Identifying false information is therefore essential to reducing its negative consequences and maintaining the reliability of online news sources. Traditional approaches to fake news detection often rely solely on content-based features, overlooking the crucial role of social context in shaping the perception and propagation of news articles. In this paper, we propose a comprehensive approach that integrates social context-based features with news content features to enhance the accuracy of fake news detection in under-resourced languages. We perform several experiments utilizing a variety of methodologies, including traditional machine learning, neural networks, ensemble learning, and transfer learning. Assessment of the outcomes of the experiments shows that the ensemble learning approach has the highest accuracy, achieving a 0.99 F1 score. Additionally, when compared with monolingual models, the fine-tuned model with the target language outperformed others, achieving a 0.94 F1 score. We analyze the functioning of the models, considering the important features that contribute to model performance, using explainable AI techniques.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# IndicSentEval: 言語特性を符号化する多言語トランスフォーマーモデルをいかに効果的に行うか?

IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? ( http://arxiv.org/abs/2410.02611v1 )

ライセンス: Link先を確認
Akhilesh Aravapalli, Mounika Marreddy, Subba Reddy Oota, Radhika Mamidi, Manish Gupta, (参考訳) トランスフォーマーベースのモデルは自然言語処理の分野に革命をもたらした。 それらの性能をよく理解し、信頼性を評価するために、これらのモデルによってどの言語特性がコード化されているか、そしてどの程度まで、いくつかの研究が焦点を当てている。 入力テキストの摂動に直面する言語特性の符号化におけるこれらのモデルはどの程度堅牢か? しかし、これらの研究は主にBERTと英語に焦点を当てている。 本稿では,9つの多言語トランスフォーマーモデル (7ユニバーサルおよび2インデックス特化モデル) を用いて,13の異なる摂動にまたがる8つの言語特性の符号化能力とロバスト性に関する同様の疑問を考察する。 本研究では,約$$47Kの文を含む新しい多言語ベンチマークデータセットIndicSentEvalを導入する。 驚くべきことに、表面, 構文, 意味的特性の探索解析により、ほとんど全ての多言語モデルが英語の符号化性能を一貫した結果を示す一方で、インディカル言語では混合結果を示すことが明らかとなった。 予想通り、Indic特化多言語モデルは、普遍的なモデルよりも、Indic言語における言語特性を捉えている。 興味深いことに、普遍的なモデルは、特に名詞と動詞の両方を下げたり、動詞のみを下げたり、名詞のみを下げたりといった摂動の下で、インド固有のモデルと比較して、より堅牢性を示す。 本研究は,様々な言語を対象とした多言語トランスフォーマーモデルにおいて,摂動に特有な強みと弱みの探索と探索に関する貴重な知見を提供する。 コードとデータセットを公開しています [https://tinyurl.com/IndicSentEval}]。

Transformer-based models have revolutionized the field of natural language processing. To understand why they perform so well and to assess their reliability, several studies have focused on questions such as: Which linguistic properties are encoded by these models, and to what extent? How robust are these models in encoding linguistic properties when faced with perturbations in the input text? However, these studies have mainly focused on BERT and the English language. In this paper, we investigate similar questions regarding encoding capability and robustness for 8 linguistic properties across 13 different perturbations in 6 Indic languages, using 9 multilingual Transformer models (7 universal and 2 Indic-specific). To conduct this study, we introduce a novel multilingual benchmark dataset, IndicSentEval, containing approximately $\sim$47K sentences. Surprisingly, our probing analysis of surface, syntactic, and semantic properties reveals that while almost all multilingual models demonstrate consistent encoding performance for English, they show mixed results for Indic languages. As expected, Indic-specific multilingual models capture linguistic properties in Indic languages better than universal models. Intriguingly, universal models broadly exhibit better robustness compared to Indic-specific models, particularly under perturbations such as dropping both nouns and verbs, dropping only verbs, or keeping only nouns. Overall, this study provides valuable insights into probing and perturbation-specific strengths and weaknesses of popular multilingual Transformer-based models for different Indic languages. We make our code and dataset publicly available [https://tinyurl.com/IndicSentEval}].
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# NL-Eye: 画像のための帰納的NLI

NL-Eye: Abductive NLI for Images ( http://arxiv.org/abs/2410.02613v1 )

ライセンス: Link先を確認
Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart, (参考訳) 視覚言語モデル(VLM)ベースのボットは、濡れた床を検知した場合、スリップについて警告してくれるだろうか? 近年のVLMは目覚ましい能力を示しているが、結果や原因を推測する能力は未解明のままである。 そこで本研究では,VLMの視覚的帰納的推論能力を評価するためのベンチマークであるNL-Eyeを紹介する。 NL-Eyeは、帰納的自然言語推論(NLI)タスクを視覚領域に適用し、前提画像に基づいて仮説画像の妥当性を評価し、それらの決定を説明するモデルを必要とする。 NL-Eye は、物理的、機能的、論理的、感情的、文化的、社会的な様々な推論カテゴリにまたがる350の慎重にキュレートされた三重奏例(1,050イメージ)で構成されている。 データキュレーションプロセスには、テキスト記述の記述と、テキスト・ツー・イメージモデルによる画像生成という2つのステップが含まれていた。 我々の実験によると、VLMはNL-Eyeでかなり苦労し、しばしばランダムなベースラインレベルで動作し、人間は可視性予測と説明品質の両方に優れていた。 このことは、現代のVLMの誘引的推論能力の欠如を示している。 NL-Eyeは、事故防止ボットや生成されたビデオ検証など、現実のアプリケーションに対して堅牢なマルチモーダル推論が可能なVLMを開発するための重要なステップである。

Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps - writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.
翻訳日:2024-11-04 02:12:23 公開日:2024-10-03
# 逆学習による予測プロセス分析の公正性獲得

Achieving Fairness in Predictive Process Analytics via Adversarial Learning ( http://arxiv.org/abs/2410.02618v1 )

ライセンス: Link先を確認
Massimiliano de Leoni, Alessandro Padella, (参考訳) 予測可能なビジネスプロセス分析は、組織にとって重要になってきており、プロセスのリアルタイムな運用サポートを提供しています。 しかしながら、これらのアルゴリズムは偏りのある変数(例えば、性別や国籍)、すなわち差別を具現化した変数に基づいているため、不公平な予測を行うことが多い。 本稿では,予測段階を予測的ビジネスプロセス分析に統合し,予測がバイアス変数の影響を受けないようにすることの課題に対処する。 本研究の枠組みは, 4つのケーススタディで検証し, 予測値に対する偏り変数の寄与を著しく低減することを示した。 提案手法は, プロセスマイニングにおける最先端のフェアネスと比較し, より優れた予測品質を維持しつつ, より高レベルのフェアネスを実現できることを示した。

Predictive business process analytics has become important for organizations, offering real-time operational support for their processes. However, these algorithms often perform unfair predictions because they are based on biased variables (e.g., gender or nationality), namely variables embodying discrimination. This paper addresses the challenge of integrating a debiasing phase into predictive business process analytics to ensure that predictions are not influenced by biased variables. Our framework leverages on adversial debiasing is evaluated on four case studies, showing a significant reduction in the contribution of biased variables to the predicted value. The proposed technique is also compared with the state of the art in fairness in process mining, illustrating that our framework allows for a more enhanced level of fairness, while retaining a better prediction quality.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# GI-GS:逆レンダリングのためのガウススメッティングのグローバル照明分解

GI-GS: Global Illumination Decomposition on Gaussian Splatting for Inverse Rendering ( http://arxiv.org/abs/2410.02619v1 )

ライセンス: Link先を確認
Hongze Chen, Zehong Lin, Jun Zhang, (参考訳) GI-GSは,3次元ガウススティング(3DGS)と遅延シェーディングを活用して,フォトリアリスティックな新規ビュー合成とリライティングを実現する,新しい逆レンダリングフレームワークである。 逆レンダリングでは、オブジェクトのシェーディングプロセスを正確にモデル化することは、高忠実度結果を達成するために不可欠である。 したがって、複数のバウンス後に物体に届く間接照明を考慮に入れるために、地球規模の照明を取り入れることが重要である。 従来の3DGSベースの手法では、間接照明を各ガウスの学習可能な照明量または付加属性として特徴づけ、シャドー効果を表すために焼成オクルージョンを用いて間接照明をモデル化しようと試みてきた。 しかし、これらの手法は光と物体の間の複雑な物理的相互作用を正確にモデル化することができず、照明中に現実的な間接照明を構築することは不可能である。 この制限に対処するために、遅延シェーディングを用いた効率的な経路トレースを用いて間接照明を計算することを提案する。 筆者らのフレームワークでは,まずGバッファを描画し,シーンの詳細な形状と材料特性を捉える。 そして、直接照明のみに物理ベースのレンダリング(PBR)を行う。 Gバッファと以前のレンダリング結果により、ライトウェイトパストレースにより間接照明を計算することができる。 提案手法は,任意の照明条件下での間接照明を効果的にモデル化することにより,より新規なビュー合成とリライティングを実現する。 定量的および定性的な結果から,我々のGI-GSは,レンダリング品質と効率の両方において,既存のベースラインを上回っていることが示された。

We present GI-GS, a novel inverse rendering framework that leverages 3D Gaussian Splatting (3DGS) and deferred shading to achieve photo-realistic novel view synthesis and relighting. In inverse rendering, accurately modeling the shading processes of objects is essential for achieving high-fidelity results. Therefore, it is critical to incorporate global illumination to account for indirect lighting that reaches an object after multiple bounces across the scene. Previous 3DGS-based methods have attempted to model indirect lighting by characterizing indirect illumination as learnable lighting volumes or additional attributes of each Gaussian, while using baked occlusion to represent shadow effects. These methods, however, fail to accurately model the complex physical interactions between light and objects, making it impossible to construct realistic indirect illumination during relighting. To address this limitation, we propose to calculate indirect lighting using efficient path tracing with deferred shading. In our framework, we first render a G-buffer to capture the detailed geometry and material properties of the scene. Then, we perform physically-based rendering (PBR) only for direct lighting. With the G-buffer and previous rendering results, the indirect lighting can be calculated through a lightweight path tracing. Our method effectively models indirect lighting under any given lighting conditions, thereby achieving better novel view synthesis and relighting. Quantitative and qualitative results show that our GI-GS outperforms existing baselines in both rendering quality and efficiency.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# Diss-l-ECT: 局所オイラー特性変換を用いたグラフデータの分離

Diss-l-ECT: Dissecting Graph Data with local Euler Characteristic Transforms ( http://arxiv.org/abs/2410.02622v1 )

ライセンス: Link先を確認
Julius von Rohrscheidt, Bastian Rieck, (参考訳) オイラー特性変換(英: Euler Characteristics Transform、ECT)は、データの大域的な形状を特徴付ける、効率的に計算可能な幾何学的位相不変量である。 本稿では,グラフ表現学習における表現性と解釈性の向上を目的としたECTの新たな拡張である局所オイラー特性変換(\ell$-ECT)を紹介する。 従来のグラフニューラルネットワーク(GNN)とは異なり、アグリゲーションによって重要なローカル詳細を失う可能性がある。 このアプローチは、グローバルな解釈可能性を維持しながら、ニュアンス付きローカル構造を保存することで、GNNの重要な制限に対処する。 さらに,データ空間の空間的アライメントのための$\ell$-ECTsに基づく回転不変計量を構築した。 提案手法は,多種多様なノード分類タスク,特に高いヘテロフィリエを持つグラフにおいて,標準GNNよりも優れた性能を示す。

The Euler Characteristic Transform (ECT) is an efficiently-computable geometrical-topological invariant that characterizes the global shape of data. In this paper, we introduce the Local Euler Characteristic Transform ($\ell$-ECT), a novel extension of the ECT particularly designed to enhance expressivity and interpretability in graph representation learning. Unlike traditional Graph Neural Networks (GNNs), which may lose critical local details through aggregation, the $\ell$-ECT provides a lossless representation of local neighborhoods. This approach addresses key limitations in GNNs by preserving nuanced local structures while maintaining global interpretability. Moreover, we construct a rotation-invariant metric based on $\ell$-ECTs for spatial alignment of data spaces. Our method exhibits superior performance than standard GNNs on a variety of node classification tasks, particularly in graphs with high heterophily.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# 木に基づく手法のランク付けと記号的特徴選択への応用

Ranking Perspective for Tree-based Methods with Applications to Symbolic Feature Selection ( http://arxiv.org/abs/2410.02623v1 )

ライセンス: Link先を確認
Hengrui Luo, Meng Li, (参考訳) 木に基づく手法は統計学や機械学習において強力な非パラメトリック手法である。 しかし、それらの効果、特に有限サンプル設定では、完全には理解されていない。 近年の応用は、現在の理論的理解の下では明らかでない変換(象徴的特徴選択と呼ばれる)を区別する驚くべき能力を明らかにしている。 この研究は、ランク付けの観点から木に基づく手法の有限サンプル解析を提供する。 ツリーメソッドのオラクルパーティションを局所的なスプリットでの応答ランキングにリンクし、回帰および特徴選択タスクにおける有限サンプルの振る舞いに関する新たな洞察を提供する。 この局所的なランキングの観点から、我々は分析を2つの方法で拡張する。 i) 分類・回帰木(CART)やベイジアン付加回帰木(BART)など,個々の木やアンサンブルのグローバルなランク付け性能について検討し, 有限サンプルオラクル境界, ランキング整合性, 後部収縮結果について検討した。 (II)ランク付けの観点に触発されて,記号的特徴写像を評価し,それらの特性を確立するために,コンコーダント発散統計学$\mathcal{T}_0$を提案する。 数値実験は, 従来の手法と比較して, 象徴的特徴選択タスクにおけるこれらの統計量の競合性能を実証する。

Tree-based methods are powerful nonparametric techniques in statistics and machine learning. However, their effectiveness, particularly in finite-sample settings, is not fully understood. Recent applications have revealed their surprising ability to distinguish transformations (which we call symbolic feature selection) that remain obscure under current theoretical understanding. This work provides a finite-sample analysis of tree-based methods from a ranking perspective. We link oracle partitions in tree methods to response rankings at local splits, offering new insights into their finite-sample behavior in regression and feature selection tasks. Building on this local ranking perspective, we extend our analysis in two ways: (i) We examine the global ranking performance of individual trees and ensembles, including Classification and Regression Trees (CART) and Bayesian Additive Regression Trees (BART), providing finite-sample oracle bounds, ranking consistency, and posterior contraction results. (ii) Inspired by the ranking perspective, we propose concordant divergence statistics $\mathcal{T}_0$ to evaluate symbolic feature mappings and establish their properties. Numerical experiments demonstrate the competitive performance of these statistics in symbolic feature selection tasks compared to existing methods.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# 大域的非漸近的収束を考慮したオンライン学習指導準ニュートン法

Online Learning Guided Quasi-Newton Methods with Global Non-Asymptotic Convergence ( http://arxiv.org/abs/2410.02626v1 )

ライセンス: Link先を確認
Ruichen Jiang, Aryan Mokhtari, (参考訳) 本稿では,制約のない最小化や極小最適化など,滑らかで単調な非線形方程式を解くための準ニュートン法を提案する。 強い単調な設定では、2つの大域収束境界を確立する。 一 卓越した過度な方法の率と一致する直線収束率、及び (ii)少なくとも${O}(d)$反復の後に、線形収束率を確実に上回る明示的な大域的超線型収束率(d$は問題の次元である)。 さらに、作用素が単調である場合、双対性ギャップの観点で${O}(\min\{{1}/{k},{\sqrt{d}}/{k^{1.25}}\})$の大域収束率を証明する。 これは $k = {O}(d^2)$ で、$k = \Omega(d^2)$ のときよりも高速である。 これらの結果は、作用素のヤコビアンを問うことなく、半ニュートン法が次数次法よりも優れていることを示す最初の大域収束結果である。 古典的準ニュートン法と異なり, ハイブリッド近位次フレームワークと, ヤコビ近似行列を更新するための新しいオンライン学習手法を用いてこれを実現している。 具体的には, 収束解析により, 非対称行列上でのオンライン凸最適化問題としてヤコビ近似更新を定式化し, オンライン問題の後悔と手法の収束率を関連づける。 効率的な実装を容易にするため,ヤコビ行列の対称性や空間性などの構造を保存する近似的な分離オラクルに基づくオンライン学習アルゴリズムをさらに開発する。

In this paper, we propose a quasi-Newton method for solving smooth and monotone nonlinear equations, including unconstrained minimization and minimax optimization as special cases. For the strongly monotone setting, we establish two global convergence bounds: (i) a linear convergence rate that matches the rate of the celebrated extragradient method, and (ii) an explicit global superlinear convergence rate that provably surpasses the linear convergence rate after at most ${O}(d)$ iterations, where $d$ is the problem's dimension. In addition, for the case where the operator is only monotone, we prove a global convergence rate of ${O}(\min\{{1}/{k},{\sqrt{d}}/{k^{1.25}}\})$ in terms of the duality gap. This matches the rate of the extragradient method when $k = {O}(d^2)$ and is faster when $k = \Omega(d^2)$. These results are the first global convergence results to demonstrate a provable advantage of a quasi-Newton method over the extragradient method, without querying the Jacobian of the operator. Unlike classical quasi-Newton methods, we achieve this by using the hybrid proximal extragradient framework and a novel online learning approach for updating the Jacobian approximation matrices. Specifically, guided by the convergence analysis, we formulate the Jacobian approximation update as an online convex optimization problem over non-symmetric matrices, relating the regret of the online problem to the convergence rate of our method. To facilitate efficient implementation, we further develop a tailored online learning algorithm based on an approximate separation oracle, which preserves structures such as symmetry and sparsity in the Jacobian matrices.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# データ様態最大化による逆エントロピー最適輸送体半教師付き学習

Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization ( http://arxiv.org/abs/2410.02628v1 )

ライセンス: Link先を確認
Mikhail Persiianov, Arip Asadulaev, Nikita Andreev, Nikita Starodubcev, Dmitry Baranchuk, Anastasis Kratsios, Evgeny Burnaev, Alexander Korotin, (参考訳) 学習条件分布 $\pi^*(\cdot|x)$ は機械学習の中心的な問題であり、通常、ペアデータ $(x,y) \sim \pi^*$ で教師付き手法によってアプローチされる。 しかし、特にドメイン翻訳のような問題では、ペア化されたデータサンプルの取得は困難であることが多い。 これは、制限されたペアデータと追加の未ペアデータの両方を利用する$\textit{semi-supervised}$モデル、すなわち、限界分布から$x \sim \pi^*_x$と$y \sim \pi^*_y$を開発する必要がある。 このような組み合わせデータの使用は複雑で、しばしばヒューリスティックなアプローチに依存している。 この問題に対処するため,データ極大化手法を用いて,ペアデータとペアデータの両方を統合する新たな学習パラダイムを提案する。 また,本手法は,逆エントロピー最適輸送(OT)と興味深い結びつきがあることを実証した。 この発見により、計算OTの最近の進歩を応用して$\textbf{light}$学習アルゴリズムを確立し、$\pi^*(\cdot|x)$を得ることができる。 さらに,本手法がペアデータとアンペアデータを用いて条件分布を効果的に学習できることを実証実験により実証した。

Learning conditional distributions $\pi^*(\cdot|x)$ is a central problem in machine learning, which is typically approached via supervised methods with paired data $(x,y) \sim \pi^*$. However, acquiring paired data samples is often challenging, especially in problems such as domain translation. This necessitates the development of $\textit{semi-supervised}$ models that utilize both limited paired data and additional unpaired i.i.d. samples $x \sim \pi^*_x$ and $y \sim \pi^*_y$ from the marginal distributions. The usage of such combined data is complex and often relies on heuristic approaches. To tackle this issue, we propose a new learning paradigm that integrates both paired and unpaired data $\textbf{seamlessly}$ through the data likelihood maximization techniques. We demonstrate that our approach also connects intriguingly with inverse entropic optimal transport (OT). This finding allows us to apply recent advances in computational OT to establish a $\textbf{light}$ learning algorithm to get $\pi^*(\cdot|x)$. Furthermore, we demonstrate through empirical tests that our method effectively learns conditional distributions using paired and unpaired data simultaneously.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# ロバスト回帰における近位SGD軌道に沿った一般化性能の推定

Estimating Generalization Performance Along the Trajectory of Proximal SGD in Robust Regression ( http://arxiv.org/abs/2410.02629v1 )

ライセンス: Link先を確認
Kai Tan, Pierre C. Bellec, (参考訳) 本稿では,高次元ロバスト回帰問題におけるGD,Stochastic Gradient Descent(SGD)およびそれらの近位変種による反復体の一般化性能について検討する。 機能の数はサンプルサイズに匹敵し、エラーは重くなる可能性がある。 本稿では,反復アルゴリズムの軌道に沿った反復の一般化誤差を正確に追跡する推定器を提案する。 これらの推定器は、適切な条件下では確実に一貫性がある。 結果は、ハマー回帰(英語版)、擬ハマー回帰(英語版)、および非滑らかな正則化子を持つそれらのペナル化変種(英語版)など、いくつかの例を通して説明される。 非滑らかな正則化器の存在下で、GDおよびSGD、または近位SGDから生成された反復数に対する明示的な一般化誤差推定を提供する。 提案したリスク推定は、実際の一般化誤差の有効なプロキシとして機能し、一般化誤差を最小限に抑える最適な停止繰り返しを決定することができる。 大規模シミュレーションにより,提案した一般化誤差推定の有効性が検証された。

This paper studies the generalization performance of iterates obtained by Gradient Descent (GD), Stochastic Gradient Descent (SGD) and their proximal variants in high-dimensional robust regression problems. The number of features is comparable to the sample size and errors may be heavy-tailed. We introduce estimators that precisely track the generalization error of the iterates along the trajectory of the iterative algorithm. These estimators are provably consistent under suitable conditions. The results are illustrated through several examples, including Huber regression, pseudo-Huber regression, and their penalized variants with non-smooth regularizer. We provide explicit generalization error estimates for iterates generated from GD and SGD, or from proximal SGD in the presence of a non-smooth regularizer. The proposed risk estimates serve as effective proxies for the actual generalization error, allowing us to determine the optimal stopping iteration that minimizes the generalization error. Extensive simulations confirm the effectiveness of the proposed generalization error estimates.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# メトリックス革命 : バイオメディカルイメージセグメンテーションのためのメトリックス実装の画期的展望

Metrics Revolutions: Groundbreaking Insights into the Implementation of Metrics for Biomedical Image Segmentation ( http://arxiv.org/abs/2410.02630v1 )

ライセンス: Link先を確認
Gašper Podobnik, Tomaž Vrtovec, (参考訳) セグメンテーション性能の評価は、バイオメディカル画像解析において一般的な課題であり、最近リリースされたメトリクス選択ガイドラインや計算フレームワークにおいてその重要性が強調されている。 2つのセグメンテーションのアライメントを定量的に評価するために、研究者は通常、Dice類似度係数やHausdorff 距離のような距離に基づくメトリクスを数えることに頼っている。 本研究では,この仮定を疑問視し,実際の臨床データに関する定量的実験とともに体系的な実装分析を行い,高精度なメッシュベースの参照実装に対して,距離ベースのメトリクス計算を行う11のオープンソースツールを比較した。 その結果、既存の研究の妥当性を疑問視するため、すべてのオープンソースツール間の統計的に有意な違いは驚きと関係があることがわかった。 変動の主源の特定に加えて,距離に基づくメトリクス計算の推奨も提供する。

The evaluation of segmentation performance is a common task in biomedical image analysis, with its importance emphasized in the recently released metrics selection guidelines and computing frameworks. To quantitatively evaluate the alignment of two segmentations, researchers commonly resort to counting metrics, such as the Dice similarity coefficient, or distance-based metrics, such as the Hausdorff distance, which are usually computed by publicly available open-source tools with an inherent assumption that these tools provide consistent results. In this study we questioned this assumption, and performed a systematic implementation analysis along with quantitative experiments on real-world clinical data to compare 11 open-source tools for distance-based metrics computation against our highly accurate mesh-based reference implementation. The results revealed that statistically significant differences among all open-source tools are both surprising and concerning, since they question the validity of existing studies. Besides identifying the main sources of variation, we also provide recommendations for distance-based metrics computation.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# マルチドメイン翻訳のための大規模言語モデル:ベンチマークとDomain CoTファインタニング

Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning ( http://arxiv.org/abs/2410.02631v1 )

ライセンス: Link先を確認
Tianxiang Hu, Pei Zhang, Baosong Yang, Jun Xie, Derek F. Wong, Rui Wang, (参考訳) さまざまなドメインにまたがる一貫した高品質な機械翻訳(MT)を実現することは、主にさまざまなドメインで利用可能な、限定的で不均衡な並列トレーニングデータのために、大きな課題である。 大規模言語モデル(LLM)は、目覚ましい一般理解と生成能力を示してきたが、マルチドメインMTの潜在能力は未探索である。 我々は、25のドイツ語$\Leftrightarrow$ Englishと22の中国語$\Leftrightarrow$ Englishがそれぞれ15のドメインをカバーする、多ドメイン翻訳のための包括的なベンチマークを確立した。 筆者らは,従来のMTシステムに対して,ドメイン制限コーパスの微調整後,ドメイン過度な適合と破滅的な忘れの問題を強調し,顕著な性能ギャップを明らかにした。 そこで本研究では,LLMの本質的なマルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。 この方法により、LLMはソーステキストからドメイン情報を知覚し、翻訳プロセスのガイドとなるヒントとなる。 4つのドメインの小さなデータセットでトレーニングされているにもかかわらず、私たちのCoTファインチューンアプローチは、平均1.53 BLEUスコアが20以上のドイツ語$\rightarrow$ Englishのドメイン外テストで増加していることが証明されているように、従来の微調整よりも翻訳精度とドメインの堅牢性が顕著に向上している。

Achieving consistent high-quality machine translation (MT) across diverse domains remains a significant challenge, primarily due to the limited and imbalanced parallel training data available in various domains. While large language models (LLMs) have demonstrated impressive general understanding and generation abilities, their potential in multi-domain MT is under-explored. We establish a comprehensive benchmark for multi-domain translation, featuring 25 German$\Leftrightarrow$English and 22 Chinese$\Leftrightarrow$English test sets respectively covering 15 domains. Our evaluation of prominent LLMs reveals a discernible performance gap against traditional MT systems, highlighting domain overfitting and catastrophic forgetting issues after fine-tuning on domain-limited corpora. To mitigate this, we propose a domain Chain of Thought (CoT) fine-tuning technique that utilizes the intrinsic multi-domain intelligence of LLMs to improve translation performance. This method inspires the LLM to perceive domain information from the source text, which then serves as a helpful hint to guide the translation process. Despite being trained on a small dataset of four domains, our CoT fine-tune approach achieves notable enhancements in translation accuracy and domain robustness than traditional fine-tuning, as evidenced by an average 1.53 BLEU score increase in over 20 German$\rightarrow$English distinct out-of-domain tests.
翻訳日:2024-11-04 02:02:21 公開日:2024-10-03
# マルチモーダルモデルにおける時系列理解のプロット

Plots Unlock Time-Series Understanding in Multimodal Models ( http://arxiv.org/abs/2410.02637v1 )

ライセンス: Link先を確認
Mayank Daswani, Mathias M. J. Bellaiche, Marc Wilson, Desislav Ivanov, Mikhail Papkov, Eva Schnider, Jing Tang, Kay Lamerigts, Gabriela Botea, Michael A. Sanchez, Yojan Patel, Shruthi Prabhakara, Shravya Shetty, Umesh Telang, (参考訳) マルチモーダル・ファンデーション・モデルはテキスト以外のデータをネイティブに扱えるようになったが、医療、金融、社会科学といった分野における膨大な多次元時系列データを分析するには未利用のままである。 本稿では,これらのモデルの既存のビジョンエンコーダを利用して,プロットを介して時系列データを"見る"ための簡易かつ効果的な手法を提案する。 実験により,本手法は生の時系列データをテキストとして提供する方法よりも優れており,視覚的時系列表現がモデルAPIコストを90%削減できるというメリットがあることがわかった。 我々は,複雑性を増大させる合成データタスクによる仮説の検証を行い,クリーンデータ上での単純な関数型識別から,ノイズの多い散乱プロットからトレンドを抽出した。 より複雑な実世界のシナリオへの明確な推論ステップによる合成タスクからの一般化性を実証するために、我々は、異質でノイズの多いデータと多段階の推論を含む、消費者健康タスク(特に転倒検出、活動認識、準備性評価)にアプローチを適用します。 GPTおよびGeminiモデルファミリ間のテキストパフォーマンスに対するプロットパフォーマンスの全体的な成功(ゼロショット合成タスクでは最大120%のパフォーマンス向上、実世界のタスクでは最大150%のパフォーマンス向上)は、ファンデーションモデルのネイティブ機能を最大限に活用するためのアプローチの可能性を強調します。

While multimodal foundation models can now natively work with data beyond text, they remain underutilized in analyzing the considerable amounts of multi-dimensional time-series data in fields like healthcare, finance, and social sciences, representing a missed opportunity for richer, data-driven insights. This paper proposes a simple but effective method that leverages the existing vision encoders of these models to "see" time-series data via plots, avoiding the need for additional, potentially costly, model training. Our empirical evaluations show that this approach outperforms providing the raw time-series data as text, with the additional benefit that visual time-series representations demonstrate up to a 90% reduction in model API costs. We validate our hypothesis through synthetic data tasks of increasing complexity, progressing from simple functional form identification on clean data, to extracting trends from noisy scatter plots. To demonstrate generalizability from synthetic tasks with clear reasoning steps to more complex, real-world scenarios, we apply our approach to consumer health tasks - specifically fall detection, activity recognition, and readiness assessment - which involve heterogeneous, noisy data and multi-step reasoning. The overall success in plot performance over text performance (up to an 120% performance increase on zero-shot synthetic tasks, and up to 150% performance increase on real-world tasks), across both GPT and Gemini model families, highlights our approach's potential for making the best use of the native capabilities of foundation models.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# オンラインマルチカメラ車両追跡のための空間的マルチカット

Spatial-Temporal Multi-Cuts for Online Multiple-Camera Vehicle Tracking ( http://arxiv.org/abs/2410.02638v1 )

ライセンス: Link先を確認
Fabian Herzog, Johannes Gilg, Philipp Wolters, Torben Teepe, Gerhard Rigoll, (参考訳) 正確なオンラインマルチカメラ車両追跡は、インテリジェント交通システム、自動運転、スマートシティアプリケーションに不可欠である。 シングルカメラのマルチオブジェクト追跡と同様に、一般的にはグラフ問題として表現される。 このフレームワーク内では、既存のオンラインメソッドは通常、時間的に、次いで空間的に、あるいはその逆をクラスタ化する2段階のプロシージャで構成されている。 これは計算コストが高く、エラーの蓄積が困難である。 新たな検出は,既存のクラスタと空間的,時間的に関連付けられている。 本手法は,クラスタ内の全ての検出点の粗い外観と位置の手がかりを保ちながら,最強の証拠に基づいてクラスタを比較することができる。 最終トラックは、単純なマルチカット代行手順でオンラインで取得される。 本手法では,対象シーンのトレーニング,シングルカメラトラックの事前抽出,アノテーションの追加は不要である。 特に、CityFlowデータセットのオンライン最先端を、IDF1の14%以上、Synthehicleデータセットの25%以上で上回ります。 コードは公開されている。

Accurate online multiple-camera vehicle tracking is essential for intelligent transportation systems, autonomous driving, and smart city applications. Like single-camera multiple-object tracking, it is commonly formulated as a graph problem of tracking-by-detection. Within this framework, existing online methods usually consist of two-stage procedures that cluster temporally first, then spatially, or vice versa. This is computationally expensive and prone to error accumulation. We introduce a graph representation that allows spatial-temporal clustering in a single, combined step: New detections are spatially and temporally connected with existing clusters. By keeping sparse appearance and positional cues of all detections in a cluster, our method can compare clusters based on the strongest available evidence. The final tracks are obtained online using a simple multicut assignment procedure. Our method does not require any training on the target scene, pre-extraction of single-camera tracks, or additional annotations. Notably, we outperform the online state-of-the-art on the CityFlow dataset in terms of IDF1 by more than 14%, and on the Synthehicle dataset by more than 25%, respectively. The code is publicly available.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# 大規模ジョブクエリデータによる労働移動モデリング

Labor Migration Modeling through Large-scale Job Query Data ( http://arxiv.org/abs/2410.02639v1 )

ライセンス: Link先を確認
Zhuoning Guo, Le Zhang, Hengshu Zhu, Weijia Zhang, Hui Xiong, Hao Liu, (参考訳) 労働移住の正確なタイムリーなモデリングは、地方政策作成や事業所選定など、様々な都市統治や商業業務に不可欠である。 しかし、労働移住に関する既存の研究は、統計学的手法による限られた調査データに大きく依存している。 そこで本研究では,大規模ジョブクエリデータを活用した深層学習に基づく時空間労働移動分析フレームワークDHG-SILを提案する。 具体的には,世界最大規模の検索エンジンからの求人情報による労働移動のプロキシとして,まず最初に労働移動の意図を取得する。 次に,Reprepant Homophily共保存グラフ畳み込みネットワーク(DH-GCN)と解釈可能な時間モジュールをそれぞれ提案し,クロスシティとシーケンシャルな労働移動の依存関係を捉える。 さらに,都市移動特性を定量化するための4つの解釈可能な変数を導入する。 3つの実世界のデータセットに対する大規模な実験は、我々のDHG-SILの優位性を示している。 特に、DHG-SILは、協力パートナーのインテリジェントな人材システムの中核的なコンポーネントとして展開されており、このシステムは、一連の都市タレントアトラクションレポートを支持している。

Accurate and timely modeling of labor migration is crucial for various urban governance and commercial tasks, such as local policy-making and business site selection. However, existing studies on labor migration largely rely on limited survey data with statistical methods, which fail to deliver timely and fine-grained insights for time-varying regional trends. To this end, we propose a deep learning-based spatial-temporal labor migration analysis framework, DHG-SIL, by leveraging large-scale job query data. Specifically, we first acquire labor migration intention as a proxy of labor migration via job queries from one of the world's largest search engines. Then, a Disprepant Homophily co-preserved Graph Convolutional Network (DH-GCN) and an interpretable temporal module are respectively proposed to capture cross-city and sequential labor migration dependencies. Besides, we introduce four interpretable variables to quantify city migration properties, which are co-optimized with city representations via tailor-designed contrastive losses. Extensive experiments on three real-world datasets demonstrate the superiority of our DHG-SIL. Notably, DHG-SIL has been deployed as a core component of a cooperative partner's intelligent human resource system, and the system supported a series of city talent attraction reports.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# 圧縮特徴初期化による拡散型極端画像圧縮

Diffusion-based Extreme Image Compression with Compressed Feature Initialization ( http://arxiv.org/abs/2410.02640v1 )

ライセンス: Link先を確認
Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Ajmal Mian, (参考訳) 拡散に基づく極端画像圧縮法は、極低ビットレートで優れた性能を達成している。 しかし、純粋な雑音から始まる反復的復調過程に制約され、これらの手法は忠実さと効率の両方で制限される。 本稿では,Relay Residual Diffusion Extreme Image Compression (RDEIC)を提案する。 具体的には、まず画像の圧縮遅延特徴を純雑音ではなく付加雑音で使用し、デノナイジング過程の不要な初期段階を除去する出発点とする。 第2に,圧縮された特徴と対象特徴との間の付加ノイズと残差を反復的に除去することにより,原像を再構成する新たなリレー残差拡散を設計する。 特に,我々のリレー残差拡散ネットワークは,事前学習した安定拡散をシームレスに統合し,その堅牢な生成能力を利用して高品質な再構成を行う。 第3に,トレーニングフェーズと推論フェーズの相違を解消し,再現性を向上させるための固定ステップ微調整戦略を提案する。 広汎な実験により、提案手法は最先端の視覚的品質を実現し、既存の拡散に基づく極端画像圧縮手法よりも忠実度と効率性が優れていることが示された。 ソースコードはhttps://github.com/huai-chang/RDEICで提供される。

Diffusion-based extreme image compression methods have achieved impressive performance at extremely low bitrates. However, constrained by the iterative denoising process that starts from pure noise, these methods are limited in both fidelity and efficiency. To address these two issues, we present Relay Residual Diffusion Extreme Image Compression (RDEIC), which leverages compressed feature initialization and residual diffusion. Specifically, we first use the compressed latent features of the image with added noise, instead of pure noise, as the starting point to eliminate the unnecessary initial stages of the denoising process. Second, we design a novel relay residual diffusion that reconstructs the raw image by iteratively removing the added noise and the residual between the compressed and target latent features. Notably, our relay residual diffusion network seamlessly integrates pre-trained stable diffusion to leverage its robust generative capability for high-quality reconstruction. Third, we propose a fixed-step fine-tuning strategy to eliminate the discrepancy between the training and inference phases, further improving the reconstruction quality. Extensive experiments demonstrate that the proposed RDEIC achieves state-of-the-art visual quality and outperforms existing diffusion-based extreme image compression methods in both fidelity and efficiency. The source code will be provided in https://github.com/huai-chang/RDEIC.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# ゼロショットリランカーの効率向上に寄与する大規模言語モデルの注意

Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers ( http://arxiv.org/abs/2410.02642v1 )

ライセンス: Link先を確認
Shijie Chen, Bernal Jiménez Gutiérrez, Yu Su, (参考訳) 情報検索(IR)システムは、現代のデジタル生活において重要な役割を担い、検索強化世代による新たな生成AIの時代において、その継続的な有用性を強化してきた。 強力な言語処理能力と優れた汎用性により、大きな言語モデル(LLM)はIRシステムにおいてゼロショットの再ランク付けに人気がある。 これまでのところ、LLMベースのリグレード手法は強力な生成能力に依存しており、特殊または強力なプロプライエタリなモデルに制限されている。 LLMが再ランク付けを行うためには、自己回帰生成が必要か、最適か? 我々は、LLM内での再ランク付けに関係する信号が豊富にあると仮定し、生成によってその潜在能力を最大限に発揮できない可能性があると仮定する。 このような信号をより直接的に活用するために,検索クエリによる注目パターンの変化を利用して,高精度かつ効率的に再分類するICR(In-context re- rank)を提案する。 LLMにおける固有バイアスを軽減するために,コンテントフリークエリを用いたキャリブレーション手法を提案する。 生成がないため、ICRは$N$ドキュメントを再ランクするために2(O(1)$)フォワードパスしか必要とせず、少なくとも$O(N)$フォワードパスを必要とする生成的再ランクメソッドよりもはるかに効率的である。 我々の新しい設計により、ICRは特別な訓練を受けずに、優れたランキングを保証しながら、どんなLLMにも適用できる。 標準シングルホップおよびマルチホップ情報検索ベンチマークにおける2つの人気のあるオープンウェイトLCMによる大規模な実験により、ICRは、実際に60%以上のレイテンシを削減しながら、RanGPTよりも優れた性能を示した。 より詳細な分析により、ICRの性能は、より複雑な再ランク信号を必要とするタスクに特に強いことを示す。 本研究は,テキスト生成を超越したオープンウェイトLCMの新たな利用方法を探究することを目的とする。

Information retrieval (IR) systems have played a vital role in modern digital life and have cemented their continued usefulness in this new era of generative AI via retrieval-augmented generation. With strong language processing capabilities and remarkable versatility, large language models (LLMs) have become popular choices for zero-shot re-ranking in IR systems. So far, LLM-based re-ranking methods rely on strong generative capabilities, which restricts their use to either specialized or powerful proprietary models. Given these restrictions, we ask: is autoregressive generation necessary and optimal for LLMs to perform re-ranking? We hypothesize that there are abundant signals relevant to re-ranking within LLMs that might not be used to their full potential via generation. To more directly leverage such signals, we propose in-context re-ranking (ICR), a novel method that leverages the change in attention pattern caused by the search query for accurate and efficient re-ranking. To mitigate the intrinsic biases in LLMs, we propose a calibration method using a content-free query. Due to the absence of generation, ICR only requires two ($O(1)$) forward passes to re-rank $N$ documents, making it substantially more efficient than generative re-ranking methods that require at least $O(N)$ forward passes. Our novel design also enables ICR to be applied to any LLM without specialized training while guaranteeing a well-formed ranking. Extensive experiments with two popular open-weight LLMs on standard single-hop and multi-hop information retrieval benchmarks show that ICR outperforms RankGPT while cutting the latency by more than 60% in practice. Through detailed analyses, we show that ICR's performance is specially strong on tasks that require more complex re-ranking signals. Our findings call for further exploration on novel ways of utilizing open-weight LLMs beyond text generation.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# なぜサンプル空間が重要か:LiDARを用いた位置認識のための鍵フレームサンプリング最適化

Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition ( http://arxiv.org/abs/2410.02643v1 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Vidya Sumathy, Christoforos Kanellakis, George Nikolakopoulos, (参考訳) ロボット工学の最近の進歩は、現実の自律性を押し上げ、ロボットが長期的かつ大規模なミッションを遂行できるようにする。 ミッション成功の重要な要素は、位置認識によるループ閉鎖の取り込みであり、蓄積されたポーズ推定ドリフトを効果的に緩和する。 特に資源制約のある移動ロボットやマルチロボットシステムでは,従来のキーフレームサンプリング方式では,時間間隔の固定化や3次元空間での作業に頼って,余分な情報を保持したり,関連データを見渡すことが多かったため,リアルタイムデプロイメントのパフォーマンスの最適化は依然として困難である。 これらの問題に対処するために、位置認識におけるサンプル空間の概念を導入し、異なるサンプリング手法がクエリプロセスと全体的なパフォーマンスに与える影響を実証する。 次に,超次元ディスクリプタ空間における冗長性の最小化と情報保存に焦点を当てた,LiDARに基づく位置認識のための新しいキーフレームサンプリング手法を提案する。 このアプローチは,学習ベースおよび手書き記述子の両方に適用可能であり,複数のデータセットや記述子フレームワークにまたがる実験的な検証を通じて,提案手法の有効性を実証し,冗長性を共同で最小化し,重要な情報をリアルタイムで保持できることを示す。 提案手法は,パラメータチューニングを必要とせずに,さまざまなデータセットに対して堅牢な性能を維持し,幅広いロボットアプリケーションに対して,より効率的かつ信頼性の高い位置認識を実現する。

Recent advances in robotics are pushing real-world autonomy, enabling robots to perform long-term and large-scale missions. A crucial component for successful missions is the incorporation of loop closures through place recognition, which effectively mitigates accumulated pose estimation drift. Despite computational advancements, optimizing performance for real-time deployment remains challenging, especially in resource-constrained mobile robots and multi-robot systems since, conventional keyframe sampling practices in place recognition often result in retaining redundant information or overlooking relevant data, as they rely on fixed sampling intervals or work directly in the 3D space instead of the feature space. To address these concerns, we introduce the concept of sample space in place recognition and demonstrate how different sampling techniques affect the query process and overall performance. We then present a novel keyframe sampling approach for LiDAR-based place recognition, which focuses on redundancy minimization and information preservation in the hyper-dimensional descriptor space. This approach is applicable to both learning-based and handcrafted descriptors, and through the experimental validation across multiple datasets and descriptor frameworks, we demonstrate the effectiveness of our proposed method, showing it can jointly minimize redundancy and preserve essential information in real-time. The proposed approach maintains robust performance across various datasets without requiring parameter tuning, contributing to more efficient and reliable place recognition for a wide range of robotic applications.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# エージェントセキュリティベンチ(ASB) : LLMエージェントにおける攻撃と防御の形式化とベンチマーク

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents ( http://arxiv.org/abs/2410.02644v1 )

ライセンス: Link先を確認
Hanrong Zhang, Jingyuan Huang, Kai Mei, Yifei Yao, Zhenting Wang, Chenlu Zhan, Hongwei Wang, Yongfeng Zhang, (参考訳) LLMベースのエージェントは、LLM(Large Language Models)をベースとして、複雑な現実世界のタスクを解決するために外部ツールやメモリメカニズムを使用することができるが、重要なセキュリティ脆弱性も導入する可能性がある。 しかし、既存の文献はLLMベースのエージェントに対する攻撃と防御を包括的に評価していない。 これを解決するために、私たちは、LSMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するための総合的なフレームワークであるAgens Security Bench(ASB)を紹介します。 ASBをベースとした10回のインジェクション攻撃,記憶障害攻撃,新規のPlan-of-Thoughtバックドア攻撃,混合攻撃,および合計90,000件のテストケースを含む13個のLLMバックボーンに対する10回の防御効果のベンチマークを行った。 ベンチマークの結果,システムプロンプト,ユーザプロンプトハンドリング,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。 私たちのコードはhttps://github.com/agiresearch/ASB.orgで参照できます。

Although LLM-based agents, powered by Large Language Models (LLMs), can use external tools and memory mechanisms to solve complex real-world tasks, they may also introduce critical security vulnerabilities. However, the existing literature does not comprehensively evaluate attacks and defenses against LLM-based agents. To address this, we introduce Agent Security Bench (ASB), a comprehensive framework designed to formalize, benchmark, and evaluate the attacks and defenses of LLM-based agents, including 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents targeting the scenarios, over 400 tools, 23 different types of attack/defense methods, and 8 evaluation metrics. Based on ASB, we benchmark 10 prompt injection attacks, a memory poisoning attack, a novel Plan-of-Thought backdoor attack, a mixed attack, and 10 corresponding defenses across 13 LLM backbones with nearly 90,000 testing cases in total. Our benchmark results reveal critical vulnerabilities in different stages of agent operation, including system prompt, user prompt handling, tool usage, and memory retrieval, with the highest average attack success rate of 84.30\%, but limited effectiveness shown in current defenses, unveiling important works to be done in terms of agent security for the community. Our code can be found at https://github.com/agiresearch/ASB.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# ワクチンの選択を可能にするデュアルアテンションによる免疫原性予測

Immunogenicity Prediction with Dual Attention Enables Vaccine Target Selection ( http://arxiv.org/abs/2410.02647v1 )

ライセンス: Link先を確認
Song Li, Yang Tan, Song Ke, Liang Hong, Bingxin Zhou, (参考訳) 免疫原性予測は、防御免疫反応を誘発する候補ワクチンを見つけるための逆ワクチン学における中心的なトピックである。 既存のアプローチは一般的に高度に圧縮された特徴と単純なモデルアーキテクチャに依存しており、予測精度が制限され、一般化性が低い。 これらの課題に対処するために,タンパク質配列と構造を事前学習した潜在ベクトル表現を統合する,二重注意機構を備えた新しいディープラーニングソリューションであるProVaccineを紹介する。 現在までに最も包括的な免疫原性データセットをコンパイルし、細菌、ウイルス、腫瘍から9,500以上の抗原配列、構造、および免疫原性ラベルを含む。 大規模な実験では、ProVaccineはさまざまな評価指標で既存のメソッドよりも優れています。 さらに,ワクチン設計課題に取り組む上での深層学習モデルの実用的意義を評価するためのポストホック検証プロトコルを構築した。 私たちの研究はワクチン設計に有効なツールを提供し、将来の研究に有用なベンチマークを設定します。

Immunogenicity prediction is a central topic in reverse vaccinology for finding candidate vaccines that can trigger protective immune responses. Existing approaches typically rely on highly compressed features and simple model architectures, leading to limited prediction accuracy and poor generalizability. To address these challenges, we introduce ProVaccine, a novel deep learning solution with a dual attention mechanism that integrates pre-trained latent vector representations of protein sequences and structures. We also compile the most comprehensive immunogenicity dataset to date, encompassing over 9,500 antigen sequences, structures, and immunogenicity labels from bacteria, viruses, and tumors. Extensive experiments demonstrate that ProVaccine outperforms existing methods across a wide range of evaluation metrics. Furthermore, we establish a post-hoc validation protocol to assess the practical significance of deep learning models in tackling vaccine design challenges. Our work provides an effective tool for vaccine design and sets valuable benchmarks for future research.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# 大規模言語モデルにおける望ましくない記憶

Undesirable Memorization in Large Language Models: A Survey ( http://arxiv.org/abs/2410.02650v1 )

ライセンス: Link先を確認
Ali Satvaty, Suzan Verberne, Fatih Turkmen, (参考訳) 最近の研究は、Large Language Models(LLMs)の目覚ましい能力をますます示していますが、隠れた落とし穴に直面することが不可欠です。 これらの課題の中で、記憶の問題は際立っており、重大な倫理的および法的リスクを生じさせている。 本稿では,LLMにおける記憶の話題について,知識の体系化(SoK)を提案する。 記憶化とは、モデルがトレーニングデータからフレーズやフレーズを保存し、再生する傾向があることであり、LLMに対する様々なプライバシーおよびセキュリティ攻撃の根本的な問題であることが示されている。 まず、記憶に関する文献の概要を提供し、意図性、程度、検索可能性、抽象性、透明性の5つの重要な側面にまたがってそれを探求します。 次に,暗記現象に寄与する要因の解析を行い,暗記現象の指標と方法について考察する。 次に、特定のモデルアーキテクチャに記憶がどのように現れるかを調べ、これらの効果を緩和するための戦略を探る。 近い将来, LLMにおける性能とプライバシのバランスをとる手法を開発すること, 対話エージェント, 検索強化生成, 多言語モデル, 拡散言語モデルなど, 特定の文脈における記憶の分析を行う。

While recent research increasingly showcases the remarkable capabilities of Large Language Models (LLMs), it's vital to confront their hidden pitfalls. Among these challenges, the issue of memorization stands out, posing significant ethical and legal risks. In this paper, we presents a Systematization of Knowledge (SoK) on the topic of memorization in LLMs. Memorization is the effect that a model tends to store and reproduce phrases or passages from the training data and has been shown to be the fundamental issue to various privacy and security attacks against LLMs. We begin by providing an overview of the literature on the memorization, exploring it across five key dimensions: intentionality, degree, retrievability, abstraction, and transparency. Next, we discuss the metrics and methods used to measure memorization, followed by an analysis of the factors that contribute to memorization phenomenon. We then examine how memorization manifests itself in specific model architectures and explore strategies for mitigating these effects. We conclude our overview by identifying potential research topics for the near future: to develop methods for balancing performance and privacy in LLMs, and the analysis of memorization in specific contexts, including conversational agents, retrieval-augmented generation, multilingual language models, and diffusion language models.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# CAX: JAXでアクセラレーションされたセルオートマタ

CAX: Cellular Automata Accelerated in JAX ( http://arxiv.org/abs/2410.02651v1 )

ライセンス: Link先を確認
Maxence Faldor, Antoine Cully, (参考訳) 細胞オートマトンは、神経科学、人工生命、理論物理学にまたがる様々な科学分野の出現と自己組織化を調査するための基盤となっている。 しかし、ハードウェアが加速するセル・オートマトン・ライブラリーが存在しないため、新しい研究方向の探索が制限され、共同作業が妨げられ、再現性が阻害される。 本稿では,セルオートマタの高速化を目的とした高性能で柔軟なオープンソースライブラリであるCAX(Cellular Automata Accelerated in JAX)を紹介する。 CAXは、ユーザフレンドリーなインターフェースを通じて、最先端のパフォーマンスとモジュラーデザインを提供し、任意の次元の離散セルオートマトンと連続セルオートマトンの両方をサポートする。 幅広いベンチマークやアプリケーションを通じて、CAXのパフォーマンスと柔軟性を示します。 基本的なセルオートマトンやコンウェイのゲーム・オブ・ライフのような古典的なモデルから、神経セルオートマトンやMNIST桁の自己分類などの高度な応用に至るまで、CAXはシミュレーションを最大2,000倍高速化する。 さらに,図書館のモジュールアーキテクチャのおかげで,わずか数行のコードで実装された3つの新しいセルオートマトン実験のコレクションを提示することにより,研究を加速するCAXの可能性を示す。 特に,1次元セルオートマトンは1D-ARCチャレンジにおいてGPT-4より優れていることを示す。

Cellular automata have become a cornerstone for investigating emergence and self-organization across diverse scientific disciplines, spanning neuroscience, artificial life, and theoretical physics. However, the absence of a hardware-accelerated cellular automata library limits the exploration of new research directions, hinders collaboration, and impedes reproducibility. In this work, we introduce CAX (Cellular Automata Accelerated in JAX), a high-performance and flexible open-source library designed to accelerate cellular automata research. CAX offers cutting-edge performance and a modular design through a user-friendly interface, and can support both discrete and continuous cellular automata with any number of dimensions. We demonstrate CAX's performance and flexibility through a wide range of benchmarks and applications. From classic models like elementary cellular automata and Conway's Game of Life to advanced applications such as growing neural cellular automata and self-classifying MNIST digits, CAX speeds up simulations up to 2,000 times faster. Furthermore, we demonstrate CAX's potential to accelerate research by presenting a collection of three novel cellular automata experiments, each implemented in just a few lines of code thanks to the library's modular architecture. Notably, we show that a simple one-dimensional cellular automaton can outperform GPT-4 on the 1D-ARC challenge.
翻訳日:2024-11-04 01:52:35 公開日:2024-10-03
# 再帰・注意・ゲーティングのデコンストラクション:動的システムの予測におけるトランスフォーマとゲーテッドリカレントニューラルネットワークの転送可能性の検討

Deconstructing Recurrence, Attention, and Gating: Investigating the transferability of Transformers and Gated Recurrent Neural Networks in forecasting of dynamical systems ( http://arxiv.org/abs/2410.02654v1 )

ライセンス: Link先を確認
Hunter Heidenreich, Pantelis R. Vlachas, etros Koumoutsakos, (参考訳) トランスフォーマーやリカレントニューラルネットワーク(RNN)を含む機械学習アーキテクチャは、テキスト処理から極端な天候に至るまで、アプリケーションにおける予測に革命をもたらした。 特に、自然言語処理などのアプリケーション用に調整された高度なネットワークアーキテクチャは、時空間予測タスクのような他のタスクに転送可能である。 しかし、この予測精度を実現する重要な要素を説明するためのアブレーション研究は少ない。 このような研究の欠如は、関連する計算コストのために説明可能であるが、これらのモデルがブラックボックスと見なされるべきという信念を強めている。 本研究では、RNNにおけるゲーティングとリカレンス、トランスフォーマーにおけるアテンションメカニズムなど、最も強力なニューラルネットワークアーキテクチャの主要なアーキテクチャコンポーネントを分解する。 そして,標準ブロックから新しいハイブリッドアーキテクチャを合成,構築し,各タスクにどのメカニズムが有効かを特定するアブレーション研究を行う。 マルチスケールロレンツ96系の時空間カオス力学, 倉本-シヴァシンスキー方程式, および標準実時間時系列ベンチマークから, 標準アーキテクチャを拡張可能なハイパーパラメータとして考えることの重要性が, 様々な予測データセットで示された。 重要な発見は、ニューラルゲーティングとアテンションがほとんどのタスクにおける標準RNNの性能を改善する一方で、トランスフォーマーにおける再発の概念の追加は有害であるということである。 さらに本研究では,リカレントハイウェイネットワークとニューラルゲーティングとアテンション機構を統合した新しいアーキテクチャが,動的システムの高次元時空間予測における最高のアーキテクチャとして出現することを明らかにする。

Machine learning architectures, including transformers and recurrent neural networks (RNNs) have revolutionized forecasting in applications ranging from text processing to extreme weather. Notably, advanced network architectures, tuned for applications such as natural language processing, are transferable to other tasks such as spatiotemporal forecasting tasks. However, there is a scarcity of ablation studies to illustrate the key components that enable this forecasting accuracy. The absence of such studies, although explainable due to the associated computational cost, intensifies the belief that these models ought to be considered as black boxes. In this work, we decompose the key architectural components of the most powerful neural architectures, namely gating and recurrence in RNNs, and attention mechanisms in transformers. Then, we synthesize and build novel hybrid architectures from the standard blocks, performing ablation studies to identify which mechanisms are effective for each task. The importance of considering these components as hyper-parameters that can augment the standard architectures is exhibited on various forecasting datasets, from the spatiotemporal chaotic dynamics of the multiscale Lorenz 96 system, the Kuramoto-Sivashinsky equation, as well as standard real world time-series benchmarks. A key finding is that neural gating and attention improves the performance of all standard RNNs in most tasks, while the addition of a notion of recurrence in transformers is detrimental. Furthermore, our study reveals that a novel, sparsely used, architecture which integrates Recurrent Highway Networks with neural gating and attention mechanisms, emerges as the best performing architecture in high-dimensional spatiotemporal forecasting of dynamical systems.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# ヘイト・パーソナライズ:コンテンツモデレーションにおけるLLMの役割を探る

Hate Personified: Investigating the role of LLMs in content moderation ( http://arxiv.org/abs/2410.02657v1 )

ライセンス: Link先を確認
Sarah Masud, Sahajpreet Singh, Viktor Hangya, Alexander Fraser, Tanmoy Chakraborty, (参考訳) ヘイト検出などの主観的タスクでは、人々が嫌悪感を異なる知覚で感じている場合、多様なグループを表現できるLarge Language Model(LLM)能力は不明確である。 そこで本研究では,LLMの地理的プライミング,ペルソナ属性,数値情報に対する感受性を包括的に分析し,各グループのニーズがどの程度反映されているかを評価する。 LLM,5言語,6データセットの2つの研究結果から,ペルソナ属性の模倣がアノテーションの多様性につながることが明らかとなった。 一方、地理的信号を統合することで、地域的なアライメントが向上する。 また, LLMは数値アンカーに敏感であり, コミュニティベースのフラグ付けと敵への露出を活用できることが示唆された。 本研究は,LLMを文化的に敏感な症例に適用する際の要点を概説する。

For subjective tasks such as hate detection, where people perceive hate differently, the Large Language Model's (LLM) ability to represent diverse groups is unclear. By including additional context in prompts, we comprehensively analyze LLM's sensitivity to geographical priming, persona attributes, and numerical information to assess how well the needs of various groups are reflected. Our findings on two LLMs, five languages, and six datasets reveal that mimicking persona-based attributes leads to annotation variability. Meanwhile, incorporating geographical signals leads to better regional alignment. We also find that the LLMs are sensitive to numerical anchors, indicating the ability to leverage community-based flagging efforts and exposure to adversaries. Our work provides preliminary guidelines and highlights the nuances of applying LLMs in culturally sensitive cases.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 長期言語モデルの学習方法(効果)

How to Train Long-Context Language Models (Effectively) ( http://arxiv.org/abs/2410.02660v1 )

ライセンス: Link先を確認
Tianyu Gao, Alexander Wettig, Howard Yen, Danqi Chen, (参考訳) 言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 まず、モデル開発をガイドする信頼性の高い評価プロトコルを確立します -- 難易度や単純なニードル・イン・ア・ヘイスタック(NIAH)テストの代わりに、幅広い長いコンテキストタスクを使用します。 堅牢な評価によって支援され、継続する事前トレーニング、命令チューニングデータセット、その他多くの設計選択のためのデータミックスを決定するための徹底的な実験を行います。 1)コードレポジトリと書籍は長文データの優れた情報源であるが,高品質な短文データと組み合わせることが不可欠である。(2) 評価長を超えるシーケンス長のトレーニングは長文のパフォーマンスを高める。(3) SFTの場合,短文のデータセットのみを用いることで、長文のタスクに強いパフォーマンスをもたらす。 最後のモデルであるProLong-8Bは、Llama-3から初期化され、40Bトークンで訓練されている。 ProLong はLlama-3.18B-Instruct よりも優れており、Llama-3.18B-Instruct の長文トレーニングではトークン数が5%しかなかった。 さらに、ProLongは512Kトークンを効果的に処理できる。

We study continued training and supervised fine-tuning (SFT) of a language model (LM) to make effective use of long-context information. We first establish a reliable evaluation protocol to guide model development -- Instead of perplexity or simple needle-in-a-haystack (NIAH) tests, we use a broad set of long-context tasks, and we evaluate models after SFT with instruction data as this better reveals long-context abilities. Supported by our robust evaluations, we run thorough experiments to decide the data mix for continued pre-training, the instruction tuning dataset, and many other design choices. We find that (1) code repositories and books are excellent sources of long data, but it is crucial to combine them with high-quality short data; (2) training with a sequence length beyond the evaluation length boosts long-context performance; (3) for SFT, using only short instruction datasets yields strong performance on long-context tasks. Our final model, ProLong-8B, which is initialized from Llama-3 and trained on 40B tokens, demonstrates state-of-the-art long-context performance among similarly sized models at a length of 128K. ProLong outperforms Llama-3.18B-Instruct on the majority of long-context tasks despite having seen only 5% as many tokens during long-context training. Additionally, ProLong can effectively process up to 512K tokens, one of the longest context windows of publicly available LMs.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 生成的世界モデルによるマルチエージェント意思決定問題の解答

Grounded Answers for Multi-agent Decision-making Problem through Generative World Model ( http://arxiv.org/abs/2410.02664v1 )

ライセンス: Link先を確認
Zeyang Liu, Xinrui Yang, Shiguang Sun, Long Qian, Lipeng Wan, Xingyu Chen, Xuguang Lan, (参考訳) 生成モデルの最近の進歩は、画像生成やチャットボットなど、多くの分野で重要なイノベーションを刺激している。 彼らの成功にもかかわらず、これらのモデルは、複雑なマルチエージェントの意思決定問題に対して、試行錯誤の経験や人間としての推論を欠いた、スケッチ的で誤解を招くソリューションをしばしば生み出す。 この制限に対処するために、言語誘導シミュレータをマルチエージェント強化学習パイプラインに統合し、生成した回答を強化するパラダイムを探索する。 シミュレータは、ダイナミックスと報酬を別々に学習する世界モデルであり、ダイナミックスモデルは画像トークン化器と因果変換器から構成され、自己回帰的に相互作用遷移を生成する。 現状のイメージとタスク記述が与えられた場合、我々は、世界モデルを用いてジョイントポリシーをトレーニングし、ダイナミックスモデル上で収束ポリシーを実行することで、イメージシーケンスを回答として生成する。 実験の結果、このフレームワークは、StarCraft Multi-Agent Challengeベンチマークのトレーニングおよび未確認タスクにおいて、優れたパフォーマンスを示すことで、マルチエージェント意思決定問題に対する回答を改善することができることが示された。 特に、一貫した相互作用シーケンスと、相互作用状態における説明可能な報酬関数を生成し、未来の生成モデルを訓練するための道を開くことができる。

Recent progress in generative models has stimulated significant innovations in many fields, such as image generation and chatbots. Despite their success, these models often produce sketchy and misleading solutions for complex multi-agent decision-making problems because they miss the trial-and-error experience and reasoning as humans. To address this limitation, we explore a paradigm that integrates a language-guided simulator into the multi-agent reinforcement learning pipeline to enhance the generated answer. The simulator is a world model that separately learns dynamics and reward, where the dynamics model comprises an image tokenizer as well as a causal transformer to generate interaction transitions autoregressively, and the reward model is a bidirectional transformer learned by maximizing the likelihood of trajectories in the expert demonstrations under language guidance. Given an image of the current state and the task description, we use the world model to train the joint policy and produce the image sequence as the answer by running the converged policy on the dynamics model. The empirical results demonstrate that this framework can improve the answers for multi-agent decision-making problems by showing superior performance on the training and unseen tasks of the StarCraft Multi-Agent Challenge benchmark. In particular, it can generate consistent interaction sequences and explainable reward functions at interaction states, opening the path for training generative models of the future.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 並列クエリ複雑性における量子優位性と低境界

Quantum advantage and lower bounds in parallel query complexity ( http://arxiv.org/abs/2410.02665v1 )

ライセンス: Link先を確認
Joseph Carolan, Amin Shiraz Gilani, Mahathi Vempati, (参考訳) 量子的、ランダム化され、決定論的(シークエンシャル)なクエリ複合体が、全体ブール関数に対して多項式的に関連していることはよく知られている。 これらの測度の平行一般化の間には、はるかに大きな分離が可能であることが分かる。 特に,(1) 浮動小数点数に対する非有界な並列量子クエリの優位性を得るために, 1 つの浮動小数点数列を用いて,Jeffery et al 2017 (arXiv:1309.6116) の予想をfalsifyする。 2) 逐次的優位性を持たないにもかかわらず、非有界な並列量子クエリ優位性を示す全関数を構築することにより、(1) 真の量子優位性は、並列性によって完全に生じることを示唆する。 (3) 2010年のモンタナロの結果(arXiv:1001.0018)と対照的に、1ラウンドの(非適応的な)アルゴリズムに対して少なくとも一定の分離が存在する。 (4) 逐次上界から並列量子下界を導出する新しい手法を開発する。 我々はこの手法を用いてブール対称関数と読み取りオンス公式の低い境界を与え、それらに対して大きな並列クエリの利点を除外する。 また、アイテム(1)-(3)に類似したランダム化と決定論的並列クエリ複雑度を分離する。

It is well known that quantum, randomized and deterministic (sequential) query complexities are polynomially related for total boolean functions. We find that significantly larger separations between the parallel generalizations of these measures are possible. In particular, (1) We employ the cheatsheet framework to obtain an unbounded parallel quantum query advantage over its randomized analogue for a total function, falsifying a conjecture of Jeffery et al. 2017 (arXiv:1309.6116). (2) We strengthen (1) by constructing a total function which exhibits an unbounded parallel quantum query advantage despite having no sequential advantage, suggesting that genuine quantum advantage could occur entirely due to parallelism. (3) We construct a total function that exhibits a polynomial separation between 2-round quantum and randomized query complexities, contrasting a result of Montanaro in 2010 (arXiv:1001.0018) that there is at most a constant separation for 1-round (nonadaptive) algorithms. (4) We develop a new technique for deriving parallel quantum lower bounds from sequential upper bounds. We employ this technique to give lower bounds for Boolean symmetric functions and read-once formulas, ruling out large parallel query advantages for them. We also provide separations between randomized and deterministic parallel query complexities analogous to items (1)-(3).
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# AlphaIntegrator: シンボリック統合証明のためのトランスフォーマーアクションサーチ

AlphaIntegrator: Transformer Action Search for Symbolic Integration Proofs ( http://arxiv.org/abs/2410.02666v1 )

ライセンス: Link先を確認
Mert Ünsal, Timon Gehr, Martin Vechev, (参考訳) 本稿では, ステップバイステップの数学的統合のための, 最初の正解学習システムを提案する。 鍵となる考え方は、GPTトランスフォーマーモデルで表されるポリシーを学習することであり、これは正しい数学的統合ルールの探索を導くもので、シンボリック・ソルバによって実行される。 具体的には、数式に対する公理的に正しい作用を持つ記号エンジンと、ステップ・バイ・ステップ統合のための最初のデータセットを導入する。 この合成データに基づいてトレーニングされたGPTスタイルのトランスフォーマーモデルは、検索ステップを50%減らして、データジェネレータを精度と効率で上回り、強力な一般化を示す。 また,SoTA LLMを用いた実験結果から,一組の問合せ対に対する微調整 LLM の標準的なアプローチは,この数学的課題を解くには不十分であることが示された。 このことは、LLMとシンボリック推論エンジンを組み合わせるための創造的な方法を見つけることの重要性を動機付けている。

We present the first correct-by-construction learning-based system for step-by-step mathematical integration. The key idea is to learn a policy, represented by a GPT transformer model, which guides the search for the right mathematical integration rule, to be carried out by a symbolic solver. Concretely, we introduce a symbolic engine with axiomatically correct actions on mathematical expressions, as well as the first dataset for step-by-step integration. Our GPT-style transformer model, trained on this synthetic data, demonstrates strong generalization by surpassing its own data generator in accuracy and efficiency, using 50% fewer search steps. Our experimental results with SoTA LLMs also demonstrate that the standard approach of fine-tuning LLMs on a set of question-answer pairs is insufficient for solving this mathematical task. This motivates the importance of discovering creative methods for combining LLMs with symbolic reasoning engines, of which our work is an instance.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# GUD:統一拡散による生成

GUD: Generation with Unified Diffusion ( http://arxiv.org/abs/2410.02667v1 )

ライセンス: Link先を確認
Mathis Gerdes, Max Welling, Miranda C. N. Cheng, (参考訳) 拡散生成モデルは、データサンプルにノイズを徐々に付加するプロセスを反転させることで、ノイズをデータに変換する。 異なるスケールの系を解析する物理学における正規化群の概念に触発され、三つの重要な設計側面を探求して拡散モデルを再考する。 1)拡散過程が動作する表現の選択(例えば、ピクセル、PCA、フーリエ、ウェーブレット基底) 2)拡散中にデータが変換される前の分布(例えば、共分散$\Sigma$)と 3)データの各部分に別々に適用されるノイズレベルのスケジューリングを,成分単位のノイズスケジュールで行う。 これらの選択に柔軟性を取り入れて,設計自由度を大幅に向上した拡散生成モデル統合フレームワークを開発する。 特に,標準拡散モデルと自己回帰モデルとを円滑に補間するソフトコンディショニングモデルを導入し,これら2つのアプローチを概念的にブリッジする。 我々のフレームワークは、より効率的なトレーニングとデータ生成につながる幅広い設計空間を開放し、異なる生成的アプローチと生成タスクを統合する新しいアーキテクチャへの道を開く。

Diffusion generative models transform noise into data by inverting a process that progressively adds noise to data samples. Inspired by concepts from the renormalization group in physics, which analyzes systems across different scales, we revisit diffusion models by exploring three key design aspects: 1) the choice of representation in which the diffusion process operates (e.g. pixel-, PCA-, Fourier-, or wavelet-basis), 2) the prior distribution that data is transformed into during diffusion (e.g. Gaussian with covariance $\Sigma$), and 3) the scheduling of noise levels applied separately to different parts of the data, captured by a component-wise noise schedule. Incorporating the flexibility in these choices, we develop a unified framework for diffusion generative models with greatly enhanced design freedom. In particular, we introduce soft-conditioning models that smoothly interpolate between standard diffusion models and autoregressive models (in any basis), conceptually bridging these two approaches. Our framework opens up a wide design space which may lead to more efficient training and data generation, and paves the way to novel architectures integrating different generative approaches and generation tasks.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 注釈付き辞書コーパスを用いた言語モデルの推定

Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus ( http://arxiv.org/abs/2410.02674v1 )

ライセンス: Link先を確認
Craig Messner, Tom Lippincott, (参考訳) そこで本稿では,19世紀のアメリカ文学の正統代用トークンのデータセットを,人間の注釈付き方言群タグの新たな層で表現し,文字的に意味のある正統な変分を探索する計算実験の基盤となるように設計した。 我々は,トークン(BERT)とキャラクタ(CANINE)レベルの文脈言語モデルを用いて,このデータセット上で実験を行う。 意図的な正書法変化によって生じる「方言効果」は複数の言語チャネルを取り入れており、これらのチャネルは特定の言語モデリング仮定に基づいて様々な程度に表面化可能であることを示す。 具体的には,トークン化方式の選択が,モデルが提示可能な正書法情報の種類に有意な影響を及ぼすことを示す証拠を見出した。

We present a dataset of 19th century American literary orthovariant tokens with a novel layer of human-annotated dialect group tags designed to serve as the basis for computational experiments exploring literarily meaningful orthographic variation. We perform an initial broad set of experiments over this dataset using both token (BERT) and character (CANINE)-level contextual language models. We find indications that the "dialect effect" produced by intentional orthographic variation employs multiple linguistic channels, and that these channels are able to be surfaced to varied degrees given particular language modelling assumptions. Specifically, we find evidence showing that choice of tokenization scheme meaningfully impact the type of orthographic information a model is able to surface.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# FAN: フーリエ分析ネットワーク

FAN: Fourier Analysis Networks ( http://arxiv.org/abs/2410.02675v1 )

ライセンス: Link先を確認
Yihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jing Su, Jun Zhang, Jingjing Xu, (参考訳) ニューラルネットワーク、特にMLPやTransformerで表されるような顕著な成功にもかかわらず、周期性のモデリングと推論に潜在的な欠陥があること、すなわち、周期性の原理を真に理解するのではなく、周期データを記憶する傾向があることを明らかにする。 しかし、周期性は様々な推論や一般化において重要な特徴であり、観測の繰り返しパターンを通して自然および工学系の予測可能性を支える。 本稿では,FAN(Fourier Analysis)をベースとした新しいネットワークアーキテクチャを提案する。 フーリエ級数を導入することにより、周期性はニューラルネットワークの構造と計算過程に自然に統合され、より正確な周期パターンの表現と予測が達成される。 多層パーセプトロン(MLP)の代替として、FANはパラメータやFLOPが少なくてシームレスにMLPを置き換えることができる。 本研究では, 周期関数のモデル化と推論におけるFANの有効性と, 記号式表現, 時系列予測, 言語モデリングなど, 実世界のタスクにおけるFANの優位性と一般化性を示す。

Despite the remarkable success achieved by neural networks, particularly those represented by MLP and Transformer, we reveal that they exhibit potential flaws in the modeling and reasoning of periodicity, i.e., they tend to memorize the periodic data rather than genuinely understanding the underlying principles of periodicity. However, periodicity is a crucial trait in various forms of reasoning and generalization, underpinning predictability across natural and engineered systems through recurring patterns in observations. In this paper, we propose FAN, a novel network architecture based on Fourier Analysis, which empowers the ability to efficiently model and reason about periodic phenomena. By introducing Fourier Series, the periodicity is naturally integrated into the structure and computational processes of the neural network, thus achieving a more accurate expression and prediction of periodic patterns. As a promising substitute to multi-layer perceptron (MLP), FAN can seamlessly replace MLP in various models with fewer parameters and FLOPs. Through extensive experiments, we demonstrate the effectiveness of FAN in modeling and reasoning about periodic functions, and the superiority and generalizability of FAN across a range of real-world tasks, including symbolic formula representation, time series forecasting, and language modeling.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# カルチャーベンチ : LLMの文化的知識測定のためのロバスト・ディヴァース・チェレージングベンチマーク

CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs ( http://arxiv.org/abs/2410.02677v1 )

ライセンス: Link先を確認
Yu Ying Chiu, Liwei Jiang, Bill Yuchen Lin, Chan Young Park, Shuyue Stella Li, Sahithya Ravi, Mehar Bhatia, Maria Antoniak, Yulia Tsvetkov, Vered Shwartz, Yejin Choi, (参考訳) 大きな言語モデル(LLM)を多様な文化でより有用なものにするためには、進捗を計測し追跡するための効果的な文化的知識ベンチマークを持つことが不可欠です。 効果的なベンチマークは堅牢で多様性があり、困難である必要があります。 バングラデシュ、ジンバブエ、ペルーなど、世界45か国をカバーし、LLMの文化的知識を効果的に評価するための1,227の人文的・人文的な質問であるCulturalBenchを紹介します。 5つの独立したアノテータによってそれぞれ検証された質問は、食べ物の好みから挨拶のエチケットまで、17のさまざまなトピックにまたがる。 同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。 LLMはそのようなセットアップの違いに敏感である(例: GPT-4o と 27.3% の差)。 人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。 さらに、LLMは複数の正しい答えを持つ難解な質問(例えば、中国人は通常どの道具を使うのか?)に悩まされ、一つの答えに収束する傾向を示す。 また,OpenAI GPT-4oは,1つのリージョン(オセアニア)を除くすべての領域に関する質問において,他のプロプライエタリおよびオープンソースモデルよりも大幅に優れていた。 それでも、すべてのモデルは、南アメリカと中東に関する質問で一貫してパフォーマンスが劣っている。

To make large language models (LLMs) more helpful across diverse cultures, it is essential to have effective cultural knowledge benchmarks to measure and track our progress. Effective benchmarks need to be robust, diverse, and challenging. We introduce CulturalBench: a set of 1,227 human-written and human-verified questions for effectively assessing LLMs' cultural knowledge, covering 45 global regions including the underrepresented ones like Bangladesh, Zimbabwe, and Peru. Questions - each verified by five independent annotators - span 17 diverse topics ranging from food preferences to greeting etiquettes. We evaluate models on two setups: CulturalBench-Easy and CulturalBench-Hard which share the same questions but asked differently. We find that LLMs are sensitive to such difference in setups (e.g., GPT-4o with 27.3% difference). Compared to human performance (92.6% accuracy), CulturalBench-Hard is more challenging for frontier LLMs with the best performing model (GPT-4o) at only 61.5% and the worst (Llama3-8b) at 21.4%. Moreover, we find that LLMs often struggle with tricky questions that have multiple correct answers (e.g., What utensils do the Chinese usually use?), revealing a tendency to converge to a single answer. Our results also indicate that OpenAI GPT-4o substantially outperform other proprietary and open source models in questions related to all but one region (Oceania). Nonetheless, all models consistently underperform on questions related to South America and the Middle East.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 指導訓練データのないエンドツーエンド音声アシスタントの蒸留

Distilling an End-to-End Voice Assistant Without Instruction Training Data ( http://arxiv.org/abs/2410.02678v1 )

ライセンス: Link先を確認
William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang, (参考訳) SiriやGoogle Assistantのような音声アシスタントは、通常、音声とテキストを別々にモデル化する。 教師付き微調整(SFT)で訓練されたエンドツーエンドの音声大言語モデル(LLM)でこの問題に対処するための最近の取り組みは、テキストのみのLLMから‘forgetting’機能をモデルに導いた。 本研究は,テキストのみのLLMからテキストのみのLLMの応答を自己監督として利用して,命令データなしで音声LLMを訓練するための代替パラダイムを提案する。 重要なことに、このプロセスは注釈付き応答なしで実行できる。 音声音声アシスタント (DiVA) が音声質問応答, 分類, 翻訳に一般化されていることを示す。 さらに,Qwen 2 Audioのような最先端のモデルと比較して,トレーニング計算が100ドル以下であるにもかかわらず,DiVAが72%の勝利率を達成することにより,ユーザの嗜好を満足することを示す。

Voice assistants, such as Siri and Google Assistant, typically model audio and text separately, resulting in lost speech information and increased complexity. Recent efforts to address this with end-to-end Speech Large Language Models (LLMs) trained with supervised finetuning (SFT) have led to models ``forgetting" capabilities from text-only LLMs. Our work proposes an alternative paradigm for training Speech LLMs without instruction data, using the response of a text-only LLM to transcripts as self-supervision. Importantly, this process can be performed without annotated responses. We show that our Distilled Voice Assistant (DiVA) generalizes to Spoken Question Answering, Classification, and Translation. Furthermore, we show that DiVA better meets user preferences, achieving a 72\% win rate compared with state-of-the-art models like Qwen 2 Audio, despite using $>$100x less training compute.
翻訳日:2024-11-04 01:42:49 公開日:2024-10-03
# 高適応リッジ

Highly Adaptive Ridge ( http://arxiv.org/abs/2410.02680v1 )

ライセンス: Link先を確認
Alejandro Schuler, Alexander Hagemeister, Mark van der Laan, (参考訳) 本稿では,二乗可積分な部分微分を持つ右連続函数のクラスにおいて,n^{-1/3}=次元自由なL2収束率を達成する回帰法であるHighly Adaptive Ridge (HAR)を提案する。 これは大きな非パラメトリック関数クラスであり、特に表データに適している。 HARは、飽和ゼロオーダーテンソル積スプラインベース展開に基づく、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションである。 シミュレーションと実データを使って理論を裏付ける。 我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。

In this paper we propose the Highly Adaptive Ridge (HAR): a regression method that achieves a $n^{-1/3}$ dimension-free L2 convergence rate in the class of right-continuous functions with square-integrable sectional derivatives. This is a large nonparametric function class that is particularly appropriate for tabular data. HAR is exactly kernel ridge regression with a specific data-adaptive kernel based on a saturated zero-order tensor-product spline basis expansion. We use simulation and real data to confirm our theory. We demonstrate empirical performance better than state-of-the-art algorithms for small datasets in particular.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# ビジョンランゲージモデルのためのプロンプトチューニングにおけるミススキャリブレーションの理解と緩和

Understanding and Mitigating Miscalibration in Prompt Tuning for Vision-Language Models ( http://arxiv.org/abs/2410.02681v1 )

ライセンス: Link先を確認
Shuoyuan Wang, Yixuan Li, Hongxin Wei, (参考訳) 信頼性のキャリブレーションは、現実世界における機械学習モデルの安全なデプロイに不可欠である。 しかし、特に微調整後のCLIPのようなビジョン言語モデルのこのような問題は、完全には解決されていない。 本研究は,既存のプロンプトチューニング手法が基本クラスと新クラスの校正のトレードオフにつながることを実証する。CoOpのクロスエントロピー損失は,テキストラベルのばらつきを増大させることにより,新しいクラスの過信を引き起こすが,KgCoOpの正規化は信頼性を維持できるが,精度の向上によりベースクラスの過信をもたらす。 観察結果から着想を得たDOR(Dynamic Outlier Regularization)を導入し,微調整後の新クラスの信頼性校正を確実にする。 特に,大規模な語彙から抽出した新しいテキストラベル(基本クラスではなく)の特徴差を最小限に抑えることを提案する。 事実上、DORは、ベースクラスの制限を緩和しながら、新しいラベルに対するテキストのばらつきの増加を防ぐ。 大規模な実験により、DORはベースクラスと新しいクラスにおける現在の微調整法の校正性能を向上させることができることが示された。

Confidence calibration is critical for the safe deployment of machine learning models in the real world. However, such issue in vision-language models like CLIP, particularly after fine-tuning, has not been fully addressed. In this work, we demonstrate that existing prompt tuning methods usually lead to a trade-off of calibration between base and new classes: the cross-entropy loss in CoOp causes overconfidence in new classes by increasing textual label divergence, whereas the regularization of KgCoOp maintains the confidence level but results in underconfidence in base classes due to the improved accuracy. Inspired by the observations, we introduce Dynamic Outlier Regularization (DOR) to ensure the confidence calibration on both base and new classes after fine-tuning. In particular, we propose to minimize the feature deviation of novel textual labels (instead of base classes) sampled from a large vocabulary. In effect, DOR prevents the increase in textual divergence for new labels while easing restrictions on base classes. Extensive experiments demonstrate that DOR can enhance the calibration performance of current fine-tuning methods on base and new classes.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# DailyDilemmas: LLMの価値観と生活の基準を明らかにする

DailyDilemmas: Revealing Value Preferences of LLMs with Quandaries of Daily Life ( http://arxiv.org/abs/2410.02683v1 )

ライセンス: Link先を確認
Yu Ying Chiu, Liwei Jiang, Yejin Choi, (参考訳) 日常生活における意思決定のためのLCMからのガイダンスをますます求めている中、これらの決定の多くは明確ではなく、ユーザの個人的価値観や倫理基準に大きく依存している。 日常生活で遭遇した1,360の道徳的ジレンマのデータセットであるDailyDilemmasを提示する。 それぞれのジレンマは2つの可能なアクションを含み、それぞれのアクションでは、影響を受ける当事者と人間の価値が呼び出される。 これらのジレンマに基づいて、日々の話題、対人関係、職場、環境問題など、人間の価値のセットを統合した。 我々はこれらのジレンマ上でLCMを評価し、それらがどのようなアクションをとるか、これらのアクションで表される値を決定する。 そして、社会学、心理学、哲学に触発された5つの一般的な理論のレンズを通して、これらの価値を分析した。 これらの理論は、世界価値調査、道徳的基礎理論、マスローの必要の階層、アリストテレスの処女、プリュッチクの感情の車輪である。 LLMは、世界価値調査(World Value Survey)やモラル財団理論(Moral Foundation Theory)において、生存価値に対する自己表現と最もよく一致している。 興味深いことに、Mixtral-8x7Bモデルは9.7%、GPT-4-turboモデルは9.4%である。 また,OpenAI (ModelSpec) と Anthropic (Constitutional AI) が最近リリースしたガイドラインを考察し,それらの原則が日常生活における道徳的理由の曖昧さに直面する際の実際の価値の優先順位付けをどのように反映しているかを考察した。 エンドユーザーはシステムプロンプトを用いてこのような優先順位付けを効果的に行うことはできない。

As we increasingly seek guidance from LLMs for decision-making in daily life, many of these decisions are not clear-cut and depend significantly on the personal values and ethical standards of the users. We present DailyDilemmas, a dataset of 1,360 moral dilemmas encountered in everyday life. Each dilemma includes two possible actions and with each action, the affected parties and human values invoked. Based on these dilemmas, we consolidated a set of human values across everyday topics e.g., interpersonal relationships, workplace, and environmental issues. We evaluated LLMs on these dilemmas to determine what action they will take and the values represented by these actions. Then, we analyzed these values through the lens of five popular theories inspired by sociology, psychology and philosophy. These theories are: World Value Survey, Moral Foundation Theory, Maslow's Hierarchy of Needs, Aristotle's Virtues, and Plutchik Wheel of Emotion. We find that LLMs are most aligned with the self-expression over survival values in terms of World Value Survey, care over loyalty in Moral Foundation Theory. Interestingly, we find large preferences differences in models for some core values such as truthfulness e.g., Mixtral-8x7B model tends to neglect it by 9.7% while GPT-4-turbo model tends to select it by 9.4%. We also study the recent guidance released by OpenAI (ModelSpec), and Anthropic (Constitutional AI) to understand how their released principles reflect their actual value prioritization when facing nuanced moral reasoning in daily-life settings. We find that end users cannot effectively steer such prioritization using system prompts.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# HiddenGuard: 特別な表現ルータを備えたファイングラインドセーフジェネレーション

HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router ( http://arxiv.org/abs/2410.02684v1 )

ライセンス: Link先を確認
Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Ruibin Yuan, Xueqi Cheng, (参考訳) 大きな言語モデル(LLM)がますます強力になり、安全性と人間の価値との整合性を確保することは、依然として重要な課題です。 理想的には、LSMは有害情報や機密情報の開示を回避しつつ、情報的応答を提供するべきである。 しかしながら、有害なプロンプトを完全に拒否するトレーニングモデルや粗いフィルタの適用といった、拒否戦略に大きく依存する現在のアライメントアプローチは、そのバイナリの性質によって制限される。 これらの方法は、情報へのアクセスを完全に否定するか、十分なニュアンスなしで許可するかのいずれかで、過度に慎重な反応や、微妙な有害なコンテンツを検出する失敗につながる。 例えば、LSMは、誤用による薬物に関する基本的な公的情報の提供を拒否することがある。 さらに、これらの拒絶に基づく手法は、混合内容のシナリオを扱うのに苦労し、コンテキスト依存の感性に適応する能力が欠如しているため、良性コンテンツに対する過度な検閲が生じる可能性がある。 これらの課題を克服するために、LLMの微細で安全な生成のための新しいフレームワークであるHiddenGuardを紹介します。 HiddenGuardにはPrism (RePresentation Router for In-Stream Moderation)が組み込まれている。 このきめ細かいアプローチにより、よりニュアンスでコンテキスト対応のモデレーションが可能になり、モデルが直接拒否するのではなく、機密情報を選択的に書き換えたり置き換えたりしながら、情報的応答を生成できる。 また、さまざまなコンテキストにまたがる潜在的有害情報のトークンレベルのきめ細かいアノテーションによる包括的なデータセットも提供します。 実験の結果,HiddenGuard は F1 スコアの90%以上を達成し,有害な内容の検出と再現を行うとともに,モデル応答の全体的な有用性と情報性を維持した。

As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model's responses.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# エネルギー制約下でのフォン・ノイマンエントロピーの最適連続性

Optimal continuity bound for the von Neumann entropy under energy constraints ( http://arxiv.org/abs/2410.02686v1 )

ライセンス: Link先を確認
S. Becker, N. Datta, M. G. Jabbour, M. E. Shirokov, (参考訳) この手法は[Sason, IEEE Trans. Inf. Th. 59, 7118 (2013)]と[Becker, Datta and Jabbour, IEEE Trans. Inf. Th. 69, 4128 (2023)]で提案され、後者の結果に基づいて、任意のハミルトニアンによって課せられるエネルギー制約の下で、フォン・ノイマンエントロピーに対する大域的最適連続性を構築する。 特に、これは無限次元量子系に対する有界エネルギーを持つ状態の集合上のフォン・ノイマンエントロピーの連続性のモジュラリティの正確な表現を与える。 したがって、この設定でフォン・ノイマンエントロピーの最適連続性を求める問題は、互いに十分近い状態のペアに対してしか知られていなかった。 この連続性は、一般エネルギー制約の下でのフォン・ノイマンエントロピーに対して有界な大域的最適半連続性から導かれる。

Using techniques proposed in [Sason, IEEE Trans. Inf. Th. 59, 7118 (2013)] and [Becker, Datta and Jabbour, IEEE Trans. Inf. Th. 69, 4128 (2023)], and building on results from the latter, we construct a globally optimal continuity bound for the von Neumann entropy under energy constraints imposed by arbitrary Hamiltonians, satisfying the Gibbs hypothesis. In particular, this provides a precise expression for the modulus of continuity of the von Neumann entropy over the set of states with bounded energy for infinite-dimensional quantum systems. Thus, it completely solves the problem of finding an optimal continuity bound for the von Neumann entropy in this setting, which was previously known only for pairs of states which were sufficiently close to each other. This continuity bound follows from a globally optimal semicontinuity bound for the von Neumann entropy under general energy constraints, which is our main technical result.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# 6Gにおけるユーザ中心の没入型コミュニケーション:Digital Twinによるデータ指向アプローチ

User-centric Immersive Communications in 6G: A Data-oriented Approach via Digital Twin ( http://arxiv.org/abs/2410.02688v1 )

ライセンス: Link先を確認
Conghao Zhou, Shisheng Hu, Jie Gao, Xinyu Huang, Weihua Zhuang, Xuemin Shen, (参考訳) 本稿では,多感覚体験の質に関するユニークな要件を満たしつつ,個々のユーザ行動の不確実性に対処するため,6Gにおける没入型コミュニケーション(IC)のための新しいユーザ中心サービス提供法を提案する。 そこで本研究では,異なるユーザ要求に合わせたネットワークモデリングをサポート可能なパーソナライズされたデータ管理を特徴とする,ネットワークリソース管理のためのデータ指向アプローチを提案する。 我々の手法は、デジタルツイン(DT)技術を鍵イネーブルとして活用する。 特に、ユーザ毎にDTを確立し、ユーザの特性に基づいてDTのデータ属性をカスタマイズする。 DT関数は、様々なデータ操作に対応するもので、独自のユーザ要求を満たすために、ネットワークモデルの開発、評価、更新でカスタマイズされる。 トレース駆動型ケーススタディでは、ユーザ中心ICの実現におけるアプローチの有効性と、6Gにおけるパーソナライズされたデータ管理の重要性が示されている。

In this article, we present a novel user-centric service provision for immersive communications (IC) in 6G to deal with the uncertainty of individual user behaviors while satisfying unique requirements on the quality of multi-sensory experience. To this end, we propose a data-oriented approach for network resource management, featuring personalized data management that can support network modeling tailored to different user demands. Our approach leverages the digital twin (DT) technique as a key enabler. Particularly, a DT is established for each user, and the data attributes in the DT are customized based on the characteristics of the user. The DT functions, corresponding to various data operations, are customized in the development, evaluation, and update of network models to meet unique user demands. A trace-driven case study demonstrates the effectiveness of our approach in achieving user-centric IC and the significance of personalized data management in 6G.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# 2トン駆動オプティメカティカルシステムにおける光子とフォノンの同時洗浄

Simultaneous photon and phonon lasing in a two-tone driven optomechanical system ( http://arxiv.org/abs/2410.02690v1 )

ライセンス: Link先を確認
Vitalie Eremeev, Hugo Molinares, Luis A. Correa, Bing He, (参考訳) 光子とフォノンの同時ラシングを実現することは、量子情報処理、高精度センシング、ハイブリッドフォトニック・フォノンデバイスの設計において大きな可能性を秘めている。 ここでは、この可能性について、2音場によって駆動されるオプティメカティカルシステムを用いて検討する。 駆動周波数の違いが関連する機械周波数と一致する場合、フォトンとフォノンの個体群は定常的なコヒーレント振動を達成し、二重ラシング現象を示す。 このような駆動-音共鳴条件は光子場とフォノン場の位相を同期させ、強靭な同時洗浄を促進する。 ここでは,光学的および機械的モードの結合増幅に関する解析的な知見を提供し,関連する相関関数とパワースペクトルを数値計算することによって,二重ラシング現象を更に確認する。 我々の装置は1つのオプティメカルキャビティで構成されており、従来の2重ラシングの実現よりもシンプルであり、基礎となるメカニズムのクリーンな画像を提供する。 そこで本研究は, 最適駆動方式による光学的相互作用の最適化のための新しい戦略開発への道を開くものである。

Achieving simultaneous lasing of photons and phonons in optomechanical setups has great potential for applications in quantum information processing, high precision sensing and the design of hybrid photonic-phononic devices. Here, we explore this possibility with an optomechanical system driven by a two-tone field. Whenever the difference between the driving frequencies matches the associated mechanical frequency, the photon and phonon populations are found to achieve steady-state coherent oscillations, demonstrating a dual lasing phenomenon. Such drive-tone resonance condition can synchronize the phases of the photon and phonon fields, which facilitates a robust simultaneous lasing. Here, we provide analytical insights into the joint amplification of the optical and mechanical modes, and further confirm the dual lasing phenomenon by numerically calculating the relevant correlation functions and the power spectrum. Our setup, consisting of a single optomechanical cavity, is simpler than previous realizations of dual lasing and provides a clean picture of the underlying mechanisms. Our work thus paves the way for the development of novel strategies for the optimisation of optomechanical interactions through tailored driving schemes.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# スプーン式LM透かしのクローズ

Discovering Clues of Spoofed LM Watermarks ( http://arxiv.org/abs/2410.02693v1 )

ライセンス: Link先を確認
Thibaud Gloaguen, Nikola Jovanović, Robin Staab, Martin Vechev, (参考訳) LLM の透かしは LLM 生成したテキストの所有権を付与する有望な方法である。 透かしの信頼性に対する1つの脅威は、不正な第三者が透かしを偽造し、任意のテキストを特定のLCMに誤って属性付ける攻撃である。 最近の研究は、最先端のスキームがスプーフィングに弱いことを実証しているが、スプーフィング法によって生成されたテキストのより深い質的な分析は欠如している。 本研究では,本研究において,真偽と偽造の透かしテキストの可観測的差異を初めて明らかにした。 すなわち,現行のスプーフィング手法は,その基本的なアプローチにかかわらず,常に観察可能なアーティファクトをスプーフィングテキストに残し,ウォーターマークの偽造を示唆していることを示す。 これらの知見に基づいて,これらのアーティファクトの存在を確実に明らかにする厳密な統計検査を提案し,透かしがスプーフされたことを効果的に発見する。 実験による評価は、現在のスプーフィング手法のすべてにわたって高いテストパワーを示し、その基本的な限界について洞察を与え、この脅威を軽減する方法を提案する。

LLM watermarks stand out as a promising way to attribute ownership of LLM-generated text. One threat to watermark credibility comes from spoofing attacks, where an unauthorized third party forges the watermark, enabling it to falsely attribute arbitrary texts to a particular LLM. While recent works have demonstrated that state-of-the-art schemes are in fact vulnerable to spoofing, they lack deeper qualitative analysis of the texts produced by spoofing methods. In this work, we for the first time reveal that there are observable differences between genuine and spoofed watermark texts. Namely, we show that regardless of their underlying approach, all current spoofing methods consistently leave observable artifacts in spoofed texts, indicative of watermark forgery. We build upon these findings to propose rigorous statistical tests that reliably reveal the presence of such artifacts, effectively discovering that a watermark was spoofed. Our experimental evaluation shows high test power across all current spoofing methods, providing insights into their fundamental limitations, and suggesting a way to mitigate this threat.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# 中空コアフォトニック結晶繊維中における浮遊磁性粒子の相適応冷却の展望

Prospects of phase-adaptive cooling of levitated magnetic particles in a hollow-core photonic-crystal fibre ( http://arxiv.org/abs/2410.02697v1 )

ライセンス: Link先を確認
P. Kumar, F. G. Jimenez, S. Chakraborty, G. K. L. Wong, N. Y. Joly, C. Genes, (参考訳) 本研究では, 中空コアフォトニック結晶ファイバ内に浮遊するマイクロ-ナノ磁性粒子の古典運動の冷却可能性について解析した。 冷却動作は、対向伝搬ファイバ導波の1つの位相を制御して行う。 粒子の位置を直接撮像し、その後制御レーザーの位相を更新するとストークス型の冷却力となる。 熱・検出ノイズ源を考慮した冷却効率と最終到達温度の推定を行った。 我々の研究結果は、捕捉されたマイクロマグネットを検知、基礎物理学のテスト、磁化の量子状態の準備に利用するための重要なステップをもたらす。

We analyze the feasibility of cooling of classical motion of a micro- to nano-sized magnetic particle, levitated inside a hollow-core photonic crystal fiber. The cooling action is implemented by means of controlling the phase of one of the counter-propagating fiber guided waves. Direct imaging of the particle's position, followed by the subsequent updating of the control laser's phase leads to Stokes type of cooling force. We provide estimates of cooling efficiency and final achievable temperature, taking into account thermal and detection noise sources. Our results bring forward an important step towards using trapped micro-magnets in sensing, testing the fundamental physics and preparing the quantum states of magnetization.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# リー代数正準化:任意のリー群の下での同変ニューラル作用素

Lie Algebra Canonicalization: Equivariant Neural Operators under arbitrary Lie Groups ( http://arxiv.org/abs/2410.02698v1 )

ライセンス: Link先を確認
Zakhar Shumaylov, Peter Zaika, James Rowbottom, Ferdia Sherry, Melanie Weber, Carola-Bibiane Schönlieb, (参考訳) 堅牢で一般化可能な機械学習モデルの探求により、同変ニューラルネットワークによる対称性の活用に対する最近の関心が高まっている。 PDEソルバの文脈において、最近の研究により、リーポイント対称性はデータと損失増大による物理インフォームドニューラルネットワーク(PINN)に有用な帰納バイアスとなることが示されている。 それにもかかわらず、これらの問題に対するモデルアーキテクチャ内での等価性を直接強制することは、いまだ解明されていない。 これは、多くのPDEが非コンパクト対称性群を認めており、しばしば無限小生成元を超えて研究されることはなく、既存のほとんどの同変アーキテクチャと相容れないためである。 本研究では、対称性群の無限小生成子の作用のみを利用する新しいアプローチであるLie aLgebrA Canonicalization (LieLAC)を提案する。 これを実現するために、正準化文学における既存の理論的問題に対処し、連続した非コンパクト群の場合のフレーム平均化と接続を確立する。 正規化の枠組みの中で運用されているLieLACは、制約のない事前訓練されたモデルと容易に統合することができ、入力を既存のモデルに供給する前に標準形式に変換し、許容された対称性に従ってモデル推論のための入力を効果的に整合させる。 LieLAC は標準リー群降下スキームを利用して、事前訓練されたモデルで同値を達成する。 最後に、事前学習モデルを用いて、不変画像分類とLie点対称性同変ニューラルPDEソルバのタスクに対するLieLACの有効性を示す。

The quest for robust and generalizable machine learning models has driven recent interest in exploiting symmetries through equivariant neural networks. In the context of PDE solvers, recent works have shown that Lie point symmetries can be a useful inductive bias for Physics-Informed Neural Networks (PINNs) through data and loss augmentation. Despite this, directly enforcing equivariance within the model architecture for these problems remains elusive. This is because many PDEs admit non-compact symmetry groups, oftentimes not studied beyond their infinitesimal generators, making them incompatible with most existing equivariant architectures. In this work, we propose Lie aLgebrA Canonicalization (LieLAC), a novel approach that exploits only the action of infinitesimal generators of the symmetry group, circumventing the need for knowledge of the full group structure. To achieve this, we address existing theoretical issues in the canonicalization literature, establishing connections with frame averaging in the case of continuous non-compact groups. Operating within the framework of canonicalization, LieLAC can easily be integrated with unconstrained pre-trained models, transforming inputs to a canonical form before feeding them into the existing model, effectively aligning the input for model inference according to allowed symmetries. LieLAC utilizes standard Lie group descent schemes, achieving equivariance in pre-trained models. Finally, we showcase LieLAC's efficacy on tasks of invariant image classification and Lie point symmetry equivariant neural PDE solvers using pre-trained models.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# Selective AttentionがTransformerを改善

Selective Attention Improves Transformer ( http://arxiv.org/abs/2410.02703v1 )

ライセンス: Link先を確認
Yaniv Leviathan, Matan Kalman, Yossi Matias, (参考訳) 注意の文脈にある無意味な要素はパフォーマンスを低下させる。 選択的注意(Selective Attention)は、必要のない要素への注意を減らすための、標準の注意機構に対する単純なパラメータフリーな変更である。 選択的注意力は、様々なモデルサイズとコンテキスト長における言語モデリング性能を向上させる。 例えば、C4で言語モデリングの目的を学習したトランスフォーマーのレンジは、注意モジュールに2倍以上の頭とパラメータを持つ標準トランスフォーマーと同等に機能する。 選択的な注意はまた、アテンションのコンテキストバッファのサイズを減らし、推論中にメモリと計算要求を有意義に減少させる。 例えば、C4上でトレーニングされた100Mパラメータが512、1,024、および2,048のコンテクストサイズを持つトランスフォーマーは、それぞれ16X、25X、47Xのメモリを必要とする。

Unneeded elements in the attention's context degrade performance. We introduce Selective Attention, a simple parameter-free change to the standard attention mechanism which reduces attention to unneeded elements. Selective attention improves language modeling performance in a variety of model sizes and context lengths. For example, a range of transformers trained with the language modeling objective on C4 with selective attention perform equivalently to standard transformers with ~2X more heads and parameters in their attention modules. Selective attention also allows decreasing the size of the attention's context buffer, leading to meaningful reductions in the memory and compute requirements during inference. For example, transformers with 100M parameters trained on C4 with context sizes of 512, 1,024, and 2,048 need 16X, 25X, and 47X less memory for their attention module, respectively, when equipped with selective attention, as those without selective attention, with the same validation perplexity.
翻訳日:2024-11-04 01:32:59 公開日:2024-10-03
# ControlAR:自己回帰モデルによる制御可能な画像生成

ControlAR: Controllable Image Generation with Autoregressive Models ( http://arxiv.org/abs/2410.02705v1 )

ライセンス: Link先を確認
Zongming Li, Tianheng Cheng, Shoufa Chen, Peize Sun, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang, (参考訳) 自己回帰(AR)モデルは、画像生成を次世代の予測として改革し、拡散モデルに対する強力な競合相手として顕著なポテンシャルと出現を示した。 しかし、コントロール・ツー・イメージ生成は、コントロールネットと同様、ARモデル内ではほとんど探索されていない。 大規模言語モデルの進歩にインスパイアされた自然なアプローチは、イメージトークンをデコードする前に、コントロールイメージをトークンにトークン化し、それらを自己回帰モデルにプリフィルすることだが、それでもControlNetと比べて世代品質が低く、非効率に苦しんでいる。 この目的のために,自動回帰画像生成モデルに空間制御を統合するための効率的かつ効率的なフレームワークであるControlARを導入する。 まず,ARモデルの制御符号化について検討し,空間入力(キャニーエッジや深度マップなど)を制御トークンに変換する軽量制御エンコーダを提案する。 その後、ControlARは条件復号法を利用して、位置符号化と同様の制御と画像トークンの融合によって条件付けられた次の画像トークンを生成する。 プリフィルトークンと比較すると、条件付きデコーディングはARモデルの制御能力を著しく強化するが、モデルの効率も維持する。 さらに、提案したControlARは、条件付きデコーディングと特定の制御を通じて任意の解像度の画像生成でARモデルを驚くほど強化する。 大規模な実験は、エッジ、深さ、セグメンテーションマスクを含む様々な入力に対して自動回帰制御・画像生成のための提案された制御器の制御可能性を示すことができる。 さらに、定量的および定性的な結果は、ControlARが従来の最先端の制御可能な拡散モデルであるControlNet++を上回っていることを示している。 コード、モデル、デモは、間もなくhttps://github.com/hustvl/ControlARで公開される。

Autoregressive (AR) models have reformulated image generation as next-token prediction, demonstrating remarkable potential and emerging as strong competitors to diffusion models. However, control-to-image generation, akin to ControlNet, remains largely unexplored within AR models. Although a natural approach, inspired by advancements in Large Language Models, is to tokenize control images into tokens and prefill them into the autoregressive model before decoding image tokens, it still falls short in generation quality compared to ControlNet and suffers from inefficiency. To this end, we introduce ControlAR, an efficient and effective framework for integrating spatial controls into autoregressive image generation models. Firstly, we explore control encoding for AR models and propose a lightweight control encoder to transform spatial inputs (e.g., canny edges or depth maps) into control tokens. Then ControlAR exploits the conditional decoding method to generate the next image token conditioned on the per-token fusion between control and image tokens, similar to positional encodings. Compared to prefilling tokens, using conditional decoding significantly strengthens the control capability of AR models but also maintains the model's efficiency. Furthermore, the proposed ControlAR surprisingly empowers AR models with arbitrary-resolution image generation via conditional decoding and specific controls. Extensive experiments can demonstrate the controllability of the proposed ControlAR for the autoregressive control-to-image generation across diverse inputs, including edges, depths, and segmentation masks. Furthermore, both quantitative and qualitative results indicate that ControlAR surpasses previous state-of-the-art controllable diffusion models, e.g., ControlNet++. Code, models, and demo will soon be available at https://github.com/hustvl/ControlAR.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# SteerDiff: 安全なテキストと画像の拡散モデルを目指して

SteerDiff: Steering towards Safe Text-to-Image Diffusion Models ( http://arxiv.org/abs/2410.02710v1 )

ライセンス: Link先を確認
Hongxiang Zhang, Yifeng He, Hao Chen, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルでは,高精度なテキストアライメントで高品質な画像を生成する能力に注目が集まっている。 しかし、これらのモデルは不適切なコンテンツを生成するために誤用することもできる。 テキスト分類器やコントロールネットのようなアプローチに依存する既存の安全対策は、しばしば不十分である。 従来のテキスト分類器は大規模ラベル付きデータセットに依存しており、リフレージングによって簡単にバイパスできる。 拡散モデルが拡大を続けるにつれ、これらのセーフガードの微調整はますます難しくなり、柔軟性に欠ける。 近年の赤チーム攻撃研究は、不適切なコンテンツの発生を防ぐための新しいパラダイムの必要性をさらに強調している。 本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。 SteerDiffは、テキスト埋め込み空間内で不適切な概念を特定し、操作することで、有害な出力からモデルを誘導する。 提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。 さらに、SteerDiffを複数の赤チーム戦略に対してベンチマークし、その堅牢性を評価します。 最後に、タスクを忘れる概念としてSteerDiffの可能性を探求し、テキスト条件の画像生成におけるその汎用性を実証する。

Text-to-image (T2I) diffusion models have drawn attention for their ability to generate high-quality images with precise text alignment. However, these models can also be misused to produce inappropriate content. Existing safety measures, which typically rely on text classifiers or ControlNet-like approaches, are often insufficient. Traditional text classifiers rely on large-scale labeled datasets and can be easily bypassed by rephrasing. As diffusion models continue to scale, fine-tuning these safeguards becomes increasingly challenging and lacks flexibility. Recent red-teaming attack researches further underscore the need for a new paradigm to prevent the generation of inappropriate content. In this paper, we introduce SteerDiff, a lightweight adaptor module designed to act as an intermediary between user input and the diffusion model, ensuring that generated images adhere to ethical and safety standards with little to no impact on usability. SteerDiff identifies and manipulates inappropriate concepts within the text embedding space to guide the model away from harmful outputs. We conduct extensive experiments across various concept unlearning tasks to evaluate the effectiveness of our approach. Furthermore, we benchmark SteerDiff against multiple red-teaming strategies to assess its robustness. Finally, we explore the potential of SteerDiff for concept forgetting tasks, demonstrating its versatility in text-conditioned image generation.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# LLaVA-Critic: マルチモーダルモデルを評価するための学習

LLaVA-Critic: Learning to Evaluate Multimodal Models ( http://arxiv.org/abs/2410.02712v1 )

ライセンス: Link先を確認
Tianyi Xiong, Xiyao Wang, Dong Guo, Qinghao Ye, Haoqi Fan, Quanquan Gu, Heng Huang, Chunyuan Li, (参考訳) 我々はLLaVA-Criticを紹介した。LLaVA-Criticは、様々なマルチモーダルタスクのパフォーマンスを評価する汎用評価器として設計された、最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。 実験では,(1) LMM-as-a-Judge,(LLaVA-Criticが複数の評価ベンチマークでGPTモデルに匹敵する信頼性の高い評価スコアを提供する),(2)優先学習(Preference Learning),(2)優先学習(Preference Learning)の2つの重要な領域でモデルの有効性を実証した。 本研究は、オープンソースのLMMの自己批判と評価の可能性を強調し、LMMのスケーラブルで超人的アライメントフィードバック機構に関する将来の研究の舞台となる。

We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model's effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# AlzhiNet:2DCNNから3DCNNへ、アルツハイマー病の早期発見と診断に向けて

AlzhiNet: Traversing from 2DCNN to 3DCNN, Towards Early Detection and Diagnosis of Alzheimer's Disease ( http://arxiv.org/abs/2410.02714v1 )

ライセンス: Link先を確認
Romoke Grace Akindele, Samuel Adebayo, Paul Shekonya Kanda, Ming Yu, (参考訳) アルツハイマー病(英語: Alzheimer's disease, AD)は、進行性神経変性疾患であり、高齢者の頻度が増加し、効果的な疾患管理のために早期かつ正確な診断が必要である。 本研究では,2次元畳み込みニューラルネットワーク(2D-CNN)と3次元畳み込みニューラルネットワーク(3D-CNN)を統合したハイブリッドディープラーニングフレームワークを提案する。 広範な実験によると、AlzhiNetはスタンドアロンの2Dモデルと3Dモデルよりも優れており、データの補完的な表現を組み合わせることの重要性を強調している。 拡張された2Dスライスから得られた3Dボリュームの深さと品質もモデルの性能に大きく影響した。 その結果,ハイブリッド予測において重み付け係数を慎重に選択することが最適結果の達成に不可欠であることが示唆された。 我々のフレームワークはKaggleとMIRIADのデータセットから磁気共鳴イメージング(MRI)で検証され、それぞれ98.9%と99.99%、AUCは100%である。 さらに、アルジネットは、ガウスノイズ、明るさ、コントラスト、塩と唐辛子ノイズ、色ジッタ、オクルージョンを含む、アルツハイマーのカグルデータセット上の様々な摂動シナリオの下で研究された。 その結果、AlzhiNetはResNet-18よりも摂動に頑健であり、現実世界のアプリケーションには優れた選択肢であることがわかった。 このアプローチは、アルツハイマー病の早期診断と治療計画の進歩を示すものである。

Alzheimer's disease (AD) is a progressive neurodegenerative disorder with increasing prevalence among the aging population, necessitating early and accurate diagnosis for effective disease management. In this study, we present a novel hybrid deep learning framework that integrates both 2D Convolutional Neural Networks (2D-CNN) and 3D Convolutional Neural Networks (3D-CNN), along with a custom loss function and volumetric data augmentation, to enhance feature extraction and improve classification performance in AD diagnosis. According to extensive experiments, AlzhiNet outperforms standalone 2D and 3D models, highlighting the importance of combining these complementary representations of data. The depth and quality of 3D volumes derived from the augmented 2D slices also significantly influence the model's performance. The results indicate that carefully selecting weighting factors in hybrid predictions is imperative for achieving optimal results. Our framework has been validated on the Magnetic Resonance Imaging (MRI) from Kaggle and MIRIAD datasets, obtaining accuracies of 98.9% and 99.99%, respectively, with an AUC of 100%. Furthermore, AlzhiNet was studied under a variety of perturbation scenarios on the Alzheimer's Kaggle dataset, including Gaussian noise, brightness, contrast, salt and pepper noise, color jitter, and occlusion. The results obtained show that AlzhiNet is more robust to perturbations than ResNet-18, making it an excellent choice for real-world applications. This approach represents a promising advancement in the early diagnosis and treatment planning for Alzheimer's disease.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# 対称性に富んだ位相相における弦と計算順序の双対性

Duality between string and computational order in symmetry-enriched topological phases ( http://arxiv.org/abs/2410.02716v1 )

ライセンス: Link先を確認
Paul Herringer, Vir B. Bulchandani, Younes Javanmard, David T. Stephen, Robert Raussendorf, (参考訳) 測定に基づく量子計算における一様パワーをもつ物質の位相位相の最初の例を示す。 これは、1次元において短距離の絡み合った位相に制限された以前の構成よりも一般的である物質の相の計算的性質を解析するための新しい枠組みによって可能となった。 異方性磁場中におけるトーリック符号の基底状態は,非計算的・普遍的なフレームワークの適用にもかかわらず,自然かつ自然なものであることを示す。 次に、基底状態がMBQCの普遍的な資源となる位相秩序を持つ新しいモデルを提案する。 両方のトポロジカルモデルはサブシステム対称性によって豊かにされ、これらの対称性は計算力を保護する。 我々のフレームワークは、計算の観点から分析できる物理モデルの範囲を大きく広げる。

We present the first examples of topological phases of matter with uniform power for measurement-based quantum computation. This is possible thanks to a new framework for analyzing the computational properties of phases of matter that is more general than previous constructions, which were limited to short-range entangled phases in one dimension. We show that ground states of the toric code in an anisotropic magnetic field yield a natural, albeit non-computationally-universal, application of our framework. We then present a new model with topological order whose ground states are universal resources for MBQC. Both topological models are enriched by subsystem symmetries, and these symmetries protect their computational power. Our framework greatly expands the range of physical models that can be analyzed from the computational perspective.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# 騒音による測定:自動実験における共最適化と特性発見のためのベイズ最適化

Measurements with Noise: Bayesian Optimization for Co-optimizing Noise and Property Discovery in Automated Experiments ( http://arxiv.org/abs/2410.02717v1 )

ライセンス: Link先を確認
Boris N. Slautin, Yu Liu, Jan Dec, Vladimir V. Shvartsman, Doru C. Lupascu, Maxim Ziatdinov, Sergei V. Kalinin, (参考訳) 我々は,段階内雑音最適化を自動実験サイクルに統合するベイズ最適化(BO)ワークフローを開発した。 自動実験における従来のBOアプローチは、実験軌道の最適化に重点を置いているが、しばしば測定ノイズがデータ品質とコストに与える影響を見落としている。 提案フレームワークは,入力パラメータとして時間を導入することにより,目標特性と関連する測定ノイズの両方を同時に最適化し,信号対雑音比と実験期間のバランスをとる。 報奨駆動型ノイズ最適化と二重最適化獲得機能という2つのアプローチが検討され,最適化プロセス内のノイズやコストを考慮した自動ワークフローの効率化が図られた。 本手法はPiezoresponse Force Microscopy (PFM) を用いたシミュレーションおよび実世界の実験により検証し, 測定時間と特性探査の最適化に成功した。 我々のアプローチは、自動実験ワークフローにおける複数の変数を最適化し、データ品質を改善し、材料科学などにおけるリソース支出を減らすためのスケーラブルなソリューションを提供する。

We have developed a Bayesian optimization (BO) workflow that integrates intra-step noise optimization into automated experimental cycles. Traditional BO approaches in automated experiments focus on optimizing experimental trajectories but often overlook the impact of measurement noise on data quality and cost. Our proposed framework simultaneously optimizes both the target property and the associated measurement noise by introducing time as an additional input parameter, thereby balancing the signal-to-noise ratio and experimental duration. Two approaches are explored: a reward-driven noise optimization and a double-optimization acquisition function, both enhancing the efficiency of automated workflows by considering noise and cost within the optimization process. We validate our method through simulations and real-world experiments using Piezoresponse Force Microscopy (PFM), demonstrating the successful optimization of measurement duration and property exploration. Our approach offers a scalable solution for optimizing multiple variables in automated experimental workflows, improving data quality, and reducing resource expenditure in materials science and beyond.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# SynthFormer:リガンド系医薬品設計のための等価な薬理フォア系分子の生成

SynthFormer: Equivariant Pharmacophore-based Generation of Molecules for Ligand-Based Drug Design ( http://arxiv.org/abs/2410.02718v1 )

ライセンス: Link先を確認
Zygimantas Jocys, Henriette M. G. Willems, Katayoun Farrahi, (参考訳) 薬物発見は複雑で資源集約的なプロセスであり、新しい薬を患者に提供するのにかなりの時間と費用がかかる。 生成機械学習(ML)手法の最近の進歩は、化学空間を効率的に探索することで、早期の薬物発見を加速する有望な道を提供する。 本稿では,分子の発見を最適化する統合の必要性を浮き彫りにして,シリコ生成アプローチと実用的in vitro方法論のギャップを解消する。 合成木として構築された完全合成可能な分子を生成するために,薬品の3次元同変エンコーダを利用する新しいMLモデルであるSynthFormerを紹介する。 従来の方法とは異なり、SynthFormerは3D情報を取り込み、合成経路を提供し、様々なタンパク質のドッキングスコアが良い分子を生産する能力を高める。 我々の貢献には、3D情報を用いた効率的な化学空間探索のための新しい方法論、分子に3D薬局表現を翻訳するSynthformerと呼ばれる新しいアーキテクチャ、医薬品発見最適化のための試薬を組織する有意義な埋め込み空間が含まれる。 Synthformerはドッキングする分子を生成し、合成経路によって制限された効率的な後期最適化を可能にする。

Drug discovery is a complex and resource-intensive process, with significant time and cost investments required to bring new medicines to patients. Recent advancements in generative machine learning (ML) methods offer promising avenues to accelerate early-stage drug discovery by efficiently exploring chemical space. This paper addresses the gap between in silico generative approaches and practical in vitro methodologies, highlighting the need for their integration to optimize molecule discovery. We introduce SynthFormer, a novel ML model that utilizes a 3D equivariant encoder for pharmacophores to generate fully synthesizable molecules, constructed as synthetic trees. Unlike previous methods, SynthFormer incorporates 3D information and provides synthetic paths, enhancing its ability to produce molecules with good docking scores across various proteins. Our contributions include a new methodology for efficient chemical space exploration using 3D information, a novel architecture called Synthformer for translating 3D pharmacophore representations into molecules, and a meaningful embedding space that organizes reagents for drug discovery optimization. Synthformer generates molecules that dock well and enables effective late-stage optimization restricted by synthesis paths.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# 不確実性RAG: 検索拡張生成のためのSpan-Level不確実性強化ロングコンテキストモデリング

UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.02719v1 )

ライセンス: Link先を確認
Zixuan Li, Jing Xiong, Fanghua Ye, Chuanyang Zheng, Xun Wu, Jianqiao Lu, Zhongwei Wan, Xiaodan Liang, Chengming Li, Zhenan Sun, Lingpeng Kong, Ngai Wong, (参考訳) 本稿では、SNR(Signal-to-Noise Ratio)に基づく不確実性を利用してテキストチャンク間の類似性を推定する、長文検索拡張生成(RAG)の新しいアプローチであるUncertaintyRAGを提案する。 この不確実性は、モデルのキャリブレーションを強化し、ロバスト性を改善し、ランダムチャンキングによって導入されたセマンティック不整合を緩和する。 この知見を活用することで、効率的なデータサンプリングとスケーリング戦略とともに、検索モデルをトレーニングするための効率的な教師なし学習手法を提案する。 UncertaintyRAGは、LLaMA-2-7Bでベースラインを2.03%上回り、分散シフト設定下の他の高度なオープンソース検索モデルと比較して、トレーニングデータの4%しか使用せず、最先端の結果を達成する。 提案手法は,不確実性の分散による強いキャリブレーションを示し,長文RAGタスクの一般化とロバスト性の向上に繋がる。 さらに、UncertaintyRAGは、様々なコンテキストウィンドウ長を持つどんな大きな言語モデルにも統合可能な、軽量な検索モデルを提供する。

We present UncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG) that utilizes Signal-to-Noise Ratio (SNR)-based span uncertainty to estimate similarity between text chunks. This span uncertainty enhances model calibration, improving robustness and mitigating semantic inconsistencies introduced by random chunking. Leveraging this insight, we propose an efficient unsupervised learning technique to train the retrieval model, alongside an effective data sampling and scaling strategy. UncertaintyRAG outperforms baselines by 2.03% on LLaMA-2-7B, achieving state-of-the-art results while using only 4% of the training data compared to other advanced open-source retrieval models under distribution shift settings. Our method demonstrates strong calibration through span uncertainty, leading to improved generalization and robustness in long-context RAG tasks. Additionally, UncertaintyRAG provides a lightweight retrieval model that can be integrated into any large language model with varying context window lengths, without the need for fine-tuning, showcasing the flexibility of our approach.
翻訳日:2024-11-04 01:23:03 公開日:2024-10-03
# ベクトルストア,知識グラフ,テンソル因子化を用いたドメイン特化検索生成

Domain-Specific Retrieval-Augmented Generation Using Vector Stores, Knowledge Graphs, and Tensor Factorization ( http://arxiv.org/abs/2410.02721v1 )

ライセンス: Link先を確認
Ryan C. Barron, Ves Grantcharov, Selma Wanna, Maksim E. Eren, Manish Bhattarai, Nicholas Solovyev, George Tompkins, Charles Nicholas, Kim Ø. Rasmussen, Cynthia Matuszek, Boian S. Alexandrov, (参考訳) 大規模言語モデル(LLM)は大規模コーパス上で事前訓練され、質問応答(QA)などの多くの自然言語処理(NLP)タスクに優れる。 高度な言語能力にもかかわらず、ドメイン固有で知識集約的なタスクに関しては、LLMは幻覚、知識の遮断、知識の帰属の欠如に悩まされる。 加えて、LLMの固有の知識を高度に特定のドメインに微調整することは、高価で時間を要するプロセスである。 検索拡張生成(RAG)プロセスは,最近,所定オントロジーに参照することにより,LLM応答を最適化する手法として登場した。 知識グラフ(KG)オントロジーをRAGに使用することで,構造化された方法で情報を保存する関連サブグラフを考慮に入れ,QAの精度が向上することを示した。 本稿では,RAGとKGを統合した高度ドメイン固有LLMフレームワークSMART-SLICと,実際のドメイン固有情報を格納するベクトルストア(VS)を紹介する。 重要なことは、KGの幻覚を避けるために、LLMを使わずに、NLP、データマイニング、および自動モデル選択による非負のテンソル分解によって、これらのドメイン固有のKGとVSを構築することである。 ドメイン固有のRAGをペアリングします。 (i)KG(構造化情報を含む)及び i) VS(構造化されていない情報を含む)は、情報ソースに起因するドメイン固有のチャットボットの開発を可能にし、幻覚を緩和し、微調整の必要性を軽減し、ドメイン固有の質問応答タスクに優れる。 SMART-SLICとチェーン・オブ・シークレット・プロンプト・エージェントをペアにします。 このフレームワークは、特定のドメインや特殊なドメインに適応するように設計されている。 本稿では,マルウェア解析と異常検出に関する学術論文のコーパス上で,我々のフレームワークの問合せ能力を示す。

Large Language Models (LLMs) are pre-trained on large-scale corpora and excel in numerous general natural language processing (NLP) tasks, such as question answering (QA). Despite their advanced language capabilities, when it comes to domain-specific and knowledge-intensive tasks, LLMs suffer from hallucinations, knowledge cut-offs, and lack of knowledge attributions. Additionally, fine tuning LLMs' intrinsic knowledge to highly specific domains is an expensive and time consuming process. The retrieval-augmented generation (RAG) process has recently emerged as a method capable of optimization of LLM responses, by referencing them to a predetermined ontology. It was shown that using a Knowledge Graph (KG) ontology for RAG improves the QA accuracy, by taking into account relevant sub-graphs that preserve the information in a structured manner. In this paper, we introduce SMART-SLIC, a highly domain-specific LLM framework, that integrates RAG with KG and a vector store (VS) that store factual domain specific information. Importantly, to avoid hallucinations in the KG, we build these highly domain-specific KGs and VSs without the use of LLMs, but via NLP, data mining, and nonnegative tensor factorization with automatic model selection. Pairing our RAG with a domain-specific: (i) KG (containing structured information), and (ii) VS (containing unstructured information) enables the development of domain-specific chat-bots that attribute the source of information, mitigate hallucinations, lessen the need for fine-tuning, and excel in highly domain-specific question answering tasks. We pair SMART-SLIC with chain-of-thought prompting agents. The framework is designed to be generalizable to adapt to any specific or specialized domain. In this paper, we demonstrate the question answering capabilities of our framework on a corpus of scientific publications on malware analysis and anomaly detection.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# マルコフチェインとしての大規模言語モデル

Large Language Models as Markov Chains ( http://arxiv.org/abs/2410.02724v1 )

ライセンス: Link先を確認
Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boullé, Ievgen Redko, (参考訳) 大規模言語モデル(LLM)は、広範囲にわたる自然言語処理タスクとそれを超える処理の両方において、極めて効率的であることが証明されている。 しかし、その印象的なパフォーマンスの起源に関する包括的な理論的分析は、いまだ解明されていない。 本稿では,サイズ$T$の語彙を持つ汎用自己回帰言語モデルと,サイズ$K$のコンテキストウィンドウと,サイズ$\mathcal{O}(T^K)$の有限状態空間上で定義されたマルコフ連鎖とを同値にすることで,この問題に対処する。 我々は, LLMの推論パワーを捉えるマルコフ鎖の定常分布の存在, それに収束する速度, 温度の影響に関するいくつかの驚くべき知見を導出した。 次に、事前学習および文脈内一般化境界を証明し、描画された同値がどのようにそれらの解釈を豊かにすることができるかを示す。 最後に,近年のLLM実験による理論的保証について概説し,実際に観察された行動の捉え方を明らかにする。

Large language models (LLMs) have proven to be remarkably efficient, both across a wide range of natural language processing tasks and well beyond them. However, a comprehensive theoretical analysis of the origins of their impressive performance remains elusive. In this paper, we approach this challenging task by drawing an equivalence between generic autoregressive language models with vocabulary of size $T$ and context window of size $K$ and Markov chains defined on a finite state space of size $\mathcal{O}(T^K)$. We derive several surprising findings related to the existence of a stationary distribution of Markov chains that capture the inference power of LLMs, their speed of convergence to it, and the influence of the temperature on the latter. We then prove pre-training and in-context generalization bounds and show how the drawn equivalence allows us to enrich their interpretation. Finally, we illustrate our theoretical guarantees with experiments on several recent LLMs to highlight how they capture the behavior observed in practice.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# 適応型推論時間計算: LLMは、中間世代でも、より良くできると予測できる

Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation ( http://arxiv.org/abs/2410.02725v1 )

ライセンス: Link先を確認
Rohin Manvi, Anikait Singh, Stefano Ermon, (参考訳) 推測時間計算は大規模言語モデル(LLM)の性能を高めるための強力なパラダイムであり、Best-of-Nサンプリングは広く使われている手法である。 しかし、この方法は計算コストが高く、(1)外部報酬モデルと(2)複数のサンプルの生成の両方を必要とする。 そこで本研究では, 性能の維持や改善を図りつつ, 生成サンプル数を適応的に削減する新たな自己評価手法を提案する。 我々は、生成的報酬モデル定式化を用いて、LLMが中間世代で生成を再起動する確率を予測できるようにし、より良い応答をもたらす。 これらの予測は、外部の報酬モデルなしで得られ、より多くのサンプルを生成するか、早期に未生産のサンプルを選択するか、最高のサンプルを選択するかを決定するのに使うことができる。 この機能は、単一の事前定義されたトークンを生成するため、非常に安価である。 Llama 3.1 8B の AlpacaEval での GPT-4 に対する勝利率は 21% から 34% に増加し、16 のサンプルと GSM8K の数学性能は 84% から 91% に改善された。 LLMがそれを行うのが有益であると判断し、温度アニールを適応的に調整した場合にのみサンプリングを行うことで、平均1.2サンプルで16サンプルの使用による改善の74%が達成できることを示した。 さらに,50~75%の試料を,性能の低下を最小限に抑えつつ,早期に精製できることを実証した。 全体として,本手法はLLMの推論において,より効率的でスケーラブルな計算利用を可能にする。

Inference-time computation is a powerful paradigm to enhance the performance of large language models (LLMs), with Best-of-N sampling being a widely used technique. However, this method is computationally expensive, requiring both (1) an external reward model and (2) the generation of multiple samples. In this work, we introduce a new generative self-evaluation scheme designed to adaptively reduce the number of generated samples while maintaining or even improving performance. We use a generative reward model formulation, allowing the LLM to predict mid-generation the probability that restarting the generation will yield a better response. These predictions are obtained without an external reward model and can be used to decide whether or not to generate more samples, prune unpromising samples early on, or to pick the best sample. This capability is very inexpensive as it involves generating a single predefined token. Trained using a dataset constructed with real unfiltered LMSYS user prompts, Llama 3.1 8B's win rate against GPT-4 on AlpacaEval increases from 21% to 34% with 16 samples and math performance on GSM8K improves from 84% to 91%. By sampling only when the LLM determines that it is beneficial to do so and adaptively adjusting temperature annealing, we demonstrate that 74% of the improvement from using 16 samples can be achieved with only 1.2 samples on average. We further demonstrate that 50-75% of samples can be pruned early in generation with minimal degradation in performance. Overall, our methods enable more efficient and scalable compute utilization during inference for LLMs.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# フォトニックパラメータシフト規則:フォトニック量子コンピュータのグラディエント計算の実現

A Photonic Parameter-shift Rule: Enabling Gradient Computation for Photonic Quantum Computers ( http://arxiv.org/abs/2410.02726v1 )

ライセンス: Link先を確認
Axel Pappalardo, Pierre-Emmanuel Emeriau, Giovanni de Felice, Brian Ventura, Hugo Jaunin, Richie Yeung, Bob Coecke, Shane Mansfield, (参考訳) 線形光量子コンピューティングプラットフォーム上に実装された量子アルゴリズムにおける勾配計算法を提案する。 パラメータシフト規則は、勾配を計算するために量子ビットゲートベースの量子コンピューティングにおいて必須となっているが、フォトニックプラットフォームへの直接適用は、フォック空間における微分位相シフト作用素の非一意性によって妨げられている。 我々は、この制限を克服し、線形光量子プロセッサにおける勾配計算の正確な公式を提供するフォトニックパラメータシフト則を導入する。 提案手法は入力光子数と線形にスケールし,パラメータをシフトした同じパラメータ化フォトニック回路を用いて評価を行う。 この進歩はフォトニック量子コンピューティングにおいて重要なギャップを埋め、短期フォトニック量子プロセッサ上での変分量子アルゴリズムの効率的な勾配に基づく最適化を可能にする。 量子化学および生成モデリングタスクにおける数値シミュレーションによる手法の有効性を実証し, 有限サンプリング法と光子識別性による雑音に対する頑健さと, 他の勾配法や勾配法と比較して優れた最適化性能を示した。

We present a method for gradient computation in quantum algorithms implemented on linear optical quantum computing platforms. While parameter-shift rules have become a staple in qubit gate-based quantum computing for calculating gradients, their direct application to photonic platforms has been hindered by the non-unitary nature of differentiated phase-shift operators in Fock space. We introduce a photonic parameter-shift rule that overcomes this limitation, providing an exact formula for gradient computation in linear optical quantum processors. Our method scales linearly with the number of input photons and utilizes the same parameterized photonic circuit with shifted parameters for each evaluation. This advancement bridges a crucial gap in photonic quantum computing, enabling efficient gradient-based optimization for variational quantum algorithms on near-term photonic quantum processors. We demonstrate the efficacy of our approach through numerical simulations in quantum chemistry and generative modeling tasks, showing superior optimization performance as well as robustness to noise from finite sampling and photon distinguishability compared to other gradient-based and gradient-free methods.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# 情報検索のための統一多モードインターリーブ文書表現

Unified Multi-Modal Interleaved Document Representation for Information Retrieval ( http://arxiv.org/abs/2410.02729v1 )

ライセンス: Link先を確認
Jaewoo Lee, Joonho Ko, Jinheon Baek, Soyeong Jeong, Sung Ju Hwang, (参考訳) Information Retrieval (IR) 手法は,様々な自然言語タスクへの活用が成功し,注目を集めている質問に対する応答として,関連する文書を識別することを目的としている。 しかし、既存のアプローチは典型的には文書内のテキスト情報のみを考慮し、文書がテキスト、画像、テーブルを含む複数のモダリティを含むことができるという事実を見落としている。 さらに、各長いドキュメントを複数の個別のパスに分割して埋め込み、文書のコンテキスト全体と段落間の相互作用をキャプチャするのを防ぐこともしばしばある。 この2つの制限は,検索に最適な文書表現につながると論じる。 本研究は,異なるモダリティでインターリーブされた文書を均等に埋め込み,より包括的でニュアンスの高い文書表現を実現することを目的としている。 具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。 さらに, セグメント化文書から通路への情報損失を軽減するために, 個々の通路を表現・検索する代わりに, セグメント化文書の表現を1つの文書表現にマージすると同時に, 必要に応じて文書内の関連する通路を分離・識別するための階層化戦略も導入する。 そして,テキストとマルチモーダルクエリの両方を考慮した多種多様な情報検索シナリオに関する広範な実験により,文書内のマルチモーダル情報を考慮した統一的な手法により,本手法が関連するベースラインを大幅に上回ることを示す。

Information Retrieval (IR) methods aim to identify relevant documents in response to a given query, which have gained remarkable attention due to their successful application in various natural language tasks. However, existing approaches typically consider only the textual information within the documents, which overlooks the fact that documents can contain multiple modalities, including texts, images, and tables. Further, they often segment each long document into multiple discrete passages for embedding, preventing them from capturing the overall document context and interactions between paragraphs. We argue that these two limitations lead to suboptimal document representations for retrieval. In this work, to address them, we aim to produce more comprehensive and nuanced document representations by holistically embedding documents interleaved with different modalities. Specifically, we achieve this by leveraging the capability of recent vision-language models that enable the processing and integration of text, images, and tables into a unified format and representation. Moreover, to mitigate the information loss from segmenting documents into passages, instead of representing and retrieving passages individually, we further merge the representations of segmented passages into one single document representation, while we additionally introduce a reranking strategy to decouple and identify the relevant passage within the document if necessary. Then, through extensive experiments on diverse information retrieval scenarios considering both the textual and multimodal queries, we show that our approach substantially outperforms relevant baselines, thanks to the consideration of the multimodal information interleaved within the documents in a unified way.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# 屋内・屋外環境における障害物回避のためのカスタム非線形モデル予測制御

Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments ( http://arxiv.org/abs/2410.02732v1 )

ライセンス: Link先を確認
Lara Laban, Mariusz Wzorek, Piotr Rudol, Tommy Persson, (参考訳) 複雑な環境をナビゲートするには、無人航空機(UAV)と自律システムがリアルタイムで軌道追跡と障害物回避を行う必要がある。 多くの制御戦略は線形近似を効果的に活用しているが、特に障害物密度環境においてUAVの非線形力学に対処することは、さらなる研究を必要とする重要な課題である。 本稿では,DJI行列100のための非線形モデル予測制御(NMPC)フレームワークを提案する。 このフレームワークは様々なトラジェクトリタイプをサポートし、厳密な操作の精度を制御するためにペナルティベースのコスト関数を採用している。 このフレームワークは、効率的なリアルタイム最適化のためにCasADiを利用しており、UAVは厳密な計算制約の下でもロバストな操作を維持できる。 シミュレーションと実世界における屋内および屋外の実験は、NMPCが障害に適応できることを示した。

Navigating complex environments requires Unmanned Aerial Vehicles (UAVs) and autonomous systems to perform trajectory tracking and obstacle avoidance in real-time. While many control strategies have effectively utilized linear approximations, addressing the non-linear dynamics of UAV, especially in obstacle-dense environments, remains a key challenge that requires further research. This paper introduces a Non-linear Model Predictive Control (NMPC) framework for the DJI Matrice 100, addressing these challenges by using a dynamic model and B-spline interpolation for smooth reference trajectories, ensuring minimal deviation while respecting safety constraints. The framework supports various trajectory types and employs a penalty-based cost function for control accuracy in tight maneuvers. The framework utilizes CasADi for efficient real-time optimization, enabling the UAV to maintain robust operation even under tight computational constraints. Simulation and real-world indoor and outdoor experiments demonstrated the NMPC ability to adapt to disturbances, resulting in smooth, collision-free navigation.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# マルチタスク階層型フェデレーション学習のためのデータ類似性に基づくワンショットクラスタリング

Data Similarity-Based One-Shot Clustering for Multi-Task Hierarchical Federated Learning ( http://arxiv.org/abs/2410.02733v1 )

ライセンス: Link先を確認
Abdulmoneam Ali, Ahmed Arafa, (参考訳) 本稿では,ユーザが異なるタスクを学習するための階層的フェデレーション学習環境において,クラスタの同一性推定の問題に対処する。 タスクの不均一性の課題を克服するためには、同じタスクを持つユーザが同じグループに属しながら、他のグループと特徴抽出層の重みを共有しながら、一緒にトレーニングを行うように、ユーザをグループ化する必要がある。 そこで本研究では,データの類似性に基づいてユーザを効果的に識別し,グループ化する,ワンショットクラスタリングアルゴリズムを提案する。 これにより、連合学習システム内の共通レイヤ表現のより効率的なコラボレーションと共有が可能になる。 提案アルゴリズムはクラスタリングプロセスを強化するだけでなく,プライバシの懸念や通信のオーバーヘッド,学習モデルや損失関数の振る舞いに関する事前知識の必要性といった課題も克服する。 CIFAR-10 や Fashion MNIST などの様々なデータセットを用いて提案アルゴリズムの有効性を検証し,精度と分散率の点でベースラインよりも優れていることを示す。

We address the problem of cluster identity estimation in a hierarchical federated learning setting in which users work toward learning different tasks. To overcome the challenge of task heterogeneity, users need to be grouped in a way such that users with the same task are in the same group, conducting training together, while sharing the weights of feature extraction layers with the other groups. Toward that end, we propose a one-shot clustering algorithm that can effectively identify and group users based on their data similarity. This enables more efficient collaboration and sharing of a common layer representation within the federated learning system. Our proposed algorithm not only enhances the clustering process, but also overcomes challenges related to privacy concerns, communication overhead, and the need for prior knowledge about learning models or loss function behaviors. We validate our proposed algorithm using various datasets such as CIFAR-10 and Fashion MNIST, and show that it outperforms the baseline in terms of accuracy and variance reduction.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# OOD-Chameleon: OOD一般化のためのアルゴリズム選択は可能か?

OOD-Chameleon: Is Algorithm Selection for OOD Generalization Learnable? ( http://arxiv.org/abs/2410.02735v1 )

ライセンス: Link先を確認
Liangze Jiang, Damien Teney, (参考訳) 分布シフトが多くの形で現れるので、アウト・オブ・ディストリビューション(OOD)の一般化は困難である。 多数の学習アルゴリズムが存在し、それぞれが特定のOOD状況におけるパフォーマンスを向上させることができる。 OOD一般化の課題の多くは、適切なデータセットに対して適切なアルゴリズムを選択することにあると仮定する。 しかし、そのようなアルゴリズムの選択は、しばしば複雑な実世界のシフトの下で解かれる。 本研究では,OOD一般化のためのアルゴリズム選択のタスクを形式化し,学習によるアプローチの可能性を検討する。 我々は,OOD-Chameleonと呼ばれる手法を提案し,そのタスクを候補アルゴリズムに対する教師付き分類として扱う。 そこから学習するデータセットのデータセットを構築し、さまざまなタイプ、大きさ、シフト(共変量シフト、ラベルシフト、スプリアス相関)の組み合わせを表現します。 データセットの特徴からアルゴリズムの相対的な性能を予測するためにモデルを訓練する。 これにより、従来のモデル選択で必要に応じて様々なモデルをトレーニングすることなく、最高の学習戦略の優先順位選択が可能になる。 実験により、適応選択は、制御可能で現実的な画像データの未知のデータセット上で、任意のアルゴリズムと単純な選択ヒューリスティックよりも優れていることが示された。 モデルを調べると、非自明なデータ/アルゴリズムの相互作用を学習し、あるアルゴリズムが別のアルゴリズムを超える条件を明らかにする。 これにより、(1)新しいアルゴリズムを設計する代わりに既存のアルゴリズムによるOOD一般化の強化、(2)データセットの特性に関する既存のアルゴリズムの適用性に関する洞察を得るための新たな道が開かれる。

Out-of-distribution (OOD) generalization is challenging because distribution shifts come in many forms. A multitude of learning algorithms exist and each can improve performance in specific OOD situations. We posit that much of the challenge of OOD generalization lies in choosing the right algorithm for the right dataset. However, such algorithm selection is often elusive under complex real-world shifts. In this work, we formalize the task of algorithm selection for OOD generalization and investigate whether it could be approached by learning. We propose a solution, dubbed OOD-Chameleon that treats the task as a supervised classification over candidate algorithms. We construct a dataset of datasets to learn from, which represents diverse types, magnitudes and combinations of shifts (covariate shift, label shift, spurious correlations). We train the model to predict the relative performance of algorithms given a dataset's characteristics. This enables a priori selection of the best learning strategy, i.e. without training various models as needed with traditional model selection. Our experiments show that the adaptive selection outperforms any individual algorithm and simple selection heuristics, on unseen datasets of controllable and realistic image data. Inspecting the model shows that it learns non-trivial data/algorithms interactions, and reveals the conditions for any one algorithm to surpass another. This opens new avenues for (1) enhancing OOD generalization with existing algorithms instead of designing new ones, and (2) gaining insights into the applicability of existing algorithms with respect to datasets' properties.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# 事前学習型マルチモーダルファンデーションモデルにおける大規模撮像データの再検討

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models ( http://arxiv.org/abs/2410.02740v1 )

ライセンス: Link先を確認
Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang, (参考訳) マルチモーダルモデルの最近の進歩は、性能向上のために書き直されたキャプションの価値を強調しているが、重要な課題は残る。 例えば、合成キャプションは優れた品質と画像テキストのアライメントを提供することが多いが、合成キャプションの役割と、事前学習におけるオリジナルのウェブクローリングAltTextsとの相互作用が十分に理解されていないため、完全にAltTextsを置き換えることができるかどうかは不明だ。 さらに、異なるマルチモーダルファンデーションモデルは特定のキャプションフォーマットに対して独自の好みを持つかもしれないが、各モデルに最適なキャプションを特定する努力は限られている。 本研究では,多様なマルチモーダルモデルに適したキャプション形式を生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。 ケーススタディとしてSSC(Short Synthetic Captions)をDense Synthetic Captions(DSC+)に適用することにより,CLIP,マルチモーダルLLM,拡散モデルなどのモデル間でのAltTextsの効果と相互作用を体系的に検討する。 その結果,合成キャプションとAltTextsを併用することで,合成キャプションを単独で使用することで,アライメントとパフォーマンスを両立させ,各モデルが特定のキャプションフォーマットの好みを示すことができることがわかった。 この包括的分析は、キャプション戦略の最適化に関する貴重な洞察を与え、それによってマルチモーダル基礎モデルの事前学習を促進する。

Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.
翻訳日:2024-11-04 01:13:18 公開日:2024-10-03
# プロンプトに基づく抽象要約におけるステアコンテンツへの有能な情報プロンプト

Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization ( http://arxiv.org/abs/2410.02741v1 )

ライセンス: Link先を確認
Lei Xu, Mohammed Asad Karim, Saket Dingliwal, Aparna Elangovan, (参考訳) 大規模言語モデル(LLM)は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができ、要約アプリケーションのためのモデルをトレーニングする必要がなくなる。 しかし、LLMが適切な詳細レベルと書き方で要約を生成するための効果的なプロンプトは、依然として課題である。 本稿では,ソース文書から抽出した有能な情報を用いて要約の促進を図る。 命令にキーフレーズを追加することで、ROUGE F1とリコールが改善され、生成された要約が参照とよりよく似ており、より完全であることが示される。 キーフレーズの数は、精度-リコールトレードオフを制御することができる。 さらに, 句レベルの有意情報の導入は, 単語レベルや文レベルよりも優れていることが明らかとなった。 しかし、幻覚に対する影響はLLM全体では肯定的ではない。 この分析を行うために,ケプラーゼシグナルエクストラクタ (SigExt) を導入した。 SigExtを使用することで、LLMをカスタマイズせずにデータセットとオープンウェイトでプロプライエタリなLLM間で一貫したROUGE改善を実現します。 本研究は,素早い要約システム構築における有能な情報の活用に関する知見を提供する。

Large language models (LLMs) can generate fluent summaries across domains using prompting techniques, reducing the need to train models for summarization applications. However, crafting effective prompts that guide LLMs to generate summaries with the appropriate level of detail and writing style remains a challenge. In this paper, we explore the use of salient information extracted from the source document to enhance summarization prompts. We show that adding keyphrases in prompts can improve ROUGE F1 and recall, making the generated summaries more similar to the reference and more complete. The number of keyphrases can control the precision-recall trade-off. Furthermore, our analysis reveals that incorporating phrase-level salient information is superior to word- or sentence-level. However, the impact on hallucination is not universally positive across LLMs. To conduct this analysis, we introduce Keyphrase Signal Extractor (SigExt), a lightweight model that can be finetuned to extract salient keyphrases. By using SigExt, we achieve consistent ROUGE improvements across datasets and open-weight and proprietary LLMs without any LLM customization. Our findings provide insights into leveraging salient information in building prompt-based summarization systems.
翻訳日:2024-11-04 01:03:23 公開日:2024-10-03
# 不完全な世界モデルによる身体環境における大規模言語モデルの構築

Grounding Large Language Models In Embodied Environment With Imperfect World Models ( http://arxiv.org/abs/2410.02742v1 )

ライセンス: Link先を確認
Haolan Liu, Jishen Zhao, (参考訳) 様々な応用において広く成功したにもかかわらず、大きな言語モデル(LLM)は、現実世界の物理的なニュアンスに対する直接的な経験の欠如により、基礎的な物理的推論やロボットのタスクの実行にしばしば失敗する。 これらの問題に対処するために,シミュレータなどのプロキシワールドモデルを用いてトリニングデータを収集・合成する,不完全世界モデル(GLIMO)を用いたグラウンディング大言語モデルを提案する。 GLIMOはLLMエージェントベースのデータジェネレータを組み込んで、高品質で多様な命令データセットを自動生成する。 本発明のジェネレータは、時間的に一貫した体験サンプリングのための反復的自己精製モジュールと、質問回答指示シードの多種多様なセットと、先行経験を反映する検索拡張生成モジュールとを含む。 総合実験の結果,LLaMA-3のような強力なオープンソースLLMの性能は,それぞれ2.04$\times$, 1.54$\times$, 1.82$\times$の3つのベンチマークで向上した。 パフォーマンスは、GPT-4のようなより大きなパフォーマンスと競合したり、超えたりすることができる。

Despite a widespread success in various applications, large language models (LLMs) often stumble when tackling basic physical reasoning or executing robotics tasks, due to a lack of direct experience with the physical nuances of the real world. To address these issues, we propose a Grounding Large language model with Imperfect world MOdel (GLIMO), which utilizes proxy world models such as simulators to collect and synthesize trining data. GLIMO incorporates an LLM agent-based data generator to automatically create high-quality and diverse instruction datasets. The generator includes an iterative self-refining module for temporally consistent experience sampling, a diverse set of question-answering instruction seeds, and a retrieval-augmented generation module for reflecting on prior experiences. Comprehensive experiments show that our approach improve the performance of strong open-source LLMs like LLaMA-3 with a performance boost of 2.04 $\times$, 1.54 $\times$, and 1.82 $\times$ across three different benchmarks, respectively. The performance is able to compete with or surpass their larger counterparts such as GPT-4.
翻訳日:2024-11-04 01:03:23 公開日:2024-10-03
# MA-RLHF:マクロアクションによる人のフィードバックからの強化学習

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions ( http://arxiv.org/abs/2410.02743v1 )

ライセンス: Link先を確認
Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun, Hua Wu, (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。 しかし、トークンレベルのRLHFは長期にわたる信用代入問題に悩まされており、遅延報酬は、モデルがどのアクションが成功に寄与するかを識別することを困難にしている。 これにより学習効率が損なわれ、収束が遅くなる。 本稿では,トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークMA-RLHFを提案する。 この高度な抽象レベルでの運用により、我々のアプローチは行動と報酬の間の時間的距離を減らし、より高速で正確なクレジット割り当てを促進する。 これにより、トレーニングや推論中に計算の複雑さを増大させることなく、より安定したポリシー勾配を推定し、各エピソードにおける学習効率を高めることができる。 提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。 本手法は,テキスト要約およびコード生成の最大30%,対話の18%,質問応答タスクの8%で,標準RLHFよりも大幅な性能向上を実現している。 特に,本手法は,バニラRLHF 1.7xをトレーニング時間で2倍高速化し,さらなるトレーニングで性能を向上し続けている。 コードとデータはhttps://github.com/ernie-research/MA-RLHF で公開します。

Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions -- sequences of tokens or higher-level language constructs -- into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# ニュートラル残基:モデル拡張のためのアダプタの再検討

Neutral residues: revisiting adapters for model extension ( http://arxiv.org/abs/2410.02744v1 )

ライセンス: Link先を確認
Franck Signe Talla, Herve Jegou, Edouard Grave, (参考訳) 我々は、事前訓練された大きな言語モデルをトレーニング時に見られなかった新しいドメインに拡張する問題に対処する。 ファインチューニングやローランク適応のような一般的なソリューションはドメイン適応で成功するが、公式には余分なキャパシティを追加せず、元のドメインのパフォーマンスを低下させる。 本稿では, この拡張問題をデータ, アーキテクチャ, トレーニング手順の3つの角度で解析する。 特に、アダプタを改善し、ニューラルネットワークの出力が元のドメインでほとんど変わらないことを保証しながら、新しい言語全体を学習できるようにする。 この目的のために、我々は、新しい残余ブロックを元のドメインのほぼゼロの出力に導く方法で、新しい残余ブロックを修正します。 新しい言語を学ぶことと英語を忘れないことの間のトレードオフの観点から、並行的なアプローチ(微調整、低ランク、バニラアダプタ)よりもはるかに優れた結果が得られる。

We address the problem of extending a pretrained large language model to a new domain that was not seen at training time, like adding a language for which the original model has seen no or little training data. Popular solutions like fine-tuning or low-rank adaptation are successful at domain adaptation, but formally they do not add any extra capacity and degrade the performance in the original domain. Our paper analyzes this extension problem under three angles: data, architecture and training procedure, which are advantageously considered jointly. In particular, we improve adapters and make it possible to learn an entire new language while ensuring that the output of the neural network is almost unchanged in the original domain. For this purpose, we modify the new residual blocks in a way that leads each new residual block to output near-zeros in the original domain. This solution of neutral residues, which borrows architectural components from mixture of experts, is effective: with only 20% extra learnable weights compared to an original model trained on English, we get results that are significantly better than concurrent approaches (fine-tuning, low-rank or vanilla adapters) in terms of the trade-off between learning a new language and not forgetting English.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# コントラスト型ローカライズド言語-画像事前学習

Contrastive Localized Language-Image Pre-Training ( http://arxiv.org/abs/2410.02746v1 )

ライセンス: Link先を確認
Hong-You Chen, Zhengfeng Lai, Haotian Zhang, Xinze Wang, Marcin Eichner, Keen You, Meng Cao, Bowen Zhang, Yinfei Yang, Zhe Gan, (参考訳) Contrastive Language-Image Pre-Training (CLIP) は、視覚エンコーダを訓練し、様々なアプリケーションに役立つ画像/テキスト表現を生成するための著名な方法である。 近年,Multimodal Large Language Model (MLLM) の視覚バックボーンとしてCLIPが広く採用されている。 ビジョン言語基盤モデルとしてのCLIPの成功は、画像レベルでWebcrawlされたノイズの多いテキストアノテーションの整列に依存している。 しかし、特にMLLMの領域レベルの理解が要求される場合には、細粒度の視覚表現を必要とするダウンストリームタスクには、そのような基準が不十分になる可能性がある。 本稿では,CLIPのローカライゼーション能力をいくつかの進歩で改善する。 本稿では,CLOC(Contrastive Localized Language- Image Pre-training)と呼ばれる事前学習手法を提案する。 我々は、エンコーダが空間的ヒントを与えられた領域表現に変換し易い画像埋め込みを生成する新しい概念、即時埋め込みを定式化する。 大規模な事前学習を支援するために、視覚的に豊かで空間的に局在したキャプション・フレームワークを設計し、大規模に領域文の擬似ラベルを効果的に生成する。 数十億の注釈付き画像をスケールアップすることにより、CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にし、特に参照および接地タスクにおいてMLLMを強化するCLIPの代替となる。

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# 独立分散カーネルに基づくオンライン自動変調分類方式

An Online Automatic Modulation Classification Scheme Based on Isolation Distributional Kernel ( http://arxiv.org/abs/2410.02750v1 )

ライセンス: Link先を確認
Xinpeng Li, Zile Jiang, Kai Ming Ting, Ye Zhu, (参考訳) 現代の非協調通信ネットワークにおいて重要な技術である自動変調分類(AMC)は、様々な民間・軍事的応用において重要な役割を担っている。 しかし、既存のAMCメソッドは通常複雑であり、高い計算複雑性のためのみバッチモードで動作する。 本稿では,分離分布カーネルに基づく新しいオンラインAMC方式を提案する。 我々の方法は二つの点で際立っている。 まず、分布カーネルを用いてベースバンド信号を表現するための最初の提案である。 第二に、リアルタイムなチャンネル条件下でオンライン環境でうまく機能する、先駆的なAMC技術を導入する。 オンライン設定における広範な実験を通じて,提案手法の有効性を実証する。 提案手法は,最先端の2つのディープラーニング分類器を含む,既存のベースラインモデルより優れていることを示す。 さらに、線形時間複雑性を持つAMCのオンライン分類器としては初めてであり、リアルタイムアプリケーションでは大幅な効率向上を図っている。

Automatic Modulation Classification (AMC), as a crucial technique in modern non-cooperative communication networks, plays a key role in various civil and military applications. However, existing AMC methods usually are complicated and can work in batch mode only due to their high computational complexity. This paper introduces a new online AMC scheme based on Isolation Distributional Kernel. Our method stands out in two aspects. Firstly, it is the first proposal to represent baseband signals using a distributional kernel. Secondly, it introduces a pioneering AMC technique that works well in online settings under realistic time-varying channel conditions. Through extensive experiments in online settings, we demonstrate the effectiveness of the proposed classifier. Our results indicate that the proposed approach outperforms existing baseline models, including two state-of-the-art deep learning classifiers. Moreover, it distinguishes itself as the first online classifier for AMC with linear time complexity, which marks a significant efficiency boost for real-time applications.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# Relic: 身体的AIのためのインテクスト強化学習のための64kステップのレシピ

ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI ( http://arxiv.org/abs/2410.02751v1 )

ライセンス: Link先を確認
Ahmad Elawady, Gunjan Chhablani, Ram Ramrakhya, Karmesh Yadav, Dhruv Batra, Zsolt Kira, Andrew Szot, (参考訳) インテリジェントな実施エージェントは、長い経験を意思決定に組み込むことで、新しいシナリオに迅速に適応する必要がある。 例えば、馴染みのない家のロボットは、最初はタスクに必要なオブジェクトの位置を知りませんし、非効率に動作します。 しかし、より経験を積むにつれて、環境のレイアウトを学習し、オブジェクトがどこにあるかを記憶し、新しいタスクをより効率的に完了させる必要がある。 本稿では,新しいタスクへの迅速な適応を実現するために,エンボディエージェントのためのテキスト内強化学習(RL)の新しいアプローチであるReLICを提案する。 Relicでは、エージェントは64,000ステップのコンテキスト内体験を使用して新しい環境に適応し、RLを介して自己生成体験を通じてトレーニングされる。 そこで我々は,「部分的更新」と呼ばれる新たな政策更新スキームと,長期観察履歴の有効活用を可能にするSink-KV機構を提案する。 本手法は,マルチオブジェクトナビゲーションタスクにおいて,目に見えない住宅に適応する上で,様々なメタRLベースラインよりも優れる。 さらに、Relicは専門家によるデモンストレーションで訓練を受けなくても、数発の模倣学習が可能であることもわかりました。 また,大規模なRL学習と部分的更新スキーム,Sink-KVの組み合わせが,文脈内学習に不可欠であることを強調して,Relicの総合的な分析を行った。 Relicのコードと実験はすべてhttps://github.com/aielawady/relicにある。

Intelligent embodied agents need to quickly adapt to new scenarios by integrating long histories of experience into decision-making. For instance, a robot in an unfamiliar house initially wouldn't know the locations of objects needed for tasks and might perform inefficiently. However, as it gathers more experience, it should learn the layout of its environment and remember where objects are, allowing it to complete new tasks more efficiently. To enable such rapid adaptation to new tasks, we present ReLIC, a new approach for in-context reinforcement learning (RL) for embodied agents. With ReLIC, agents are capable of adapting to new environments using 64,000 steps of in-context experience with full attention while being trained through self-generated experience via RL. We achieve this by proposing a novel policy update scheme for on-policy RL called "partial updates'' as well as a Sink-KV mechanism that enables effective utilization of a long observation history for embodied agents. Our method outperforms a variety of meta-RL baselines in adapting to unseen houses in an embodied multi-object navigation task. In addition, we find that ReLIC is capable of few-shot imitation learning despite never being trained with expert demonstrations. We also provide a comprehensive analysis of ReLIC, highlighting that the combination of large-scale RL training, the proposed partial updates scheme, and the Sink-KV are essential for effective in-context learning. The code for ReLIC and all our experiments is at https://github.com/aielawady/relic
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# ホモロジー計測によるフォールトトレラント論理測定

Fault-tolerant logical measurements via homological measurement ( http://arxiv.org/abs/2410.02753v1 )

ライセンス: Link先を確認
Benjamin Ide, Manoj G. Gowda, Priya J. Nadkarni, Guillaume Dauphinais, (参考訳) CSS安定化器符号に符号化された論理的パウリ演算子を測定するためのフレームワークであるホモロジカル測度を導入する。 このフレームワークは鎖複体のようなコードの代数的記述に基づいている。 格子手術などのプロトコルは、その最近の一般化のいくつかは、ホモロジー測定の特別な場合であることが示されている。 このフレームワークを用いて、一般のqLDPC符号の任意の論理パウリ演算子の耐故障性測定のためのエッジ拡張ホモロジー測定と呼ばれる特定のプロトコルを開発し、測定した論理演算子の重みだけで線形に成長する多数の補助量子ビットを必要とし、符号の距離を保証した。 さらに、GKP量子ビットに基づくフォトニックアーキテクチャにおいて、我々のプロトコルを数値的にベンチマークし、様々な符号の論理誤差率は、より多くのアンシラ量子ビットを必要とする他の方法と同等であることを示す。

We introduce homological measurement, a framework for measuring the logical Pauli operators encoded in CSS stabilizer codes. The framework is based on the algebraic description of such codes as chain complexes. Protocols such as lattice surgery some of its recent generalizations are shown to be special cases of homological measurement. Using this framework, we develop a specific protocol called edge expanded homological measurement for fault-tolerant measurement of arbitrary logical Pauli operators of general qLDPC codes, requiring a number of ancillary qubits growing only linearly with the weight of the logical operator measured, and guaranteed that the distance of the code is preserved. We further benchmark our protocol numerically in a photonic architecture based on GKP qubits, showing that the logical error rate of various codes are on par with other methods requiring more ancilla qubits.
翻訳日:2024-11-04 01:03:22 公開日:2024-10-03
# CorPipe at CRAC 2024: 生テキストからのゼロメンション予測

CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text ( http://arxiv.org/abs/2410.02756v1 )

ライセンス: Link先を確認
Milan Straka, (参考訳) 我々は,CorPipe 24,CRAC 2024Shared Task on Multilingual Coreference Resolutionについて述べる。 この共有タスクの3回目のイテレーションでは、新しい目的は、ゼロコア参照参照に必要な空のノードを予測することである。 このようにして、コア参照の解決は生のテキストで行うことができる。 2段階のアプローチ(まず、事前訓練されたエンコーダモデルを用いて空のノードを予測し、次に、他の事前訓練されたモデルによって文語と共に処理する)と1段階のアプローチ(1つの事前訓練されたエンコーダモデルが空のノードを生成し、コア参照参照とコア参照リンクを共同で生成する)である。 どちらの設定でも、CorPipeは、それぞれ3.9ポイントと2.8%の差で他の参加者を上回っている。 ソースコードとトレーニングされたモデルはhttps://github.com/ufal/crac2024-corpipeで公開されている。

We present CorPipe 24, the winning entry to the CRAC 2024 Shared Task on Multilingual Coreference Resolution. In this third iteration of the shared task, a novel objective is to also predict empty nodes needed for zero coreference mentions (while the empty nodes were given on input in previous years). This way, coreference resolution can be performed on raw text. We evaluate two model variants: a~two-stage approach (where the empty nodes are predicted first using a pretrained encoder model and then processed together with sentence words by another pretrained model) and a single-stage approach (where a single pretrained encoder model generates empty nodes, coreference mentions, and coreference links jointly). In both settings, CorPipe surpasses other participants by a large margin of 3.9 and 2.8 percent points, respectively. The source code and the trained model are available at https://github.com/ufal/crac2024-corpipe .
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# Loong: 自動回帰言語モデルによる分レベルのロングビデオの生成

Loong: Generating Minute-level Long Videos with Autoregressive Language Models ( http://arxiv.org/abs/2410.02757v1 )

ライセンス: Link先を確認
Yuqing Wang, Tianwei Xiong, Daquan Zhou, Zhijie Lin, Yang Zhao, Bingyi Kang, Jiashi Feng, Xihui Liu, (参考訳) コンテンツに富んだ長いビデオを数分で生成することは望ましいが、難しい。 自己回帰型大言語モデル(LLM)は、自然言語処理の領域において、コヒーレントで長いトークン列を生成することに成功し、ビデオ生成のための自己回帰型LLMの探索は、数秒の短いビデオを生成することに限られている。 本研究では,自己回帰型LLMビデオジェネレータが長いビデオを生成するのを防ぐための課題を深く分析する。 この観測と解析に基づいて,我々はLongという自動回帰式ビデオジェネレータを提案する。 具体的には,テキストトークンとビデオトークンを自己回帰LDMの統一シーケンスとしてモデル化し,スクラッチからモデルをトレーニングする。 本稿では,長期ビデオトレーニングにおける損失不均衡問題を軽減するために,損失再重み付け方式によるプログレッシブ・ショート・ツー・ロングトレーニングを提案する。 さらに,ビデオトークンの復号化やサンプリングなど,推論時のエラー蓄積を低減するための推論戦略についても検討する。 提案したLoongは10秒の動画でトレーニングでき、テキストプロンプトで調整されたミニレベル長ビデオを生成するよう拡張することができる。 より詳細なサンプルは、https://epiphqny.github.io/Loong-video.comで公開されている。

It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# ディープラーニングによるスモッグクラウドの予測

Forecasting Smog Clouds With Deep Learning ( http://arxiv.org/abs/2410.02759v1 )

ライセンス: Link先を確認
Valentijn Oldenburg, Juan Cardenas-Cartagena, Matias Valdenegro-Toro, (参考訳) 本研究では, 長期記憶(LSTM)とゲート再帰単位(GRU)アーキテクチャに着目し, 各種深層学習モデルを用いて, 気象学的共変量を用いた二酸化窒素(NO2), オゾン(O3)および(微細)粒子状物質(PM10, PM2.5)濃度の多変量解析を行った。 特に,大気汚染のダイナミクスと大気科学にインスパイアされた統合階層型モデルアーキテクチャを提案する。 以上の結果から, 階層型GRUはスモッグ関連汚染物質の濃度を予測するための競争的かつ効率的な方法であることが示された。

In this proof-of-concept study, we conduct multivariate timeseries forecasting for the concentrations of nitrogen dioxide (NO2), ozone (O3), and (fine) particulate matter (PM10 & PM2.5) with meteorological covariates between two locations using various deep learning models, with a focus on long short-term memory (LSTM) and gated recurrent unit (GRU) architectures. In particular, we propose an integrated, hierarchical model architecture inspired by air pollution dynamics and atmospheric science that employs multi-task learning and is benchmarked by unidirectional and fully-connected models. Results demonstrate that, above all, the hierarchical GRU proves itself as a competitive and efficient method for forecasting the concentration of smog-related pollutants.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# 言語モデルから概念知識を消去する

Erasing Conceptual Knowledge from Language Models ( http://arxiv.org/abs/2410.02760v1 )

ライセンス: Link先を確認
Rohit Gandikota, Sheridan Feucht, Samuel Marks, David Bau, (参考訳) 言語モデルにおける概念消去は、伝統的に包括的な評価フレームワークが欠如しており、消去方法の有効性の不完全な評価につながっている。 本研究では,無実(完全知識の除去),シームレス性(条件付き流動生成の維持),特異性(非関連タスク性能の保存)の3つの重要な基準を主眼とした評価パラダイムを提案する。 評価指標は自然に言語記憶の消去(ELM)の開発を動機付けている。 ELMは目標とする低ランクな更新を使用して、消去された概念に対して出力分布を変更すると同時に、消去された概念を誘導する際の流速を含む全体的なモデル機能を保存する。 ELMのバイオセキュリティ、サイバーセキュリティ、および文学ドメイン消去タスクに対する効果を実証する。 比較分析の結果,削除されたトピックアセスメントのほぼランダムスコア,生成頻度,無関係なベンチマークの精度の維持,敵攻撃時の堅牢性など,提案した指標よりも優れた性能が得られた。 私たちのコード、データ、トレーニングされたモデルはhttps://elm.baulab.infoで利用可能です。

Concept erasure in language models has traditionally lacked a comprehensive evaluation framework, leading to incomplete assessments of effectiveness of erasure methods. We propose an evaluation paradigm centered on three critical criteria: innocence (complete knowledge removal), seamlessness (maintaining conditional fluent generation), and specificity (preserving unrelated task performance). Our evaluation metrics naturally motivate the development of Erasure of Language Memory (ELM), a new method designed to address all three dimensions. ELM employs targeted low-rank updates to alter output distributions for erased concepts while preserving overall model capabilities including fluency when prompted for an erased concept. We demonstrate ELM's efficacy on biosecurity, cybersecurity, and literary domain erasure tasks. Comparative analysis shows that ELM achieves superior performance across our proposed metrics, including near-random scores on erased topic assessments, generation fluency, maintained accuracy on unrelated benchmarks, and robustness under adversarial attacks. Our code, data, and trained models are available at https://elm.baulab.info
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# 幻覚の緩和のための視覚言語表現の解釈と編集

Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations ( http://arxiv.org/abs/2410.02762v1 )

ライセンス: Link先を確認
Nick Jiang, Anish Kachinthaya, Suzie Petryk, Yossi Gandelsman, (参考訳) 本稿では,視覚言語モデル(VLM)の内部表現を,モデルのサイズや訓練の進歩にもかかわらず,持続的な課題である幻覚に対処するために検討する。 我々は,VLMの内部画像表現を言語語彙に投影し,実物体の出力確率を幻覚的物体よりも高い信頼度で観測する。 さらに,これらの出力確率を実物体の空間的局所化に利用した。 本稿では, 画像特徴を直交的に表現することで, 幻覚を除去する知識消去アルゴリズムを提案する。 モデルが潜在する表現を対象とする編集は、性能を維持しながらCOCO2014データセット上で最大25.7%の幻覚を減少させることができることを示す。 本研究は,VLMの潜在表現をより深く理解することで,信頼性を高め,ゼロショットセグメンテーションなどの新たな機能を実現することができることを示す。

We investigate the internal representations of vision-language models (VLMs) to address hallucinations, a persistent challenge despite advances in model size and training. We project VLMs' internal image representations to their language vocabulary and observe more confident output probabilities on real objects than hallucinated objects. We additionally use these output probabilities to spatially localize real objects. Building on this approach, we introduce a knowledge erasure algorithm that removes hallucinations by linearly orthogonalizing image features with respect to hallucinated object features. We show that targeted edits to a model's latent representations can reduce hallucinations by up to 25.7% on the COCO2014 dataset while preserving performance. Our findings demonstrate how a deeper understanding of VLMs' latent representations can enhance reliability and enable novel capabilities, such as zero-shot segmentation.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# バイノグラウンド:短いビデオで高精細なテンポラル推論によるLMMの精査

Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos ( http://arxiv.org/abs/2410.02763v1 )

ライセンス: Link先を確認
Jianrui Zhang, Mu Cai, Yong Jae Lee, (参考訳) 近年,現代の大規模マルチモーダルモデル (LMM) が,ショートビデオ理解に関わる重要な課題の多くに対処している,という感情が高まっている。 その結果、学術と産業の両方が、長いビデオを理解することによって生じるより複雑な課題に徐々に注意を向けている。 しかし、本当にそうだろうか? 我々の研究は、短いビデオであってもLMMには根本的な推論能力が欠けていることを示唆している。 我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。 既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。 例えば、最高のモデルであるGPT-4oは、私たちのテキストとビデオスコアの50%しか取得できません。 すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。 この研究を通じて、短いビデオにおける時間的推論がまだ完全に解決されていない問題であるという事実に光を当てた。 データセットと評価コードはhttps://vinoground.github.io.comで公開されている。

There has been growing sentiment recently that modern large multimodal models (LMMs) have addressed most of the key challenges related to short video comprehension. As a result, both academia and industry are gradually shifting their attention towards the more complex challenges posed by understanding long-form videos. However, is this really the case? Our studies indicate that LMMs still lack many fundamental reasoning capabilities even when dealing with short videos. We introduce Vinoground, a temporal counterfactual LMM evaluation benchmark encompassing 1000 short and natural video-caption pairs. We demonstrate that existing LMMs severely struggle to distinguish temporal differences between different actions and object transformations. For example, the best model GPT-4o only obtains ~50% on our text and video scores, showing a large gap compared to the human baseline of ~90%. All open-source multimodal models and CLIP-based models perform much worse, producing mostly random chance performance. Through this work, we shed light onto the fact that temporal reasoning in short videos is a problem yet to be fully solved. The dataset and evaluation code are available at https://vinoground.github.io.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# Flash-Splat: Flash Cues と Gaussian Splats による3次元反射除去

Flash-Splat: 3D Reflection Removal with Flash Cues and Gaussian Splats ( http://arxiv.org/abs/2410.02764v1 )

ライセンス: Link先を確認
Mingyang Xie, Haoming Cai, Sachin Shah, Yiran Xu, Brandon Y. Feng, Jia-Bin Huang, Christopher A. Metzler, (参考訳) 透過光と反射光を分離する簡単な方法を提案する。 我々の重要な洞察は、現代の逆レンダリング手法(例えば、3Dガウススプラッティング)によって提供される強力な新しいビュー合成機能によって、不対計測を用いてフラッシュ/ノ・フラッシュリフレクション分離を行うことができます -- この緩和により、従来のフラッシュ/ノ・フラッシュリフレクション分離法よりも画像の取得が劇的に簡単になるということです。 実世界の広範囲にわたる実験を通じて,3次元の映像と映像の両方を正確に再構成するFlash-Splatを実証した。 本手法は照明制御を行なわない既存の3次元反射分離法よりも大きなマージンで優れる。 プロジェクトのWebページはhttps://flash-splat.github.io/です。

We introduce a simple yet effective approach for separating transmitted and reflected light. Our key insight is that the powerful novel view synthesis capabilities provided by modern inverse rendering methods (e.g.,~3D Gaussian splatting) allow one to perform flash/no-flash reflection separation using unpaired measurements -- this relaxation dramatically simplifies image acquisition over conventional paired flash/no-flash reflection separation methods. Through extensive real-world experiments, we demonstrate our method, Flash-Splat, accurately reconstructs both transmitted and reflected scenes in 3D. Our method outperforms existing 3D reflection separation methods, which do not leverage illumination control, by a large margin. Our project webpage is at https://flash-splat.github.io/.
翻訳日:2024-11-03 06:04:22 公開日:2024-10-03
# 複雑な生活システムの長寿をモデル化する

Modelling the longevity of complex living systems ( http://arxiv.org/abs/2410.02838v1 )

ライセンス: Link先を確認
Indrė Žliobaitė, (参考訳) この拡張された抽象化はリトアニアのヴィリニュスにあるECML PKDD 2024のNectar Trackで発表された。 The Proceedings of the National Academy of Sciences (PNAS) に最近発表された論文 "Laws of Macroevolutionary Expansion" を補っている。

This extended abstract was presented at the Nectar Track of ECML PKDD 2024 in Vilnius, Lithuania. The content supplements a recently published paper "Laws of Macroevolutionary Expansion" in the Proceedings of the National Academy of Sciences (PNAS).
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# フェアネスを考慮した最適輸送を用いたデータ修復における表現バイアスの克服

Overcoming Representation Bias in Fairness-Aware data Repair using Optimal Transport ( http://arxiv.org/abs/2410.02840v1 )

ライセンス: Link先を確認
Abigail Langbridge, Anthony Quinn, Robert Shorten, (参考訳) 最適輸送(OT)は、公平さを増進する方法でデータ分布を変換する上で重要な役割を持つ。 通常、OT演算子は不公平な属性ラベル付きデータから学習され、修理に使用される。 このアプローチの2つの重要な制限は以下のとおりである。 (i)表現不足部分群に対するOT演算子は学習が不十分である(つまり、表現バイアスに影響を受けやすい)。 (II)これらのOT修復は、同一に分散されているが、サンプル外(すなわち、アーカイブ)データには影響しない。 本稿では,この2つの問題をベイズ的非パラメトリック停止規則を用いて,データ分布の属性付き成分を学習する。 OT-最適量子化演算子は、アーカイブデータの修復に使用できる。 我々は、変換されたデータの損傷に対して公正さを交換できる量化器とともに、公平な分布目標の新たな定義を定式化する。 これらは、シミュレーションおよびベンチマークデータセットにおける表現バイアス耐性スキームの優れた性能を示すために使用される。

Optimal transport (OT) has an important role in transforming data distributions in a manner which engenders fairness. Typically, the OT operators are learnt from the unfair attribute-labelled data, and then used for their repair. Two significant limitations of this approach are as follows: (i) the OT operators for underrepresented subgroups are poorly learnt (i.e. they are susceptible to representation bias); and (ii) these OT repairs cannot be effected on identically distributed but out-of-sample (i.e.\ archival) data. In this paper, we address both of these problems by adopting a Bayesian nonparametric stopping rule for learning each attribute-labelled component of the data distribution. The induced OT-optimal quantization operators can then be used to repair the archival data. We formulate a novel definition of the fair distributional target, along with quantifiers that allow us to trade fairness against damage in the transformed data. These are used to reveal excellent performance of our representation-bias-tolerant scheme in simulated and benchmark data sets.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# コードインテリジェンスのための文脈内学習に対する実証的攻撃

Demonstration Attack against In-Context Learning for Code Intelligence ( http://arxiv.org/abs/2410.02841v1 )

ライセンス: Link先を確認
Yifei Ge, Weisong Sun, Yihang Lou, Chunrong Fang, Yiran Zhang, Yiming Li, Xiaofang Zhang, Yang Liu, Zhihong Zhao, Zhenyu Chen, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、プログラミングの生産性を改善し、ソフトウェア開発者が直面する課題を軽減することで、コードインテリジェンスに革命をもたらした。 特定のコードインテリジェンスタスクにおけるLLMの性能をさらに向上させ、トレーニングコストを削減すべく、研究者はLLMの新たな能力であるインコンテキスト学習(ICL)を明らかにした。 ICLは、特定のコンテキスト内のいくつかのデモからLLMを学び、パラメータを更新せずに素晴らしい結果を得ることができる。 しかし、ICLの台頭は、コードインテリジェンス分野に新たなセキュリティ脆弱性を導入している。 本稿では、攻撃者がサードパーティのICLエージェンシーとして行動し、コードインテリジェンスタスクにおけるLCMの出力を誤解させる悪質なICLコンテンツをユーザに提供するICLパラダイムに基づく、新たなセキュリティシナリオについて検討する。 本研究は,攻撃者が悪質なICLコンテンツの構築に悪用し,不正なアウトプットを誘導し,システムセキュリティに重大な脅威をもたらすという,このようなシナリオの実現可能性とリスクを実証する。 提案手法では,DICE と呼ばれる悪い ICL コンテンツを構築する手法を提案する。DICE はデモ選択と悪い ICL 構築という2つの段階で構成され,ユーザクエリに基づいてターゲットの悪い ICL コンテンツを構築し,異なるクエリ入力間で転送可能である。 最終的に,コードインテリジェンスシステムを敵の操作から守るためのICL機構の確保の重要性を強調した。

Recent advancements in large language models (LLMs) have revolutionized code intelligence by improving programming productivity and alleviating challenges faced by software developers. To further improve the performance of LLMs on specific code intelligence tasks and reduce training costs, researchers reveal a new capability of LLMs: in-context learning (ICL). ICL allows LLMs to learn from a few demonstrations within a specific context, achieving impressive results without parameter updating. However, the rise of ICL introduces new security vulnerabilities in the code intelligence field. In this paper, we explore a novel security scenario based on the ICL paradigm, where attackers act as third-party ICL agencies and provide users with bad ICL content to mislead LLMs outputs in code intelligence tasks. Our study demonstrates the feasibility and risks of such a scenario, revealing how attackers can leverage malicious demonstrations to construct bad ICL content and induce LLMs to produce incorrect outputs, posing significant threats to system security. We propose a novel method to construct bad ICL content called DICE, which is composed of two stages: Demonstration Selection and Bad ICL Construction, constructing targeted bad ICL content based on the user query and transferable across different query inputs. Ultimately, our findings emphasize the critical importance of securing ICL mechanisms to protect code intelligence systems from adversarial manipulation.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# 部分観察型力学系のための学習遅延を持つニューラルDDE

Neural DDEs with Learnable Delays for Partially Observed Dynamical Systems ( http://arxiv.org/abs/2410.02843v1 )

ライセンス: Link先を確認
Thibault Monsel, Emmanuel Menier, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat, (参考訳) 近年,データから力学系を学習する手法が数多く導入されている。 このような手法は、しばしばシステムの完全な状態の可用性に依存する。 しかしながら、この基礎となる仮説は、実際には確認されていないため、かなり制限的であり、部分的に観察されたシステムを残している。 統計物理学からモリ・ズワンジグ(MZ)の定式化を利用して、定数ラグニューラルネットワーク遅延微分方程式(NDDE)が部分的に観測された状態に適したモデルとして自然に機能することを実証する。 実験的な評価では、これらのモデルは、合成データと実験データの両方において、既存の手法よりも優れていることを示す。

Many successful methods to learn dynamical systems from data have recently been introduced. Such methods often rely on the availability of the system's full state. However, this underlying hypothesis is rather restrictive as it is typically not confirmed in practice, leaving us with partially observed systems. Utilizing the Mori-Zwanzig (MZ) formalism from statistical physics, we demonstrate that Constant Lag Neural Delay Differential Equations (NDDEs) naturally serve as suitable models for partially observed states. In empirical evaluation, we show that such models outperform existing methods on both synthetic and experimental data.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# レイヤーワイズ・パーソナライズド・フェデレーション・ラーニングを目指して--矛盾するグラディエントによる適応的なレイヤー・ディスタングルメント

Towards Layer-Wise Personalized Federated Learning: Adaptive Layer Disentanglement via Conflicting Gradients ( http://arxiv.org/abs/2410.02845v1 )

ライセンス: Link先を確認
Minh Duong Nguyen, Khanh Le, Khoi Do, Nguyen H. Tran, Duc Nguyen, Chien Trinh, Zhaohui Yang, (参考訳) パーソナライズされたフェデレーション学習(pFL)では、高データの異質性はデバイス間で大きな勾配のばらつきを引き起こし、学習プロセスに悪影響を及ぼす可能性がある。 このばらつき、特に、異なるユーザーからのグラデーションがアグリゲーション中に斜めの角度を形成する場合、進行を無効にすることができ、重み付けと勾配更新の劣化を引き起こす。 この問題に対処するために、我々は、階層レベルでの勾配競合の概念を利用して、階層的アグリゲーションを伴うフェデレート学習(Federated Learning with Layer-wise Aggregation via Gradient Analysis (FedLAG))という、pFL設計の新しいアプローチを導入する。 具体的には、異なるクライアントのレイヤワイドな勾配が急性の角度を形成するとき、それらの勾配は同じ方向に整列し、異なるクライアントをまたいでクライアント不変の機能を特定することができる。 逆に、レイヤワイドのグラデーションペアがオブユースアングルを作る場合、レイヤはクライアント固有のタスクに集中する傾向があります。 後見では、FedLAGはレイヤーワイド勾配競合の程度に基づいて、パーソナライズのためのレイヤを割り当てる。 特に、勾配の衝突のある層は、グローバルアグリゲーションプロセスから除外される。 理論的評価は、他のpFLベースラインに統合された場合、FedLAGはpFL性能を一定のマージンで向上させることを示した。 そこで本提案手法は,他のベースラインに比べて収束挙動が優れている。 大規模な実験により,我々のFedLAGはいくつかの最先端手法より優れており,多くの既存手法に容易に組み込んで性能を向上できることがわかった。

In personalized Federated Learning (pFL), high data heterogeneity can cause significant gradient divergence across devices, adversely affecting the learning process. This divergence, especially when gradients from different users form an obtuse angle during aggregation, can negate progress, leading to severe weight and gradient update degradation. To address this issue, we introduce a new approach to pFL design, namely Federated Learning with Layer-wise Aggregation via Gradient Analysis (FedLAG), utilizing the concept of gradient conflict at the layer level. Specifically, when layer-wise gradients of different clients form acute angles, those gradients align in the same direction, enabling updates across different clients toward identifying client-invariant features. Conversely, when layer-wise gradient pairs make create obtuse angles, the layers tend to focus on client-specific tasks. In hindsights, FedLAG assigns layers for personalization based on the extent of layer-wise gradient conflicts. Specifically, layers with gradient conflicts are excluded from the global aggregation process. The theoretical evaluation demonstrates that when integrated into other pFL baselines, FedLAG enhances pFL performance by a certain margin. Therefore, our proposed method achieves superior convergence behavior compared with other baselines. Extensive experiments show that our FedLAG outperforms several state-of-the-art methods and can be easily incorporated with many existing methods to further enhance performance.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# モーゲージ信用リスクのための時空間機械学習モデル:デフォルト確率とローンポートフォリオ

A Spatio-Temporal Machine Learning Model for Mortgage Credit Risk: Default Probabilities and Loan Portfolios ( http://arxiv.org/abs/2410.02846v1 )

ライセンス: Link先を確認
Pascal Kündig, Fabio Sigrist, (参考訳) 本稿では,木分けと時空間時空間ガウスプロセスモデルを組み合わせることで,信用リスクを考慮した新しい機械学習モデルを提案する。 これにより、フレキシブルなデータ駆動方式で予測変数間の非線形性や相互作用をモデル化でき、観測可能な予測変数では説明できない時空間変動を考慮できる。 また,予測と予測を計算的に効率的に行う方法を示す。 米国の大規模住宅ローン信用リスクデータセットに適用すると、個人ローンに対する予測的デフォルト確率と、新しいアプローチで得られた予測的ローンポートフォリオ損失分布の両方が、従来の独立した線形ハザードモデルや線形時空間モデルよりも精度が高いことが分かる。 機械学習モデルにおける解釈可能性ツールを用いることで、予測変数における強い相互作用と非線形効果と、時空間の破壊効果の存在が考えられる。

We introduce a novel machine learning model for credit risk by combining tree-boosting with a latent spatio-temporal Gaussian process model accounting for frailty correlation. This allows for modeling non-linearities and interactions among predictor variables in a flexible data-driven manner and for accounting for spatio-temporal variation that is not explained by observable predictor variables. We also show how estimation and prediction can be done in a computationally efficient manner. In an application to a large U.S. mortgage credit risk data set, we find that both predictive default probabilities for individual loans and predictive loan portfolio loss distributions obtained with our novel approach are more accurate compared to conventional independent linear hazard models and also linear spatio-temporal models. Using interpretability tools for machine learning models, we find that the likely reasons for this outperformance are strong interaction and non-linear effects in the predictor variables and the presence of large spatio-temporal frailty effects.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-03
# ディープシグナチャ:大規模分子動力学のキャラクタリゼーション

Deep Signature: Characterization of Large-Scale Molecular Dynamics ( http://arxiv.org/abs/2410.02847v1 )

ライセンス: Link先を確認
Tiexin Qin, Mengxu Zhu, Chunyang Li, Terry Lyons, Hong Yan, Haoliang Li, (参考訳) タンパク質の動態を理解することは、タンパク質の機能機構の解明と分子療法の開発に不可欠である。 しかし、生物学的プロセスの複雑な高次元力学と原子間相互作用は、既存の計算技術に重大な課題をもたらす。 本稿では,進化する軌道に基づいて複雑な力学と原子間相互作用を特徴付ける新しい計算処理可能なフレームワークであるDeep Signatureを導入することで,この問題に初めてアプローチする。 具体的には、協調力学を局所的に集約してシステムのサイズを小さくするソフトスペクトルクラスタリングと、繰り返し積分を収集するシグネチャ変換を取り入れ、非滑らかな対話力学のグローバルな特徴付けを行う。 理論的解析により、Deep Signatureは、翻訳の不変性、回転に近い不変性、原子座標の置換に等しい性質、時間再パラメータ化時の不変性など、いくつかの望ましい性質を示すことが示されている。 さらに,3つの生物学的プロセスのベンチマークによる実験結果から,本手法がベースライン法よりも優れた性能を達成できることが確認された。

Understanding protein dynamics are essential for deciphering protein functional mechanisms and developing molecular therapies. However, the complex high-dimensional dynamics and interatomic interactions of biological processes pose significant challenge for existing computational techniques. In this paper, we approach this problem for the first time by introducing Deep Signature, a novel computationally tractable framework that characterizes complex dynamics and interatomic interactions based on their evolving trajectories. Specifically, our approach incorporates soft spectral clustering that locally aggregates cooperative dynamics to reduce the size of the system, as well as signature transform that collects iterated integrals to provide a global characterization of the non-smooth interactive dynamics. Theoretical analysis demonstrates that Deep Signature exhibits several desirable properties, including invariance to translation, near invariance to rotation, equivariance to permutation of atomic coordinates, and invariance under time reparameterization. Furthermore, experimental results on three benchmarks of biological processes verify that our approach can achieve superior performance compared to baseline methods.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# 量子コンピュータにおける状態準備のための全スピンゼロの簡易投影

Simplified projection on total spin zero for state preparation on quantum computers ( http://arxiv.org/abs/2410.02848v1 )

ライセンス: Link先を確認
Evan Rule, Ionel Stetcu, Joseph Carlson, (参考訳) 角運動量プロジェクションが0より大きい状態を除去するために一連の回転を実行することで、多体系のJ=0$状態に投影する簡単なアルゴリズムを導入する。 既存の方法は、2体演算子$J^2$によるユニタリ進化に依存しており、計算ベースで表現された場合、多くの複雑なパウリ弦がトロッター化を必要とし、非常に深い量子回路へと導かれる。 このアプローチは、単体演算子$J_x$と$J_z$を使って、必要なプロジェクションを実行する。 カルタン分解の手法を利用することで、射影を行うユニタリ変換は、効率的な古典的最適化によって決定される角度で、少数の2量子回転の積としてパラメータ化することができる。 ゲートの複雑さが小さくなると、この手法は変形したハートリー・フォック状態のJ=0$成分に投影することで偶数核の近似基底状態を作るのに使うことができる。 普遍ゲート集合 {$H$,$S$,CNOT,$T$} の観点から資源要件を推定し、奇数のフェルミオンを持つシステムの$J=1/2$状態に投射するアルゴリズムの変種を簡潔に議論する。

We introduce a simple algorithm for projecting on $J=0$ states of a many-body system by performing a series of rotations to remove states with angular momentum projections greater than zero. Existing methods rely on unitary evolution with the two-body operator $J^2$, which when expressed in the computational basis contains many complicated Pauli strings requiring Trotterization and leading to very deep quantum circuits. Our approach performs the necessary projections using the one-body operators $J_x$ and $J_z$. By leveraging the method of Cartan decomposition, the unitary transformations that perform the projection can be parameterized as a product of a small number of two-qubit rotations, with angles determined by an efficient classical optimization. Given the reduced complexity in terms of gates, this approach can be used to prepare approximate ground states of even-even nuclei by projecting onto the $J=0$ component of deformed Hartree-Fock states. We estimate the resource requirements in terms of the universal gate set {$H$,$S$,CNOT,$T$} and briefly discuss a variant of the algorithm that projects onto $J=1/2$ states of a system with an odd number of fermions.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# MQT Qudits: 混合次元量子コンピューティングのためのソフトウェアフレームワーク

MQT Qudits: A Software Framework for Mixed-Dimensional Quantum Computing ( http://arxiv.org/abs/2410.02854v1 )

ライセンス: Link先を確認
Kevin Mato, Martin Ringbauer, Lukas Burgholzer, Robert Wille, (参考訳) 量子コンピューティングは、多くの分野において、古典的なデバイスの限界を超える大きな可能性を秘めている。 しかし、目覚ましい発展にもかかわらず、現在の研究は主に量子ビットに焦点を当てている。 同時に、マルチレベルのquditシステムに基づく量子ハードウェアは、拡張ゲートセット、情報密度の向上、計算効率の向上など、様々な利点を提供している。 しかし、キューディットを扱うことは、実験的な制御だけでなく、特にアルゴリズム開発や量子ソフトウェアにおいて課題に直面している。 本研究では,ミュンヘン量子ツールキット(MQT)の一部として,複合次元quditデバイスのアプリケーションの設計と実装を支援するオープンソースツールであるMQT Quditsを紹介する。 混合次元システムのための標準化された言語を定義し、回路仕様、ハードウェアゲートセットへのコンパイル、効率的な回路シミュレーション、オープンチャレンジについて議論する。 MQT Quditsはgithub.com/cda-tum/mqt-qudits、pypi.org/project/mqt.quditsで利用可能である。

Quantum computing holds great promise for surpassing the limits of classical devices in many fields. Despite impressive developments, however, current research is primarily focused on qubits. At the same time, quantum hardware based on multi-level, qudit, systems offers a range of advantages, including expanded gate sets, higher information density, and improved computational efficiency, which might play a key role in overcoming not only the limitations of classical machines but also of current qubit-based quantum devices. However, working with qudits faces challenges not only in experimental control but particularly in algorithm development and quantum software. In this work, we introduce MQT Qudits, an open-source tool, which, as part of the Munich Quantum Toolkit (MQT), is built to assist in designing and implementing applications for mixed-dimensional qudit devices. We specify a standardized language for mixed-dimension systems and discuss circuit specification, compilation to hardware gate sets, efficient circuit simulation, and open challenges. MQT Qudits is available at github.com/cda-tum/mqt-qudits and on pypi at pypi.org/project/mqt.qudits.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# Score-based Generative Modeling を用いた銀河団質量図の再構成

Reconstructing Galaxy Cluster Mass Maps using Score-based Generative Modeling ( http://arxiv.org/abs/2410.02857v1 )

ライセンス: Link先を確認
Alan Hsu, Matthew Ho, Joyce Lin, Carleen Markey, Michelle Ntampaka, Hy Trac, Barnabás Póczos, (参考訳) 本稿では,銀河団のガス・ダークマター投影密度マップをスコアベース生成モデルを用いて再構成する手法を提案する。 我々の拡散モデルでは, モックSZとX線像を条件付き観測として捉え, 学習データ後部からのサンプリングにより, 対応するガスおよびダークマターマップの実現を図っている。 流体力学宇宙学シミュレーションのモックデータを用いて, モデルの性能を訓練し, 検証する。 このモデルでは,空間領域における放射密度プロファイルの平均値と拡散率を 5 % 以内まで正確に再構成し,異なる大きさのクラスターを区別できることを示す。 スペクトル領域では、モデルがバイアス係数と相互相関係数の近似値を達成し、大小のクラスタ構造を正確に探索できることを示す。 本実験は,銀河団の入力可観測物と基本密度分布の間の強大で非線形で偏りのないマッピングを,スコアモデルで学習できることを実証するものである。 これらの拡散モデルは、追加の観測可能なものを入力として取り込むだけでなく、実際の観測や未知の銀河団の密度分布を予測するために、さらに微調整および一般化することができる。

We present a novel approach to reconstruct gas and dark matter projected density maps of galaxy clusters using score-based generative modeling. Our diffusion model takes in mock SZ and X-ray images as conditional observations, and generates realizations of corresponding gas and dark matter maps by sampling from a learned data posterior. We train and validate the performance of our model by using mock data from a hydrodynamical cosmological simulation. The model accurately reconstructs both the mean and spread of the radial density profiles in the spatial domain to within 5\%, indicating that the model is able to distinguish between clusters of different sizes. In the spectral domain, the model achieves close-to-unity values for the bias and cross-correlation coefficients, indicating that the model can accurately probe cluster structures on both large and small scales. Our experiments demonstrate the ability of score models to learn a strong, nonlinear, and unbiased mapping between input observables and fundamental density distributions of galaxy clusters. These diffusion models can be further fine-tuned and generalized to not only take in additional observables as inputs, but also real observations and predict unknown density distributions of galaxy clusters.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# FAIR Universeが機械学習の不確実性コンテストを開催

FAIR Universe HiggsML Uncertainty Challenge Competition ( http://arxiv.org/abs/2410.02867v1 )

ライセンス: Link先を確認
Wahid Bhimji, Paolo Calafiura, Ragansu Chakkappai, Yuan-Tang Chou, Sascha Diefenbacher, Jordan Dudley, Steven Farrell, Aishik Ghosh, Isabelle Guyon, Chris Harris, Shih-Chieh Hsu, Elham E Khoda, Rémy Lyscar, Alexandre Michon, Benjamin Nachman, Peter Nugent, Mathis Reymond, David Rousseau, Benjamin Sluijter, Benjamin Thorne, Ihsan Ullah, Yulei Zhang, (参考訳) FAIR Universe -- HiggsML Uncertainty Challengeは、体系的エラーのモデル化の違いによる不完全なシミュレータによる素粒子の物理特性の測定に焦点を当てている。 さらに、データセットの共有、トレーニングモデル、マシンラーニングコンペのホスティングなど、大規模なAIプラットフォームを活用することも課題だ。 我々の挑戦は、物理学と機械学習のコミュニティをまとめて、AI技術における体系的な(最先端の)不確実性を扱うための理解と方法論を前進させます。

The FAIR Universe -- HiggsML Uncertainty Challenge focuses on measuring the physics properties of elementary particles with imperfect simulators due to differences in modelling systematic errors. Additionally, the challenge is leveraging a large-compute-scale AI platform for sharing datasets, training models, and hosting machine learning competitions. Our challenge brings together the physics and machine learning communities to advance our understanding and methodologies in handling systematic (epistemic) uncertainties within AI techniques.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# 両眼細胞の神経計測による3次元知覚単位の同定

Individuation of 3D perceptual units from neurogeometry of binocular cells ( http://arxiv.org/abs/2410.02870v1 )

ライセンス: Link先を確認
Maria Virginia Bolelli, Giovanna Citti, Alessandro Sarti, Steven W. Zucker, (参考訳) 本稿では,3次元視覚の初期段階における機能的アーキテクチャを,サイエント{BCSZ23} で導入された立体視のためのニューロ幾何学的サブリーマンモデルを拡張してモデル化する。 ニューラルベースアルゴリズムを統合して局所的にステレオ対応を達成し、同時に、対応するポイントをグローバルな知覚単位に整理する新しい対応フレームワークが導入された。 その結果、シーンセグメンテーションが効果的になる。 これを、リーマン部分構造上の調和解析を用いて達成し、リーマン距離との比較において、リーマン部分計量が解の中心であることを示す。

We model the functional architecture of the early stages of three-dimensional vision by extending the neurogeometric sub-Riemannian model for stereo-vision introduced in \cite{BCSZ23}. A new framework for correspondence is introduced that integrates a neural-based algorithm to achieve stereo correspondence locally while, simultaneously, organizing the corresponding points into global perceptual units. The result is an effective scene segmentation. We achieve this using harmonic analysis on the sub-Riemannian structure and show, in a comparison against Riemannian distance, that the sub-Riemannian metric is central to the solution.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# ポジション: LLMアンラーニングベンチマークは進歩の弱い尺度である

Position: LLM Unlearning Benchmarks are Weak Measures of Progress ( http://arxiv.org/abs/2410.02879v1 )

ライセンス: Link先を確認
Pratiksha Thaker, Shengyuan Hu, Neil Kale, Yash Maurya, Zhiwei Steven Wu, Virginia Smith, (参考訳) アンラーニング手法は、機密情報や有害情報を取り除き、大きな言語モデル(LLM)のプライバシーと安全性を向上させる可能性がある。 LLMのアンラーニング研究コミュニティは、このような手法の有効性を評価するための実証的なベンチマークに向かっている。 本稿では,既存のベンチマークが,候補となる未学習手法の有効性について,過度に楽観的かつ誤解を招く可能性が示唆された。 多くの人気のあるベンチマークに単純で良質な修正を導入することで、未学習の情報が引き続きアクセス可能なインスタンスや、未学習のプロセスによって保持された情報に対するモデルの性能が元のベンチマークよりはるかに低下したインスタンスを公開します。 既存のベンチマークは特に、情報を忘れることと保持することの間に、さらに緩やかな依存関係をもたらす変更に対して脆弱である、と認識しています。 さらに、既存のベンチマークにおける未学習対象の曖昧さは、与えられたテストクエリに過度に適合するメソッドの設計につながる可能性があることを示す。 本研究の成果から,ベンチマーク結果を信頼性の高い進捗指標と解釈する上で,コミュニティに注意を喚起するとともに,今後のLCMアンラーニング研究の指針となるいくつかの推奨事項を提示する。

Unlearning methods have the potential to improve the privacy and safety of large language models (LLMs) by removing sensitive or harmful information post hoc. The LLM unlearning research community has increasingly turned toward empirical benchmarks to assess the effectiveness of such methods. In this paper, we find that existing benchmarks provide an overly optimistic and potentially misleading view on the effectiveness of candidate unlearning methods. By introducing simple, benign modifications to a number of popular benchmarks, we expose instances where supposedly unlearned information remains accessible, or where the unlearning process has degraded the model's performance on retained information to a much greater extent than indicated by the original benchmark. We identify that existing benchmarks are particularly vulnerable to modifications that introduce even loose dependencies between the forget and retain information. Further, we show that ambiguity in unlearning targets in existing benchmarks can easily lead to the design of methods that overfit to the given test queries. Based on our findings, we urge the community to be cautious when interpreting benchmark results as reliable measures of progress, and we provide several recommendations to guide future LLM unlearning research.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# 芸術的吸気の計算的モデリング--言語的特徴と立体的特徴を用いた歌詞の美的嗜好の予測フレームワーク

Computational Modeling of Artistic Inspiration: A Framework for Predicting Aesthetic Preferences in Lyrical Lines Using Linguistic and Stylistic Features ( http://arxiv.org/abs/2410.02881v1 )

ライセンス: Link先を確認
Gaurav Sahu, Olga Vechtomova, (参考訳) 芸術的なインスピレーションは、創造的プロセスの最も理解されていない側面の1つである。 オーディエンスと深く調和する作品の製作において重要な役割を担っているが、審美的刺激の複雑さと予測不可能さによって、インスピレーションを喚起し、体系的な研究が妨げられている。 本研究は,各個人における芸術的嗜好を,重要な言語的・文体的特性を通じて計算的にモデル化する新しい枠組みを提案する。 フレームワークに加えて,アノテーション付きリリックラインのデータセットである‘textit{EvocativeLines} を導入し,さまざまな好みプロファイルでフレームワークの評価を容易にするため,"インスピレーション" か "インスピレーション" のいずれかに分類した。 我々の計算モデルは,提案した言語的特徴と詩的特徴を活用し,その上にキャリブレーションネットワークを適用し,異なる創造的個人間の芸術的嗜好を正確に予測する。 我々の実験によると、我々のフレームワークは最先端のオープンソース言語モデルであるLLaMA-3-70bを18ポイント近く上回っている。 全体として、この研究は解釈可能で柔軟なフレームワークを提供しており、様々なスキルレベルにおいて本質的に主観的な芸術的嗜好の分析に適応することができる。

Artistic inspiration remains one of the least understood aspects of the creative process. It plays a crucial role in producing works that resonate deeply with audiences, but the complexity and unpredictability of aesthetic stimuli that evoke inspiration have eluded systematic study. This work proposes a novel framework for computationally modeling artistic preferences in different individuals through key linguistic and stylistic properties, with a focus on lyrical content. In addition to the framework, we introduce \textit{EvocativeLines}, a dataset of annotated lyric lines, categorized as either "inspiring" or "not inspiring," to facilitate the evaluation of our framework across diverse preference profiles. Our computational model leverages the proposed linguistic and poetic features and applies a calibration network on top of it to accurately forecast artistic preferences among different creative individuals. Our experiments demonstrate that our framework outperforms an out-of-the-box LLaMA-3-70b, a state-of-the-art open-source language model, by nearly 18 points. Overall, this work contributes an interpretable and flexible framework that can be adapted to analyze any type of artistic preferences that are inherently subjective across a wide spectrum of skill levels.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# LLaMA-Berry: O1-like Olympiad-Level Mathematical Reasoningのペアワイズ最適化

LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning ( http://arxiv.org/abs/2410.02884v1 )

ライセンス: Link先を確認
Di Zhang, Jianbo Wu, Jingdi Lei, Tong Che, Jiatong Li, Tong Xie, Xiaoshui Huang, Shufei Zhang, Marco Pavone, Yuqiang Li, Wanli Ouyang, Dongzhan Zhou, (参考訳) 本稿では,大規模言語モデル(LLM)の数学的推論能力を高めるために,高度な数学的問題解決フレームワークであるLLaMA-Berryを提案する。 このフレームワークはMonte Carlo Tree Search (MCTS) と反復的なSelf-Refineを組み合わせ、推論パスを最適化し、ペアワイズ報酬モデルを使用して、異なるパスを世界規模で評価する。 LLMの自己批判的・書き直し機能を活用することで、MCTS(SR-MCTS)に適用されたセルフリファインは、解空間のより効率的な探索を促進することで、従来のステップワイドおよびグリーディ探索アルゴリズムの非効率性と制限を克服する。 Pairwise Preference Reward Model~(PPRM)は、RLHF(Reinforcement Learning from Human Feedback)にインスパイアされた上で、拡張ボルダ数(EBC)法を用いて、これらの選好をグローバルなランキングスコアに合成し、より良い回答を求める。 このアプローチは、数学的推論タスクにおける変数と非独立分布のスコアリングの課題に対処する。 このフレームワークは一般的なベンチマークと高度なベンチマークでテストされており、特にGPQA、AIME24、AMC23といった複雑なオリンピアードレベルのベンチマークにおいて、ToTやrStarのような既存の手法と比較して、探索効率と問題解決能力の点で優れた性能を示している。

This paper presents an advanced mathematical problem-solving framework, LLaMA-Berry, for enhancing the mathematical reasoning ability of Large Language Models (LLMs). The framework combines Monte Carlo Tree Search (MCTS) with iterative Self-Refine to optimize the reasoning path and utilizes a pairwise reward model to evaluate different paths globally. By leveraging the self-critic and rewriting capabilities of LLMs, Self-Refine applied to MCTS (SR-MCTS) overcomes the inefficiencies and limitations of conventional step-wise and greedy search algorithms by fostering a more efficient exploration of solution spaces. Pairwise Preference Reward Model~(PPRM), inspired by Reinforcement Learning from Human Feedback (RLHF), is then used to model pairwise preferences between solutions, utilizing an Enhanced Borda Count (EBC) method to synthesize these preferences into a global ranking score to find better answers. This approach addresses the challenges of scoring variability and non-independent distributions in mathematical reasoning tasks. The framework has been tested on general and advanced benchmarks, showing superior performance in terms of search efficiency and problem-solving capability compared to existing methods like ToT and rStar, particularly in complex Olympiad-level benchmarks, including GPQA, AIME24 and AMC23.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# Pseudo-Automation:フォアライン小売業における労働オフセット技術の役割と関連性

Pseudo-Automation: How Labor-Offsetting Technologies Reconfigure Roles and Relationships in Frontline Retail Work ( http://arxiv.org/abs/2410.02888v1 )

ライセンス: Link先を確認
Pegah Moradi, Karen Levy, Cristobal Cheyre, (参考訳) セルフサービスマシンは擬似自動化の一種であり、タスクを実際に自動化するのではなく、無給の顧客にオフセットする。 通常、顧客の利便性と労働コストの削減のために実施されるセルフサービスは、顧客サービスの悪化と小売業者の損失と盗難の増加によってしばしば批判される。 何百万人ものフロントラインサービスワーカーが日々これらの技術と対話を続けているが、これらのマシンがフロントライン労働の性質をどのように変えているかについてはほとんど分かっていない。 自己チェックアウト技術に携わる現職および元レジ係へのインタビューを通じて、従業員から顧客への労働を相殺する技術が、フロントラインワークを再構成する方法について検討する。 1) セルフチェックアウトの作業は,複数の顧客からの同時要求を伴うこと,(2) セルフチェックアウトの作業は,より問題指向(監視や監視を含む)であったこと,(3) 従来型のチェックアウトがより要求されるようになったこと,などである。 顧客とのやりとりが問題解決とルール執行に集中するようになったため、レジ係はしばしばセルフチェックアウトにおいて顧客に対する敵として位置づけられた。 認識された敵意に対処するため、レジ係は自己チェックアウトマシンのスケープ化や過剰なカスタマーサービスの提供といった技術を用いて、潜在的な対立に直面した顧客とのポジティブなインタラクションを維持する。 本研究は, 擬似オートメーション下であっても, 作業者は, 機械を状況に応じて適切に実装できるように, 負の人間と人間のインタラクションを管理し, 操作する関係作業を行う必要があることを明らかにする。

Self-service machines are a form of pseudo-automation; rather than actually automate tasks, they offset them to unpaid customers. Typically implemented for customer convenience and to reduce labor costs, self-service is often criticized for worsening customer service and increasing loss and theft for retailers. Though millions of frontline service workers continue to interact with these technologies on a day-to-day basis, little is known about how these machines change the nature of frontline labor. Through interviews with current and former cashiers who work with self-checkout technologies, we investigate how technology that offsets labor from an employee to a customer can reconfigure frontline work. We find three changes to cashiering tasks as a result of self-checkout: (1) Working at self-checkout involved parallel demands from multiple customers, (2) self-checkout work was more problem-oriented (including monitoring and policing customers), and (3) traditional checkout began to become more demanding as easier transactions were filtered to self-checkout. As their interactions with customers became more focused on problem solving and rule enforcement, cashiers were often positioned as adversaries to customers at self-checkout. To cope with perceived adversarialism, cashiers engaged in a form of relational patchwork, using techniques like scapegoating the self-checkout machine and providing excessive customer service in order to maintain positive customer interactions in the face of potential conflict. Our findings highlight how even under pseudo-automation, workers must engage in relational work to manage and mend negative human-to-human interactions so that machines can be properly implemented in context.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# 大規模言語モデルにおける帰納的推論と帰納的推論の役割

The Role of Deductive and Inductive Reasoning in Large Language Models ( http://arxiv.org/abs/2410.02892v1 )

ライセンス: Link先を確認
Chengkun Cai, Xu Zhao, Haoliang Liu, Zhongyu Jiang, Tianfang Zhang, Zongkai Wu, Jenq-Neng Hwang, Lei Li, (参考訳) 大規模言語モデル(LLM)は人工知能、特に推論タスクにおいて大きな進歩を遂げている。 しかしながら、静的なプロンプト構造への依存は、動的推論能力の制限と相まって、複雑で進化する問題空間への適応性を制限していることが多い。 本稿では, インダクティブ・インダクティブ(DID)法を提案する。この手法は, インダクティブ・インダクティブ・推論とインダクティブ・推論の両方をインダクティブ・コンストラクション・プロセスに動的に統合することにより, LLM推論を強化する。 認知科学からインスピレーションを得たDIDアプローチは、人間の適応的推論メカニズムを反映し、モデルがタスクコンテキストとパフォーマンスに基づいて推論経路を調整するフレキシブルなフレームワークを提供する。 我々はAIWやMR-GSM8Kのような確立したデータセットや、ホリデー・パズルなどのカスタムデータセットにおけるDIDの有効性を実証的に検証した。 DIDのハイブリッド・プロンプト・ストラテジーを活用することで,計算オーバーヘッドを伴わずに実現した解の精度と推論品質の両面において,大幅な改善が示された。 以上の結果から,DID は LLM における推論のためのより堅牢で認知に整合した枠組みを提供し,認知科学モデルによる高度な LLM 駆動問題解決戦略の開発に寄与することが示唆された。

Large Language Models (LLMs) have achieved substantial progress in artificial intelligence, particularly in reasoning tasks. However, their reliance on static prompt structures, coupled with limited dynamic reasoning capabilities, often constrains their adaptability to complex and evolving problem spaces. In this paper, we propose the Deductive and InDuctive(DID) method, which enhances LLM reasoning by dynamically integrating both deductive and inductive reasoning within the prompt construction process. Drawing inspiration from cognitive science, the DID approach mirrors human adaptive reasoning mechanisms, offering a flexible framework that allows the model to adjust its reasoning pathways based on task context and performance. We empirically validate the efficacy of DID on established datasets such as AIW and MR-GSM8K, as well as on our custom dataset, Holiday Puzzle, which presents tasks about different holiday date calculating challenges. By leveraging DID's hybrid prompt strategy, we demonstrate significant improvements in both solution accuracy and reasoning quality, achieved without imposing substantial computational overhead. Our findings suggest that DID provides a more robust and cognitively aligned framework for reasoning in LLMs, contributing to the development of advanced LLM-driven problem-solving strategies informed by cognitive science models.
翻訳日:2024-11-03 05:14:45 公開日:2024-10-03
# クラス固有のオブジェクトリマインドのためのタスク分離型イメージインパインティングフレームワーク

Task-Decoupled Image Inpainting Framework for Class-specific Object Remover ( http://arxiv.org/abs/2410.02894v1 )

ライセンス: Link先を確認
Changsuk Oh, H. Jin Kim, (参考訳) オブジェクトの削除(オブジェクトの削除)とは、画像から指定されたオブジェクトを消去し、全体的な外観を保存する過程を指す。 画像塗布ネットワークを用いたオブジェクト除去除去ターゲットの既存の作業。 しかし、画像インペイントネットワークは、しばしば不満足な除去結果をもたらす。 本研究では,物体の除去処理と復元処理の両方を扱う単一画像インペイントモデルを奨励する現在のトレーニング手法が,このような不満足な結果の要因の1つであることを明らかにする。 そこで本研究では,オブジェクト復元タスクのオブジェクト復元器と,オブジェクト除去タスクのオブジェクト除去器という,2つの別々のインペイントモデルを生成するタスク分離型画像インペイントフレームワークを提案する。 我々は、除去対象を部分的にカバーするマスクでオブジェクト復元器を訓練する。 そして、提案フレームワークはオブジェクトリカバリを作成し、オブジェクトリカバリをトレーニングするためのガイダンスを生成する。 提案するフレームワークを用いて,対象クラスのオブジェクトを削除することに焦点を当てたクラス固有オブジェクト除去器を得る。 また,提案するクラス固有オブジェクト除去器のトレーニングデータを生成するために,画像選択とマスク生成アプローチを含むデータキュレーション手法を提案する。 提案手法を用いることで,オブジェクト除去対象の真理画像を用いてオブジェクト除去者がデータ上で訓練されるシナリオをシミュレートすることができる。 複数のデータセットの実験により、提案したクラス固有のオブジェクト除去器は、画像のインペイントネットワークに基づくオブジェクト除去器よりも、ターゲットクラスオブジェクトを除去できることが示された。

Object removal refers to the process of erasing designated objects from an image while preserving the overall appearance. Existing works on object removal erase removal targets using image inpainting networks. However, image inpainting networks often generate unsatisfactory removal results. In this work, we find that the current training approach which encourages a single image inpainting model to handle both object removal and restoration tasks is one of the reasons behind such unsatisfactory result. Based on this finding, we propose a task-decoupled image inpainting framework which generates two separate inpainting models: an object restorer for object restoration tasks and an object remover for object removal tasks. We train the object restorer with the masks that partially cover the removal targets. Then, the proposed framework makes an object restorer to generate a guidance for training the object remover. Using the proposed framework, we obtain a class-specific object remover which focuses on removing objects of a target class, aiming to better erase target class objects than general object removers. We also introduce a data curation method that encompasses the image selection and mask generation approaches used to produce training data for the proposed class-specific object remover. Using the proposed curation method, we can simulate the scenarios where an object remover is trained on the data with object removal ground truth images. Experiments on multiple datasets show that the proposed class-specific object remover can better remove target class objects than object removers based on image inpainting networks.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# ニュースレコメンデーションのための大規模言語モデルにおける認知バイアス

Cognitive Biases in Large Language Models for News Recommendation ( http://arxiv.org/abs/2410.02897v1 )

ライセンス: Link先を確認
Yougang Lyu, Xiaoyu Zhang, Zhaochun Ren, Maarten de Rijke, (参考訳) 大きな言語モデル(LLM)はニュースレコメンデーションシステムの重要コンポーネントになりつつあるが、そのようなシステムにLLMを採用すると、LLMにおける認知バイアスの影響のような新しいリスクがもたらされる。 認知バイアスは、判断過程における規範や合理性からの逸脱の体系的なパターンを指し、LLMからの不正確な出力をもたらす可能性があるため、ニュースレコメンダシステムの信頼性を脅かす。 特に、認知バイアスに影響されたLLMベースのニュースレコメンデーターシステムは、誤報の伝播、ステレオタイプの強化、エコーチャンバーの形成につながる可能性がある。 本稿では,複数の認知バイアスがLLMベースのニュースレコメンデーションシステムに与える影響について検討する。 さらに,LLMに基づくニュースレコメンデータシステムの信頼性向上に向けた今後の研究を促進するため,データ拡張,エンジニアリング,学習アルゴリズムの側面を通じて,これらのバイアスを軽減するための戦略について議論する。

Despite large language models (LLMs) increasingly becoming important components of news recommender systems, employing LLMs in such systems introduces new risks, such as the influence of cognitive biases in LLMs. Cognitive biases refer to systematic patterns of deviation from norms or rationality in the judgment process, which can result in inaccurate outputs from LLMs, thus threatening the reliability of news recommender systems. Specifically, LLM-based news recommender systems affected by cognitive biases could lead to the propagation of misinformation, reinforcement of stereotypes, and the formation of echo chambers. In this paper, we explore the potential impact of multiple cognitive biases on LLM-based news recommender systems, including anchoring bias, framing bias, status quo bias and group attribution bias. Furthermore, to facilitate future research at improving the reliability of LLM-based news recommender systems, we discuss strategies to mitigate these biases through data augmentation, prompt engineering and learning algorithms aspects.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# FactCheckmate: LMにおける幻覚の予防的検出と緩和

FactCheckmate: Preemptively Detecting and Mitigating Hallucinations in LMs ( http://arxiv.org/abs/2410.02899v1 )

ライセンス: Link先を確認
Deema Alnuhait, Neeraja Kirtane, Muhammad Khalifa, Hao Peng, (参考訳) 言語モデル(LM)は幻覚である。 幻覚を検知し、それが起こる前に緩和できるだろうか? この研究は、LMの内部表現が、この目的のために使用できるリッチな信号を提供することを示すことによって、この研究課題を肯定的に答える。 FactCheckMateを導入し、復号開始前にモデル上に生成した隠れ状態に基づいてLMが幻覚するかどうかを予測する分類器を学習して幻覚を事前に検出する。 幻覚が検出されると、FactCheckMateが介入し、LMの隠れ状態を調整することで、モデルがより現実的な出力を生成する。 FactCheckMateは、LMの内部動作が隠された状態によって明らかにできるという新たな洞察を提供する。 実際には、FactCheckMateの検出と緩和モデルは軽量であり、推測オーバーヘッドが少なく、FactCheckMateは、多くのポストホック代替品と比較して幻覚を緩和するより効率的なアプローチである。 異なるスケールのLMとモデルファミリー(Llama、Mistral、Gemmaを含む)のFactCheckMateを、異なるドメインの様々なQAデータセットで評価する。 本研究は,早期幻覚検出および緩和のための内部表現の活用の有効性を実証し,70%以上のプリエンプティブ検出精度を達成した。 平均して、介入したLMが生成する出力は、介入していないものよりも34.4%多い。 FactCheckMateが導入した推論時間の平均オーバーヘッド差は約3.16秒である。

Language models (LMs) hallucinate. We inquire: Can we detect and mitigate hallucinations before they happen? This work answers this research question in the positive, by showing that the internal representations of LMs provide rich signals that can be used for this purpose. We introduce FactCheckMate, which preemptively detects hallucinations by learning a classifier that predicts whether the LM will hallucinate, based on the model's hidden states produced over the inputs, before decoding begins. If a hallucination is detected, FactCheckMate then intervenes, by adjusting the LM's hidden states such that the model will produce more factual outputs. FactCheckMate provides fresh insights that the inner workings of LMs can be revealed by their hidden states. Practically, both the detection and mitigation models in FactCheckMate are lightweight, adding little inference overhead; FactCheckMate proves a more efficient approach for mitigating hallucinations compared to many post-hoc alternatives. We evaluate FactCheckMate over LMs of different scales and model families (including Llama, Mistral, and Gemma), across a variety of QA datasets from different domains. Our results demonstrate the effectiveness of leveraging internal representations for early hallucination detection and mitigation, achieving over 70% preemptive detection accuracy. On average, outputs generated by LMs with intervention are 34.4% more factual compared to those without intervention. The average overhead difference in the inference time introduced by FactCheckMate is around 3.16 seconds.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# GTQCP: グリーディートポロジを意識した量子回路分割

GTQCP: Greedy Topology-Aware Quantum Circuit Partitioning ( http://arxiv.org/abs/2410.02901v1 )

ライセンス: Link先を確認
Joseph Clark, Travis S. Humble, Himanshu Thapliyal, (参考訳) 本稿では,Greedy Topology-Aware Quantum Circuit Partitioning (GTQCP)を提案する。 GTQCPは他の3つのゲート分割法と比較され、そのうちの2つ(QuickPartitionerとScanPartitioner)はバークレー量子合成ツールキットの一部である。 GTQCPは、最速のアプローチ(QuickPartitioner)よりも18%の実行時間改善率を持ち、最高品質のアプローチ(ScanPartitioner)よりも96%改善している。 このアルゴリズムはまた、ScanPartitionerと比較してほぼ同じ結果の品質(パーティション数)を示し、QuickPartitionerよりも38%品質が改善されている。

We propose Greedy Topology-Aware Quantum Circuit Partitioning (GTQCP), a novel quantum gate circuit partitioning method which partitions circuits by applying a greedy heuristic to the qubit dependency graph of the circuit. GTQCP is compared against three other gate partitioning methods, two of which (QuickPartitioner and ScanPartitioner) are part of the Berkley Quantum Synthesis Toolkit. GTQCP is shown to have 18% run time improvement ratio over the fastest approach (QuickPartitioner), and a 96% improvement over the highest quality approach (ScanPartitioner). The algorithm also demonstrates nearly identical result quality (number of partitions) compared with ScanPartitioner, and a 38% quality improvement over QuickPartitioner.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# ニューラルネットワークに基づくハミルトン・ヤコビの到達保証

Convergence Guarantees for Neural Network-Based Hamilton-Jacobi Reachability ( http://arxiv.org/abs/2410.02904v1 )

ライセンス: Link先を確認
William Hofgard, (参考訳) 本稿では,ハミルトン・ヤコビ・イザック方程式(HJI)の解法であるDeepReachに対する一様収束保証法を提案する。 具体的には、Bansalらによる2020年の論文で紹介されたDeepReachアルゴリズムが、アルゴリズムの損失関数がゼロに収束すると、結果として得られるニューラルネットワーク近似は古典解が存在すると仮定して、HJI方程式の古典解に一様に収束することを示す。 また、このアルゴリズムの数値実験を行い、元のDeepReach論文で提供された実験を再現し、最大ノルム損失距離によるトレーニングが近似誤差に与える影響を実証的に検証する。

We provide a novel uniform convergence guarantee for DeepReach, a deep learning-based method for solving Hamilton-Jacobi-Isaacs (HJI) equations associated with reachability analysis. Specifically, we show that the DeepReach algorithm, as introduced by Bansal et al. in their eponymous paper from 2020, is stable in the sense that if the loss functional for the algorithm converges to zero, then the resulting neural network approximation converges uniformly to the classical solution of the HJI equation, assuming that a classical solution exists. We also provide numerical tests of the algorithm, replicating the experiments provided in the original DeepReach paper and empirically examining the impact that training with a supremum norm loss metric has on approximation error.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# NNetscape Navigator: デモ無しのWebエージェントのための複雑なデモ

NNetscape Navigator: Complex Demonstrations for Web Agents Without a Demonstrator ( http://arxiv.org/abs/2410.02907v1 )

ライセンス: Link先を確認
Shikhar Murty, Dzmitry Bahdanau, Christopher D. Manning, (参考訳) 我々はNNetscape Navigator (NNetnav)を紹介した。 これらのデモは、まずブラウザと対話してトラジェクトリのロールアウトを生成することで収集される。 ブラウザエージェントを訓練する作業の多くは、高価な人間の監督に依存しており、そのようなインタラクションファーストの合成データ技術に関するこれまでの限られた作業は、指数的な探索空間を通じて効果的な検索を提供しられなかった。 複雑な命令は通常、単純なサブタスクに分解可能であり、中間のトラジェクトリに意味のあるサブタスクをアノテートできない場合に、NNetnavが自動的に対話エピソードをプルーすることを可能にする。 我々は、より小さな言語モデルポリシーの微調整を監督するために、言語モデルからNNetnavのデモを使用しており、WebArenaでは6ポイント、Webエージェントでは2つの人気のある環境であるMiniWoB++では20ポイント以上改善されている。 特に、WebArenaでは、同じ言語モデルから派生したNNetnavのデモを微調整することで、言語モデルポリシーをさらに強化することができる。 最後に、WebArenaで6k以上のNNetnavデモのデータセットを収集し、リリースします。

We introduce NNetscape Navigator (NNetnav), a method for training web agents entirely through synthetic demonstrations. These demonstrations are collected by first interacting with a browser to generate trajectory rollouts, which are then retroactively labeled into instructions using a language model. Most work on training browser agents has relied on expensive human supervision, and the limited previous work on such interaction-first synthetic data techniques has failed to provide effective search through the exponential space of exploration. In contrast, NNetnav exploits the hierarchical structure of language instructions to make this search more tractable: complex instructions are typically decomposable into simpler subtasks, allowing NNetnav to automatically prune interaction episodes when an intermediate trajectory cannot be annotated with a meaningful sub-task. We use NNetnav demonstrations from a language model for supervised fine-tuning of a smaller language model policy, and find improvements of 6 points on WebArena and over 20 points on MiniWoB++, two popular environments for web-agents. Notably, on WebArena, we observe that language model policies can be further enhanced when fine-tuned with NNetnav demonstrations derived from the same language model. Finally, we collect and release a dataset of over 6k NNetnav demonstrations on WebArena, spanning a diverse and complex set of instructions.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# ユニタリチャネル下におけるテンソル生成物構造幾何学

Tensor Product Structure Geometry under Unitary Channels ( http://arxiv.org/abs/2410.02911v1 )

ライセンス: Link先を確認
Faidon Andreadakis, Paolo Zanardi, (参考訳) 量子多体系では、複素力学は物理的自由度を非局在化する。 システム全体の情報拡散は、量子熱化、スクランブル、カオスに関連して広く研究されている。 局所性は通常、量子系の局所部分系を特定するテンソル積構造(TPS)に関して定義される。 本稿では,局所作用素の空間間距離を,ユニタリチャネルの下で進化したそれ自身から定量化することにより,演算子の拡散の簡易な幾何学的測度について検討する。 このTPS距離は局所的な部分系間の力学のスクランブル特性と関連し、対称二分割の場合の力学のエンタングリングパワーと一致することを示す。 さらに、TPS距離の最大化のための十分な条件を提供し、2つの単位のクラスがこの最大値を達成する力学の例を提供することを示す。 短時間のハミルトン進化では、TPS距離の特徴的な時間スケールは、局所的なサブシステム間の相互作用の強さによって決定されるスクランブルレートに依存する。 この短時間の体制の他に、TPS距離の挙動は、量子カオスや可積分性からヒルベルト空間の断片化や局所化まで、異なるエルゴード特性を示す原型モデルの数値シミュレーションによって調べられる。

In quantum many-body systems, complex dynamics delocalize the physical degrees of freedom. This spreading of information throughout the system has been extensively studied in relation to quantum thermalization, scrambling, and chaos. Locality is typically defined with respect to a tensor product structure (TPS) which identifies the local subsystems of the quantum system. In this paper, we investigate a simple geometric measure of operator spreading by quantifying the distance of the space of local operators from itself evolved under a unitary channel. We show that this TPS distance is related to the scrambling properties of the dynamics between the local subsystems and coincides with the entangling power of the dynamics in the case of a symmetric bipartition. Additionally, we provide sufficient conditions for the maximization of the TPS distance and show that the class of 2-unitaries provides examples of dynamics that achieve this maximal value. For Hamiltonian evolutions at short times, the characteristic timescale of the TPS distance depends on scrambling rates determined by the strength of interactions between the local subsystems. Beyond this short-time regime, the behavior of the TPS distance is explored through numerical simulations of prototypical models exhibiting distinct ergodic properties, ranging from quantum chaos and integrability to Hilbert space fragmentation and localization.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# 適応雑音配置による微分プライバシーを持つ微調整言語モデル

Fine-Tuning Language Models with Differential Privacy through Adaptive Noise Allocation ( http://arxiv.org/abs/2410.02912v1 )

ライセンス: Link先を確認
Xianzhi Li, Ran Zmigrod, Zhiqiang Ma, Xiaomo Liu, Xiaodan Zhu, (参考訳) 言語モデルは詳細なパターンや情報を記憶することができ、二重のエッジ効果をもたらす。 従来の差分プライバシーに基づくトレーニングアプローチは、すべてのパラメータに均一なノイズ分布を用いることで、堅牢な保護を提供する。 しかし、これはプライバシー保護における個々のパラメータの異なる感度と貢献を見落とし、しばしば亜最適モデルをもたらす。 これらの制約に対処するため,モデルパラメータの重要性に基づいて適応的に付加雑音を割り当てる新しいアルゴリズムANADPを提案する。 我々は、ANADPが要求されるプライバシー制約を維持しつつ、一連のデータセット上での通常の微調整と従来のDP微調整のパフォーマンスギャップを狭めることを実証した。

Language models are capable of memorizing detailed patterns and information, leading to a double-edged effect: they achieve impressive modeling performance on downstream tasks with the stored knowledge but also raise significant privacy concerns. Traditional differential privacy based training approaches offer robust safeguards by employing a uniform noise distribution across all parameters. However, this overlooks the distinct sensitivities and contributions of individual parameters in privacy protection and often results in suboptimal models. To address these limitations, we propose ANADP, a novel algorithm that adaptively allocates additive noise based on the importance of model parameters. We demonstrate that ANADP narrows the performance gap between regular fine-tuning and traditional DP fine-tuning on a series of datasets while maintaining the required privacy constraints.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# スコアリファインメントによるコンフォーマル情報検索

Streamlining Conformal Information Retrieval via Score Refinement ( http://arxiv.org/abs/2410.02914v1 )

ライセンス: Link先を確認
Yotam Intrator, Ori Kelner, Regev Cohen, Roman Goldenberg, Ehud Rivlin, Daniel Freedman, (参考訳) 情報検索(IR)法は、検索拡張生成のような手法は、現代の応用には基礎的だが、しばしば統計的保証を欠いている。 コンフォーマル予測は、関連する情報を含むことが保証された集合を検索することでこの問題に対処するが、既存のアプローチでは大きな集合を生成し、計算コストが高く、応答時間が遅い。 本研究では, 単純な単調変換を検索スコアに適用し, 統計的保証を維持しつつ, コンフォメーションセットを著しく小さくするスコアリファインメント法を提案する。 各種BEIRベンチマーク実験により, 関連情報を含むコンパクトな集合の生成において, 提案手法の有効性が検証された。

Information retrieval (IR) methods, like retrieval augmented generation, are fundamental to modern applications but often lack statistical guarantees. Conformal prediction addresses this by retrieving sets guaranteed to include relevant information, yet existing approaches produce large-sized sets, incurring high computational costs and slow response times. In this work, we introduce a score refinement method that applies a simple monotone transformation to retrieval scores, leading to significantly smaller conformal sets while maintaining their statistical guarantees. Experiments on various BEIR benchmarks validate the effectiveness of our approach in producing compact sets containing relevant information.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# 微調整の順序と理由

Does the Order of Fine-tuning Matter and Why? ( http://arxiv.org/abs/2410.02915v1 )

ライセンス: Link先を確認
Qihong Chen, Jiawei Li, Hyunjae Suh, Lianghao Jiang, Zheng Zhou, Jingze Chen, Jiri Gesi, Iftekhar Ahmed, (参考訳) 対象タスクの性能を改善するために、研究者は目的タスクの前に中間タスクを持つ言語モデルを微調整した。 しかし、従来の研究は、自然言語処理(NLP)における事前訓練された言語モデルと下流タスクに焦点を合わせており、中間タスクは1つしか考慮されていない。 ソフトウェア工学において、複数の中間タスクの微調整とそれらの順序がタスクのパフォーマンスに与える影響は、完全には解明されていない。 本研究では,タスクオーダリングが目標タスクのパフォーマンスに与える影響について,最初の実証的研究を行った。 実験の結果,タスクオーダリングが目標タスクのパフォーマンスに与える影響は,パフォーマンスの最大6%,パフォーマンスの最大4%であることがわかった。 このような影響を説明するために、我々は、データセットの特徴(シンタクティック類似性、意味類似性分析、データセットサイズ)、モデル(タスクと注意分析)、タスク(タスク親和性分析)など、様々な可能性要因について考察する。 私たちの研究は、ソフトウェア工学の研究者や実践者たちに、タスクの順序付けの効果と、最高のパフォーマンスを達成しながらコスト効率の良いものを選択する方法に関する洞察を与えます。

To improve the performance on a target task, researchers have fine-tuned language models with an intermediate task before the target task of interest. However, previous works have focused on the pre-trained language models and downstream tasks in Natural Language Processing (NLP) and considered only one intermediate task. The effect of fine-tuning multiple intermediate tasks and their ordering on target task performance has not been fully explored in Software Engineering. In this study, we perform the first empirical study on analyzing the impact of task ordering on target task performance. Experimental results show that there is an impact of task ordering on target task performance by up to 6% of performance gain and up to 4% of performance loss. To explain such an impact, we consider a variety of potential factors, including the characteristics of dataset (syntactic similarity and semantic similarity analysis, dataset size), model (probing task and attention analysis), and task (task affinity analysis). Our study provides Software Engineering researchers and practitioners with insights into the effect of task orderings and how to select the one that is cost-effective while achieving the best performance gain.
翻訳日:2024-11-03 05:05:01 公開日:2024-10-03
# 深部画像に基づく適応BRDF測定

Deep image-based Adaptive BRDF Measure ( http://arxiv.org/abs/2410.02917v1 )

ライセンス: Link先を確認
Wen Cao, (参考訳) 双方向反射率分布関数(BRDF)の効率的かつ正確な測定は,高画質画像レンダリングや物理的に正確なセンサシミュレーションにおいて重要な役割を担っている。 しかし、材料の反射特性を得るには時間がかかり、困難である。 本稿では,ゴニオ反射計を用いた高品質BRDF撮影に必要な試料数を最小化する手法を提案する。 軽量ニューラルネットワークの入力として物理材料サンプルの画像をとると、まず解析的BRDFモデルのパラメータとサンプル位置の分布を推定する。 2番目のステップでは、画像ベースの損失を使用して、必要な精度を満たすために必要なサンプルの数を見つけます。 この手法はBRDF表現において高い精度と忠実さを維持しながら測定プロセスを著しく加速する。

Efficient and accurate measurement of the bi-directional reflectance distribution function (BRDF) plays a key role in high quality image rendering and physically accurate sensor simulation. However, obtaining the reflectance properties of a material is both time-consuming and challenging. This paper presents a novel method for minimizing the number of samples required for high quality BRDF capture using a gonio-reflectometer setup. Taking an image of the physical material sample as input a lightweight neural network first estimates the parameters of an analytic BRDF model, and the distribution of the sample locations. In a second step we use an image based loss to find the number of samples required to meet the accuracy required. This approach significantly accelerates the measurement process while maintaining a high level of accuracy and fidelity in the BRDF representation.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# AirLetters:空に浮かぶキャラクターの動画データセット

AirLetters: An Open Video Dataset of Characters Drawn in the Air ( http://arxiv.org/abs/2410.02921v1 )

ライセンス: Link先を確認
Rishit Dagli, Guillaume Berger, Joanna Materzynska, Ingo Bax, Roland Memisevic, (参考訳) AirLettersは、人間が生成した人工的な動きの実際のビデオからなる、新しいビデオデータセットである。 特に、私たちのデータセットは、人間が空に描いている文字を予測するために、視覚モデルが必要です。 既存のビデオデータセットとは異なり、AirLettersの正確な分類予測は、動きパターンの識別と、時間の経過とともにビデオに長距離情報を統合することに依存している。 AirLettersの最先端画像と映像理解モデルの広範な評価は、これらの手法が人間のベースラインよりはるかに遅れていることを示している。 我々の研究は、最近のエンドツーエンドのビデオ理解の進歩にもかかわらず、複雑な関節の動きの正確な表現は、人間にとって自明なタスクであり、エンド・ツー・エンドの学習には未解決の問題であることを示している。

We introduce AirLetters, a new video dataset consisting of real-world videos of human-generated, articulated motions. Specifically, our dataset requires a vision model to predict letters that humans draw in the air. Unlike existing video datasets, accurate classification predictions for AirLetters rely critically on discerning motion patterns and on integrating long-range information in the video over time. An extensive evaluation of state-of-the-art image and video understanding models on AirLetters shows that these methods perform poorly and fall far behind a human baseline. Our work shows that, despite recent progress in end-to-end video understanding, accurate representations of complex articulated motions -- a task that is trivial for humans -- remains an open problem for end-to-end learning.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# RSA:言語記述による単眼深度推定器のスケールの曖昧さの解消

RSA: Resolving Scale Ambiguities in Monocular Depth Estimators through Language Descriptions ( http://arxiv.org/abs/2410.02924v1 )

ライセンス: Link先を確認
Ziyao Zeng, Yangchao Wu, Hyoungseob Park, Daniel Wang, Fengyu Yang, Stefano Soatto, Dong Lao, Byung-Woo Hong, Alex Wong, (参考訳) 本稿では,メートルスケール単分子深度推定法を提案する。 単一の画像から深度を推定することは、画像形成過程における視点投影からのスケールの損失による不適切な問題である。 選択されたスケールは偏りであり、通常はデータセットのトレーニングに由来する。 我々の目標は、線形変換によりメートルスケールの深度マップを復元することである。 我々の手法の要点は、ある物体(例えば、車、木、街路標識)が通常、ある種類のシーン(例えば、屋外)に関連付けられているという観察にある。 本稿では,言語記述を用いて,相対的な深度予測を計量スケールに変換できるかどうかを考察する。 提案手法は,画像中のオブジェクトを記述したテキストキャプションを入力として,相対深度マップにグローバルに適用可能な線形変換のパラメータを出力し,メトリックスケールの深度予測を行う。 室内(NYUv2)および屋外(KITTI)における最近の汎用単分子深度モデルについて示す。 複数のデータセットでトレーニングすると、RSAはゼロショット設定で一般的なアライメントモジュールとして機能する。 提案手法は, 距離深度と相対的な相関関係の一般的な手法を改良し, 線形変換により, 地上の真理に対する適合深さの上限に匹敵する予測を行う。

We propose a method for metric-scale monocular depth estimation. Inferring depth from a single image is an ill-posed problem due to the loss of scale from perspective projection during the image formation process. Any scale chosen is a bias, typically stemming from training on a dataset; hence, existing works have instead opted to use relative (normalized, inverse) depth. Our goal is to recover metric-scaled depth maps through a linear transformation. The crux of our method lies in the observation that certain objects (e.g., cars, trees, street signs) are typically found or associated with certain types of scenes (e.g., outdoor). We explore whether language descriptions can be used to transform relative depth predictions to those in metric scale. Our method, RSA, takes as input a text caption describing objects present in an image and outputs the parameters of a linear transformation which can be applied globally to a relative depth map to yield metric-scaled depth predictions. We demonstrate our method on recent general-purpose monocular depth models on indoors (NYUv2) and outdoors (KITTI). When trained on multiple datasets, RSA can serve as a general alignment module in zero-shot settings. Our method improves over common practices in aligning relative to metric depth and results in predictions that are comparable to an upper bound of fitting relative depth to ground truth via a linear transformation.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# 双方向情報伝搬を用いた長期文書分類のためのグラフツリー融合モデル

Graph-tree Fusion Model with Bidirectional Information Propagation for Long Document Classification ( http://arxiv.org/abs/2410.02930v1 )

ライセンス: Link先を確認
Sudipta Singha Roy, Xindi Wang, Robert E. Mercer, Frank Rudzicz, (参考訳) 長い文書分類は、その広範な内容と複雑な構造のために、局所的およびグローバルな依存関係をキャプチャする際の課題を示す。 既存のメソッドはトークン制限に苦しむことが多く、ドキュメント内の階層的関係を適切にモデル化することができない。 これらの制約に対処するために,グラフ木構造を利用した新しいモデルを提案する。 提案手法は,文エンコーディングのための構文木と文書エンコーディングのための文書グラフを統合し,より詳細な構文関係とより広い文書コンテキストを抽出する。 木変換器を用いて文エンコーディングを生成し,グラフアテンションネットワークは文間および文間依存関係をモデル化する。 トレーニング中、単語から文書への双方向情報伝達を実装し、その逆も実現し、文脈表現を豊かにする。 提案手法は,すべての階層レベルのコンテンツを包括的に理解し,トークン制限を伴わずに任意の長さのコンテキストを効果的に処理する。 実験の結果,長文分類作業におけるアプローチの有効性が示された。

Long document classification presents challenges in capturing both local and global dependencies due to their extensive content and complex structure. Existing methods often struggle with token limits and fail to adequately model hierarchical relationships within documents. To address these constraints, we propose a novel model leveraging a graph-tree structure. Our approach integrates syntax trees for sentence encodings and document graphs for document encodings, which capture fine-grained syntactic relationships and broader document contexts, respectively. We use Tree Transformers to generate sentence encodings, while a graph attention network models inter- and intra-sentence dependencies. During training, we implement bidirectional information propagation from word-to-sentence-to-document and vice versa, which enriches the contextual representation. Our proposed method enables a comprehensive understanding of content at all hierarchical levels and effectively handles arbitrarily long contexts without token limit constraints. Experimental results demonstrate the effectiveness of our approach in all types of long document classification tasks.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# 深い論理的問題に対するRAGシステムの本質的評価

Intrinsic Evaluation of RAG Systems for Deep-Logic Questions ( http://arxiv.org/abs/2410.02932v1 )

ライセンス: Link先を確認
Junyi Hu, You Zhou, Jie Wang, (参考訳) 本稿では,検索拡張生成(RAG)機構を深い論理的クエリを含むアプリケーションに適用するための本質的な指標である総合性能指標(OPI)を紹介する。 OPIは2つの重要な指標の調和平均として計算される: 論理関係の正確度比(Logical-Relation Correctness Ratio)と BERT の平均値。 我々は,Hugging FaceのRAG-Dataset-12000上のGPT-4oから微調整された論理関係分類器を用いて,一般的なRAGツールであるLangChainの性能を評価するためにOPIを適用した。 以上の結果から,BERT埋込み類似度スコアと外因性評価スコアとの間には強い相関が認められた。 一般的に使用されるレトリバーのうち、BERTベースの埋め込みを用いたコサイン類似性レトリバーは他よりも優れ、ユークリッド距離に基づくレトリバーは最も弱い性能を示す。 さらに,検索した文をアルゴリズム的に,あるいはマージして,複数のレトリバーを組み合わせることで,単一のレトリバーを単独で使用する場合よりも優れた性能が得られることを示す。

We introduce the Overall Performance Index (OPI), an intrinsic metric to evaluate retrieval-augmented generation (RAG) mechanisms for applications involving deep-logic queries. OPI is computed as the harmonic mean of two key metrics: the Logical-Relation Correctness Ratio and the average of BERT embedding similarity scores between ground-truth and generated answers. We apply OPI to assess the performance of LangChain, a popular RAG tool, using a logical relations classifier fine-tuned from GPT-4o on the RAG-Dataset-12000 from Hugging Face. Our findings show a strong correlation between BERT embedding similarity scores and extrinsic evaluation scores. Among the commonly used retrievers, the cosine similarity retriever using BERT-based embeddings outperforms others, while the Euclidean distance-based retriever exhibits the weakest performance. Furthermore, we demonstrate that combining multiple retrievers, either algorithmically or by merging retrieved sentences, yields superior performance compared to using any single retriever alone.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# エキスパートの階層的混合におけるエキスパート推定について:ソフトマックスゲーティング関数を超えて

On Expert Estimation in Hierarchical Mixture of Experts: Beyond Softmax Gating Functions ( http://arxiv.org/abs/2410.02935v1 )

ライセンス: Link先を確認
Huy Nguyen, Xing Han, Carl William Harris, Suchi Saria, Nhat Ho, (参考訳) 大規模基盤モデル開発におけるMixture of Experts(MoE)アーキテクチャの普及に伴い,複雑な入力の処理や目標タスクのパフォーマンス向上に優れたMoEの特殊な派生であるHMoE(Hierarchical Mixture of Experts)について検討する。 調査では,HMoEフレームワーク内でのソフトマックスゲーティングを超えて,多様なゲーティング関数を使用することの利点を強調した。 理論的には、各専門家群に配向ゲーティング関数を適用することで、最適ゲーティング関数が特定の階層レベルでのみ適用される場合でも、HMoEはロバストな結果が得られる。 様々なシナリオにまたがる実証的な検証は、これらの理論的な主張を支持している。 これには、大規模なマルチモーダルタスク、画像分類、潜時ドメイン発見および予測タスクが含まれます。

With the growing prominence of the Mixture of Experts (MoE) architecture in developing large-scale foundation models, we investigate the Hierarchical Mixture of Experts (HMoE), a specialized variant of MoE that excels in handling complex inputs and improving performance on targeted tasks. Our investigation highlights the advantages of using varied gating functions, moving beyond softmax gating within HMoE frameworks. We theoretically demonstrate that applying tailored gating functions to each expert group allows HMoE to achieve robust results, even when optimal gating functions are applied only at select hierarchical levels. Empirical validation across diverse scenarios supports these theoretical claims. This includes large-scale multimodal tasks, image classification, and latent domain discovery and prediction tasks, where our modified HMoE models show great performance improvements.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# 対称ディフューザ:有限対称群における離散拡散の学習

SymmetricDiffusers: Learning Discrete Diffusion on Finite Symmetric Groups ( http://arxiv.org/abs/2410.02942v1 )

ライセンス: Link先を確認
Yongxing Zhang, Donglin Yang, Renjie Liao, (参考訳) 有限対称群 $S_n$ は、組合せ論、物理学、化学などの分野において必須である。 しかし、$S_n$を超える確率分布の学習は、その難解な大きさと離散的な性質のために大きな課題を生んでいる。 本稿では,SymmetricDiffusersを提案する。SymmetricDiffusersは,深層ニューラルネットワークを用いて逆拡散の単純な遷移を学習することで,S_n$以上の複雑な分布を学習するタスクを単純化する。 実効的な前方遷移としてリッフルシャッフルを同定し、有限群上のランダムウォークの理論に基づいて拡散長を選択するための経験的ガイドラインを提供する。 さらに,逆遷移に対する一般化されたPlackett-Luce (PL) 分布を提案し,PL分布よりも明らかに表現性が高いことを示した。 さらに、サンプリングと学習効率を向上させるため、理論的に基礎付けられた「デノベーションスケジュール」を導入する。 4桁のMNIST画像のソート、ジグソーパズル、旅行セールスマン問題などのタスクにおいて、我々のモデルは最先端または同等のパフォーマンスを達成することを示す。 私たちのコードはhttps://github.com/NickZhang53/SymmetricDiffusers.comでリリースされています。

Finite symmetric groups $S_n$ are essential in fields such as combinatorics, physics, and chemistry. However, learning a probability distribution over $S_n$ poses significant challenges due to its intractable size and discrete nature. In this paper, we introduce SymmetricDiffusers, a novel discrete diffusion model that simplifies the task of learning a complicated distribution over $S_n$ by decomposing it into learning simpler transitions of the reverse diffusion using deep neural networks. We identify the riffle shuffle as an effective forward transition and provide empirical guidelines for selecting the diffusion length based on the theory of random walks on finite groups. Additionally, we propose a generalized Plackett-Luce (PL) distribution for the reverse transition, which is provably more expressive than the PL distribution. We further introduce a theoretically grounded "denoising schedule" to improve sampling and learning efficiency. Extensive experiments show that our model achieves state-of-the-art or comparable performances on solving tasks including sorting 4-digit MNIST images, jigsaw puzzles, and traveling salesman problems. Our code is released at https://github.com/NickZhang53/SymmetricDiffusers.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# 拡張量子回路図

Extended quantum circuit diagrams ( http://arxiv.org/abs/2410.02946v1 )

ライセンス: Link先を確認
William Schober, (参考訳) 本稿では、指数写像に基づく量子回路図の定式化を行い、回路を用いてグラフィカルに計算する新しい方法を提案する。 この定式化のための書き直し規則の健全なリストを提示し、様々な例計算を実演する。

We present a formulation of quantum circuit diagrams based on the exponential map which provides a new way to calculate graphically with circuits. We present a sound list of rewrite rules for this formulation and demonstrate a variety of example calculations.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# LLMCO2:LCM推論のための正確なカーボンフットプリント予測の改善

LLMCO2: Advancing Accurate Carbon Footprint Prediction for LLM Inferences ( http://arxiv.org/abs/2410.02950v1 )

ライセンス: Link先を確認
Zhenxiao Fu, Fan Chen, Shan Zhou, Haitong Li, Lei Jiang, (参考訳) ライフサイクルを通じて、大規模言語モデル(LLM)は、トレーニングよりも推論中に炭素フットプリントが大幅に大きくなる。 LLM推論要求はバッチサイズ、プロンプト長、トークン生成番号によって異なり、クラウドプロバイダはさまざまなGPUタイプと量を使用して、正確性とレイテンシのさまざまなサービスレベルの目標を満たす。 ユーザとクラウドプロバイダの両方が、実行前の推論要求とハードウェア構成の組み合わせに基づいて、LCM推論の炭素の影響を迅速かつ正確に見積もるツールを持つことは、極めて重要です。 LLM推論の炭素フットプリントの推定は、より低く、高度に可変なモデルFLOPSの利用によるトレーニングよりも複雑であり、以前の方程式ベースのモデルは不正確である。 さらに、既存の機械学習(ML)予測手法は、異なるプリフィルとデコードフェーズを不適切に処理し、ハードウェア固有の機能を見落とし、非日常的な推論設定を非効率にサンプリングするため、正確さを欠いているか、広範なトレーニングデータを要求するかのいずれかである。 グラフニューラルネットワーク(GNN)に基づくモデルである \coo を導入し,従来の手法と比較してLCM推定炭素フットプリント予測の精度を大幅に向上する。

Throughout its lifecycle, a large language model (LLM) generates a substantially larger carbon footprint during inference than training. LLM inference requests vary in batch size, prompt length, and token generation number, while cloud providers employ different GPU types and quantities to meet diverse service-level objectives for accuracy and latency. It is crucial for both users and cloud providers to have a tool that quickly and accurately estimates the carbon impact of LLM inferences based on a combination of inference request and hardware configurations before execution. Estimating the carbon footprint of LLM inferences is more complex than training due to lower and highly variable model FLOPS utilization, rendering previous equation-based models inaccurate. Additionally, existing machine learning (ML) prediction methods either lack accuracy or demand extensive training data, as they inadequately handle the distinct prefill and decode phases, overlook hardware-specific features, and inefficiently sample uncommon inference configurations. We introduce \coo, a graph neural network (GNN)-based model that greatly improves the accuracy of LLM inference carbon footprint predictions compared to previous methods.
翻訳日:2024-11-03 04:55:13 公開日:2024-10-03
# AiBAT: ビルド、アセンブリ、テストのための人工知能/インストラクション

AiBAT: Artificial Intelligence/Instructions for Build, Assembly, and Test ( http://arxiv.org/abs/2410.02955v1 )

ライセンス: Link先を確認
Benjamin Nuernberger, Anny Liu, Heather Stefanini, Richard Otis, Amanda Towler, R. Peter Dillon, (参考訳) IBAT(Instructions for Build, Assembly, and Test)とは、テストやアセンブリ、メンテナンスなど、ハードウェア上で何らかの操作を行う際に使用されるプロセスを指す。 現在、IBAT文書の生成は時間集約的であり、ユーザはエンジニアリング図や部品リストからIBAT命令に手動で情報を参照し、転送する必要がある。 しかし、機械学習とコンピュータビジョンの進歩により、人工知能(AI)モデルがIBATテンプレートの部分的な充足を実行し、より高度なタスクのためにエンジニアの時間を解放することが可能になる。 AiBATは、IBATのオーサリングにおいてユーザを支援する新しいシステムである。 まず、アセンブリードローイング文書を分析し、情報を抽出し解析し、それから抽出された情報でIBATテンプレートを埋める。 このような補助的なオーサリングは、時間を節約し、コストを削減する可能性がある。 本稿では,AiBATシステムの概要について述べる。

Instructions for Build, Assembly, and Test (IBAT) refers to the process used whenever any operation is conducted on hardware, including tests, assembly, and maintenance. Currently, the generation of IBAT documents is time-intensive, as users must manually reference and transfer information from engineering diagrams and parts lists into IBAT instructions. With advances in machine learning and computer vision, however, it is possible to have an artificial intelligence (AI) model perform the partial filling of the IBAT template, freeing up engineer time for more highly skilled tasks. AiBAT is a novel system for assisting users in authoring IBATs. It works by first analyzing assembly drawing documents, extracting information and parsing it, and then filling in IBAT templates with the extracted information. Such assisted authoring has potential to save time and reduce cost. This paper presents an overview of the AiBAT system, including promising preliminary results and discussion on future work.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# 災害管理・計画における臨界施設・資源最適化システム

A System for Critical Facility and Resource Optimization in Disaster Management and Planning ( http://arxiv.org/abs/2410.02956v1 )

ライセンス: Link先を確認
Emmanuel Tung, Ali Mostafavi, Maoxu Li, Sophie Li, Zeeshan Rasheed, Khurram Shafique, (参考訳) 災害時の医療インフラの破壊は、進行性慢性腎臓病や末期腎疾患の重篤な患者に重大なリスクをもたらす。 このような条件下での透析治療への患者アクセスを高めるためには,重篤な医療施設の危険事象に対する脆弱性を評価することが重要である。 本研究は,医療システムのレジリエンスを高めるため,患者再配置のための最適化モデルと一時的な医療施設の戦略的配置を提案する。 テキサスからの人体移動データを用いて,シミュレートされたハザードシナリオの下で,重篤なケアや透析センターへの患者アクセスを評価する。 The proposed bio-inspired optimization model, based on the Ant Colony optimization method, which efficient reallocates patients to mitigaterupted access to dialysis facilities。 モデルアウトプットは、災害に備えた患者や病院の備えに関する貴重な洞察を提供する。 全体として、この研究は、災害時に重要な医療施設へのアクセスが中断する可能性を積極的に軽減し、民間と公共の両方の医療機関、緊急管理者、病院システム管理者のニーズに合わせたデータ駆動型分析ベースの意思決定支援ツールである。

Disruptions to medical infrastructure during disasters pose significant risks to critically ill patients with advanced chronic kidney disease or end-stage renal disease. To enhance patient access to dialysis treatment under such conditions, it is crucial to assess the vulnerabilities of critical care facilities to hazardous events. This study proposes optimization models for patient reallocation and the strategic placement of temporary medical facilities to bolster the resilience of the critical care system, with a focus on equitable outcomes. Utilizing human mobility data from Texas, we evaluate patient access to critical care and dialysis centers under simulated hazard scenarios. The proposed bio-inspired optimization model, based on the Ant Colony optimization method, efficiently reallocates patients to mitigate disrupted access to dialysis facilities. The model outputs offer valuable insights into patient and hospital preparedness for disasters. Overall, the study presents a data-driven, analytics-based decision support tool designed to proactively mitigate potential disruptions in access to critical care facilities during disasters, tailored to the needs of health officials, emergency managers, and hospital system administrators in both the private and public sectors.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# AutoML-Agent: フルパイプラインオートMLのためのマルチエージェントLLMフレームワーク

AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML ( http://arxiv.org/abs/2410.02958v1 )

ライセンス: Link先を確認
Patara Trirat, Wonyong Jeong, Sung Ju Hwang, (参考訳) 自動機械学習(Automated Machine Learning, ML)は、最適なモデル探索やハイパーパラメータチューニングなど、開発パイプライン内のタスクを自動化することで、AI開発を加速する。 既存のAutoMLシステムでは、複雑なツールのセットアップに技術的な専門知識を必要とすることが多い。 そのため、最近の研究は、そのような負担を軽減し、自然言語インターフェースを通じてAutoMLフレームワークのユーザビリティを高めるために、大規模な言語モデル(LLM)の利用を開始した。 しかし、これらの手法は通常、AI開発パイプラインの特定のプロセスのためにのみ設計されており、LLMの本質的な能力は効率的に使用しない。 本稿では,データ検索からモデル展開まで,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。 AutoML-Agentはユーザのタスク記述を取り、特殊なLLMエージェント間のコラボレーションを促進し、デプロイ対応のモデルを提供する。 既存の作業とは異なり、単一の計画を作成する代わりに、より最適な計画を探すための探索を強化するための検索強化計画戦略を導入する。 また、各プランをサブタスク(例えば、データ前処理とニューラルネットワーク設計)に分割し、並列実行をプロンプトすることで構築する特殊なエージェントによって解決し、検索プロセスをより効率的にする。 さらに,実行結果を検証し,コード生成LLMを誘導する多段階検証を提案する。 14のデータセットを使用した7つの下流タスクに関する大規模な実験は、AutoML-Agentが完全なAutoMLプロセスを自動化する上で高い成功率を達成することを示し、多様なドメイン全体で優れたパフォーマンスを持つシステムが得られることを示している。

Automated machine learning (AutoML) accelerates AI development by automating tasks in the development pipeline, such as optimal model search and hyperparameter tuning. Existing AutoML systems often require technical expertise to set up complex tools, which is in general time-consuming and requires a large amount of human effort. Therefore, recent works have started exploiting large language models (LLM) to lessen such burden and increase the usability of AutoML frameworks via a natural language interface, allowing non-expert users to build their data-driven solutions. These methods, however, are usually designed only for a particular process in the AI development pipeline and do not efficiently use the inherent capacity of the LLMs. This paper proposes AutoML-Agent, a novel multi-agent framework tailored for full-pipeline AutoML, i.e., from data retrieval to model deployment. AutoML-Agent takes user's task descriptions, facilitates collaboration between specialized LLM agents, and delivers deployment-ready models. Unlike existing work, instead of devising a single plan, we introduce a retrieval-augmented planning strategy to enhance exploration to search for more optimal plans. We also decompose each plan into sub-tasks (e.g., data preprocessing and neural network design) each of which is solved by a specialized agent we build via prompting executing in parallel, making the search process more efficient. Moreover, we propose a multi-stage verification to verify executed results and guide the code generation LLM in implementing successful solutions. Extensive experiments on seven downstream tasks using fourteen datasets show that AutoML-Agent achieves a higher success rate in automating the full AutoML process, yielding systems with good performance throughout the diverse domains.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# LLMによる石炭採掘問題への回答

Coal Mining Question Answering with LLMs ( http://arxiv.org/abs/2410.02959v1 )

ライセンス: Link先を確認
Antonio Carlos Rivera, Anthony Moore, Steven Robinson, (参考訳) 本稿では,大規模言語モデル (LLMs) を用いた石炭鉱業質問応答 (QA) の手法を提案する。 石炭採掘は複雑でリスクの高い産業であり、正確で状況に応じた情報が安全かつ効率的な運用に不可欠である。 現在のQAシステムは、マイニング関連クエリの技術的および動的性質を扱うのに苦労している。 これらの課題に対処するために, GPT-4 などの LLM を誘導する多ターンプロンプトエンジニアリングフレームワークを提案する。 複雑なクエリを構造化されたコンポーネントに分割することで、LLMはより効率的にニュアンス付き技術情報を処理することができる。 実世界の鉱業シナリオから500の質問のデータセットを手作業で収集し,精度(ACC)とGPT-4に基づく評価指標を用いてシステムの性能評価を行った。 ChatGPT, Claude2, GPT-4をベースライン, チェーン・オブ・シント(CoT), マルチターン・プロンプト法で比較した結果, 平均精度15~18倍, GPT-4スコアが顕著に向上した。 その結果, 石炭採掘のような高度環境下でのドメイン固有質問応答に対して, 迅速かつ適応的な解法が得られた。

In this paper, we present a novel approach to coal mining question answering (QA) using large language models (LLMs) combined with tailored prompt engineering techniques. Coal mining is a complex, high-risk industry where accurate, context-aware information is critical for safe and efficient operations. Current QA systems struggle to handle the technical and dynamic nature of mining-related queries. To address these challenges, we propose a multi-turn prompt engineering framework designed to guide LLMs, such as GPT-4, in answering coal mining questions with higher precision and relevance. By breaking down complex queries into structured components, our approach allows LLMs to process nuanced technical information more effectively. We manually curated a dataset of 500 questions from real-world mining scenarios and evaluated the system's performance using both accuracy (ACC) and GPT-4-based scoring metrics. Experiments comparing ChatGPT, Claude2, and GPT-4 across baseline, chain-of-thought (CoT), and multi-turn prompting methods demonstrate that our method significantly improves both accuracy and contextual relevance, with an average accuracy improvement of 15-18\% and a notable increase in GPT-4 scores. The results show that our prompt-engineering approach provides a robust, adaptable solution for domain-specific question answering in high-stakes environments like coal mining.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# ネットワーク間でのモバイルユーザ間の秘密鍵生成の一方法

A Simple Method for Secret-Key Generation Between Mobile Users Across Networks ( http://arxiv.org/abs/2410.02964v1 )

ライセンス: Link先を確認
Yingbo Hua, (参考訳) 2つ以上のモバイルユーザーは、既に交換され認証された異なるパケットまたはファイルから選択されたビットのシーケンスを継続的に重ね合わせ、プライバシーと認証を継続的に強化するための秘密鍵を継続的に更新することができる。 本稿では, このアキュマティブ・アダプタブル・アダプタブル・アダプタブル (AAA) 法について述べる。 AAA法により生成されたキー中の任意のビットのEveへの割り当ては、ユーザ間で交換された対応する独立ビットがEveによってインターセプトされない確率に等しい。 この性能は、Eveによって傍受されるビットの非定常確率の知識を使わずに達成され、その知識を用いて達成できる確立された能力と比較される。 また、Eveとして知られるいくつかの相関関係に対するAAA法の機密性についても論じている。

Two or more mobiles users can continuously superimpose sequences of bits chosen from different packets or files already exchanged and authenticated between themselves to continuously renew a secret key for continuous strengthening of their privacy and authentication. This accumulative, adaptable and additive (AAA) method is discussed in this paper. The equivocation to Eve of any bit in the generated key by the AAA method equals to the probability that not all corresponding independent bits exchanged between the users are intercepted by Eve. This performance, achieved without using any knowledge of non-stationary probabilities of bits being intercepted by Eve, is compared to an established capacity achievable using that knowledge. A secrecy robustness of the AAA method against some correlations known to Eve is also discussed.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# Let's Play Videosによるレーベルフリーの主観的プレイヤー体験モデリング

Label-Free Subjective Player Experience Modelling via Let's Play Videos ( http://arxiv.org/abs/2410.02967v1 )

ライセンス: Link先を確認
Dave Goel, Athar Mahmoudi-Nejad, Matthew Guzdial, (参考訳) プレイヤー・エクスペリエンス・モデリング(プレイヤー・エクスペリエンス・モデリング、英: Player Experience Modelling、PEM)は、ゲーム内のプレイヤーの経験をモデル化するためのAI技術の研究である。 PEM開発は労働集約的であり、専門家の手書きや専門的なデータ収集を必要とする。 本研究では,ゲームプレイビデオからプレイヤーの体験を近似する新しいPEM開発手法を提案する。 ゲーム『Angry Birds』における影響を予測するアプローチを,人間による研究を通して評価した。 我々は,我々のPEMが自記式およびセンサによる影響評価と強く相関し,このアプローチの可能性を実証する。

Player Experience Modelling (PEM) is the study of AI techniques applied to modelling a player's experience within a video game. PEM development can be labour-intensive, requiring expert hand-authoring or specialized data collection. In this work, we propose a novel PEM development approach, approximating player experience from gameplay video. We evaluate this approach predicting affect in the game Angry Birds via a human subject study. We validate that our PEM can strongly correlate with self-reported and sensor measures of affect, demonstrating the potential of this approach.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# F-Fidelity: 説明可能なAIの忠実度評価のためのロバストなフレームワーク

F-Fidelity: A Robust Framework for Faithfulness Evaluation of Explainable AI ( http://arxiv.org/abs/2410.02970v1 )

ライセンス: Link先を確認
Xu Zheng, Farhad Shirani, Zhuomin Chen, Chaohao Lin, Wei Cheng, Wenbo Guo, Dongsheng Luo, (参考訳) 近年の研究では、多くのeXplainable AI(XAI)技術が開発されている。 ディープラーニングモデルから有意義な洞察を抽出するが、これらのXAI手法を適切に評価する方法は未解決の問題である。 最も広く使われているアプローチは、XAI法が入力において最も重要な特徴と見なすものを摂動または取り除き、出力予測の変化を観察することである。 このアプローチは、摂動サンプルが元のデータ分布に従わなくなるため、out-of-Distribution (OOD)問題に悩まされる。 RemOve And Retrain (ROAR) の最近の手法は、説明によって導かれる摂動サンプルでモデルを再トレーニングすることで、OODの問題を解決する。 しかし、分布の違いを考えると、トレーニングは必ずしも収束するとは限らない。 さらに、XAI法に基づいて再訓練されたモデルを用いて、これらの説明を評価すれば、情報漏洩が生じ、不公平な比較につながる可能性がある。 我々は,XAIのための頑健な評価フレームワークであるファインチューニングフィデリティF-フィデリティを提案する。 一 情報漏洩を軽減し、かつ、説明非依存の微調整戦略 二 除去工程がOOD入力を発生させないことを保証する無作為なマスキング動作 我々は,そのフレームワークの正しさを検証するために,最新技術(SOTA)の説明器と劣化したバージョンを用いた制御実験を設計した。 画像,時系列,自然言語などの複数のデータ構造について実験を行った。 その結果, F-Fidelity は, 説明者の信頼度を回復する上で, 先行評価指標よりも有意に向上することが示唆された。 さらに、忠実な説明器が与えられた場合、F-フィデリティメートル法は、影響力のある入力成分の空間性を計算し、すなわち真の説明サイズを抽出することができることを理論的および実証的に示す。

Recent research has developed a number of eXplainable AI (XAI) techniques. Although extracting meaningful insights from deep learning models, how to properly evaluate these XAI methods remains an open problem. The most widely used approach is to perturb or even remove what the XAI method considers to be the most important features in an input and observe the changes in the output prediction. This approach although efficient suffers the Out-of-Distribution (OOD) problem as the perturbed samples may no longer follow the original data distribution. A recent method RemOve And Retrain (ROAR) solves the OOD issue by retraining the model with perturbed samples guided by explanations. However, the training may not always converge given the distribution difference. Furthermore, using the model retrained based on XAI methods to evaluate these explainers may cause information leakage and thus lead to unfair comparisons. We propose Fine-tuned Fidelity F-Fidelity, a robust evaluation framework for XAI, which utilizes i) an explanation-agnostic fine-tuning strategy, thus mitigating the information leakage issue and ii) a random masking operation that ensures that the removal step does not generate an OOD input. We designed controlled experiments with state-of-the-art (SOTA) explainers and their degraded version to verify the correctness of our framework. We conducted experiments on multiple data structures, such as images, time series, and natural language. The results demonstrate that F-Fidelity significantly improves upon prior evaluation metrics in recovering the ground-truth ranking of the explainers. Furthermore, we show both theoretically and empirically that, given a faithful explainer, F-Fidelity metric can be used to compute the sparsity of influential input components, i.e., to extract the true explanation size.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# 拡散モデルを用いたグローバル軌道探索問題の最適制御と動的構造学習

Learning Optimal Control and Dynamical Structure of Global Trajectory Search Problems with Diffusion Models ( http://arxiv.org/abs/2410.02976v1 )

ライセンス: Link先を確認
Jannik Graebner, Anjian Li, Amlan Sinha, Ryne Beeson, (参考訳) 宇宙機軌道設計は地球規模の探索問題であり、過去の研究でデータ駆動方式で捉えることができる特定の解構造が明らかになった。 本稿では, 最小燃料/飛行時間のハイブリッドコスト関数とエネルギー依存不変多様体への移動の2つの大域的探索問題について検討する。 これらの問題は、最適制御プロファイルまたは動的構造の使用において基本的な構造を示す。 本研究では,拡散モデルを適用して,探索問題の条件付き確率分布を学習し,これらの構造を捉えるモデルの能力を解析する。

Spacecraft trajectory design is a global search problem, where previous work has revealed specific solution structures that can be captured with data-driven methods. This paper explores two global search problems in the circular restricted three-body problem: hybrid cost function of minimum fuel/time-of-flight and transfers to energy-dependent invariant manifolds. These problems display a fundamental structure either in the optimal control profile or the use of dynamical structures. We build on our prior generative machine learning framework to apply diffusion models to learn the conditional probability distribution of the search problem and analyze the model's capability to capture these structures.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# Harm Ratio: 新しくて多彩なフェアネス基準

Harm Ratio: A Novel and Versatile Fairness Criterion ( http://arxiv.org/abs/2410.02977v1 )

ライセンス: Link先を確認
Soroush Ebadian, Rupert Freeman, Nisarg Shah, (参考訳) 好奇心は公平な分業研究の基盤となっている。 個々の個人が集団資源の相反する共有を割り当てられる環境では、いかなる個人も自分自身に他の個人を割り当てることを厳密には望まないという、魅力的な公正公理である。 残念なことに、多くの現実の集団的意思決定問題において、ゴールはすべての個人に等しく当てはまる(共通の)公的な結果を選ぶことであり、うらやましいという概念は空白になる。 したがって、この文献は、他人に対して(システムではなく)妬みや恨みを感じる個人に焦点をあてる公平性基準の研究を避け、公平性の重要な側面を欠いている。 本研究では,新たな公正度基準,個々人被害率を提案する。これは,うらやましい自由感に触発されたものだが,幅広い集団的意思決定設定に適用できる。 理論的には、この基準とグループワイズ拡張を保証できる最小条件を特定し、関連する問題の計算複雑性について検討する。 実証的に、我々は実際のデータを用いて実験を行い、我々の公正性の基準は、投票や公平な分割から参加予算、ピアレビューまで、様々なタスクにおいて、顕著な意思決定アルゴリズムを区別するのに十分強力であることを示す。

Envy-freeness has become the cornerstone of fair division research. In settings where each individual is allocated a disjoint share of collective resources, it is a compelling fairness axiom which demands that no individual strictly prefer the allocation of another individual to their own. Unfortunately, in many real-life collective decision-making problems, the goal is to choose a (common) public outcome that is equally applicable to all individuals, and the notion of envy becomes vacuous. Consequently, this literature has avoided studying fairness criteria that focus on individuals feeling a sense of jealousy or resentment towards other individuals (rather than towards the system), missing out on a key aspect of fairness. In this work, we propose a novel fairness criterion, individual harm ratio, which is inspired by envy-freeness but applies to a broad range of collective decision-making settings. Theoretically, we identify minimal conditions under which this criterion and its groupwise extensions can be guaranteed, and study the computational complexity of related problems. Empirically, we conduct experiments with real data to show that our fairness criterion is powerful enough to differentiate between prominent decision-making algorithms for a range of tasks from voting and fair division to participatory budgeting and peer review.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# HUDOCデータベースにおける居住・退去問題に関する事例法則に関する説明可能なアプローチ

An explainable approach to detect case law on housing and eviction issues within the HUDOC database ( http://arxiv.org/abs/2410.02978v1 )

ライセンス: Link先を確認
Mohammad Mohammadi, Martijn Wieling, Michel Vols, (参考訳) 訴訟法は、適切な住居の権利を含む人権の理解を形作るのに役立ちます。 HUDOCデータベースは、欧州人権裁判所(ECtHR)から、いくつかのメタデータとともにケースローのテキストコンテンツへのアクセスを提供する。 このメタデータには、アプリケーション番号やケースに割り当てられた記事などの貴重な情報が含まれているが、ケースがカバーする特定の問題のような、詳細な実体的な洞察が欠けていることが多い。 このことは、そのような情報を抽出するための詳細な分析の必要性を浮き彫りにする。 しかし、データベースのサイズ(4万以上のケースを含む)を考えると、自動化されたソリューションが不可欠です。 本研究では,適切な居住権に着目し,住宅・退去問題に関連する事例を検出するモデルの構築を目的とする。 実験の結果, 得られたモデルは, より洗練されたアプローチに匹敵する性能を提供するだけでなく, 最も影響力のある単語を強調することによって, その決定を説明できることがわかった。 これらのモデルの適用により、データ収集中に最初に見落とされた新しいケースの特定につながった。 このことは、NLPアプローチが、対処する特定の問題に基づいて、ケースローの分類に効果的に適用可能であることを示唆している。

Case law is instrumental in shaping our understanding of human rights, including the right to adequate housing. The HUDOC database provides access to the textual content of case law from the European Court of Human Rights (ECtHR), along with some metadata. While this metadata includes valuable information, such as the application number and the articles addressed in a case, it often lacks detailed substantive insights, such as the specific issues a case covers. This underscores the need for detailed analysis to extract such information. However, given the size of the database - containing over 40,000 cases - an automated solution is essential. In this study, we focus on the right to adequate housing and aim to build models to detect cases related to housing and eviction issues. Our experiments show that the resulting models not only provide performance comparable to more sophisticated approaches but are also interpretable, offering explanations for their decisions by highlighting the most influential words. The application of these models led to the identification of new cases that were initially overlooked during data collection. This suggests that NLP approaches can be effectively applied to categorise case law based on the specific issues they address.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# リアプノフポテンシャルによる最適化からサンプリングへ

From Optimization to Sampling via Lyapunov Potentials ( http://arxiv.org/abs/2410.02979v1 )

ライセンス: Link先を確認
August Y. Chen, Karthik Sridharan, (参考訳) グラディエントDescentの自然・ポピュラーな変種であるLangevin Dynamicsを用いて,高次元分布からのサンプリング問題について検討し,各ステップで適切なスケールのガウス雑音を付加する。 Langevin Dynamics と Gradient Descent の類似性は自然問題に繋がる: もし分布の対数密度が、勾配へのオラクルアクセスを与えられた Gradient Descent を通じてすべての初期化から最適化できるなら、Langevin Dynamics を使って分布からサンプリングできるだろうか? 我々は、最適化と実世界の両方の応用の文脈で自然に、低いが適切な温度で、肯定的に、この疑問に答える。 結論として、我々は、比較的少数の例がある重要な設定である、非ログ凹凸密度の新しい自然クラスと興味深いクラスからサンプルを採取できることを示します。

We study the problem of sampling from high-dimensional distributions using Langevin Dynamics, a natural and popular variant of Gradient Descent where at each step, appropriately scaled Gaussian noise is added. The similarities between Langevin Dynamics and Gradient Descent leads to the natural question: if the distribution's log-density can be optimized from all initializations via Gradient Descent, given oracle access to the gradients, can we sample from the distribution using Langevin Dynamics? We answer this question in the affirmative, at low but appropriate temperature levels natural in the context of both optimization and real-world applications. As a corollary, we show we can sample from several new natural and interesting classes of non-log-concave densities, an important setting where we have relatively few examples.
翻訳日:2024-11-03 04:45:27 公開日:2024-10-03
# DecTrain: DNNオンライントレーニングのタイミング決定

DecTrain: Deciding When to Train a DNN Online ( http://arxiv.org/abs/2410.02980v1 )

ライセンス: Link先を確認
Zih-Sing Fu, Soumya Sudhakar, Sertac Karaman, Vivienne Sze, (参考訳) ディープニューラルネットワーク(DNN)は、デプロイメントデータがトレーニングデータと異なる場合、精度が低下する可能性がある。 オンライントレーニングをあらゆるタイミングで行うと精度が向上するが、計算コストは高くつく。 我々は,低オーバーヘッドで自己スーパービジョンを用いて,単眼深度DNNのオンライントレーニングをいつ行うかを決定する新しいアルゴリズムであるDecTrainを提案する。 各タイミングで決定を行うために、DecTrainはトレーニングコストと予測精度ゲインを比較する。 アウト・オブ・ディストリビューションデータに基づいてDecTrainを評価し,オンライントレーニングに比べ,DecTrainが精度を維持しているのに対して,トレーニング時間は平均44%に過ぎなかった。 また,DecTrain を用いた低推論コスト DNN と,より一般化可能な高推論コスト DNN を各種シーケンス上で比較した。 DecTrainは66%しかリカバリできない高推論コストのDNNに比べて計算量を削減しつつ、オンライントレーニングの精度向上の過半数(97%)を回復する。 さらに小さなDNNでは、計算量を56%削減しながら89%のリカバリを実現しています。 DecTrainは、より小さなDNNのための低コストのオンライントレーニングを可能にする。

Deep neural networks (DNNs) can deteriorate in accuracy when deployment data differs from training data. While performing online training at all timesteps can improve accuracy, it is computationally expensive. We propose DecTrain, a new algorithm that decides when to train a monocular depth DNN online using self-supervision with low overhead. To make the decision at each timestep, DecTrain compares the cost of training with the predicted accuracy gain. We evaluate DecTrain on out-of-distribution data, and find DecTrain maintains accuracy compared to online training at all timesteps, while training only 44% of the time on average. We also compare the recovery of a low inference cost DNN using DecTrain and a more generalizable high inference cost DNN on various sequences. DecTrain recovers the majority (97%) of the accuracy gain of online training at all timesteps while reducing computation compared to the high inference cost DNN which recovers only 66%. With an even smaller DNN, we achieve 89% recovery while reducing computation by 56%. DecTrain enables low-cost online training for a smaller DNN to have competitive accuracy with a larger, more generalizable DNN at a lower overall computational cost.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# GABIC:画像圧縮のためのグラフベースの注意ブロック

GABIC: Graph-based Attention Block for Image Compression ( http://arxiv.org/abs/2410.02981v1 )

ライセンス: Link先を確認
Gabriele Spadaro, Alberto Presta, Enzo Tartaglione, Jhony H. Giraldo, Marco Grangetto, Attilio Fiandrotti, (参考訳) JPEGやHEVC-intraのような標準化されたコーデックは画像圧縮の業界標準であり、Neural Learned Image Compression (lic)コーデックは将来的な代替手段である。 詳細は、Vision Transformerからlicモデルへのアテンション機構の統合により、圧縮効率が改善されている。 しかし、余分な効率性は、しばしば冗長な機能を集約するコストを伴います。 本研究は,k-Nearest Neighbors拡張アテンション機構に基づく特徴冗長性を低減する手法であるGABIC(Graph-based Attention Block for Image Compression)を提案する。 実験の結果,GABICは圧縮性能を向上し,特に高ビットレートで同等の手法より優れていた。

While standardized codecs like JPEG and HEVC-intra represent the industry standard in image compression, neural Learned Image Compression (LIC) codecs represent a promising alternative. In detail, integrating attention mechanisms from Vision Transformers into LIC models has shown improved compression efficiency. However, extra efficiency often comes at the cost of aggregating redundant features. This work proposes a Graph-based Attention Block for Image Compression (GABIC), a method to reduce feature redundancy based on a k-Nearest Neighbors enhanced attention mechanism. Our experiments show that GABIC outperforms comparable methods, particularly at high bit rates, enhancing compression performance.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 改良局所学習係数による注意ヘッドの識別と特殊化

Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient ( http://arxiv.org/abs/2410.02984v1 )

ライセンス: Link先を確認
George Wang, Jesse Hoogland, Stan van Wingerden, Zach Furman, Daniel Murfet, (参考訳) 特異学習理論に基づくモデル複雑性の尺度である局所学習係数(LLC)の洗練された変種を導入し、学習中のトランスフォーマー言語モデルの内部構造の開発について検討する。 これらを2層アテンションのみ変換器の個々の構成要素に適用することにより、アテンションヘッドの進化的分化と特殊化に関する新たな知見を得る。 提案手法は,学習過程において,注目ヘッドが異なる機能的役割にどのように分化するかを明らかにするとともに,これらの頭部が処理に特化しているデータの種類を分析し,これまで同定されていなかったマルチグラム回路を発見する。 これらの結果から,rLLCsは学習プロセス全体にわたるモデルの進化を通じてモデルを理解することを目的とした,‘textit{developmental interpretability} の原理的,定量的なツールキットを提供することが示された。 より広範に、この研究は、データ分布構造、損失ランドスケープの幾何学的性質、学習力学、ニューラルネットワークにおける創発的計算構造との対応性を確立するための一歩を踏み出した。

We introduce refined variants of the Local Learning Coefficient (LLC), a measure of model complexity grounded in singular learning theory, to study the development of internal structure in transformer language models during training. By applying these \textit{refined LLCs} (rLLCs) to individual components of a two-layer attention-only transformer, we gain novel insights into the progressive differentiation and specialization of attention heads. Our methodology reveals how attention heads differentiate into distinct functional roles over the course of training, analyzes the types of data these heads specialize to process, and discovers a previously unidentified multigram circuit. These findings demonstrate that rLLCs provide a principled, quantitative toolkit for \textit{developmental interpretability}, which aims to understand models through their evolution across the learning process. More broadly, this work takes a step towards establishing the correspondence between data distributional structure, geometric properties of the loss landscape, learning dynamics, and emergent computational structures in neural networks.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# マルチチャネルIFイメージングのための完全自動CTC検出, セグメンテーション, 分類

Fully Automated CTC Detection, Segmentation and Classification for Multi-Channel IF Imaging ( http://arxiv.org/abs/2410.02988v1 )

ライセンス: Link先を確認
Evan Schwab, Bharat Annaldas, Nisha Ramesh, Anna Lundberg, Vishal Shelke, Xinran Xu, Cole Gilbertson, Jiyun Byun, Ernest T. Lam, (参考訳) 液体生検(液体生検)は、転移性乳癌(mBCa)の進行をモニターするために、組織生検のより侵襲的で非局所的な代替手段を提供する。 免疫蛍光顕微鏡(Immunofluoresence microscopy)は、患者サンプル中の数百万の血液細胞を画像化し、分析するツールである。 血液中の循環性腫瘍細胞(CTC)を検出および遺伝子配列化することにより、様々ながんサブタイプに対してパーソナライズされた治療計画が達成される。 しかし、CTCはまれであり(約2Mで1個)、手動CTC検出は非常に困難である。 さらに、臨床医はCTCを手動で分類するために定量的な細胞バイオマーカーに依存している。 これは、細胞検出、セグメンテーション、特徴抽出といった事前のタスクを必要とする。 臨床医を支援するため,我々は,多チャンネルIF画像中のCTCを効率よく検出,セグメント化,分類する,完全に自動化された機械学習に基づく生産レベルパイプラインを開発した。 我々は15mBCa患者の9,533細胞に対して99%以上の感受性と97%の特異性を得た。 我々のパイプラインは実際のmBCa患者にうまく展開され、患者平均14Mの細胞を335のCTC候補に減らした。

Liquid biopsies (eg., blood draws) offer a less invasive and non-localized alternative to tissue biopsies for monitoring the progression of metastatic breast cancer (mBCa). Immunofluoresence (IF) microscopy is a tool to image and analyze millions of blood cells in a patient sample. By detecting and genetically sequencing circulating tumor cells (CTCs) in the blood, personalized treatment plans are achievable for various cancer subtypes. However, CTCs are rare (about 1 in 2M), making manual CTC detection very difficult. In addition, clinicians rely on quantitative cellular biomarkers to manually classify CTCs. This requires prior tasks of cell detection, segmentation and feature extraction. To assist clinicians, we have developed a fully automated machine learning-based production-level pipeline to efficiently detect, segment and classify CTCs in multi-channel IF images. We achieve over 99% sensitivity and 97% specificity on 9,533 cells from 15 mBCa patients. Our pipeline has been successfully deployed on real mBCa patients, reducing a patient average of 14M detected cells to only 335 CTC candidates for manual review.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 連続変数量子統計モデルにおける拡張メロロジーのスロープネスの克服

Overcoming sloppiness for enhanced metrology in continuous-variable quantum statistical models ( http://arxiv.org/abs/2410.02989v1 )

ライセンス: Link先を確認
Massimo Frigerio, Matteo G. A. Paris, (参考訳) 多パラメータ統計モデルは、初期パラメータの個数よりも少ないパラメータのいくつかの関数にのみ依存する。 このような 'emph{sloppy} 統計モデルは、縮退したフィッシャー情報行列によって特徴づけられ、全てのパラメータを同時に推定することは不可能であることを示す。 量子環境では、符号化が固定されると、スロッピー量子統計モデルから計算された量子フィッシャー情報行列に対しても同様に起こる。 しかし、スロッピ性に加えて、量子不整合性のさらなる問題が生じる可能性がある。 2つの位相シフトパラメータの符号化とマッハ・ツェンダー干渉計の間に量子状態を適切にスクランブルすることで、スロープ性を持ち上げることができるだけでなく、量子不整合性をゼロと同一に保ち、パラメータの正確な値に関して精度の増大とモデルの共分散を維持できることを示す。

Multi-parameter statistical models may depend only on some functions of the parameters that are fewer than the number of initial parameters themselves. Such \emph{sloppy} statistical models are characterized by a degenerate Fisher Information matrix, indicating that it is impossible to simultaneously estimate all the parameters. In a quantum setting, once an encoding is fixed, the same can happen for the Quantum Fisher Information matrix computed from a sloppy quantum statistical model. In addition to sloppiness, however, further issues of quantum incompatibility can arise. We take a fully Gaussian case-study to investigate the topic, showing that by appropriately scrambling the quantum states in between the encoding of two phase-shift parameters a Mach-Zehnder interferometer, not only sloppiness can be lifted, but also the quantum incompatibility can be put identically to zero, maintaining an enhanced scaling of precision and the covariance of the model with respect to exact values of the parameters.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# Guided Stream of Search: 最適経路誘導による言語モデルによるより良い検索の学習

Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance ( http://arxiv.org/abs/2410.02992v1 )

ライセンス: Link先を確認
Seungyong Moon, Bumsoo Park, Hyun Oh Song, (参考訳) 言語モデルは様々なタスクで印象的な能力を示してきたが、複雑な計画と推論を必要とするタスクには依然として苦労している。 近年の研究では,探索過程が雑音や準最適であっても,最適解ではなく探索過程の学習言語モデルが提案されており,より一般化性能が向上している。 しかし、これらの研究は、より効果的な探索を導くためにステップバイステップのランドマークとして機能する最適解の価値を見落としている。 本研究では,言語モデルの探索と計画能力を高めるために最適解を活用する方法について検討する。 そこで本研究では,最適解を段階的に自己生成プロセスにシームレスに組み込み,高品質な探索トラジェクトリを生成するためのガイド付き探索ストリーム(GSoS)を提案する。 これらの軌道は、教師付き微調整により事前訓練されたモデルに蒸留される。 提案手法は,単純な数学的推論タスクであるCountdownにおける言語モデルの探索と計画能力を大幅に向上させる。 特に,本手法とRL微調整法を組み合わせることでさらなる改善が期待できるが,従来の教師付き微調整法はRLの恩恵を受けない。 さらに,本手法は,最適解をサブゴール報酬の形で活用するよりも有効性が高い。

While language models have demonstrated impressive capabilities across a range of tasks, they still struggle with tasks that require complex planning and reasoning. Recent studies have proposed training language models on search processes rather than optimal solutions, resulting in better generalization performance even though search processes are noisy and even suboptimal. However, these studies overlook the value of optimal solutions, which can serve as step-by-step landmarks to guide more effective search. In this work, we explore how to leverage optimal solutions to enhance the search and planning abilities of language models. To this end, we propose guided stream of search (GSoS), which seamlessly incorporates optimal solutions into the self-generation process in a progressive manner, producing high-quality search trajectories. These trajectories are then distilled into the pre-trained model via supervised fine-tuning. Our approach significantly enhances the search and planning abilities of language models on Countdown, a simple yet challenging mathematical reasoning task. Notably, combining our method with RL fine-tuning yields further improvements, whereas previous supervised fine-tuning methods do not benefit from RL. Furthermore, our approach exhibits greater effectiveness than leveraging optimal solutions in the form of subgoal rewards.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 強化学習のためのモンテカルロ探索開始アルゴリズムの有限サンプル解析

Finite-Sample Analysis of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2410.02994v1 )

ライセンス: Link先を確認
Suei-Wen Chen, Keith Ross, Pierre Youssef, (参考訳) モンテカルロ探索開始点(Monte Carlo Exploring Starts, MCES)は、様々な条件下で収束することが示されている強化学習における単純で自然なアルゴリズムである。 しかし, MCES型アルゴリズムの収束速度解析は, ほとんど注目されていない。 本稿では,確率的最短経路問題を解く改良型MCESアルゴリズムに限定した有限サンプルを開発する。 この目的のために、ポリシー反復アルゴリズムの収束率に関する新しい結果を示す。 この結果は、少なくとも1-\delta$の確率で、アルゴリズムは、$\tilde{O}(SAK^3\log^3\frac{1}{\delta})$サンプルエピソードの後、最適なポリシーを返し、$S$と$A$はそれぞれ、エピソードの長さのプロキシであり、$\tilde{O}$は、既知の環境の報酬に応じて対数係数と定数を隠すことを意味する。

Monte Carlo Exploring Starts (MCES), which aims to learn the optimal policy using only sample returns, is a simple and natural algorithm in reinforcement learning which has been shown to converge under various conditions. However, the convergence rate analysis for MCES-style algorithms in the form of sample complexity has received very little attention. In this paper we develop a finite sample bound for a modified MCES algorithm which solves the stochastic shortest path problem. To this end, we prove a novel result on the convergence rate of the policy iteration algorithm. This result implies that with probability at least $1-\delta$, the algorithm returns an optimal policy after $\tilde{O}(SAK^3\log^3\frac{1}{\delta})$ sampled episodes, where $S$ and $A$ denote the number of states and actions respectively, $K$ is a proxy for episode length, and $\tilde{O}$ hides logarithmic factors and constants depending on the rewards of the environment that are assumed to be known.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 検索型重み付き局所適応を用いたタスク認識型生涯ロボット学習

Task-unaware Lifelong Robot Learning with Retrieval-based Weighted Local Adaptation ( http://arxiv.org/abs/2410.02995v1 )

ライセンス: Link先を確認
Pengzhi Yang, Xinyu Wang, Ruipeng Zhang, Cong Wang, Frans Oliehoek, Jens Kober, (参考訳) 現実の環境では、ロボットは、事前に学習した能力を維持しながら、明確に定義されたタスク境界を必要とせずに、新しいスキルを継続的に獲得する必要がある。 過去のデータをすべて保存して忘れないようにすることは、ストレージとプライバシの懸念のために現実的ではない。 そこで本研究では,これまでに学習した課題におけるロボットの能力の回復を効果的に行う手法を提案する。 提案手法は,Epsodic Memory (EM) を用いて,局所的な微調整のためのテスト中におけるトレーニングおよび検索中に経験的なリプレイを可能にし,明示的なタスク識別子を使わずに,以前に遭遇した問題への迅速な適応を可能にする。 さらに,検索されたデモの最も困難な部分を強調する選択重み付け機構を導入し,最も必要な部分の局所的適応に着目した。 このフレームワークは、動的でタスクを意識しない環境での生涯学習のためのスケーラブルなソリューションを提供し、検索ベースの適応と選択重み付けを組み合わせて、オープンエンドシナリオにおけるロボットのパフォーマンスを向上させる。

Real-world environments require robots to continuously acquire new skills while retaining previously learned abilities, all without the need for clearly defined task boundaries. Storing all past data to prevent forgetting is impractical due to storage and privacy concerns. To address this, we propose a method that efficiently restores a robot's proficiency in previously learned tasks over its lifespan. Using an Episodic Memory (EM), our approach enables experience replay during training and retrieval during testing for local fine-tuning, allowing rapid adaptation to previously encountered problems without explicit task identifiers. Additionally, we introduce a selective weighting mechanism that emphasizes the most challenging segments of retrieved demonstrations, focusing local adaptation where it is most needed. This framework offers a scalable solution for lifelong learning in dynamic, task-unaware environments, combining retrieval-based adaptation with selective weighting to enhance robot performance in open-ended scenarios.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# Q-SCALE:高度な学習と効率のための量子コンピューティングに基づくセンサキャリブレーション

Q-SCALE: Quantum computing-based Sensor Calibration for Advanced Learning and Efficiency ( http://arxiv.org/abs/2410.02998v1 )

ライセンス: Link先を確認
Lorenzo Bergadano, Andrea Ceschini, Pietro Chiavassa, Edoardo Giusto, Bartolomeo Montrucchio, Massimo Panella, Antonello Rosato, (参考訳) 大気汚染に悩まされている世界では、量子コンピューティング(QC)と機械学習(ML)を利用した最先端のセンサキャリブレーション技術の統合が、スマートシティにおける空気質監視システムの正確性と効率を高めることを約束している。 本稿では,Deep Learning (DL) やQuantum Machine Learning (QML) といった先進的な手法を用いて,安価な光学ファインダストセンサの校正プロセスについて検討する。 プロジェクトの目的は、古典的領域と量子的領域の両方の洗練された4つのアルゴリズムを比較し、それらの格差を識別し、都市大気質監視における粒子状物質測定の精度と信頼性を改善するための代替アプローチを検討することである。 古典的フィードフォワードニューラルネットワーク (FFNN) とLong Short-Term Memory (LSTM) モデルは、変分量子回帰器 (VQR) と量子LSTM (QLSTM) 回路で評価される。 ハイパーパラメータ最適化やクロスバリデーションを含む厳密なテストを通じて、量子モデルのキャリブレーション性能を向上する可能性を評価する。 FFNNモデルは,低L1損失関数(2.92対4.81),QLSTMはトレーニング可能な重量(66対482)が少ないにもかかわらずLSTMモデル(テストセット2.70対2.77)をわずかに上回った。

In a world burdened by air pollution, the integration of state-of-the-art sensor calibration techniques utilizing Quantum Computing (QC) and Machine Learning (ML) holds promise for enhancing the accuracy and efficiency of air quality monitoring systems in smart cities. This article investigates the process of calibrating inexpensive optical fine-dust sensors through advanced methodologies such as Deep Learning (DL) and Quantum Machine Learning (QML). The objective of the project is to compare four sophisticated algorithms from both the classical and quantum realms to discern their disparities and explore possible alternative approaches to improve the precision and dependability of particulate matter measurements in urban air quality surveillance. Classical Feed-Forward Neural Networks (FFNN) and Long Short-Term Memory (LSTM) models are evaluated against their quantum counterparts: Variational Quantum Regressors (VQR) and Quantum LSTM (QLSTM) circuits. Through meticulous testing, including hyperparameter optimization and cross-validation, the study assesses the potential of quantum models to refine calibration performance. Our analysis shows that: the FFNN model achieved superior calibration accuracy on the test set compared to the VQR model in terms of lower L1 loss function (2.92 vs 4.81); the QLSTM slightly outperformed the LSTM model (loss on the test set: 2.70 vs 2.77), despite using fewer trainable weights (66 vs 482).
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# ユニバーサル認定ロバストネスをめざして

Towards Universal Certified Robustness with Multi-Norm Training ( http://arxiv.org/abs/2410.03000v1 )

ライセンス: Link先を確認
Enyi Jiang, Gagandeep Singh, (参考訳) 既存の訓練方法は、ある摂動タイプ(例えば $l_\infty$ または $l_2$)に対して頑健なモデルしか訓練できない。 しかし、$l_\infty$ certifiably robust model は $l_2$ 摂動に対して強固でない(逆もまた)し、他の摂動に対して強固でない(例えば幾何変換)。 そこで本研究では,新たに$l2$の決定論的認定トレーニングディフェンスと,複数のマルチノーム認定トレーニングメソッドからなる,最初のマルチノーム認定トレーニングフレームワークである \textbf{CURE} を提案し,スクラッチからトレーニングを行ったり,事前訓練された認定モデルの微調整を行う際に,より優れたemph{union robustness} を実現する。 さらに, 境界アライメントを考案し, 自然訓練と認定トレーニングを結びつけることにより, 団結の堅牢性を向上する。 SOTA認定トレーニングと比較すると、 \textbf{CURE} はMNISTで22.8 %、CIFAR-10で23.9 %、TinyImagenetで8.0 %まで、組合のロバスト性を改善している。 さらに、これは、CIFAR-10で最大6.8\%の難解な幾何学的摂動の多様な集合をより一般化する。 全体として、私たちのコントリビューションは、‘textit{Universal certified robustness}’への道を開くものです。

Existing certified training methods can only train models to be robust against a certain perturbation type (e.g. $l_\infty$ or $l_2$). However, an $l_\infty$ certifiably robust model may not be certifiably robust against $l_2$ perturbation (and vice versa) and also has low robustness against other perturbations (e.g. geometric transformation). To this end, we propose the first multi-norm certified training framework \textbf{CURE}, consisting of a new $l_2$ deterministic certified training defense and several multi-norm certified training methods, to attain better \emph{union robustness} when training from scratch or fine-tuning a pre-trained certified model. Further, we devise bound alignment and connect natural training with certified training for better union robustness. Compared with SOTA certified training, \textbf{CURE} improves union robustness up to $22.8\%$ on MNIST, $23.9\%$ on CIFAR-10, and $8.0\%$ on TinyImagenet. Further, it leads to better generalization on a diverse set of challenging unseen geometric perturbations, up to $6.8\%$ on CIFAR-10. Overall, our contributions pave a path towards \textit{universal certified robustness}.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# トランスフォーマーは$n$-gramの言語モデルを学ぶことができるか?

Can Transformers Learn $n$-gram Language Models? ( http://arxiv.org/abs/2410.03001v1 )

ライセンス: Link先を確認
Anej Svete, Nadav Borenstein, Mike Zhou, Isabelle Augenstein, Ryan Cotterell, (参考訳) 多くの理論的な研究は、トランスフォーマーが形式言語を表現する能力について記述している。 しかし、アーキテクチャ、学習アルゴリズム、およびトレーニングデータとの複雑な相互作用のため、理論的結果と経験的パフォーマンスを結びつけることは容易ではない。 理論的な下界が形式言語のemph{learnability} を意味するかどうかをテストするために、変換器を$n$-gram言語モデル(LM)に変換する最近の研究に目を向ける。 本研究では,任意の次シンボル確率を持つもの,共有パラメータで定義されるもの,の2種類のランダムな$n$-gram LMを学習するトランスフォーマーの能力について検討する。 我々は,$n$-gram LM の古典的推定手法である add-$\lambda$ smoothing outperform transformer を前者に対して提案するのに対し,transformer は$n$-gram LM を学習するために特別に設計された優れた手法である。

Much theoretical work has described the ability of transformers to represent formal languages. However, linking theoretical results to empirical performance is not straightforward due to the complex interplay between the architecture, the learning algorithm, and training data. To test whether theoretical lower bounds imply \emph{learnability} of formal languages, we turn to recent work relating transformers to $n$-gram language models (LMs). We study transformers' ability to learn random $n$-gram LMs of two kinds: ones with arbitrary next-symbol probabilities and ones where those are defined with shared parameters. We find that classic estimation techniques for $n$-gram LMs such as add-$\lambda$ smoothing outperform transformers on the former, while transformers perform better on the latter, outperforming methods specifically designed to learn $n$-gram LMs.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 量子音響系における表面フォノンのデコヒーレンス

Decoherence of surface phonons in a quantum acoustic system ( http://arxiv.org/abs/2410.03005v1 )

ライセンス: Link先を確認
Camryn Undershute, Joseph M. Kitzman, Camille A. Mikolas, Johannes Pollanen, (参考訳) 音波共振器は、量子コンピューティング、通信、センシング、および基礎物理学の研究において、量子情報科学においてますます重要になっている。 本稿では, 表面音響波(SAW)共振器に閉じ込められたフォノン(g/2\pi\approx 9$ MHz)の超伝導トランスモン量子ビットへのデコヒーレンスについて検討する。 実験データとマルコフマスター方程式の数値解を比較することにより、表面音速エネルギー減衰速度は$\kappa_1/2\pi=480$kHz、純粋な劣化速度は$\kappa_{\phi}/2\pi=180$kHzと報告する。 これらの値は、量子ビット支援型SAW共振器の分光測定から抽出したデコヒーレンスレベルとよく一致している。 さらに、コヒーレント駆動力学とデコヒーレンスが生じる時間スケールは同等であり、複合デバイスをオープン量子システムとしてモデル化する必要性を強調している。 本稿では,SAW系量子音響デバイスにおけるデコヒーレンスの発生源と今後の量子音響散逸技術実験への応用について論じる。 私たちが採用しているデコヒーレンス特性評価技術は、量子状態における機械的共振器に対する損失とデフォーカスの影響の調査とベンチマークに広く応用されている。

Phononic resonators are becoming increasingly important in quantum information science, both for applications in quantum computing, communication and sensing, as well as in experiments investigating fundamental physics. Here, we study the decoherence of phonons confined in a surface acoustic wave (SAW) resonator strongly coupled ($g/2\pi\approx 9$ MHz) to a superconducting transmon qubit. By comparing experimental data with numerical solutions to the Markovian master equation, we report a surface phononic energy decay rate of $\kappa_1/2\pi=480$ kHz and a pure dephasing rate of $\kappa_{\phi}/2\pi=180$ kHz. These rates are in good agreement with the level of decoherence we extract from qubit-assisted spectroscopic measurements of the SAW resonator. We additionally find that the timescales over which coherent driven dynamics and decoherence occur are comparable, highlighting the need to model the composite device as an open quantum system. We discuss possible sources of decoherence in SAW-based quantum acoustic devices and the application of these devices in future quantum acoustic dissipation engineering experiments. The decoherence characterization techniques we employ are broadly applicable for investigating and benchmarking the effects of loss and dephasing on mechanical resonators in the quantum regime.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# ニューラルネットワークにおける表現の形成

Formation of Representations in Neural Networks ( http://arxiv.org/abs/2410.03006v1 )

ライセンス: Link先を確認
Liu Ziyin, Isaac Chuang, Tomer Galanti, Tomaso Poggio, (参考訳) 神経表現を理解することは、ニューラルネットワークのブラックボックスを開き、現代のAIシステムの科学的理解を促進するのに役立つ。 しかし、現代のニューラルネットワークにおいて、いかに複雑で構造化され、伝達可能な表現が出現するかは謎のままである。 従来の結果に基づいて,ニューラルネットワークのほとんどの隠蔽層における表現の形成を普遍的に制御するために,6つのアライメント関係の集合を仮定するCanonical Representation hypothesis (CRH)を提案する。 CRHでは、潜伏表現(R)、重み(W)、ニューロン勾配(G)が訓練中に相互に整列する。 このアライメントは、ニューロンと重みがタスク非関連変換に不変であるような、ニューラルネットワークが自然にコンパクト表現を学習することを意味する。 すると、CRHの破れは、R, W, G間の相互の力-法則関係の出現を招き、これはポリノーミアル配向仮説(PAH)と呼ばれる。 正規表現の出現には勾配雑音と正規化のバランスが不可欠であることを示す最小推定理論を提案する。 CRHとPAHは、単一のフレームワークにおいて、神経崩壊や神経機能アンザッツを含む主要なディープラーニング現象を統一するエキサイティングな可能性をもたらす。

Understanding neural representations will help open the black box of neural networks and advance our scientific understanding of modern AI systems. However, how complex, structured, and transferable representations emerge in modern neural networks has remained a mystery. Building on previous results, we propose the Canonical Representation Hypothesis (CRH), which posits a set of six alignment relations to universally govern the formation of representations in most hidden layers of a neural network. Under the CRH, the latent representations (R), weights (W), and neuron gradients (G) become mutually aligned during training. This alignment implies that neural networks naturally learn compact representations, where neurons and weights are invariant to task-irrelevant transformations. We then show that the breaking of CRH leads to the emergence of reciprocal power-law relations between R, W, and G, which we refer to as the Polynomial Alignment Hypothesis (PAH). We present a minimal-assumption theory demonstrating that the balance between gradient noise and regularization is crucial for the emergence the canonical representation. The CRH and PAH lead to an exciting possibility of unifying major key deep learning phenomena, including neural collapse and the neural feature ansatz, in a single framework.
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# FastAdaSP:大規模言語モデルのためのマルチタスク適応型効率的な推論

FastAdaSP: Multitask-Adapted Efficient Inference for Large Speech Language Model ( http://arxiv.org/abs/2410.03007v1 )

ライセンス: Link先を確認
Yichen Lu, Jiaqi Song, Chao-Han Huck Yang, Shinji Watanabe, (参考訳) 本研究では,トークン還元によるマルチタスク音声言語モデル(SpeechLM)の効率的な推論を提案する。 視覚やテキストのような他のモダリティとは異なり、音声は独自の時間的依存を持ち、以前の効率的な推論は直接適用されない他のモダリティに作用する。 さらに、長いシーケンスとスパース信号に対する効率的なSpeechLM推定法はほとんど未探索のままである。 次に,FastAdaSPを提案する。FastAdaSPは,効率と性能のトレードオフを改善するために,様々な音声関連タスクに特化して設計された重み付きトークンマージフレームワークである。 WavLLM と Qwen-Audio の実験結果から,本手法は他のベースライン法と比較してSOTA (State-of-the-art- performance trade-off) を実現することが示された。 具体的には、FastAdaSPは、感情認識(ER)や音声質問応答(SQA)といったタスクを劣化させることなく、7倍のメモリ効率と1.83倍の復号スループットを達成した。 コードはhttps://github.com/yichen14/FastAdaSPで入手できる。

In this study, we aim to explore Multitask Speech Language Model (SpeechLM) efficient inference via token reduction. Unlike other modalities such as vision or text, speech has unique temporal dependencies, making previous efficient inference works on other modalities not directly applicable. Furthermore, methods for efficient SpeechLM inference on long sequence and sparse signals remain largely unexplored. Then we propose FastAdaSP, a weighted token merging framework specifically designed for various speech-related tasks to improve the trade-off between efficiency and performance. Experimental results on WavLLM and Qwen-Audio show that our method achieves the state-of-the-art (SOTA) efficiency-performance trade-off compared with other baseline methods. Specifically, FastAdaSP achieved 7x memory efficiency and 1.83x decoding throughput without any degradation on tasks like Emotion Recognition (ER) and Spoken Question Answering (SQA). The code will be available at https://github.com/yichen14/FastAdaSP
翻訳日:2024-11-03 04:35:40 公開日:2024-10-03
# 次世代予測のための変圧器の普遍性理解に向けて

Towards Understanding the Universality of Transformers for Next-Token Prediction ( http://arxiv.org/abs/2410.03011v1 )

ライセンス: Link先を確認
Michael E. Sander, Gabriel Peyré, (参考訳) 因果変換器は、与えられたコンテキストに対して次のトークンを予測するように訓練される。 配列の因果構造を符号化するには自己注意が不可欠であると広く受け入れられているが、この文脈内自己回帰学習能力の背後にある正確なメカニズムはいまだ不明である。 本稿では,この現象の理解に向けて,次世代予測のための変換器の近似能力について検討する。 具体的には、因果変換器のキャパシティを調べ、次のトークン$x_{t+1}$に自動回帰シーケンス$(x_1, \dots, x_t)$をプロンプトとして与え、$x_{t+1} = f(x_t)$, $ f $は各シーケンスに応じて変化するコンテキスト依存関数である。 理論的には、$ f $ が線型であるときや $ (x_t)_{t \geq 1} $ が周期的であるときなど、特定のインスタンスに焦点を当てる。 我々は、因果的カーネル降下法を用いて、写像$f$ in-contextを学習するトランスフォーマー(線形、指数関数、ソフトマックスの注意を伴う)を明示的に構築する。 提案する因果的カーネル降下法は,過去と現在の観測結果のみに基づく$x_{t+1} $を,ヒルベルト空間のKaczmarzアルゴリズムに接続した$ (x_1, \dots, x_t) $と推定可能である。 理論的知見を検証し、より一般的な写像への適用性を示唆する実験結果を示す。

Causal Transformers are trained to predict the next token for a given context. While it is widely accepted that self-attention is crucial for encoding the causal structure of sequences, the precise underlying mechanism behind this in-context autoregressive learning ability remains unclear. In this paper, we take a step towards understanding this phenomenon by studying the approximation ability of Transformers for next-token prediction. Specifically, we explore the capacity of causal Transformers to predict the next token $x_{t+1}$ given an autoregressive sequence $(x_1, \dots, x_t)$ as a prompt, where $ x_{t+1} = f(x_t) $, and $ f $ is a context-dependent function that varies with each sequence. On the theoretical side, we focus on specific instances, namely when $ f $ is linear or when $ (x_t)_{t \geq 1} $ is periodic. We explicitly construct a Transformer (with linear, exponential, or softmax attention) that learns the mapping $f$ in-context through a causal kernel descent method. The causal kernel descent method we propose provably estimates $x_{t+1} $ based solely on past and current observations $ (x_1, \dots, x_t) $, with connections to the Kaczmarz algorithm in Hilbert spaces. We present experimental results that validate our theoretical findings and suggest their applicability to more general mappings $f$.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 数百量子ビットでのQAOA実行戦略

Strategies for running the QAOA at hundreds of qubits ( http://arxiv.org/abs/2410.03015v1 )

ライセンス: Link先を確認
Brandon Augustino, Madelyn Cain, Edward Farhi, Swati Gupta, Sam Gutmann, Daniel Ranard, Eugene Tang, Katherine Van Kirk, (参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)の実行に必要な計算量を削減するための戦略を検討する。 まず、Wurtz et al [Phys.Rev A 104:052419] に従って、インスタンスに依存しない「ツリー」パラメータを事前に選択した標準QAOAを考える。 これらの木パラメータは、大きなガースグラフに対するMaxCut期待を最適化するために選択される。 我々は[Phys.Rev A 103:042612] で予想される木パラメータのパフォーマンス保証を裏付ける広範な数値的な証拠を提供し、木パラメータから得られる近似比が予想される下界をはるかに超え、しばしば完全な最適化に匹敵するものであることを確かめる。 これは、QAOAがパラメータ最適化を必要とせずに、ほぼ最適性能を実現できることを示唆している。 次に、テイトら [Quantum 7:1121] のウォームスタート QAOA を変更する。 QAOAの開始状態は現在、ゲーマン・ウィリアムソン(GW)アルゴリズムの解に付随する最適化された製品状態である。 驚くべきことに、ツリーパラメータは、ウォームスタートQAOAに対して、引き続き良好に機能します。 何百もの頂点を持つランダムな3つの正則グラフに対して、ウォームスタートQAOAの深さ$p \gtrsim 3$のカットは標準GWアルゴリズムに匹敵する。 我々のランダムなインスタンス上の数値は、一般的な性能保証を提供していないが、QAOAがパラメータ最適化を必要とせずに、低い深さで良い解を見出すような、インスタンスのサイズの体系が存在するという実質的な証拠を提供する。 研究された各インスタンスについて、古典的にはカットのQAOA分布の予測サイズを計算し、実際のカットを生成するには量子コンピュータで実行する必要がある。

We explore strategies aimed at reducing the amount of computation, both quantum and classical, required to run the Quantum Approximate Optimization Algorithm (QAOA). First, following Wurtz et al. [Phys.Rev A 104:052419], we consider the standard QAOA with instance-independent "tree" parameters chosen in advance. These tree parameters are chosen to optimize the MaxCut expectation for large girth graphs. We provide extensive numerical evidence supporting the performance guarantee for tree parameters conjectured in [Phys.Rev A 103:042612] and see that the approximation ratios obtained with tree parameters are typically well beyond the conjectured lower bounds, often comparable to performing a full optimization. This suggests that in practice, the QAOA can achieve near-optimal performance without the need for parameter optimization. Next, we modify the warm-start QAOA of Tate et al. [Quantum 7:1121]. The starting state for the QAOA is now an optimized product state associated with a solution of the Goemans-Williamson (GW) algorithm. Surprisingly, the tree parameters continue to perform well for the warm-start QAOA. We find that for random 3-regular graphs with hundreds of vertices, the expected cut obtained by the warm-start QAOA at depth $p \gtrsim 3$ is comparable to that of the standard GW algorithm. Our numerics on random instances do not provide general performance guarantees but do provide substantial evidence that there exists a regime of instance sizes in which the QAOA finds good solutions at low depth without the need for parameter optimization. For each instance studied, we classically compute the expected size of the QAOA distribution of cuts; producing the actual cuts requires running on a quantum computer.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 単一軌道を用いた高速混合型外因性ブロックMDPの学習

Learning a Fast Mixing Exogenous Block MDP using a Single Trajectory ( http://arxiv.org/abs/2410.03016v1 )

ライセンス: Link先を確認
Alexander Levine, Peter Stone, Amy Zhang, (参考訳) 新しい目的や報酬関数に迅速に適応できるエージェントを訓練するためには、シーケンシャルな意思決定環境における効率的な教師なし表現学習が重要である。 Exogenous Block Markov Decision Process (Ex-BMDP) のようなフレームワークは、この表現学習問題を形式化するために提案されている(Efroni et al , 2022b)。 元BMDPフレームワークでは、エージェントの環境に対する高次元的な観察は、エージェントの行動に応じて小さな状態空間内で決定的に進化する制御可能な因子と、時間関連ノイズを表す外因性因子と、非常に複雑である。 表現学習問題の目標は、観測から制御可能な潜在空間、およびこの空間の力学にマッピングするエンコーダを学習することである。 Efroni et al (2022b) は、これは制御可能な潜伏空間のサイズにのみ依存し、ノイズ係数のサイズに依存しないサンプルの複雑さで可能であることを示した。 しかし、この先行研究は、制御可能な潜伏状態が有限の地平線の後特定の開始状態にリセットされるエピソード設定に焦点を当てている。 対照的に、エージェントが単一の連続軌道でしか環境と相互作用できない場合、以前の研究はサンプル-複素性境界を確立していない。 関数近似設定において,1つの軌道からEx-BMDPの制御可能なダイナミクスを学習するための,最初の証明可能なサンプル効率アルゴリズムであるSTEELを提案する。 STEELは、制御可能な潜在空間とエンコーダ関数クラスのサイズにのみ依存するサンプル複雑性を持ち、(最悪の線形では)外因性雑音係数の混合時間に依存する。 我々は,STEELが正解であり,サンプル効率が良いことを証明し,STEELを2つの玩具問題で実証した。 コードは、https://github.com/midi-lab/steel.comで入手できる。

In order to train agents that can quickly adapt to new objectives or reward functions, efficient unsupervised representation learning in sequential decision-making environments can be important. Frameworks such as the Exogenous Block Markov Decision Process (Ex-BMDP) have been proposed to formalize this representation-learning problem (Efroni et al., 2022b). In the Ex-BMDP framework, the agent's high-dimensional observations of the environment have two latent factors: a controllable factor, which evolves deterministically within a small state space according to the agent's actions, and an exogenous factor, which represents time-correlated noise, and can be highly complex. The goal of the representation learning problem is to learn an encoder that maps from observations into the controllable latent space, as well as the dynamics of this space. Efroni et al. (2022b) has shown that this is possible with a sample complexity that depends only on the size of the controllable latent space, and not on the size of the noise factor. However, this prior work has focused on the episodic setting, where the controllable latent state resets to a specific start state after a finite horizon. By contrast, if the agent can only interact with the environment in a single continuous trajectory, prior works have not established sample-complexity bounds. We propose STEEL, the first provably sample-efficient algorithm for learning the controllable dynamics of an Ex-BMDP from a single trajectory, in the function approximation setting. STEEL has a sample complexity that depends only on the sizes of the controllable latent space and the encoder function class, and (at worst linearly) on the mixing time of the exogenous noise factor. We prove that STEEL is correct and sample-efficient, and demonstrate STEEL on two toy problems. Code is available at: https://github.com/midi-lab/steel.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# Tutor CoPilot: リアルタイムのエキスパートをスケールするためのヒューマンAIアプローチ

Tutor CoPilot: A Human-AI Approach for Scaling Real-Time Expertise ( http://arxiv.org/abs/2410.03017v1 )

ライセンス: Link先を確認
Rose E. Wang, Ana T. Ribeiro, Carly D. Robinson, Susanna Loeb, Dora Demszky, (参考訳) 生成AI、特に言語モデル(LM)は、特に専門家へのアクセスが限られている社会的な影響で現実世界のドメインを変革する可能性がある。 例えば、教育において、専門家指導による初等教育者は、有効性には重要であるが、費用がかかるため、大規模に教育の質を向上させるための大きな障壁が生じる。 この挑戦は、質の高い教育から最も多くを得ようとしている下層社会の学生に不当に害を与えている。 本研究では,教師の指導に専門家ライクな指導を与えるために,エキスパート思考のモデルを活用する,新しいヒューマンAIアプローチであるTutor CoPilotを紹介する。 本研究は, 教師900名, 学生1,800名を対象に, 実地教育におけるヒューマンAIシステムのランダム化制御試験を行った最初の事例である。 事前登録された分析計画に従うと、チューターのCoPilotにアクセス可能な家庭教師の学生は4ポイント(p.p.)であり、トピックをマスターする確率が高い(p<0.01)。 特に、低学級の家庭教師の学生は最大の利益を経験し、午後9時までに熟達度が向上した。 我々は、分類器を用いて550,000以上のメッセージを分析し、Tutor CoPilotにアクセス可能な家庭教師は、生徒の理解を促進するために高品質な戦略を使う傾向があり(例えば、指導的質問)、生徒に回答を与える可能性が低いことを発見した。 Tutor CoPilotのインタヴューは、Tutor CoPilotのガイダンスが、チューターが学生のニーズに対応するのにどのように役立つかを強調している。 さらに、Tutor CoPilotの研究は、人間のAIシステムが現実世界のドメインで専門知識をスケールし、スキルのギャップを埋め、高品質の教育がすべての学生に受けられる未来を創り出す方法を示している。

Generative AI, particularly Language Models (LMs), has the potential to transform real-world domains with societal impact, particularly where access to experts is limited. For example, in education, training novice educators with expert guidance is important for effectiveness but expensive, creating significant barriers to improving education quality at scale. This challenge disproportionately harms students from under-served communities, who stand to gain the most from high-quality education. We introduce Tutor CoPilot, a novel Human-AI approach that leverages a model of expert thinking to provide expert-like guidance to tutors as they tutor. This study is the first randomized controlled trial of a Human-AI system in live tutoring, involving 900 tutors and 1,800 K-12 students from historically under-served communities. Following a preregistered analysis plan, we find that students working with tutors that have access to Tutor CoPilot are 4 percentage points (p.p.) more likely to master topics (p<0.01). Notably, students of lower-rated tutors experienced the greatest benefit, improving mastery by 9 p.p. We find that Tutor CoPilot costs only $20 per-tutor annually. We analyze 550,000+ messages using classifiers to identify pedagogical strategies, and find that tutors with access to Tutor CoPilot are more likely to use high-quality strategies to foster student understanding (e.g., asking guiding questions) and less likely to give away the answer to the student. Tutor interviews highlight how Tutor CoPilot's guidance helps tutors to respond to student needs, though they flag issues in Tutor CoPilot, such as generating suggestions that are not grade-level appropriate. Altogether, our study of Tutor CoPilot demonstrates how Human-AI systems can scale expertise in real-world domains, bridge gaps in skills and create a future where high-quality education is accessible to all students.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 生成AI時代における教師の役割と能力の変容--認識・受容・知識・実践

Transforming Teachers' Roles and Agencies in the Era of Generative AI: Perceptions, Acceptance, Knowledge, and Practices ( http://arxiv.org/abs/2410.03018v1 )

ライセンス: Link先を確認
Xiaoming Zhai, (参考訳) 本稿では,ジェネラティブ・人工知能(GenAI)が教員の役割や機関に与える影響を考察し,教師の認識,知識,受容,実践に対処する包括的枠組みを提示する。 ChatGPTのようなGenAI技術が教育環境に統合されるにつれて、教師は、コンテンツ作成、パーソナライズドラーニング、学生のエンゲージメントにおいて、AIが重要な役割を果たしている、進化する教室のダイナミクスに適応する必要がある。 しかし、既存の文献はこれらの要因を個別に扱うことが多く、それらが教育実践にGenAIを効果的に統合する教師の能力にどのように影響するかを見極めている。 本稿では,教師を4つの役割 -Observer, Adopter, Collaborator, Innovator - に分類する枠組みを提案することにより,このギャップを埋める。 継続的な専門的開発と制度的支援の必要性を強調することで、教師が基本的なGenAIユーザから、GenAIシステムと共に知識の共創者へとどのように進化するかを実証する。 この知見は、GenAIが完全な教育能力に到達するためには、教師がその能力を受け入れ、理解するだけでなく、教育戦略に深く統合する必要があることを強調している。 本研究は、教育におけるGenAIに関する文献の増大に寄与し、GenAI導入の複雑さをナビゲートする教師を支援するための実践的意味を提供する。

This paper explores the transformative impact of Generative Artificial Intelligence (GenAI) on teachers' roles and agencies in education, presenting a comprehensive framework that addresses teachers' perceptions, knowledge, acceptance, and practices of GenAI. As GenAI technologies, such as ChatGPT, become increasingly integrated into educational settings, teachers are required to adapt to evolving classroom dynamics, where AI plays a significant role in content creation, personalized learning, and student engagement. However, existing literature often treats these factors in isolation, overlooking how they collectively influence teachers' ability to effectively integrate GenAI into their pedagogical practices. This paper fills this gap by proposing a framework that categorizes teachers into four roles -- Observer, Adopter, Collaborator, and Innovator -- each representing different levels of GenAI engagement, outlining teachers' agencies in GenAI classrooms. By highlighting the need for continuous professional development and institutional support, we demonstrate how teachers can evolve from basic GenAI users to co-creators of knowledge alongside GenAI systems. The findings emphasize that for GenAI to reach its full educational potential, teachers must not only accept and understand its capabilities but also integrate it deeply into their teaching strategies. This study contributes to the growing literature on GenAI in education, offering practical implications for supporting teachers in navigating the complexities of GenAI adoption.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 論文はLLMでレビューされるか? ピアレビューでAIテキストの検出可能性を探る

Is Your Paper Being Reviewed by an LLM? Investigating AI Text Detectability in Peer Review ( http://arxiv.org/abs/2410.03019v1 )

ライセンス: Link先を確認
Sungduk Yu, Man Luo, Avinash Madasu, Vasudev Lal, Phillip Howard, (参考訳) ピアレビューは、公表された科学研究の完全性を保証するための重要なプロセスである。 この過程での信任性は、関係分野の専門家が出版のために提出された写本の長所を慎重に検討する、という前提に基づいている。 大規模言語モデル(LLM)の言語能力の最近の急速な進歩により、ピアレビュープロセスにおける新たな潜在的なリスクは、ネグリジェントレビュアーが論文をレビューする時間を要するプロセスを実行するためにLLMに依存することである。 本研究では,既存のAIテキスト検出アルゴリズムが,人間によって書かれたピアレビューと,最先端のLLMを区別する能力について検討する。 分析の結果,既存の手法では,多くの GPT-4o 書面レビューを偽陽性分類を発生させることなく識別できないことがわかった。 そこで本研究では,GPT-4o書評において,偽陽性分類の低レベルにおいて,既存の手法を超越した新たな検出手法を提案する。 我々の研究は、個々のレビューレベルでAI生成テキストを正確に識別することの難しさを明らかにし、生成AIのこのような非倫理的応用を検出するための新しいツールや方法が緊急に必要であることを強調している。

Peer review is a critical process for ensuring the integrity of published scientific research. Confidence in this process is predicated on the assumption that experts in the relevant domain give careful consideration to the merits of manuscripts which are submitted for publication. With the recent rapid advancements in the linguistic capabilities of large language models (LLMs), a new potential risk to the peer review process is that negligent reviewers will rely on LLMs to perform the often time consuming process of reviewing a paper. In this study, we investigate the ability of existing AI text detection algorithms to distinguish between peer reviews written by humans and different state-of-the-art LLMs. Our analysis shows that existing approaches fail to identify many GPT-4o written reviews without also producing a high number of false positive classifications. To address this deficiency, we propose a new detection approach which surpasses existing methods in the identification of GPT-4o written peer reviews at low levels of false positive classifications. Our work reveals the difficulty of accurately identifying AI-generated text at the individual review level, highlighting the urgent need for new tools and methods to detect this type of unethical application of generative AI.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# リカレントネットワークとインシシトネットワークを持つ迷路の論理的外挿について

On Logical Extrapolation for Mazes with Recurrent and Implicit Networks ( http://arxiv.org/abs/2410.03020v1 )

ライセンス: Link先を確認
Brandon Knutson, Amandin Chyba Rabeendran, Michael Ivanitskiy, Jordan Pettyjohn, Cecilia Diniz-Behn, Samy Wu Fung, Daniel McKenzie, (参考訳) 最近の研究は、特定のニューラルネットワークアーキテクチャー、特にリカレントニューラルネットワーク(RNN)と暗黙ニューラルネットワーク(INN)が論理外挿が可能であることを示唆している。 すなわち、特定のタスクの簡単なインスタンス上でそのようなネットワークをトレーニングし、同じタスクのより難しいインスタンスにうまく適用することができる。 本稿では,この考え方を再考し,それを実証する。 (i)外挿の能力は、前述したほど頑丈ではない。 具体的には、迷路解決タスクの文脈において、INN(およびいくつかのRNN)がより大きな迷路インスタンスに一般化できる一方で、迷路サイズ以外の困難さの軸に沿って一般化することができないことを示す。 (i)不定点(例えば、テストしたINN)に明示的に収束するように訓練されたモデルは、外挿時にそうする傾向があり、一方(例えば、テストしたRNN)でないモデルは、その問題を正しく解いたとしても、制限サイクルのようなよりエキゾチックな制限行動を示す可能性がある。 私たちの結果は 一 困難ある軸に沿って容易に外挿するが、他人と戦わなければならない理由を更に研究し、 (II)外挿の力学を解析することにより、より効率的で解釈可能な論理外挿装置の設計に関する洞察が得られる。

Recent work has suggested that certain neural network architectures-particularly recurrent neural networks (RNNs) and implicit neural networks (INNs) are capable of logical extrapolation. That is, one may train such a network on easy instances of a specific task and then apply it successfully to more difficult instances of the same task. In this paper, we revisit this idea and show that (i) The capacity for extrapolation is less robust than previously suggested. Specifically, in the context of a maze-solving task, we show that while INNs (and some RNNs) are capable of generalizing to larger maze instances, they fail to generalize along axes of difficulty other than maze size. (ii) Models that are explicitly trained to converge to a fixed point (e.g. the INN we test) are likely to do so when extrapolating, while models that are not (e.g. the RNN we test) may exhibit more exotic limiting behaviour such as limit cycles, even when they correctly solve the problem. Our results suggest that (i) further study into why such networks extrapolate easily along certain axes of difficulty yet struggle with others is necessary, and (ii) analyzing the dynamics of extrapolation may yield insights into designing more efficient and interpretable logical extrapolators.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# Pixel Shuffler:Pixelの再配置による簡単な画像変換

PixelShuffler: A Simple Image Translation Through Pixel Rearrangement ( http://arxiv.org/abs/2410.03021v1 )

ライセンス: Link先を確認
Omar Zamzam, (参考訳) MRIスキャンからCTスキャンやMRIコントラストへの変換、画像のカラー化、超高解像度化、ドメイン適応、スケッチやセマンティックマップからのフォトリアリスティック画像の生成など、幅広いユースケースを持つコンピュータビジョンのトピックである。 画像スタイル変換はまた、画像から画像への変換の応用として広く研究されており、その目的は、ある画像の内容と他の画像のスタイルを組み合わせるイメージを合成することである。 既存の最先端の手法は、拡散モデルや言語モデルを含む複雑なニューラルネットワークを使って高品質なスタイルの転送を実現するが、これらの手法は計算コストが高く、実装も複雑である。 本稿では,画像から画像への変換問題に対処する新しいピクセルシャッフル手法を提案する。 提案手法はスタイル画像の画素をシャッフルすることでスタイル転送にアプローチし、シャッフル画像とコンテンツ画像との相互情報を最大化する。 このアプローチは、内容画像の構造的詳細がスタイリングされた出力に保持されることを保証しながら、スタイル画像の色を本質的に保存する。 本稿では,コンテンツ保存のためのLPIPS(Learred Perceptual Image Patch similarity)と,スタイル類似性のためのFr\echet Inception Distance(FID)スコアを用いて,最先端技術に匹敵する結果が得られることを示す。 提案した画素シャッフル法は,画像スタイルの効率向上に期待できる代替手段を提供するとともに,画像から画像への変換タスクのユーザビリティ向上を約束する。

Image-to-image translation is a topic in computer vision that has a vast range of use cases ranging from medical image translation, such as converting MRI scans to CT scans or to other MRI contrasts, to image colorization, super-resolution, domain adaptation, and generating photorealistic images from sketches or semantic maps. Image style transfer is also a widely researched application of image-to-image translation, where the goal is to synthesize an image that combines the content of one image with the style of another. Existing state-of-the-art methods often rely on complex neural networks, including diffusion models and language models, to achieve high-quality style transfer, but these methods can be computationally expensive and intricate to implement. In this paper, we propose a novel pixel shuffle method that addresses the image-to-image translation problem generally with a specific demonstrative application in style transfer. The proposed method approaches style transfer by shuffling the pixels of the style image such that the mutual information between the shuffled image and the content image is maximized. This approach inherently preserves the colors of the style image while ensuring that the structural details of the content image are retained in the stylized output. We demonstrate that this simple and straightforward method produces results that are comparable to state-of-the-art techniques, as measured by the Learned Perceptual Image Patch Similarity (LPIPS) loss for content preservation and the Fr\'echet Inception Distance (FID) score for style similarity. Our experiments validate that the proposed pixel shuffle method achieves competitive performance with significantly reduced complexity, offering a promising alternative for efficient image style transfer, as well as a promise in usability of the method in general image-to-image translation tasks.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 確率的時系列予測のためのガウス過程前の流れマッチング

Flow Matching with Gaussian Process Priors for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2410.03024v1 )

ライセンス: Link先を確認
Marcel Kollovieh, Marten Lienen, David Lüdke, Leo Schwinn, Stephan Günnemann, (参考訳) 生成モデリングの最近の進歩、特に拡散モデルにより、時系列モデリングの新しい方向性が開かれ、予測と合成における最先端のパフォーマンスが達成されている。 しかし、データと先行分布が著しく異なるため、単純で固定された事前の拡散モデルへの依存は生成過程を複雑にする。 本稿では、ガウス過程、最適輸送経路、データ依存の事前分布を組み合わせることで、生成問題を単純化する時系列の条件付きフローマッチング(CFM)モデルであるTSFlowを紹介する。 ガウス過程を(条件付き)組み込むことで、TSFlowは以前の分布をデータの時間構造とより密に調整し、非条件生成と条件生成の両方を強化する。 さらに,非条件付きモデルを用いた確率的予測を可能にする条件付き事前サンプリングを提案する。 実世界の8つのデータセットに対する実験的な評価では、TSFlowの生成能力を実証し、高品質な無条件サンプルを生成した。 最後に、条件付きモデルと非条件付きモデルの両方が、ベンチマークの予測において、他の8つのデータセットの6つのメソッドを上回り、競合する結果が得られることを示す。

Recent advancements in generative modeling, particularly diffusion models, have opened new directions for time series modeling, achieving state-of-the-art performance in forecasting and synthesis. However, the reliance of diffusion-based models on a simple, fixed prior complicates the generative process since the data and prior distributions differ significantly. We introduce TSFlow, a conditional flow matching (CFM) model for time series that simplifies the generative problem by combining Gaussian processes, optimal transport paths, and data-dependent prior distributions. By incorporating (conditional) Gaussian processes, TSFlow aligns the prior distribution more closely with the temporal structure of the data, enhancing both unconditional and conditional generation. Furthermore, we propose conditional prior sampling to enable probabilistic forecasting with an unconditionally trained model. In our experimental evaluation on eight real-world datasets, we demonstrate the generative capabilities of TSFlow, producing high-quality unconditional samples. Finally, we show that both conditionally and unconditionally trained models achieve competitive results in forecasting benchmarks, surpassing other methods on 6 out of 8 datasets.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# 要約における文脈の影響と幻覚の特徴づけ

Characterizing Context Influence and Hallucination in Summarization ( http://arxiv.org/abs/2410.03026v1 )

ライセンス: Link先を確認
James Flemings, Wanrong Zhang, Bo Jiang, Zafar Takhirov, Murali Annavaram, (参考訳) 大規模言語モデル(LLM)は多くの下流タスクで顕著なパフォーマンスを達成したが、それらの用途は2つの重要な懸念を提起した。 一つは、LLMが関連する文脈情報と矛盾するコンテンツを生成して幻覚化できることです。 多くの先行研究は個々の関心事について独立して研究してきたが、これらを同時に研究することはなかった。 さらに、プライバシを重視したオープンエンド世代における提供コンテキストの影響を監査する。 この目的のために、要約中の文脈情報の影響と幻覚を包括的に特徴づける。 文脈影響と文脈影響復号 (CID) の定義を導入し, 文脈の増幅(事前知識の分解による)と, 事前知識に対する分布外である文脈が, LLMに対する文脈の影響を増大させることを示す。 さらに,文脈の影響が,CIDのプライベート情報漏洩の少ない境界となることを示す。 LLaMA 3 の CNN-DM における F1 ROGUE-L スコアを正規復号よりも$\textbf{10}$% 向上させる実験結果から,解析結果の相関付けを行った。 さらに,(1)モデルキャパシティ,(2)コンテキストサイズ,(3)現在の応答の長さ,(4)異なるトークン$n$-gramの影響を経験的に評価した。 私たちのコードはここでアクセスできます。

Although Large Language Models (LLMs) have achieved remarkable performance in numerous downstream tasks, their ubiquity has raised two significant concerns. One is that LLMs can hallucinate by generating content that contradicts relevant contextual information; the other is that LLMs can inadvertently leak private information due to input regurgitation. Many prior works have extensively studied each concern independently, but none have investigated them simultaneously. Furthermore, auditing the influence of provided context during open-ended generation with a privacy emphasis is understudied. To this end, we comprehensively characterize the influence and hallucination of contextual information during summarization. We introduce a definition for context influence and Context-Influence Decoding (CID), and then we show that amplifying the context (by factoring out prior knowledge) and the context being out of distribution with respect to prior knowledge increases the context's influence on an LLM. Moreover, we show that context influence gives a lower bound of the private information leakage of CID. We corroborate our analytical findings with experimental evaluations that show improving the F1 ROGUE-L score on CNN-DM for LLaMA 3 by $\textbf{10}$% over regular decoding also leads to $\textbf{1.5x}$ more influence by the context. Moreover, we empirically evaluate how context influence and hallucination are affected by (1) model capacity, (2) context size, (3) the length of the current response, and (4) different token $n$-grams of the context. Our code can be accessed here: https://github.com/james-flemings/context_influence.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# MLP-KAN: 深層表現と関数学習の統合

MLP-KAN: Unifying Deep Representation and Function Learning ( http://arxiv.org/abs/2410.03027v1 )

ライセンス: Link先を確認
Yunhong He, Yifeng Xie, Zhengqing Yuan, Lichao Sun, (参考訳) 近年の表現学習と関数学習の進歩は、人工知能の様々な領域において大きな可能性を証明している。 しかし,これらのパラダイムを効果的に統合することは,特に,データセットの特徴に基づいた表現学習モデルや関数学習モデルの適用を手作業で決めなければならない場合において,大きな課題となる。 この問題に対処するために,手動モデル選択を不要にするための統一手法であるMLP-KANを導入する。 表現学習のためのMLP(Multi-Layer Perceptrons)と、Mixture-of-Experts(MoE)アーキテクチャ内の関数学習のためのKAN(Kolmogorov-Arnold Networks)を統合することで、MLP-KANはタスクの特定の特性に動的に適応し、最適な性能を確保する。 トランスフォーマーベースのフレームワークに埋め込まれた我々の研究は、さまざまなドメインにまたがる4つの広く使われているデータセットにおいて顕著な結果をもたらす。 広範囲な実験的評価は、その優れた汎用性を示し、深層表現と関数学習の両方で競争力のある性能を提供する。 これらの知見は、MLP-KANがモデル選択プロセスを単純化し、様々な領域にわたって包括的で適応可能なソリューションを提供する可能性を強調している。 コードとウェイトは \url{https://github.com/DLYuanGod/MLP-KAN} で利用可能です。

Recent advancements in both representation learning and function learning have demonstrated substantial promise across diverse domains of artificial intelligence. However, the effective integration of these paradigms poses a significant challenge, particularly in cases where users must manually decide whether to apply a representation learning or function learning model based on dataset characteristics. To address this issue, we introduce MLP-KAN, a unified method designed to eliminate the need for manual model selection. By integrating Multi-Layer Perceptrons (MLPs) for representation learning and Kolmogorov-Arnold Networks (KANs) for function learning within a Mixture-of-Experts (MoE) architecture, MLP-KAN dynamically adapts to the specific characteristics of the task at hand, ensuring optimal performance. Embedded within a transformer-based framework, our work achieves remarkable results on four widely-used datasets across diverse domains. Extensive experimental evaluation demonstrates its superior versatility, delivering competitive performance across both deep representation and function learning tasks. These findings highlight the potential of MLP-KAN to simplify the model selection process, offering a comprehensive, adaptable solution across various domains. Our code and weights are available at \url{https://github.com/DLYuanGod/MLP-KAN}.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# ダイナミックスパーストレーニングとデンストレーニング--画像破壊ロバストネスにおける予期せぬ勝者

Dynamic Sparse Training versus Dense Training: The Unexpected Winner in Image Corruption Robustness ( http://arxiv.org/abs/2410.03030v1 )

ライセンス: Link先を確認
Boqian Wu, Qiao Xiao, Shunxin Wang, Nicola Strisciuglio, Mykola Pechenizkiy, Maurice van Keulen, Decebal Constantin Mocanu, Elena Mocanu, (参考訳) 一般的に、動的スパーストレーニングは、おそらく分類タスクの精度性能のいくつかのコストにおいて、人工知能ニューラルネットワークのスケーラビリティと効率の新しい時代への扉を開くと認識されている。 同時に、Dense Trainingは、画像の破損に対する堅牢性を最大化したい場合、人工知能をトレーニングするための"事実上の"アプローチとして広く受け入れられている。 本稿では,この一般的な実践に疑問を呈する。 その結果,動的スパース訓練法は,特に効率面が主目的とはみなされない場合(すなわち,10%から50%までの空間レベル)において,資源コストの増大(あるいは削減)を伴わずに,常にダンストレーニングを上回り得ると主張している。 画像とビデオの2つのタイプのデータに対して,コンピュータビジョンのための従来型および現代的なディープラーニングアーキテクチャと,広く研究されている3つのダイナミックスパーストレーニングアルゴリズムを用いて,クレームを検証した。 この結果から、ダイナミックスパーストレーニングの新たなメリットが明らかとなり、最先端技術を超えて、ディープラーニングの堅牢性を改善する新たな可能性が高まった。

It is generally perceived that Dynamic Sparse Training opens the door to a new era of scalability and efficiency for artificial neural networks at, perhaps, some costs in accuracy performance for the classification task. At the same time, Dense Training is widely accepted as being the "de facto" approach to train artificial neural networks if one would like to maximize their robustness against image corruption. In this paper, we question this general practice. Consequently, we claim that, contrary to what is commonly thought, the Dynamic Sparse Training methods can consistently outperform Dense Training in terms of robustness accuracy, particularly if the efficiency aspect is not considered as a main objective (i.e., sparsity levels between 10% and up to 50%), without adding (or even reducing) resource cost. We validate our claim on two types of data, images and videos, using several traditional and modern deep learning architectures for computer vision and three widely studied Dynamic Sparse Training algorithms. Our findings reveal a new yet-unknown benefit of Dynamic Sparse Training and open new possibilities in improving deep learning robustness beyond the current state of the art.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# CounterQuill:オンライン対音声書記における人間とAIの連携の可能性を探る

CounterQuill: Investigating the Potential of Human-AI Collaboration in Online Counterspeech Writing ( http://arxiv.org/abs/2410.03032v1 )

ライセンス: Link先を確認
Xiaohan Ding, Kaike Ping, Uma Sushmitha Gunturi, Buse Carik, Sophia Stil, Lance T Wilhelm, Taufiq Daryanto, James Hawdon, Sang Won Lee, Eugenia H Rho, (参考訳) オンラインヘイトスピーチはソーシャルメディアプラットフォームでますます広まり、個人や社会に害を与えている。 コンテンツモデレーションを通じてこの問題に対処する努力が続けられている一方で、代替ソリューションとしてのユーザー主導の対応の可能性はいまだ検討されていない。 既存のカウンター音声法は、報復を恐れたり、スキルに関連した障壁に直面することが多い。 これらの課題に対処するため,我々は,AIを利用した音声合成システムであるCounterQuillを紹介した。 CounterQuillは,(1)ヘイトスピーチや反音声を理解するための学習セッション,(2)ヘイトスピーチの重要要素を特定し,対音声戦略を探求するブレーンストーミングセッション,(3)ユーザがCounterQuillと対音声の草案作成と洗練を可能にする共同執筆セッション,の3段階のプロセスを提供する。 被験者20名を対象に,ChatGPTと比較してCounterQuillの評価を行った。 その結果、CounterQuillのガイダンスとコラボレーティブな書き込みプロセスにより、ユーザーは共著のカウンター音声よりも強いオーナシップを得られることがわかった。 ユーザーはCounterQuillを執筆パートナーと認識し、ChatGPTで書かれたものに比べて、共同執筆のカウンター音声をオンラインで投稿する意思があった。

Online hate speech has become increasingly prevalent on social media platforms, causing harm to individuals and society. While efforts have been made to combat this issue through content moderation, the potential of user-driven counterspeech as an alternative solution remains underexplored. Existing counterspeech methods often face challenges such as fear of retaliation and skill-related barriers. To address these challenges, we introduce CounterQuill, an AI-mediated system that assists users in composing effective and empathetic counterspeech. CounterQuill provides a three-step process: (1) a learning session to help users understand hate speech and counterspeech; (2) a brainstorming session that guides users in identifying key elements of hate speech and exploring counterspeech strategies; and (3) a co-writing session that enables users to draft and refine their counterspeech with CounterQuill. We conducted a within-subjects user study with 20 participants to evaluate CounterQuill in comparison to ChatGPT. Results show that CounterQuill's guidance and collaborative writing process provided users a stronger sense of ownership over their co-authored counterspeech. Users perceived CounterQuill as a writing partner and thus were more willing to post the co-written counterspeech online compared to the one written with ChatGPT.
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# SPINE: 未構造化環境における不完全な自然言語仕様を持つミッションのオンラインセマンティックプランニング

SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments ( http://arxiv.org/abs/2410.03035v1 )

ライセンス: Link先を確認
Zachary Ravichandran, Varun Murali, Mariliza Tzes, George J. Pappas, Vijay Kumar, (参考訳) ロボットの能力が増すにつれ、ユーザーはハイレベルなミッションを記述し、そのギャップをロボットに埋めたいだろう。 多くの現実的な環境では、プレビルドされたマップは入手が困難であるため、実行にはミッションに特有の探索とマッピングが必要である。 ユーザがロボットを指揮する緊急対応シナリオを考えてみましょう。 ロボットは、事前やその他の状況に基づいて、関連する意味論(被害者など)や調査対象(被害地域)を推論し、その計画をオンラインで探索し、精査する必要がある。 これらのミッションは不完全で、つまりサブタスクと意味論を暗示している。 多くのセマンティックプランニング手法がオンラインで運用されているが、一般的にはオブジェクト探索や探索といった特定のタスクのために設計されている。 近年、Large Language Models (LLMs) は、自然言語で記述されたさまざまなロボットタスクに対して、強力な文脈推論を実証している。 しかし、既存のLCMプランナーは、通常、オンライン計画や複雑なミッションを考慮せず、関連するサブタスクは、事前に構築された地図またはユーザによって提供される。 本研究では,これらの制約をSPINE(非構造化環境における不完全な自然言語仕様を持つミッションのためのオンラインセマンティックプランナー)経由で解決する。 SPINEはLLMを使用して、ミッションによって暗示されるサブタスクを推論し、後退する水平線の枠組みでこれらのサブタスクを実現する。 タスクは安全のために自動的に検証され、新しい観察でオンラインで洗練されます。 シミュレーションおよび実環境設定におけるSPINEの評価を行った。 評価ミッションは、20,000m$^2$以上の乱雑な屋外環境における意味論的推論と探索の複数のステップを必要とする。 単エージェントおよび航空地上チームにおける競争ベースラインに対するSPINEの評価を行った。 プロジェクトページ(https://zacravichandran.github.io/SPINE)でビデオとソフトウェアをご覧ください。

As robots become increasingly capable, users will want to describe high-level missions and have robots fill in the gaps. In many realistic settings, pre-built maps are difficult to obtain, so execution requires exploration and mapping that are necessary and specific to the mission. Consider an emergency response scenario where a user commands a robot, "triage impacted regions." The robot must infer relevant semantics (victims, etc.) and exploration targets (damaged regions) based on priors or other context, then explore and refine its plan online. These missions are incompletely specified, meaning they imply subtasks and semantics. While many semantic planning methods operate online, they are typically designed for well specified tasks such as object search or exploration. Recently, Large Language Models (LLMs) have demonstrated powerful contextual reasoning over a range of robotic tasks described in natural language. However, existing LLM planners typically do not consider online planning or complex missions; rather, relevant subtasks are provided by a pre-built map or a user. We address these limitations via SPINE (online Semantic Planner for missions with Incomplete Natural language specifications in unstructured Environments). SPINE uses an LLM to reason about subtasks implied by the mission then realizes these subtasks in a receding horizon framework. Tasks are automatically validated for safety and refined online with new observations. We evaluate SPINE in simulation and real-world settings. Evaluation missions require multiple steps of semantic reasoning and exploration in cluttered outdoor environments of over 20,000m$^2$ area. We evaluate SPINE against competitive baselines in single-agent and air-ground teaming applications. Please find videos and software on our project page: https://zacravichandran.github.io/SPINE
翻訳日:2024-11-03 04:25:56 公開日:2024-10-03
# ニューラル音声表現のテキスト的特徴と音響的特徴

Disentangling Textual and Acoustic Features of Neural Speech Representations ( http://arxiv.org/abs/2410.03037v1 )

ライセンス: Link先を確認
Hosein Mohebbi, Grzegorz Chrupała, Willem Zuidema, Afra Alishahi, Ivan Titov, (参考訳) ニューラルネットワークモデルは、深く絡み合った内部表現を構築し、分散符号化における様々な特徴(例えば、基本周波数、大音量、構文カテゴリー、意味的内容)をキャプチャする。 この複雑さは、そのような表現がテキストや音響情報に依存している範囲を追跡することや、重要な現実世界のアプリケーションにおいてプライバシー上のリスク(性別や話者のアイデンティティなど)を引き起こすような音響的特徴の符号化を抑えることを困難にしている。 本稿では,複雑な音声表現を,コンテンツ(テキストとして書き起こせるもの)と,特定の下流タスクに関連する音響的特徴を符号化する2つの異なる構成要素に分割するアンタングル化フレームワークを提案するために,インフォメーション・ボトルネックの原理を基礎として構築する。 本稿では,各モデル層におけるテキスト・音響的特徴の寄与を定量的に評価し,感情認識と話者識別に我々の枠組みを適用して評価する。 さらに,テキストと音響の両面から,最も有能な音声フレーム表現を識別するための帰属手法として,我々のゆがみフレームワークの適用について検討する。

Neural speech models build deeply entangled internal representations, which capture a variety of features (e.g., fundamental frequency, loudness, syntactic category, or semantic content of a word) in a distributed encoding. This complexity makes it difficult to track the extent to which such representations rely on textual and acoustic information, or to suppress the encoding of acoustic features that may pose privacy risks (e.g., gender or speaker identity) in critical, real-world applications. In this paper, we build upon the Information Bottleneck principle to propose a disentanglement framework that separates complex speech representations into two distinct components: one encoding content (i.e., what can be transcribed as text) and the other encoding acoustic features relevant to a given downstream task. We apply and evaluate our framework to emotion recognition and speaker identification downstream tasks, quantifying the contribution of textual and acoustic features at each model layer. Additionally, we explore the application of our disentanglement framework as an attribution method to identify the most salient speech frame representations from both the textual and acoustic perspectives.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# 未知の発見:個人化拡散モデルによるトレーニングデータの抽出

Revealing the Unseen: Guiding Personalized Diffusion Models to Expose Training Data ( http://arxiv.org/abs/2410.03039v1 )

ライセンス: Link先を確認
Xiaoyu Wu, Jiaru Zhang, Steven Wu, (参考訳) 拡散モデル(DM)は高度な画像生成ツールへと進化し、特に、訓練済みのDMを小さな画像に微調整して特定のスタイルやオブジェクトをキャプチャする数ショットの微調整を行う。 多くの人がこれらのパーソナライズされたチェックポイントをオンラインでアップロードし、CivitaiやHuggingFaceといったコミュニティを育てている。 しかし、モデル所有者は、微調整されたチェックポイントをリリースすることによって、データ漏洩の潜在的なリスクを見落としてしまう可能性がある。 さらに、微調整中に不正なデータが使用される場合、著作権侵害に関する懸念が生じる。 本稿では,「オンライン共有されたこれらの微調整DMから学習データを抽出するのか?」と問う。 抽出が成功すると、データ漏洩の脅威だけでなく、著作権侵害の明確な証拠も提示される。 そこで本研究では,微調整データを抽出するフレームワークであるFineXtractを提案する。 本手法は,モデルが学習した分布の段階的変化として微調整を近似する。 微調整前後のモデルを外挿することにより、微調整データ分布内の高確率領域への生成を導出する。 次に,この外挿法を用いて生成した画像から最も確率の高い画像を抽出するために,クラスタリングアルゴリズムを適用した。 WikiArtやDreamBoothなどのデータセットで微調整されたDMと実世界のチェックポイントを用いた実験は,本手法の有効性を検証し,ほとんどの場合において約20%の微調整データを抽出し,ベースライン性能を大幅に上回った。

Diffusion Models (DMs) have evolved into advanced image generation tools, especially for few-shot fine-tuning where a pretrained DM is fine-tuned on a small set of images to capture specific styles or objects. Many people upload these personalized checkpoints online, fostering communities such as Civitai and HuggingFace. However, model owners may overlook the potential risks of data leakage by releasing their fine-tuned checkpoints. Moreover, concerns regarding copyright violations arise when unauthorized data is used during fine-tuning. In this paper, we ask: "Can training data be extracted from these fine-tuned DMs shared online?" A successful extraction would present not only data leakage threats but also offer tangible evidence of copyright infringement. To answer this, we propose FineXtract, a framework for extracting fine-tuning data. Our method approximates fine-tuning as a gradual shift in the model's learned distribution -- from the original pretrained DM toward the fine-tuning data. By extrapolating the models before and after fine-tuning, we guide the generation toward high-probability regions within the fine-tuned data distribution. We then apply a clustering algorithm to extract the most probable images from those generated using this extrapolated guidance. Experiments on DMs fine-tuned with datasets such as WikiArt, DreamBooth, and real-world checkpoints posted online validate the effectiveness of our method, extracting approximately 20% of fine-tuning data in most cases, significantly surpassing baseline performance.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# Geometry is all you need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models

Geometry is All You Need: A Unified Taxonomy of Matrix and Tensor Factorization for Compression of Generative Language Models ( http://arxiv.org/abs/2410.03040v1 )

ライセンス: Link先を確認
Mingxue Xu, Sadia Sharmin, Danilo P. Mandic, (参考訳) 自然言語処理(NLP)モデルのための行列およびテンソル誘導パラメトリゼーションは、モデルの体系的効率向上に根本的に有用である。 しかし、これらの2つの代数構造と言語モデルのパラメトリゼーションの間の内部リンクは理解されていない。 また、既存の行列とテンソルの研究は数学が重く、機械学習(ML)やNLPの研究概念から遠く離れている。 これらの2つの問題により、モデルパラメトリゼーションのための行列とテンソルの最近の進歩は、十分に構造化された統一的なアプローチではなく、行列/テンソルおよびNLP研究から分離されたコンポーネントの緩い集合のようなものであり、さらにアルゴリズム設計を妨げる。 そこで本研究では,MLおよびNLP研究において,行列/テンソル圧縮アプローチとモデル圧縮概念を橋渡しする統一分類法を提案する。 すなわち、行列/テンソルとML/NLPの概念(例えば注意機構)を1つの傘の下で再構成するために、線型代数の基本的な概念である部分空間(これは幾何学代数の中核概念でもある)を採用する。 このように、我々の部分空間の形式化に基づいて、典型的な行列とテンソル分解アルゴリズムは幾何変換として解釈できる。 最後に、行列またはテンソル誘導言語モデル圧縮に関する最近の文献を再考し、それらの中核となるアイデアを言い換えて比較し、現在の研究ギャップと潜在的な解決策を指摘する。

Matrix and tensor-guided parametrization for Natural Language Processing (NLP) models is fundamentally useful for the improvement of the model's systematic efficiency. However, the internal links between these two algebra structures and language model parametrization are poorly understood. Also, the existing matrix and tensor research is math-heavy and far away from machine learning (ML) and NLP research concepts. These two issues result in the recent progress on matrices and tensors for model parametrization being more like a loose collection of separate components from matrix/tensor and NLP studies, rather than a well-structured unified approach, further hindering algorithm design. To this end, we propose a unified taxonomy, which bridges the matrix/tensor compression approaches and model compression concepts in ML and NLP research. Namely, we adopt an elementary concept in linear algebra, that of a subspace, which is also the core concept in geometric algebra, to reformulate the matrix/tensor and ML/NLP concepts (e.g. attention mechanism) under one umbrella. In this way, based on our subspace formalization, typical matrix and tensor decomposition algorithms can be interpreted as geometric transformations. Finally, we revisit recent literature on matrix- or tensor-guided language model compression, rephrase and compare their core ideas, and then point out the current research gap and potential solutions.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# Minmax Trend Filtering: Pointwise Min Max Optimizationによる局所適応型非パラメトリック回帰法

Minmax Trend Filtering: A Locally Adaptive Nonparametric Regression Method via Pointwise Min Max Optimization ( http://arxiv.org/abs/2410.03041v1 )

ライセンス: Link先を確認
Sabyasachi Chatterjee, (参考訳) トレンドフィルタは局所的な適応性を示す非パラメトリック回帰法であり、古典的な線形滑らか化手法のホストとは対照的である。 しかし、文献における局所適応性の定義については一致していないようである。 ここで答えたい疑問は、Fused Lasso あるいは Total Variation Denoising は、どのようにして局所的に適応する、オーダー 0$ のトレンドフィルタなのか、ということです。 この質問に答えるために、我々はまず、ペナル化局所平均の min-max/max-min 最適化の観点から、Fused Lasso 推定器の新しい点式を導出する。 この点の表現は新しいようで、フセド・ラッソの局所的な適応性について具体的な説明を与える。 任意の点における融合ラッソの推定誤差は、バイアスと分散が通常とわずかに異なる意味を持つ最良の(局所的な)バイアス分散トレードオフによって制限される。 次に、ペナル化局所多項式回帰の min-max/max-min 最適化の観点から、ポイントワイズで定義されるFused Lasso の高次多項式バージョンを提案する。 これらは新しい非パラメトリック回帰法であり、非パラメトリック回帰ツールボックスの既存の方法とは異なる。 この推定器をMinmax Trend Filteringと呼ぶ。 彼らは、任意の点における推定誤差が最良の(局所的な)バイアス分散トレードオフによって境界づけられているという意味で、局所適応性の概念を楽しみ続けている。

Trend Filtering is a nonparametric regression method which exhibits local adaptivity, in contrast to a host of classical linear smoothing methods. However, there seems to be no unanimously agreed upon definition of local adaptivity in the literature. A question we seek to answer here is how exactly is Fused Lasso or Total Variation Denoising, which is Trend Filtering of order $0$, locally adaptive? To answer this question, we first derive a new pointwise formula for the Fused Lasso estimator in terms of min-max/max-min optimization of penalized local averages. This pointwise representation appears to be new and gives a concrete explanation of the local adaptivity of Fused Lasso. It yields that the estimation error of Fused Lasso at any given point is bounded by the best (local) bias variance tradeoff where bias and variance have a slightly different meaning than usual. We then propose higher order polynomial versions of Fused Lasso which are defined pointwise in terms of min-max/max-min optimization of penalized local polynomial regressions. These appear to be new nonparametric regression methods, different from any existing method in the nonparametric regression toolbox. We call these estimators Minmax Trend Filtering. They continue to enjoy the notion of local adaptivity in the sense that their estimation error at any given point is bounded by the best (local) bias variance tradeoff.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# FedPeWS: 不均一なフェデレーション学習のためのサブネット経由の個人化ワームアップ

FedPeWS: Personalized Warmup via Subnetworks for Enhanced Heterogeneous Federated Learning ( http://arxiv.org/abs/2410.03042v1 )

ライセンス: Link先を確認
Nurbek Tastan, Samuel Horvath, Martin Takac, Karthik Nandakumar, (参考訳) 統計的データの均一性は、連邦学習(FL)における収束の重要な障壁である。 先行研究は最適化目標の改善を通じて異種FLを進化させてきたが、これらの手法は協力する参加者の間に極端なデータ不均一性が存在する場合に不足する。 極端なデータの不均一性の下での収束は、最初のコラボレーションラウンドの参加者からの矛盾する更新が集約されることによって、主に妨げられる、という仮説を立てる。 この問題を解決するために、各参加者がパーソナライズされたマスクを学習し、フルモデルのサブネットワークのみを更新するウォームアップフェーズを提案する。 このパーソナライズされたウォームアップにより、参加者はまず、データの異質性に合わせて調整された特定のサブネットの学習に集中することができる。 ウォームアップフェーズの後、参加者はすべてのパラメータが通信される標準のフェデレーション最適化に戻る。 我々は,提案手法をサブネットワーク(FedPeWS)アプローチで適用することにより,標準的なフェデレーション最適化手法よりも精度と収束速度を向上させることを実証的に実証した。

Statistical data heterogeneity is a significant barrier to convergence in federated learning (FL). While prior work has advanced heterogeneous FL through better optimization objectives, these methods fall short when there is extreme data heterogeneity among collaborating participants. We hypothesize that convergence under extreme data heterogeneity is primarily hindered due to the aggregation of conflicting updates from the participants in the initial collaboration rounds. To overcome this problem, we propose a warmup phase where each participant learns a personalized mask and updates only a subnetwork of the full model. This personalized warmup allows the participants to focus initially on learning specific subnetworks tailored to the heterogeneity of their data. After the warmup phase, the participants revert to standard federated optimization, where all parameters are communicated. We empirically demonstrate that the proposed personalized warmup via subnetworks (FedPeWS) approach improves accuracy and convergence speed over standard federated optimization methods.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# 機械学習の可能性を理解するために

Towards Understanding the Feasibility of Machine Unlearning ( http://arxiv.org/abs/2410.03043v1 )

ライセンス: Link先を確認
Mahtab Sarvmaili, Hassan Sajjad, Ga Wu, (参考訳) 最近のプライバシー規制に照らして、機械学習は研究コミュニティに大きな注目を集めている。 しかし、近年の研究では、学習しない個別のトレーニングサンプルの様々な難しさを見越して、学習しないアプローチの全体的な成功を主に評価している。 結果として、機械学習の幅広い実現可能性はまだ未調査のままである。 本稿では,対象モデルの特性とデータ分布を協調的に考慮し,学習の難しさを定量化するための新しい指標について述べる。 具体的には、未学習を成功させるために必要な条件を評価するためのヒューリスティックスを提案し、異なるトレーニングサンプル間での未学習難易度の変化を調べ、最も難解なサンプルを特定するためのランキングメカニズムを提案する。 我々は,学習困難度を評価するためのヒューリスティックとして,各モデルとデータセットに合わせたパラメータ化カーネル関数であるカーネル化スタイン離散性(KSD)の有効性を強調した。 提案手法は、複数の分類タスクと確立された機械学習アルゴリズムを通じて検証され、多様なシナリオにおける未学習操作の実現可能性を示す。

In light of recent privacy regulations, machine unlearning has attracted significant attention in the research community. However, current studies predominantly assess the overall success of unlearning approaches, overlooking the varying difficulty of unlearning individual training samples. As a result, the broader feasibility of machine unlearning remains under-explored. This paper presents a set of novel metrics for quantifying the difficulty of unlearning by jointly considering the properties of target model and data distribution. Specifically, we propose several heuristics to assess the conditions necessary for a successful unlearning operation, examine the variations in unlearning difficulty across different training samples, and present a ranking mechanism to identify the most challenging samples to unlearn. We highlight the effectiveness of the Kernelized Stein Discrepancy (KSD), a parameterized kernel function tailored to each model and dataset, as a heuristic for evaluating unlearning difficulty. Our approach is validated through multiple classification tasks and established machine unlearning algorithms, demonstrating the practical feasibility of unlearning operations across diverse scenarios.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# 車載サスペンション・レコメンデーション・システム:多要素ニューラルネットワークによるメカニズム設計最適化

Vehicle Suspension Recommendation System: Multi-Fidelity Neural Network-based Mechanism Design Optimization ( http://arxiv.org/abs/2410.03045v1 )

ライセンス: Link先を確認
Sumin Lee, Namwoo Kang, (参考訳) メカニズムは様々な分野で機能するように設計されている。 しばしば、明確に定義された関数を実行するユニークなメカニズムは存在しない。 例えば、車両サスペンションは運転性能と乗り心地を改善するように設計されているが、環境によって異なる種類が利用できる。 この設計上の多様性は、性能比較を難しくする。 さらに、従来の設計プロセスは多段階であり、設計候補の数を徐々に減らし、目標性能に合わせたコスト分析を行う。 近年、AIモデルはFAAの計算コストの削減に利用されている。 しかし、特に低忠実度から高忠実度分析に移行する場合、データの可用性と異なる分析環境には制限がある。 本稿では,機械機構の最適型と設計を推奨する多機能設計フレームワークを提案する。 用途として、車両サスペンションシステムが選択され、いくつかのタイプが定義された。 各タイプについて, 機構パラメータを3次元CADモデルに変換し, 駆動条件下での剛体力学解析を行った。 深層学習に基づく多自由度代理モデルを構築するために,DBSCANを用いて低忠実度解析の結果を解析し,高コストフレキシブルボディダイナミクス解析のために5%のサンプリングを行った。 マルチ忠実度モデルのトレーニング後,各サスペンション型の性能指標に対して,多目的最適化問題を定式化した。 最後に、乗り心地に関するパフォーマンス指標を最適化するために、入力に基づいて最適なタイプと設計を推奨する。 提案手法を検証するため,データマイニング手法を用いてParetoソリューションの基本設計ルールを抽出した。 また,従来の深層学習に基づく設計プロセスから得られた結果と比較することにより,有効性と適用性についても検証した。

Mechanisms are designed to perform functions in various fields. Often, there is no unique mechanism that performs a well-defined function. For example, vehicle suspensions are designed to improve driving performance and ride comfort, but different types are available depending on the environment. This variability in design makes performance comparison difficult. Additionally, the traditional design process is multi-step, gradually reducing the number of design candidates while performing costly analyses to meet target performance. Recently, AI models have been used to reduce the computational cost of FEA. However, there are limitations in data availability and different analysis environments, especially when transitioning from low-fidelity to high-fidelity analysis. In this paper, we propose a multi-fidelity design framework aimed at recommending optimal types and designs of mechanical mechanisms. As an application, vehicle suspension systems were selected, and several types were defined. For each type, mechanism parameters were generated and converted into 3D CAD models, followed by low-fidelity rigid body dynamic analysis under driving conditions. To effectively build a deep learning-based multi-fidelity surrogate model, the results of the low-fidelity analysis were analyzed using DBSCAN and sampled at 5% for high-cost flexible body dynamic analysis. After training the multi-fidelity model, a multi-objective optimization problem was formulated for the performance metrics of each suspension type. Finally, we recommend the optimal type and design based on the input to optimize ride comfort-related performance metrics. To validate the proposed methodology, we extracted basic design rules of Pareto solutions using data mining techniques. We also verified the effectiveness and applicability by comparing the results with those obtained from a conventional deep learning-based design process.
翻訳日:2024-11-03 04:16:10 公開日:2024-10-03
# 対話型運転シナリオにおけるドライバサポート改善のためのヒューマンベースリスクモデル

Human-Based Risk Model for Improved Driver Support in Interactive Driving Scenarios ( http://arxiv.org/abs/2410.03774v1 )

ライセンス: Link先を確認
Tim Puphal, Benedict Flade, Matti Krüger, Ryohei Hirano, Akihito Kimata, (参考訳) 本稿では,人間による運転支援の問題に対処する。 今日では、運転支援システムは、多くの運転状況で安全に運転するのに役立つ。 しかしながら、これらのシステムは人間のドライバーを感知することで得られる豊富な情報を十分に利用していない。 そこで本稿では,運転支援の改善にドライバ情報を利用する人間型リスクモデルを提案する。 最先端とは対照的に,提案したリスクモデルが組み合わさっている。 a) 運転ミスに基づく現在の運転者の認識(例えば、他の車両を見渡す運転者など)、及び b) ドライバが防衛的又は自信を有するようなドライバのパーソナライゼーション 対話型運転シナリオの広範囲なシミュレーションでは,人間の運転情報を使用しないベースラインリスクモデルと比較して,新たな人的リスクモデルが早期の警告時間を実現し,警告エラーを低減できることが示されている。

This paper addresses the problem of human-based driver support. Nowadays, driver support systems help users to operate safely in many driving situations. Nevertheless, these systems do not fully use the rich information that is available from sensing the human driver. In this paper, we therefore present a human-based risk model that uses driver information for improved driver support. In contrast to state of the art, our proposed risk model combines a) the current driver perception based on driver errors, such as the driver overlooking another vehicle (i.e., notice error), and b) driver personalization, such as the driver being defensive or confident. In extensive simulations of multiple interactive driving scenarios, we show that our novel human-based risk model achieves earlier warning times and reduced warning errors compared to a baseline risk model not using human driver information.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# 相関を超えて:人間の不確実性が自動評価とLCM-as-a-judgeの有効性に及ぼす影響

Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge ( http://arxiv.org/abs/2410.03775v1 )

ライセンス: Link先を確認
Aparna Elangovan, Jongwoo Ko, Lei Xu, Mahsa Elyasi, Ling Liu, Sravan Bodapati, Dan Roth, (参考訳) 生成モデルの自動評価の有効性は、典型的には相関指標を用いて人体評価と比較することによって測定される。 しかしながら、クリッペンドルフの$\alpha$やランドルフの$\kappa$のようなメトリクスは、もともと人間のラベル付けの信頼性を測定し、人間の振る舞いとラベル付けプロセスについて仮定するように設計されていた。 本稿では,1つの集合相関スコアを*参照することで,人間の行動とLLM-as-a-Judgeを含む自動評価方法の根本的な違いが明確になることを示す。 具体的には,ヒトのラベルに変化や不確実性を有するサンプルの割合が比較的高い場合,機械ラベル(自動評価法により生成する)は,ヒトとヒトの相関と比較して,ヒトの過半数ラベルと表面的あるいは良好な相関関係を持つことを示した。 これにより、自動評価が人間の多数派ラベルを近似するのに十分正確であるという誤解を招く印象を与えることができる。 しかし, 連続したラベルを持つサンプルの割合が増加するにつれて, 機械ラベルとヒトの過半数ラベルの相関は減少し, HH相関を下回る。 これらの結果に基づいて,まず,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。 第2に, 態度や嗜好など, 認識に基づく人間評価に不確実性や変動が関係していることを認識し, 自動評価の有効性をよりよく評価するために, 知覚のための *binned Jensen-Shannon Divergence を新たに導入する。 第3に、自動評価の強みと限界を比較し、適切な相関測定を適切に行うための可視化技術 -- *知覚チャート*を提案する。

The effectiveness of automatic evaluation of generative models is typically measured by comparing it to human evaluation using correlation metrics. However, metrics like Krippendorff's $\alpha$ and Randolph's $\kappa$, originally designed to measure the reliability of human labeling, make assumptions about human behavior and the labeling process. In this paper, we show how *relying on a single aggregate correlation score* can obscure fundamental differences between human behavior and automatic evaluation methods, including LLM-as-a-Judge. Specifically, we demonstrate that when the proportion of samples with variation or uncertainty in human labels (gathered during human evaluation) is relatively high, machine labels (generated by automatic evaluation methods) may superficially appear to have similar or better correlation with the human majority label compared to human-to-human (HH) correlation. This can create the misleading impression that automatic evaluation is accurate enough to approximate the human majority label. However, as the proportion of samples with consistent human labels increases, the correlation between machine labels and human majority labels declines, falling below HH correlation. Based on these findings, we first propose stratifying results by human label uncertainty to provide a more robust analysis of automatic evaluation performance. Second, recognizing that uncertainty and variation are inherent in perception-based human evaluations, such as those involving attitudes or preferences, we introduce a new metric - *binned Jensen-Shannon Divergence for perception* for such scenarios to better measure the effectiveness of automatic evaluations. Third, we present visualization techniques -- *perception charts*, to compare the strengths and limitations of automatic evaluation and to contextualize correlation measures appropriately
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# ディープニューラルネットワークを用いた長期記憶確率過程のパラメータ推定

Parameter Estimation of Long Memory Stochastic Processes with Deep Neural Networks ( http://arxiv.org/abs/2410.03776v1 )

ライセンス: Link先を確認
Bálint Csanády, Lóránt Nagy, Dániel Boros, Iván Ivkovic, Dávid Kovács, Dalma Tóth-Lakits, László Márkus, András Lukács, (参考訳) 本稿では,長距離依存現象を含む時系列モデルの長期記憶パラメータを推定するための,純粋に深いニューラルネットワークに基づくアプローチを提案する。 ハースト指数のようなパラメータは、確率過程の長距離依存、粗さ、自己相似性を特徴づけるのに重要である。 これらのパラメータの正確かつ迅速な推定は、金融、物理学、工学など、様々な科学分野において重要な意味を持つ。 我々は、効率的なプロセスジェネレータを使用して高品質な合成トレーニングデータを提供し、スケール不変な1D畳み込みニューラルネットワーク(CNN)モデルとLong Short-Term Memory(LSTM)モデルのトレーニングを可能にした。 私たちのニューラルモデルは、ニューラルネットワークで強化されたものでさえ、従来の統計手法よりも優れています。 推定器の精度、速度、一貫性、頑健性は、分数的ブラウン運動(fBm)、自己回帰的分数的統合的移動平均過程(ARFIMA)、分数的オルンシュタイン-ウレンベック過程(fOU)を含む実験によって実証される。 我々は,本研究が,深層学習技術を用いた確率的プロセスモデリングとパラメータ推定の分野におけるさらなる研究を促すと信じている。

We present a purely deep neural network-based approach for estimating long memory parameters of time series models that incorporate the phenomenon of long-range dependence. Parameters, such as the Hurst exponent, are critical in characterizing the long-range dependence, roughness, and self-similarity of stochastic processes. The accurate and fast estimation of these parameters holds significant importance across various scientific disciplines, including finance, physics, and engineering. We harnessed efficient process generators to provide high-quality synthetic training data, enabling the training of scale-invariant 1D Convolutional Neural Networks (CNNs) and Long Short-Term Memory (LSTM) models. Our neural models outperform conventional statistical methods, even those augmented with neural networks. The precision, speed, consistency, and robustness of our estimators are demonstrated through experiments involving fractional Brownian motion (fBm), the Autoregressive Fractionally Integrated Moving Average (ARFIMA) process, and the fractional Ornstein-Uhlenbeck (fOU) process. We believe that our work will inspire further research in the field of stochastic process modeling and parameter estimation using deep learning techniques.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# Determine-Then-Ensemble:大規模言語モデル構築のためのTop-k Unionの必要性

Determine-Then-Ensemble: Necessity of Top-k Union for Large Language Model Ensembling ( http://arxiv.org/abs/2410.03777v1 )

ライセンス: Link先を確認
Yuxuan Yao, Han Wu, Mingyang Liu, Sichun Luo, Xiongwei Han, Jie Liu, Zhijiang Guo, Linqi Song, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにおいて様々な長所と短所を示すため、近年の研究では、それらの相補的な優位性を活用するためのアンサンブルモデルの利点を探求している。 しかし、既存のLLMアンサンブル法は、しばしばモデルの互換性を見落とし、語彙全体にわたる確率の非効率なアライメントに苦慮する。 本研究では,アンサンブル性能に影響を及ぼす要因を実証的に検討し,モデル性能,語彙サイズ,応答スタイルを重要な決定要因として同定し,有効アンサンブルにはモデル間の互換性が不可欠であることを明らかにした。 この分析により、互換性のあるモデルを特定するシンプルなモデル選択戦略が開発される。 さらに、各モデルからトップkトークンの和合に着目してモデルを効率的に組み合わせ、完全な語彙アライメントの必要性を回避し、計算オーバーヘッドを低減する新しいアプローチである、 \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE})を導入する。 複数のベンチマークにまたがる大規模な評価により、‘textsc{UniTE} は既存のメソッドと比較して性能を大幅に向上し、LLMアンサンブルのためのより効率的なフレームワークを提供することが示された。

Large language models (LLMs) exhibit varying strengths and weaknesses across different tasks, prompting recent studies to explore the benefits of ensembling models to leverage their complementary advantages. However, existing LLM ensembling methods often overlook model compatibility and struggle with inefficient alignment of probabilities across the entire vocabulary. In this study, we empirically investigate the factors influencing ensemble performance, identifying model performance, vocabulary size, and response style as key determinants, revealing that compatibility among models is essential for effective ensembling. This analysis leads to the development of a simple yet effective model selection strategy that identifies compatible models. Additionally, we introduce the \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE}), a novel approach that efficiently combines models by focusing on the union of the top-k tokens from each model, thereby avoiding the need for full vocabulary alignment and reducing computational overhead. Extensive evaluations across multiple benchmarks demonstrate that \textsc{UniTE} significantly enhances performance compared to existing methods, offering a more efficient framework for LLM ensembling.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# 視覚課題におけるSGWに基づくマルチタスク学習

SGW-based Multi-Task Learning in Vision Tasks ( http://arxiv.org/abs/2410.03778v1 )

ライセンス: Link先を確認
Ruiyuan Zhang, Yuyao Chen, Yuchi Huo, Jiaxiang Liu, Dianbing Xi, Jie Liu, Chao Wu, (参考訳) マルチタスク学習(MTL)は、マルチターゲット最適化タスクである。 ニューラルネットワークは、MTL内の共有解釈空間を用いて、それぞれのターゲットを実現しようとする。 しかし、データセットの規模が拡大し、タスクの複雑さが増すにつれ、知識共有はますます困難になってきている。 本稿では,まず,ノイズの観点から,従来のクロスアテンションMTL手法を再検討する。 理論的にこの問題を解析し,クロスアテンション機構の欠陥として認識する。 この問題に対処するため,情報ボトルネック知識抽出モジュール(KEM)を提案する。 このモジュールは,情報の流れを制約することでタスク間干渉を減らすことを目的としており,計算複雑性を低減する。 さらに,知識選択過程の安定化に神経崩壊を用いた。 つまり、KEMに入力する前に、この機能をETF空間に投影しました。 このマッピングは私たちのメソッドをより堅牢にする。 複数のデータセットに対して,本手法による比較実験を実施し,実施した。 その結果,本手法はマルチタスク学習における既存手法よりも優れていることがわかった。

Multi-task-learning(MTL) is a multi-target optimization task. Neural networks try to realize each target using a shared interpretative space within MTL. However, as the scale of datasets expands and the complexity of tasks increases, knowledge sharing becomes increasingly challenging. In this paper, we first re-examine previous cross-attention MTL methods from the perspective of noise. We theoretically analyze this issue and identify it as a flaw in the cross-attention mechanism. To address this issue, we propose an information bottleneck knowledge extraction module (KEM). This module aims to reduce inter-task interference by constraining the flow of information, thereby reducing computational complexity. Furthermore, we have employed neural collapse to stabilize the knowledge-selection process. That is, before input to KEM, we projected the features into ETF space. This mapping makes our method more robust. We implemented and conducted comparative experiments with this method on multiple datasets. The results demonstrate that our approach significantly outperforms existing methods in multi-task learning.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# メッシュ型物理シミュレーションのためのメッセージパッシング階層の発見

Discovering Message Passing Hierarchies for Mesh-Based Physics Simulation ( http://arxiv.org/abs/2410.03779v1 )

ライセンス: Link先を確認
Huayu Deng, Xiangming Zhu, Yunbo Wang, Xiaokang Yang, (参考訳) グラフニューラルネットワークは、大規模メッシュベースの物理シミュレーションの強力なツールとして登場した。 既存のアプローチでは、主に階層的なマルチスケールメッセージパッシングを使用して、グラフ内の長距離依存関係をキャプチャする。 しかし、これらのグラフ階層は通常固定され、手動で設計され、複雑な物理系に存在する進化力学に適応しない。 本稿では,DHMPと呼ばれる新しいニューラルネットワークを導入し,異なるノード選択手法を用いてメッセージパッシングネットワークの動的階層を学習する。 鍵となるコンポーネントは異方性メッセージパッシング機構であり、レベル内の相互作用とレベル間の相互作用の両方で動作する。 既存の方法とは異なり、グラフ階層内の隣接ノード間の動的特徴の非一様アグリゲーションを指向的にサポートする。 第二に、異なる物理的コンテキストに応じて次の階層のノード選択確率を決定することにより、リモートノード関係を学習するためのより柔軟なメッセージショートカットを生成する。 本実験はDHMPの有効性を実証し,従来の5つの物理シミュレーションデータセットを用いた最近の固定階層メッセージパッシングネットワークと比較して平均22.7%改善した。

Graph neural networks have emerged as a powerful tool for large-scale mesh-based physics simulation. Existing approaches primarily employ hierarchical, multi-scale message passing to capture long-range dependencies within the graph. However, these graph hierarchies are typically fixed and manually designed, which do not adapt to the evolving dynamics present in complex physical systems. In this paper, we introduce a novel neural network named DHMP, which learns Dynamic Hierarchies for Message Passing networks through a differentiable node selection method. The key component is the anisotropic message passing mechanism, which operates at both intra-level and inter-level interactions. Unlike existing methods, it first supports directionally non-uniform aggregation of dynamic features between adjacent nodes within each graph hierarchy. Second, it determines node selection probabilities for the next hierarchy according to different physical contexts, thereby creating more flexible message shortcuts for learning remote node relations. Our experiments demonstrate the effectiveness of DHMP, achieving 22.7% improvement on average compared to recent fixed-hierarchy message passing networks across five classic physics simulation datasets.
翻訳日:2024-11-02 16:30:33 公開日:2024-10-03
# Reward-RAG: Reward-Driven SupervisionによるRAGの強化

Reward-RAG: Enhancing RAG with Reward Driven Supervision ( http://arxiv.org/abs/2410.03780v1 )

ライセンス: Link先を確認
Thang Nguyen, Peter Chin, Yu-Wing Tai, (参考訳) 本稿では、Reward-Driven Supervisionを通じて、Retrieval-Augmented Generation(RAG)モデルを強化するための新しいアプローチであるReward-RAGを紹介する。 学習言語モデル(LM)に着目した従来のRAG手法とは違って,本手法では,CriticGPTを用いて検索情報を特定の領域に適応させ,専用の報酬モデルを訓練する。 この報酬モデルは、RAGエンコーダを微調整するための合成データセットを生成し、その出力を人間の好みとより密に一致させる。 このアプローチの汎用性により、ドメイン固有の微調整を通じて、さまざまなドメインに効果的に適用できます。 Reward-RAGを複数のドメインから公開されているベンチマークで評価し、最先端の手法と比較した。 実験結果から,Reward-RAGの有効性が向上し,反応の関連性や品質が向上したことが明らかとなった。 これらの結果は、自然言語生成タスクにおいて優れた結果を得るために、報酬モデルとRAGを統合する可能性を示している。

In this paper, we introduce Reward-RAG, a novel approach designed to enhance the Retrieval-Augmented Generation (RAG) model through Reward-Driven Supervision. Unlike previous RAG methodologies, which focus on training language models (LMs) to utilize external knowledge retrieved from external sources, our method adapts retrieval information to specific domains by employing CriticGPT to train a dedicated reward model. This reward model generates synthesized datasets for fine-tuning the RAG encoder, aligning its outputs more closely with human preferences. The versatility of our approach allows it to be effectively applied across various domains through domain-specific fine-tuning. We evaluate Reward-RAG on publicly available benchmarks from multiple domains, comparing it to state-of-the-art methods. Our experimental results demonstrate significant improvements in performance, highlighting the effectiveness of Reward-RAG in improving the relevance and quality of generated responses. These findings underscore the potential of integrating reward models with RAG to achieve superior outcomes in natural language generation tasks.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# 学習用大規模言語モデルの教育的ステアリングに向けて:生産的失敗をモデル化したケーススタディ

Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure ( http://arxiv.org/abs/2410.03781v1 )

ライセンス: Link先を確認
Romain Puech, Jakub Macina, Julia Chatain, Mrinmaya Sachan, Manu Kapur, (参考訳) 1対1の授業は、最も効果的な教育方法の1つである。 LLM(Large Language Models)の人気が高まり、対話型チューリングシステムの構築に利用しようとする動きが相次いだ。 しかし、現在のLLMは主にアシスタントとして訓練されているため、重要な教育スキルが欠如している。 例えば、彼らはしばしば生徒の解決策を素早く明らかにし、よりリッチなマルチターンの教育的相互作用を計画するのに失敗する。 LLMを教育的シナリオで使用するには、効果的な教育戦略の活用に傾倒する必要がある: 教育的ステアリング(Pedagogical Steering)として導入する問題であり、LLMを家庭教師として効率的に活用するためには不可欠である。 本稿では、学習戦略の概念を定式化し、戦略をモデル化し、この戦略に従うためにLPMを操縦するアルゴリズムであるStratLを導入することで、この問題に対処する。 ケーススタディとして,先進的で効果的な学習設計であるProductive Failure (PF) に続く,高校数学のプロトタイプチューターを作成する。 実世界の環境でのアプローチを検証するため,シンガポールの17人の高校生を対象に,フィールドスタディを実施している。 我々は,StratLがLLMの運営に成功し,生産的失敗の学習戦略に従うことを定量的に示す。 また,LLMの望ましい性質,例えば人間的な回答を生成する能力に対する流出効果の存在について,徹底的に検討した。 これらの結果に基づいて、教育ステアリングにおける課題を強調し、さらなる改善の機会を提案する。 プロトタイプとアルゴリズムのコードと生産的失敗問題のデータセットをリリースすることによって、フォローアップリサーチをさらに奨励します。

One-to-one tutoring is one of the most efficient methods of teaching. Following the rise in popularity of Large Language Models (LLMs), there have been efforts to use them to create conversational tutoring systems, which can make the benefits of one-to-one tutoring accessible to everyone. However, current LLMs are primarily trained to be helpful assistants and thus lack crucial pedagogical skills. For example, they often quickly reveal the solution to the student and fail to plan for a richer multi-turn pedagogical interaction. To use LLMs in pedagogical scenarios, they need to be steered towards using effective teaching strategies: a problem we introduce as Pedagogical Steering and believe to be crucial for the efficient use of LLMs as tutors. We address this problem by formalizing a concept of tutoring strategy, and introducing StratL, an algorithm to model a strategy and use prompting to steer the LLM to follow this strategy. As a case study, we create a prototype tutor for high school math following Productive Failure (PF), an advanced and effective learning design. To validate our approach in a real-world setting, we run a field study with 17 high school students in Singapore. We quantitatively show that StratL succeeds in steering the LLM to follow a Productive Failure tutoring strategy. We also thoroughly investigate the existence of spillover effects on desirable properties of the LLM, like its ability to generate human-like answers. Based on these results, we highlight the challenges in Pedagogical Steering and suggest opportunities for further improvements. We further encourage follow-up research by releasing a dataset of Productive Failure problems and the code of our prototype and algorithm.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# DaWin:ロバスト適応のためのトレーニング不要な動的ウェイト補間

DaWin: Training-free Dynamic Weight Interpolation for Robust Adaptation ( http://arxiv.org/abs/2410.03782v1 )

ライセンス: Link先を確認
Changdae Oh, Yixuan Li, Kyungwoo Song, Sangdoo Yun, Dongyoon Han, (参考訳) 下流タスクに事前トレーニングされた基礎モデルを適用することで、モデル全体を再トレーニングすることなく、分散シフトに対して堅牢性を確保することができる。 既存の重み補間法は単純だが有効であるが、その静的な性質は下流の性能を抑えつつ効率を保っていると論じる。 本研究では,各実験試料に対する個々のモデルのエントロピーを利用して,モデルの専門性を評価し,サンプルごとの補間係数を動的に計算する,トレーニング不要な動的ウェイト補間法DaWinを提案する。 このような係数を学習するために、通常追加のトレーニングに依存する以前の作業とは異なり、我々のアプローチはトレーニングを必要としない。 そこで本研究では,動的補間による推論オーバーヘッドを大幅に低減する混合モデリング手法を提案する。 私たちはDaWinを、大規模なビジュアル認識ベンチマークで検証し、堅牢な微調整(ImageNetと派生した5つの分散シフトベンチマーク)と8つの分類タスクによるマルチタスク学習(multi-task learning)という14のタスクにまたがった。 その結果、DaWinは計算オーバーヘッドを最小限に抑えながら、考慮された設定で大幅なパフォーマンス向上を達成した。 実験的な成功を説明するため,DaWinの分析的振る舞いについても論じる。

Adapting a pre-trained foundation model on downstream tasks should ensure robustness against distribution shifts without the need to retrain the whole model. Although existing weight interpolation methods are simple yet effective, we argue their static nature limits downstream performance while achieving efficiency. In this work, we propose DaWin, a training-free dynamic weight interpolation method that leverages the entropy of individual models over each unlabeled test sample to assess model expertise, and compute per-sample interpolation coefficients dynamically. Unlike previous works that typically rely on additional training to learn such coefficients, our approach requires no training. Then, we propose a mixture modeling approach that greatly reduces inference overhead raised by dynamic interpolation. We validate DaWin on the large-scale visual recognition benchmarks, spanning 14 tasks across robust fine-tuning -- ImageNet and derived five distribution shift benchmarks -- and multi-task learning with eight classification tasks. Results demonstrate that DaWin achieves significant performance gain in considered settings, with minimal computational overhead. We further discuss DaWin's analytic behavior to explain its empirical success.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# AI-ray:マルチモーダル・インタラクティブ・インスタレーションによるAIの迷路のバイアスを探る

AI-rays: Exploring Bias in the Gaze of AI Through a Multimodal Interactive Installation ( http://arxiv.org/abs/2410.03786v1 )

ライセンス: Link先を確認
Ziyao Gao, Yiwen Zhang, Ling Li, Theodoros Papatheodorou, Wei Zeng, (参考訳) データ監視は、AIアルゴリズムによってより隠蔽され、普及し、バイアスのある社会分類をもたらす可能性がある。 外観は直感的なアイデンティティ信号を提供するが、AIがそれらを観察して推測させる意味は何だろうか? 参加者のバッグに置かれた合成された個人アイテムを通して表現される参加者の外観から、AIが投機的アイデンティティを生成するインタラクティブなインスタレーションであるAI-rayを紹介する。 投機的X線ビジョンを使用して、AIが生成する仮定と現実を対比し、AIの精査と偏見を比喩的に強調する。 AI-raysは、AIバイアスを探索する遊び心のある没入的な経験を通じて、現代の監視と人間と機械の現実の将来に関する議論を促進する。

Data surveillance has become more covert and pervasive with AI algorithms, which can result in biased social classifications. Appearance offers intuitive identity signals, but what does it mean to let AI observe and speculate on them? We introduce AI-rays, an interactive installation where AI generates speculative identities from participants' appearance which are expressed through synthesized personal items placed in participants' bags. It uses speculative X-ray visions to contrast reality with AI-generated assumptions, metaphorically highlighting AI's scrutiny and biases. AI-rays promotes discussions on modern surveillance and the future of human-machine reality through a playful, immersive experience exploring AI biases.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# CalliffusionV2:フレキシブルマルチモーダル制御によるパーソナライズされた自然書体生成

CalliffusionV2: Personalized Natural Calligraphy Generation with Flexible Multi-modal Control ( http://arxiv.org/abs/2410.03787v1 )

ライセンス: Link先を確認
Qisheng Liao, Liang Li, Yulang Fei, Gus Xia, (参考訳) 本稿では,自由なマルチモーダル制御を備えた自然中国語書道システムCaliffusionV2を紹介する。 画像やテキストのみに頼り、きめ細かい制御を欠く従来のアプローチとは異なり、このシステムは両方の画像を利用して、きめ細かいレベルで世代を案内し、世代の特徴を記述する自然言語テキストを作成する。 CalliffusionV2は幅広い文字の作成に優れており、数ショットの学習アプローチで新しいスタイルを素早く学習することができる。 事前の訓練なしに漢字以外の文字を生成できる。 網羅的なテストにより,ニューラルネットワーク分類器と人的評価器によって,スタイリスティックに正確かつ認識可能な書体が生成されていることを確認した。

In this paper, we introduce CalliffusionV2, a novel system designed to produce natural Chinese calligraphy with flexible multi-modal control. Unlike previous approaches that rely solely on image or text inputs and lack fine-grained control, our system leverages both images to guide generations at fine-grained levels and natural language texts to describe the features of generations. CalliffusionV2 excels at creating a broad range of characters and can quickly learn new styles through a few-shot learning approach. It is also capable of generating non-Chinese characters without prior training. Comprehensive tests confirm that our system produces calligraphy that is both stylistically accurate and recognizable by neural network classifiers and human evaluators.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# ヒューマンモビリティパターンの再構築--クロスデータセット・トランスファー学習のための半監督的アプローチ

Reconstructing Human Mobility Pattern: A Semi-Supervised Approach for Cross-Dataset Transfer Learning ( http://arxiv.org/abs/2410.03788v1 )

ライセンス: Link先を確認
Xishun Liao, Yifan Liu, Chenchen Kuai, Haoxuan Ma, Yueshuai He, Shangqing Cao, Chris Stanford, Jiaqi Ma, (参考訳) 人間の移動パターンを理解することは、都市計画、交通管理、公衆衛生にとって不可欠である。 本研究は,活動の意味的相互依存性を捉えるのにしばしば失敗する軌跡データへの依存と,実世界の軌跡データの本質的不完全性という,この分野における2つの主要な課題に取り組む。 セマンティック・アクティビティ・チェーンに着目し,人間のモビリティ・パターンを再構築し,学習するモデルを開発した。 本稿では,多様な地理的文脈にモデルを適応させ,データの不足に対処する半教師付き反復移動学習アルゴリズムを提案する。 本モデルでは, 活動連鎖を効果的に再構築し, 高品質な合成モビリティデータを生成し, 合成データと実データとの密接な類似性を示すJensen-Shannon Divergence (JSD) 値0。 さらに、エジプトからのスパースGPSデータは、移動学習アルゴリズムの評価に使われ、アメリカのモビリティパターンをエジプトの文脈に適応させることに成功した。 このモビリティ再構築モデルと関連する移動学習アルゴリズムは、グローバルな人間のモビリティモデリング研究において重要な可能性を示し、政策立案者や研究者がより効果的で文化的に調整された輸送ソリューションを設計できるようにする。

Understanding human mobility patterns is crucial for urban planning, transportation management, and public health. This study tackles two primary challenges in the field: the reliance on trajectory data, which often fails to capture the semantic interdependencies of activities, and the inherent incompleteness of real-world trajectory data. We have developed a model that reconstructs and learns human mobility patterns by focusing on semantic activity chains. We introduce a semi-supervised iterative transfer learning algorithm to adapt models to diverse geographical contexts and address data scarcity. Our model is validated using comprehensive datasets from the United States, where it effectively reconstructs activity chains and generates high-quality synthetic mobility data, achieving a low Jensen-Shannon Divergence (JSD) value of 0.001, indicating a close similarity between synthetic and real data. Additionally, sparse GPS data from Egypt is used to evaluate the transfer learning algorithm, demonstrating successful adaptation of US mobility patterns to Egyptian contexts, achieving a 64\% of increase in similarity, i.e., a JSD reduction from 0.09 to 0.03. This mobility reconstruction model and the associated transfer learning algorithm show significant potential for global human mobility modeling studies, enabling policymakers and researchers to design more effective and culturally tailored transportation solutions.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# 固定時間予算によるディープラーニングの高速化

Accelerating Deep Learning with Fixed Time Budget ( http://arxiv.org/abs/2410.03790v1 )

ライセンス: Link先を確認
Muhammad Asif Khan, Ridha Hamila, Hamid Menouar, (参考訳) 現代のディープラーニングの成功は、膨大なトレーニングデータと大規模なモデルサイズという2つの重要な要素に起因している。 膨大な量のデータによってモデルがより多くの機能を学ぶことができる場合、大きなモデルアーキテクチャはモデルの学習能力を高める。 しかし、これら2つの要因は訓練時間を延ばすことになる。 エッジベース学習やフェデレーション学習のような実践的な応用では、限られた時間予算はより効率的な訓練方法を必要とする。 本稿では,サンプルの重要度と動的ランキングを利用して,一定の時間制約内で任意のディープラーニングモデルを学習するための効果的な手法を提案する。 提案手法はコンピュータビジョンにおける分類タスクと回帰タスクの両方において広範囲に評価される。 提案手法は, 回帰処理と分類処理の両方において, 様々な最先端ディープラーニングモデルの学習性能を向上させるために, 提案手法が達成した成果を一貫して示す。

The success of modern deep learning is attributed to two key elements: huge amounts of training data and large model sizes. Where a vast amount of data allows the model to learn more features, the large model architecture boosts the learning capability of the model. However, both these factors result in prolonged training time. In some practical applications such as edge-based learning and federated learning, limited-time budgets necessitate more efficient training methods. This paper proposes an effective technique for training arbitrary deep learning models within fixed time constraints utilizing sample importance and dynamic ranking. The proposed method is extensively evaluated in both classification and regression tasks in computer vision. The results consistently show clear gains achieved by the proposed method in improving the learning performance of various state-of-the-art deep learning models in both regression and classification tasks.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# 人々はAIによる音声クローンを検出できない

People are poorly equipped to detect AI-powered voice clones ( http://arxiv.org/abs/2410.03791v1 )

ライセンス: Link先を確認
Sarah Barrington, Hany Farid, (参考訳) 生成AIはその弾道的な軌道を継続するので、テキスト、オーディオ、画像、ビデオ生成など、あらゆるものが、人間の生成コンテンツを模倣する上で改善され続けている。 一連の知覚研究を通じて、同一性マッチングと自然性の観点から、AI生成音声のリアリズムについて報告する。 人間の参加者は、AI生成音声の短い録音(20秒以内)を確実に特定できない。 具体的には、参加者はAI声の正体を実際の80%の時間と誤認し、AIが生成した音声は60%に過ぎないと正しく識別した。 いずれの場合も、パフォーマンスは話者やリスナーの人口統計とは無関係である。

As generative AI continues its ballistic trajectory, everything from text to audio, image, and video generation continues to improve in mimicking human-generated content. Through a series of perceptual studies, we report on the realism of AI-generated voices in terms of identity matching and naturalness. We find human participants cannot reliably identify short recordings (less than 20 seconds) of AI-generated voices. Specifically, participants mistook the identity of an AI-voice for its real counterpart 80% of the time, and correctly identified a voice as AI-generated only 60% of the time. In all cases, performance is independent of the demographics of the speaker or listener.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# 汎用医療時系列分類のための再生基盤モデル

Repurposing Foundation Model for Generalizable Medical Time Series Classification ( http://arxiv.org/abs/2410.03794v1 )

ライセンス: Link先を確認
Nan Huang, Haishuai Wang, Zihuai He, Marinka Zitnik, Xiang Zhang, (参考訳) 医学時系列分類(MedTS)は、アルツハイマー病の診断など幅広い医療応用において重要である。 しかし、実世界の展開は、チャネル構成のバリエーション、時系列の長さ、診断タスクなど、MedTSにおけるデータ間およびデータ間不均一性により、一般化性に欠ける。 本稿では,事前学習したバックボーンを活用する基盤分類モデルであるFORMEDを提案する。 FORMEDは、バックボーン基盤モデルによって実現された汎用的な表現学習と、MedTSデータセットのキュレートされたコホートで得られた医療領域の知識を統合する。 FORMEDは、チャネルの数、サンプルの長さ、医療タスクに関係なく、目に見えないMedTSデータセットにシームレスに適応することができる。 実験の結果、タスク固有の適応がなければ、再利用されたFORMEDは、各データセットに特化して訓練された11のベースラインモデルと競合し、しばしば優れているパフォーマンスを達成する。 さらに、FORMEDは、完全に新しい、目に見えないデータセットに効果的に適応でき、軽量なパラメータ更新により、ベースラインを一貫して上回る。 本結果は,多種多様なMedTS分類タスクに対して,多種多様かつスケーラブルなモデルとして構成され,将来のMedTS解析研究の基盤モデルとして位置づけられる。

Medical time series (MedTS) classification is critical for a wide range of healthcare applications such as Alzheimer's Disease diagnosis. However, its real-world deployment is severely challenged by poor generalizability due to inter- and intra-dataset heterogeneity in MedTS, including variations in channel configurations, time series lengths, and diagnostic tasks. Here, we propose FORMED, a foundation classification model that leverages a pre-trained backbone and tackles these challenges through re-purposing. FORMED integrates the general representation learning enabled by the backbone foundation model and the medical domain knowledge gained on a curated cohort of MedTS datasets. FORMED can adapt seamlessly to unseen MedTS datasets, regardless of the number of channels, sample lengths, or medical tasks. Experimental results show that, without any task-specific adaptation, the repurposed FORMED achieves performance that is competitive with, and often superior to, 11 baseline models trained specifically for each dataset. Furthermore, FORMED can effectively adapt to entirely new, unseen datasets, with lightweight parameter updates, consistently outperforming baselines. Our results highlight FORMED as a versatile and scalable model for a wide range of MedTS classification tasks, positioning it as a strong foundation model for future research in MedTS analysis.
翻訳日:2024-11-02 16:20:48 公開日:2024-10-03
# CaLMFlow:因果言語モデルを用いたボルテラフローマッチング

CaLMFlow: Volterra Flow Matching using Causal Language Models ( http://arxiv.org/abs/2410.05292v1 )

ライセンス: Link先を確認
Sizhuang He, Daniel Levine, Ivan Vrkic, Marco Francesco Bressana, David Zhang, Syed Asad Rizvi, Yangtian Zhang, Emanuele Zappala, David van Dijk, (参考訳) 本稿では、Volterra積分方程式(VIE)としてフローマッチングをキャストする新しいフレームワークであるCaLMFlowを紹介し、大規模言語モデル(LLM)のパワーを連続データ生成に活用する。 CaLMFlowは,フローマッチングをシーケンスモデリングタスクとして定式化し,個別言語モデリングと連続生成モデリングをブリッジすることで,LCMの複雑な流れを直接的に学習することを可能にする。 本手法は,空間と時間にまたがるトークン化を実現し,これらの領域上でVIEを解く。 このアプローチは、高次元データの効率的なハンドリングを可能にし、条件付きフローマッチング(CFM)のようなODEソルバに依存した手法より優れている。 単一セル摂動応答予測を含む合成および実世界のデータに対するCaLMFlowの有効性を示す。 この結果から,LLM駆動型フローマッチングは,拡張性,柔軟性,コンテキスト認識性を向上した生成モデルとして有望なパラダイムとして注目された。

We introduce CaLMFlow (Causal Language Models for Flow Matching), a novel framework that casts flow matching as a Volterra integral equation (VIE), leveraging the power of large language models (LLMs) for continuous data generation. CaLMFlow enables the direct application of LLMs to learn complex flows by formulating flow matching as a sequence modeling task, bridging discrete language modeling and continuous generative modeling. Our method implements tokenization across space and time, thereby solving a VIE over these domains. This approach enables efficient handling of high-dimensional data and outperforms ODE solver-dependent methods like conditional flow matching (CFM). We demonstrate CaLMFlow's effectiveness on synthetic and real-world data, including single-cell perturbation response prediction, showcasing its ability to incorporate textual context and generalize to unseen conditions. Our results highlight LLM-driven flow matching as a promising paradigm in generative modeling, offering improved scalability, flexibility, and context-awareness.
翻訳日:2024-11-01 19:47:38 公開日:2024-10-03