論文の概要: Can Memory-Augmented Language Models Generalize on Reasoning-in-a-Haystack Tasks?
- arxiv url: http://arxiv.org/abs/2503.07903v1
- Date: Mon, 10 Mar 2025 22:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:46.537597
- Title: Can Memory-Augmented Language Models Generalize on Reasoning-in-a-Haystack Tasks?
- Title(参考訳): メモリ拡張型言語モデルがReasoning-a-haystackタスクに一般化できるか?
- Authors: Payel Das, Ching-Yun Ko, Sihui Dai, Georgios Kollias, Subhajit Chaudhury, Aurelie Lozano,
- Abstract要約: 本稿では,メモリ拡張型LLMアーキテクチャであるMemReasonerを提案する。
MemReasonerはエンドツーエンドでトレーニングされ、オプションで事実管理をサポートする。
シングルホップタスクと2ホップタスクの両方において,MemReasonerの強い一般化を示す。
- 参考スコア(独自算出の注目度): 31.192647141427233
- License:
- Abstract: Large language models often expose their brittleness in reasoning tasks, especially while executing long chains of reasoning over context. We propose MemReasoner, a new and simple memory-augmented LLM architecture, in which the memory learns the relative order of facts in context, and enables hopping over them, while the decoder selectively attends to the memory. MemReasoner is trained end-to-end, with optional supporting fact supervision of varying degrees. We train MemReasoner, along with existing memory-augmented transformer models and a state-space model, on two distinct synthetic multi-hop reasoning tasks. Experiments performed under a variety of challenging scenarios, including the presence of long distractor text or target answer changes in test set, show strong generalization of MemReasoner on both single- and two-hop tasks. This generalization of MemReasoner is achieved using none-to-weak supporting fact supervision (using none and 1\% of supporting facts for one- and two-hop tasks, respectively). In contrast, baseline models overall struggle to generalize and benefit far less from using full supporting fact supervision. The results highlight the importance of explicit memory mechanisms, combined with additional weak supervision, for improving large language model's context processing ability toward reasoning tasks.
- Abstract(参考訳): 大規模言語モデルは、特にコンテキスト上の推論の長い連鎖を実行している間に、推論タスクにおける脆さを露呈することが多い。
本稿では,メモリの相対的な順序を文脈で学習し,それをホッピング可能なメモリ拡張型LLMアーキテクチャであるMemReasonerを提案し,デコーダはメモリに選択的に参加する。
MemReasonerはエンド・ツー・エンドの訓練を受けており、様々な学位の事実管理をオプションで支援している。
我々はMemReasonerを、既存のメモリ拡張トランスフォーマーモデルと状態空間モデルとともに、2つの異なる合成マルチホップ推論タスクで訓練する。
長いイントラクタテキストの存在や、テストセットのターゲット回答の変更など、さまざまな困難なシナリオ下で実施された実験は、シングルホップタスクと2ホップタスクの両方において、MemReasonerの強力な一般化を示している。
このMemReasonerの一般化は、非弱支援事実監視(それぞれ1-ホップタスクと2-ホップタスクのサポート事実の1-%を使用しない)によって達成される。
対照的に、ベースラインモデルは全般的に、完全な支援された事実管理を使用することによって、一般化し利益を得るのに苦労する。
その結果,大規模言語モデルの推論タスクに対するコンテキスト処理能力を向上させるために,明示的なメモリ機構とさらなる弱い監視機能を組み合わせることの重要性が強調された。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Mixture of Parrots: Experts improve memorization more than reasoning [72.445819694797]
専門家の数が増えるにつれて、推論能力が飽和している間に記憶性能が一貫して向上することを示す。
専門家の増加は知識集約的なタスクの解決に役立ちますが、推論タスクには同じようなメリットが得られません。
論文 参考訳(メタデータ) (2024-10-24T17:54:41Z) - WILT: A Multi-Turn, Memorization-Robust Inductive Logic Benchmark for LLMs [0.8883751685905831]
メモリ化に抵抗するように設計された,シンプルなマルチターン推論ベンチマークである Wason Inductive Logic Test (WILT) を紹介する。
以上の結果から,LSMはこの課題に苦しむことが明らかとなった。
これらの変動にもかかわらず、最高の性能モデルは28%の精度しか達成せず、複雑なマルチターン推論タスクにおけるLLM性能の重大なギャップを浮き彫りにしている。
論文 参考訳(メタデータ) (2024-10-14T18:29:13Z) - Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Uncertainty Guided Global Memory Improves Multi-Hop Question Answering [3.7013865226473848]
本稿では,まず文書全体からメモリに関連情報を収集し,それをローカルコンテキストと組み合わせてタスクを解く2段階の手法を提案する。
実験結果から, メモリ拡張入力を用いた事前学習モデルの微調整により, モデルの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T23:45:57Z) - Memory Injections: Correcting Multi-Hop Reasoning Failures during
Inference in Transformer-Based Language Models [4.343604069244352]
そこで本研究では,アテンションヘッドにターゲットメモリを注入することで,マルチホップ推論失敗をピンポイントし,修正する手法を提案する。
キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-11T16:39:30Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。