論文の概要: Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism
- arxiv url: http://arxiv.org/abs/2504.18574v2
- Date: Wed, 11 Jun 2025 11:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 23:41:16.667388
- Title: Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism
- Title(参考訳): リカレント言語モデルにおけるスキルギャップの理解--gather-and-Aggregateメカニズムの役割
- Authors: Aviv Bick, Eric Xing, Albert Gu,
- Abstract要約: 状態空間モデル(SSM)は、長いシーケンスに対してトランスフォーマーの効率的な代替手段を提供する。
本研究では,TransformerおよびSSMに基づく言語モデルにおいて,コンテキスト内検索がどのように動作するかを検討する。
- 参考スコア(独自算出の注目度): 15.626801223435173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) offer efficient alternatives to Transformers for long sequences, but their fixed-size recurrent state limits capability on algorithmic tasks, such as retrieving past context. In this work, we examine how in-context retrieval operates in Transformer- and SSM-based language models and find that both rely on a similar Gather-and-Aggregate (G&A) mechanism: a Gather Head extracts relevant information pieces from context, which an Aggregate Head integrates into a single representation. In both architectures, G&A concentrates in a few heads, forming critical bottlenecks even for simple retrieval. For example, we show that disabling a single Gather or Aggregate Head in a pruned Llama-3.1-8B impairs retrieving the correct answer letter in MMLU, reducing its accuracy from 66% to 25% (random guessing). Moreover, this retrieval bottleneck can obscure limited knowledge demands of tasks as the pruned model succeeds on MMLU with functioning G&A heads yet fails on other knowledge benchmarks. The bottleneck similarly extends to tasks where SSMs typically underperform, such as GSM8K, BBH, and dialogue comprehension. We show that SSMs' retrieval challenges manifest in these heads, creating smoother attention patterns instead of the sharp token transitions effective G&A requires. Thus, the Transformer-SSM retrieval gap exists in just a few heads, rather than the entire language model. This suggests a unified explanation for Transformer vs. SSM performance gap while showing how to merge their strengths. We find that pretrained hybrid models, where SSMs are combined with a few attention layers, delegate the role of Aggregate Heads to attention. Similarly, replacing a single G&A head in a pretrained SSM with an attention variant boosts retrieval and benchmark scores.
- Abstract(参考訳): 状態空間モデル(SSM)は、長いシーケンスに対してTransformerの効率的な代替手段を提供するが、過去のコンテキストを検索するなど、アルゴリズムタスクにおける固定サイズリカレントステート制限機能を提供する。
本研究では,Transformer と SSM ベースの言語モデルでコンテキスト内検索がどのように動作するかを調べ,両者が類似した Gather-and-Aggregate (G&A) 機構に依存していることを確認した。
両方のアーキテクチャにおいて、G&Aはいくつかのヘッドに集中しており、単純な検索においても重要なボトルネックを形成している。
例えば、Llama-3.1-8Bで1つのGatherまたはAggregate Headを無効にすると、MMLUで正しい回答レターを取得できなくなり、精度は66%から25%に低下する(ランダムな推測)。
さらに、この検索ボトルネックは、機能するG&AヘッドをMMLUで成功させるが、他の知識ベンチマークでは失敗するため、タスクの知識要求を曖昧に制限する可能性がある。
ボトルネックは同様に、GSM8K、BBH、対話理解など、通常、SSMが劣るタスクにまで拡張される。
本稿では,これらの頭部にSSMの検索課題が出現し,G&Aが要求する鋭いトークン遷移ではなく,よりスムーズな注意パターンが生じることを示す。
このように、Transformer-SSMの検索ギャップは言語モデル全体ではなく、ほんの数ヘッドにしか存在しない。
このことは、TransformerとSSMのパフォーマンスギャップを統一的に説明し、その強みをマージする方法を示していることを示唆している。
事前訓練されたハイブリッドモデルでは、SSMをいくつかの注意層と組み合わせ、アグリゲートヘッドの役割を注意に委ねる。
同様に、1つのG&Aヘッドを事前訓練されたSSMに置き換えることで、検索とベンチマークスコアが向上する。
関連論文リスト
- UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [46.99314622487279]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - SAGE: A Framework of Precise Retrieval for RAG [9.889395372896153]
Retrieval-augmented Generation (RAG) は,質問応答タスクの遂行に有意義な能力を示した。
RAGメソッドはセマンティクスを考慮せずにコーパスをセグメントし、関連するコンテキストを見つけるのが困難になる。
これらの制限を克服するために、RAGフレームワーク(SAGE)を導入します。
論文 参考訳(メタデータ) (2025-03-03T16:25:58Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。