Fugu-MT 論文翻訳(概要): Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism

論文の概要: Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism

arxiv url: http://arxiv.org/abs/2504.18574v1
Date: Tue, 22 Apr 2025 16:15:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.881498
Title: Understanding the Skill Gap in Recurrent Language Models: The Role of the Gather-and-Aggregate Mechanism
Title（参考訳）: リカレント言語モデルにおけるスキルギャップの理解--gather-and-Aggregateメカニズムの役割
Authors: Aviv Bick, Eric Xing, Albert Gu,
Abstract要約: 本研究では,Transformer および SSM ベースの言語モデルにおいて,コンテキスト内検索がどのように動作するかを検討する。どちらのアーキテクチャも,G&A(Gather-and-Aggregate)機構を基本として開発している。我々は,SSMにおける検索課題がG&Aの実装方法に現れ,よりスムーズな注意パターンがもたらされることを示す。
参考スコア（独自算出の注目度）: 15.626801223435173
License: http://creativecommons.org/licenses/by/4.0/
Abstract: SSMs offer efficient processing of long sequences with fixed state sizes, but struggle with algorithmic tasks like retrieving past context. In this work, we examine how such in-context retrieval operates within Transformer- and SSM-based language models. We find that both architectures develop the same fundamental Gather-and-Aggregate (G&A) mechanism. A Gather Head first identifies and extracts relevant information from the context, which an Aggregate Head then integrates into a final representation. Across both model types, G&A concentrates in just a few heads, making them critical bottlenecks even for benchmarks that require a basic form of retrieval. For example, disabling a single Gather or Aggregate Head of a pruned Llama-3.1-8B degrades its ability to retrieve the correct answer letter in MMLU, reducing accuracy from 66% to 25%. This finding suggests that in-context retrieval can obscure the limited knowledge demands of certain tasks. Despite strong MMLU performance with retrieval intact, the pruned model fails on other knowledge tests. Similar G&A dependencies exist in GSM8K, BBH, and dialogue tasks. Given the significance of G&A in performance, we show that retrieval challenges in SSMs manifest in how they implement G&A, leading to smoother attention patterns rather than the sharp token transitions that effective G&A relies on. Thus, while a gap exists between Transformers and SSMs in implementing in-context retrieval, it is confined to a few heads, not the entire model. This insight suggests a unified explanation for performance differences between Transformers and SSMs while also highlighting ways to combine their strengths. For example, in pretrained hybrid models, attention components naturally take on the role of Aggregate Heads. Similarly, in a pretrained pure SSM, replacing a single G&A head with an attention-based variant significantly improves retrieval.
Abstract（参考訳）: SSMは、一定の状態サイズを持つ長いシーケンスの効率的な処理を提供するが、過去のコンテキストを検索するといったアルゴリズム的なタスクに苦労する。本研究では,Transformer および SSM ベースの言語モデルにおいて,このようなコンテキスト内検索がどのように動作するかを検討する。どちらのアーキテクチャも,G&A(Gather-and-Aggregate)機構を基本として開発している。 Gather Headはまず、アグリゲートヘッドが最終的な表現に統合されるコンテキストから関連する情報を識別し、抽出する。どちらのモデルもそうですが、G&Aはほんの数頭で集中しています。例えば、切断されたLlama-3.1-8Bの1つのゲーサーまたはアグリゲートヘッドを無効にすると、MMLUで正しい解答文字を取得する能力が低下し、精度は66%から25%に低下する。この発見は、コンテキスト内検索が特定のタスクの限られた知識要求を曖昧にする可能性があることを示唆している。高いMMLU性能と復元性にもかかわらず、プルーンドモデルは他の知識テストでは失敗する。 GSM8K、BBH、対話タスクにも同様のG&A依存関係が存在する。性能におけるG&Aの重要性を考えると、SSMの検索課題がG&Aの実装方法に現れ、効果的なG&Aが依存する鋭いトークン遷移よりも、よりスムーズな注意パターンがもたらされることが示される。したがって、コンテクスト内検索の実装においてトランスフォーマーとSSMの間にギャップが存在するが、モデル全体ではなく、いくつかのヘッドに制限されている。この洞察は、TransformerとSSMのパフォーマンスの違いを統一的に説明しつつ、その強みを組み合わせる方法を強調していることを示唆している。例えば、事前訓練されたハイブリッドモデルでは、注意要素がアグリゲートヘッドの役割を自然に担います。同様に、事前訓練された純粋なSSMでは、単一のG&Aヘッドを注意に基づく変種に置き換えることで、検索が大幅に改善される。

関連論文リスト

ImpRAG: Retrieval-Augmented Generation with Implicit Queries [49.510101132093396]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文参考訳（メタデータ） (2025-06-02T21:38:21Z)
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文参考訳（メタデータ） (2025-04-29T13:18:58Z)
Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [46.99314622487279]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文参考訳（メタデータ） (2025-03-31T18:33:55Z)
SAGE: A Framework of Precise Retrieval for RAG [9.889395372896153]
Retrieval-augmented Generation (RAG) は,質問応答タスクの遂行に有意義な能力を示した。 RAGメソッドはセマンティクスを考慮せずにコーパスをセグメントし、関連するコンテキストを見つけるのが困難になる。これらの制限を克服するために、RAGフレームワーク(SAGE)を導入します。
論文参考訳（メタデータ） (2025-03-03T16:25:58Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Inference Scaling for Bridging Retrieval and Augmented Generation [47.091086803980765]
大規模言語モデル(LLM)の出力を操る一般的なアプローチとして、検索拡張世代(RAG)が登場している。このようなバイアスは、推論スケーリングから、検索されたコンテキストの置換順序からの推論呼び出しの集約まで緩和可能であることを示す。 ROUGE-L は MS MARCO で,EM は HotpotQA ベンチマークで 7 ポイント向上した。
論文参考訳（メタデータ） (2024-12-14T05:06:43Z)
Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文参考訳（メタデータ） (2024-11-11T14:25:37Z)
Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文参考訳（メタデータ） (2024-11-01T21:01:13Z)
SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文参考訳（メタデータ） (2024-10-22T13:47:38Z)
RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。 Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文参考訳（メタデータ） (2024-03-31T08:58:54Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文参考訳（メタデータ） (2023-12-15T02:54:31Z)
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2023-10-17T18:18:32Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文参考訳（メタデータ） (2022-12-02T04:08:09Z)
Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文参考訳（メタデータ） (2021-12-10T08:10:56Z)
Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning [66.44344616836158]
本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける分析フレームワークを提案する。 HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、また、迅速なチューニングにより、より弱い非退化条件で下流の保証を得ることができ、さらに、メモリ拡張HMMの回復保証がバニラHMMよりも強いことを示す。
論文参考訳（メタデータ） (2021-06-17T03:31:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。