Fugu-MT 論文翻訳(概要): Understanding Synthetic Context Extension via Retrieval Heads

論文の概要: Understanding Synthetic Context Extension via Retrieval Heads

arxiv url: http://arxiv.org/abs/2410.22316v1
Date: Tue, 29 Oct 2024 17:55:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.993608
Title: Understanding Synthetic Context Extension via Retrieval Heads
Title（参考訳）: 検索ヘッドによる合成文脈拡張の理解
Authors: Xinyu Zhao, Fangcong Yin, Greg Durrett,
Abstract要約: 本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
参考スコア（独自算出の注目度）: 51.8869530817334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-context LLMs are increasingly in demand for applications such as retrieval-augmented generation. To defray the cost of pretraining LLMs over long contexts, recent work takes an approach of synthetic context extension: fine-tuning LLMs with synthetically generated long-context data in a post-training stage. However, it remains unclear how and why this synthetic context extension imparts abilities for downstream long-context tasks. In this paper, we investigate fine-tuning on synthetic data for three long-context tasks that require retrieval and reasoning. We vary the realism of "needle" concepts to be retrieved and diversity of the surrounding "haystack" context, from using LLMs to construct synthetic documents to using templated relations and creating symbolic datasets. We find that models trained on synthetic data fall short of the real data, but surprisingly, the mismatch can be interpreted and even predicted in terms of a special set of attention heads that are responsible for retrieval over long context: retrieval heads (Wu et al., 2024). The retrieval heads learned on synthetic data are mostly subsets of the retrieval heads learned on real data, and there is a strong correlation between the recall of heads learned and the downstream performance of a model. Furthermore, with attention knockout and activation patching, we mechanistically show that retrieval heads are necessary and explain model performance, although they are not totally sufficient. Our results shed light on how to interpret synthetic data fine-tuning performance and how to approach creating better data for learning real-world capabilities over long contexts.
Abstract（参考訳）: 長いコンテキストのLLMは、検索拡張生成のようなアプリケーションに対してますます需要が高まっている。長期学習におけるLLMの事前学習のコストを抑えるため、最近の研究は、合成文脈拡張(synthetic context extension: syntheticly generated long-context data in a-training stage)のアプローチを採っている。しかし、この合成文脈拡張が下流の長文タスクにどのように機能を与えるのか、なぜなのかははっきりしない。本稿では,検索と推論を必要とする3つの長文タスクの合成データの微調整について検討する。我々は、LLMを用いて合成文書を構築することから、テンプレート化された関係を利用して、シンボリックデータセットを作成することまで、検索すべき"needle"概念のリアリズムと周囲の"haystack"コンテキストの多様性を変化させる。合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、長いコンテキストで検索する特別な注意点の組である、検索ヘッド(Wu et al , 2024)について、ミスマッチを解釈し、予測することができる。合成データに基づいて学習した検索ヘッドは、主に実データに基づいて学習した検索ヘッドのサブセットであり、学習したヘッドのリコールとモデルの下流性能との間には強い相関関係がある。さらに,アテンションノックアウトやアクティベーションパッチでは,検索ヘッドが必須であることが機械的に示され,モデル性能を説明できるが,完全ではない。我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。

関連論文リスト

RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-05-15T16:53:45Z)
Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードの両方で合成トレーニングデータを生成する新たな可能性を開いた。これらの手法が,分類や質問応答などの低リソースなタスクをどのように強化するかを示す。生成したテキストの事実的不正確さ、スタイリスティックなリアリズムの欠如、バイアス増幅のリスクといった課題に対処する。
論文参考訳（メタデータ） (2025-03-18T08:34:03Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
A Reality Check on Context Utilisation for Retrieval-Augmented Generation [44.54803681476863]
DRUID (Dataset of Retrieved Untrieved Unliable, Insufficient and Difficult-to-understand contexts) を導入し、実世界のクエリやコンテキストを手動でアノテートする。このデータセットは、現実世界の証拠の自動検索が不可欠である自動クレーム検証のタスクに基づいている。合成データセットは、実検索データで稀な文脈特性を誇張し、拡張された文脈利用結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-12-22T14:16:38Z)
ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文参考訳（メタデータ） (2024-10-11T17:57:06Z)
Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文参考訳（メタデータ） (2024-09-18T13:20:23Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-16T12:22:41Z)
Learning to Reduce: Optimal Representations of Structured Data in Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文参考訳（メタデータ） (2024-02-22T00:41:23Z)
JOBSKAPE: A Framework for Generating Synthetic Job Postings to Enhance Skill Matching [18.94748873243611]
JobSkapeは、スキル・ツー・タコノミーマッチングのための合成データを生成するフレームワークである。このフレームワーク内では、ジョブ投稿の包括的な合成データセットであるSkillSkapeを作成します。本稿では,大規模言語モデルを用いたスキル抽出とマッチングタスクのための多段階パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-05T17:57:26Z)
Contextual Knowledge Pursuit for Faithful Visual Synthesis [33.191847768674826]
大きな言語モデル(LLM)では、幻覚を減らすための一般的な戦略は、外部データベースから事実知識を取得することである。本稿では,外部知識とパラメトリック知識の相補的強みを利用して,生成元が信頼できる視覚コンテンツを生成できるようにするフレームワークであるコンパラメトリック知識探索法(CKPT)を提案する。
論文参考訳（メタデータ） (2023-11-29T18:51:46Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。