論文の概要: Make Your LLM Fully Utilize the Context
- arxiv url: http://arxiv.org/abs/2404.16811v2
- Date: Fri, 26 Apr 2024 11:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:06:07.843237
- Title: Make Your LLM Fully Utilize the Context
- Title(参考訳): LLMがコンテキストをフル活用する
- Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou,
- Abstract要約: FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 70.89099306100155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
- Abstract(参考訳): 多くの現代の大規模言語モデル(LLM)は長い入力を処理できるが、中途半端な課題として知られる長いコンテキスト内で情報の活用に苦慮している。
長い文脈におけるいかなる位置でも重要な情報を保持できることを強調できないような、長期のコンテキストトレーニングにおいて、明確な監督が不十分であることに起因する、という仮説を立てる。
この直感に基づいて,情報集約学習(Information-intensive training,IN2)を提案する。
特に、IN2トレーニングでは、(1)短いセグメント(〜128トークン)の細かな情報認識を合成された長いコンテキスト(4K-32Kトークン)内で行うこと、(2)2つ以上の短いセグメントからの情報の統合と推論を行う。
この情報集約トレーニングをMistral-7Bに適用し、FILM-7B(FILl-in-the-Middle)を提案する。
長いコンテキストを利用するためのFILM-7Bの能力を徹底的に評価するために、様々なコンテキストスタイル(文書、コード、構造化データコンテキスト)と情報検索パターン(前方、後方、双方向検索)を含む3つの探索タスクを設計する。
その結果、FILM-7Bは32Kコンテキストウィンドウ内の異なる位置から情報を取り出すことができることがわかった。
これらの探索タスク以外にも、FILM-7Bは実世界の長文タスク(NarrativeQAでは23.5->26.9スコア)のパフォーマンスを大幅に改善し、短文タスク(MMLUでは59.3->59.2精度)では同等のパフォーマンスを維持している。
Githubリンク:https://github.com/microsoft/FILM
関連論文リスト
- ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [51.587657076291]
ChatQA 2はLlama3ベースのモデルで、オープンアクセスのLLMと主要なプロプライエタリモデルのギャップを埋めるように設計されている。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
最先端の長文検索はRAGの上位kコンテキストの断片化問題を緩和できる。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Attention Instruction: Amplifying Attention in the Middle via Prompting [35.07098912195063]
言語モデルはいまだ位置バイアスに悩まされており、コンテキストの中央へのアクセスと使用が困難である。
本研究では,LSMの相対的位置認識と,プロンプトによる不均等注意の軽減の可能性について検討した。
論文 参考訳(メタデータ) (2024-06-24T19:35:11Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [50.408957515411096]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。