Fugu-MT 論文翻訳(概要): Make Your LLM Fully Utilize the Context

論文の概要: Make Your LLM Fully Utilize the Context

arxiv url: http://arxiv.org/abs/2404.16811v1
Date: Thu, 25 Apr 2024 17:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 12:51:20.203567
Title: Make Your LLM Fully Utilize the Context
Title（参考訳）: LLMがコンテキストをフル活用する
Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou,
Abstract要約: FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。 FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
参考スコア（独自算出の注目度）: 70.89099306100155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
Abstract（参考訳）: 多くの現代の大規模言語モデル(LLM)は長い入力を処理できるが、中途半端な課題として知られる長いコンテキスト内で情報の活用に苦慮している。長い文脈におけるいかなる位置でも重要な情報を保持できることを強調できないような、長期のコンテキストトレーニングにおいて、明確な監督が不十分であることに起因する、という仮説を立てる。この直感に基づいて,情報集約学習(Information-intensive training,IN2)を提案する。特に、IN2トレーニングでは、(1)短いセグメント(〜128トークン)の細かな情報認識を合成された長いコンテキスト(4K-32Kトークン)内で行うこと、(2)2つ以上の短いセグメントからの情報の統合と推論を行う。この情報集約トレーニングをMistral-7Bに適用し、FILM-7B(FILl-in-the-Middle)を提案する。長いコンテキストを利用するためのFILM-7Bの能力を徹底的に評価するために、様々なコンテキストスタイル(文書、コード、構造化データコンテキスト)と情報検索パターン(前方、後方、双方向検索)を含む3つの探索タスクを設計する。その結果、FILM-7Bは32Kコンテキストウィンドウ内の異なる位置から情報を取り出すことができることがわかった。これらの探索タスク以外にも、FILM-7Bは実世界の長文タスク(NarrativeQAでは23.5->26.9スコア)のパフォーマンスを大幅に改善し、短文タスク(MMLUでは59.3->59.2精度)では同等のパフォーマンスを維持している。 Githubリンク:https://github.com/microsoft/FILM

関連論文リスト

NeedleChain: Measuring Intact Long-Context Reasoning Capability of Large Language Models [7.134358758293254]
Needle-in-a-Haystackベンチマークは、長期文脈(LC)を理解するLarge Language Models(LLM)能力を評価するために広く利用されている。 GPT-4oのような最先端モデルでさえ、クエリ関連10文のみからなる与えられたコンテキストをそのまま組み込むのに苦労していることを実証する。我々は新しいベンチマークである textbfNeedleChain を導入し、そのコンテキストはクエリ関連情報から成り立っている。
論文参考訳（メタデータ） (2025-07-30T06:29:50Z)
From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-08T16:58:58Z)
Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration [4.7429246847107835]
本稿では,長文入力の理解を深めるために注意を喚起する手法である停止チューニングを導入する。提案手法では,ポーズトークンを人工的に挿入したデータセット上での言語モデルを微調整する。本稿では,Needle-in-a-Haystackベンチマークを用いて,代替手法に対する停止チューニングを評価する。
論文参考訳（メタデータ） (2025-02-01T21:47:15Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data [6.195658947075431]
HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
論文参考訳（メタデータ） (2024-10-15T19:04:13Z)
ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文参考訳（メタデータ） (2024-10-04T08:29:12Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。 FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文参考訳（メタデータ） (2024-08-21T16:11:59Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
QuickLLaMA: Query-aware Inference Acceleration for Large Language Models [94.82978039567236]
大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。 Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
論文参考訳（メタデータ） (2024-06-11T17:55:03Z)
Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。 Retrieval-augmentation対ロングコンテキストウィンドウ。両方の方法を組み合わせることで、両方の世界を最大限に活用できますか? 我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文参考訳（メタデータ） (2023-10-04T17:59:41Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。