論文の概要: Long-context Language Models Are Not Good At ALL Retrieval Tasks Without Sufficient Steps
- arxiv url: http://arxiv.org/abs/2410.04422v8
- Date: Thu, 06 Feb 2025 11:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 17:43:48.038754
- Title: Long-context Language Models Are Not Good At ALL Retrieval Tasks Without Sufficient Steps
- Title(参考訳): 長文言語モデルは十分ステップなしでのすべての検索タスクに向いていない
- Authors: Yijiong Yu, Ma Xiufa, Fang Jianwei, Zhi Xu, Su Guangyao, Wang Jiancheng, Yongfeng Huang, Zhixiao Qi, Wei Wang, Weifeng Liu, Ran Chen, Ji Pei,
- Abstract要約: 長期コンテキスト言語モデル (LCLM) は、その広範囲なコンテキストウインドウによって特徴付けられるようになった。
通常の長文検索タスクでは完璧に近いが,2つの基本事例では不十分であることが評価された。
特定のCoTプロンプトによって導かれる十分な数の推論ステップで、うまく対処できることが分かりました。
- 参考スコア(独自算出の注目度): 21.725514727966026
- License:
- Abstract: Long-context language models (LCLMs), characterized by their extensive context window, are becoming popular. However, despite they are nearly perfect at standard long-context retrieval tasks, our evaluations demonstrate they are not good at 2 basic cases, "multi-matching retrieval," and "logic-based retrieval", which are beyond LCLMs' ability boundary. But we find they can be well addressed with a sufficient number of reasoning steps, guided by specific CoT prompts, indicating the necessity of combining long-context tasks with CoT methods for more advanced long context handling. However, current CoT methods are too time-consuming, when the context is very long, which means efficient long-context handling still has a long way to go.
- Abstract(参考訳): 長いコンテキスト言語モデル (LCLM) は、その広範なコンテキストウィンドウによって特徴付けられるようになり、人気が高まっている。
しかし, 従来の長文検索作業では完璧に近いが, LCLMの能力境界を超える「マルチマッチング検索」と「論理ベース検索」の2つの基本事例では不十分であることを示す。
しかし、特定のCoTプロンプトによって導かれる十分な数の推論ステップで対処できることが分かり、より高度な長いコンテキストハンドリングのために、CoTメソッドと長いコンテキストタスクを組み合わせる必要性が示唆された。
しかし、現在のCoTメソッドは、コンテキストが非常に長い場合、時間がかかりすぎるため、効率的な長期コンテキストハンドリングにはまだまだ長い道のりがある。
関連論文リスト
- Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。
従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。
この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文 参考訳(メタデータ) (2025-02-17T05:02:25Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
Questはクエリ中心のデータメソッドで、セマンティックに関連があるが多様なドキュメントを集約する。
生成モデルを使用して、ドキュメント毎の潜在的なクエリを予測し、同様のクエリとキーワードでドキュメントをグループ化する。
実験では、Questの長文タスクにおける優れたパフォーマンスを示し、最大100万トークンのコンテキスト長で顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-05-30T08:50:55Z) - Are Long-LLMs A Necessity For Long-Context Tasks? [28.54986983107062]
我々は,Long-LLMは長文タスクの解決に必要ではない,と論じる。
本稿では,長文タスクをブートストラップ方式で処理可能なLC-Boostというフレームワークを提案する。
LC-Boostは、提示されたタスクに基づいてコンテキストを適応的にアクセスして利用することにより、多種多様長文処理問題に対処するための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2024-05-24T07:59:30Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。