論文の概要: Long-context Language Models Are Not Good At Retrieval Without Enough Steps
- arxiv url: http://arxiv.org/abs/2410.04422v6
- Date: Wed, 04 Dec 2024 07:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:16.744360
- Title: Long-context Language Models Are Not Good At Retrieval Without Enough Steps
- Title(参考訳): 長いコンテキスト言語モデルは十分なステップがなければ検索に適さない
- Authors: Yijiong Yu, Ma Xiufa, Fang Jianwei, Zhi Xu, Su Guangyao, Wang Jiancheng, Yongfeng Huang, Zhixiao Qi, Wei Wang, Weifeng Liu, Ran Chen, Ji Pei,
- Abstract要約: Long-context Language Model (LCLM) はますます人気が高まっている。
しかし、標準の長文検索では完璧に近いが、実際にはそれらすべてに向いていない。
- 参考スコア(独自算出の注目度): 21.725514727966026
- License:
- Abstract: Long-context language models (LCLMs), characterized by their extensive context window, are becoming increasingly popular. However, despite they are nearly perfect at standard long-context retrieval, we find they are actually not good at all of them. Specifically, we identify 2 basic cases, "multi-matching retrieval," and "logic-based retrieval", which LLMs struggle to solve under normal settings. Moreover, we find these cases can only be well addressed by specific CoT prompting, with enough reasoning steps. This finding reminds the developers and users of LCLMs that relying on LCLMs to directly perform even basic retrieval tasks may be unreliable, rather, a sufficiently long reasoning process is necessary.
- Abstract(参考訳): 長期コンテキスト言語モデル (LCLM) は、その広範なコンテキストウィンドウによって特徴付けられるようになり、ますます人気が高まっている。
しかし、標準の長文検索では完璧に近いが、実際にはそれらすべてに向いていない。
具体的には,LLMが通常の条件下で解決に苦慮する「マルチマッチング検索」と「論理ベース検索」の2つの基本事例を同定する。
さらに、これらのケースは特定のCoTプロンプトによってのみうまく対処でき、十分な推論ステップがある。
この発見はLCLMの開発者やユーザがLCLMを頼りに基本的な検索タスクを直接実行していることを思い出させる。
関連論文リスト
- Does RAG Really Perform Bad For Long-Context Processing? [15.889864680212147]
RetroLMは長文処理のための新しいフレームワークである。
従来の方法とは異なり、RetroLMはKVレベルの検索拡張を採用している。
この枠組みに基づいて,臨界ページの正確な検索を行うための特殊検索器を開発した。
論文 参考訳(メタデータ) (2025-02-17T05:02:25Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Quest: Query-centric Data Synthesis Approach for Long-context Scaling of Large Language Model [22.07414287186125]
Questはクエリ中心のデータメソッドで、セマンティックに関連があるが多様なドキュメントを集約する。
生成モデルを使用して、ドキュメント毎の潜在的なクエリを予測し、同様のクエリとキーワードでドキュメントをグループ化する。
実験では、Questの長文タスクにおける優れたパフォーマンスを示し、最大100万トークンのコンテキスト長で顕著な結果が得られる。
論文 参考訳(メタデータ) (2024-05-30T08:50:55Z) - Are Long-LLMs A Necessity For Long-Context Tasks? [28.54986983107062]
我々は,Long-LLMは長文タスクの解決に必要ではない,と論じる。
本稿では,長文タスクをブートストラップ方式で処理可能なLC-Boostというフレームワークを提案する。
LC-Boostは、提示されたタスクに基づいてコンテキストを適応的にアクセスして利用することにより、多種多様長文処理問題に対処するための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2024-05-24T07:59:30Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。