論文の概要: Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP
- arxiv url: http://arxiv.org/abs/2407.00402v3
- Date: Sun, 06 Oct 2024 09:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:22.955169
- Title: Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP
- Title(参考訳): 検索がすべて必要なら、それは本当に長いコンテキストか? - 難易度の高いロングコンテキストNLPに向けて
- Authors: Omer Goldman, Alon Jacovi, Aviv Slobodkin, Aviya Maimon, Ido Dagan, Reut Tsarfaty,
- Abstract要約: 異なるタスクをコンテキスト長で膨らませることは、生産的ではないと我々は主張する。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
- 参考スコア(独自算出の注目度): 32.19010113355365
- License:
- Abstract: Improvements in language models' capabilities have pushed their applications towards longer contexts, making long-context evaluation and development an active research area. However, many disparate use-cases are grouped together under the umbrella term of "long-context", defined simply by the total length of the model's input, including - for example - Needle-in-a-Haystack tasks, book summarization, and information aggregation. Given their varied difficulty, in this position paper we argue that conflating different tasks by their context length is unproductive. As a community, we require a more precise vocabulary to understand what makes long-context tasks similar or different. We propose to unpack the taxonomy of long-context based on the properties that make them more difficult with longer contexts. We propose two orthogonal axes of difficulty: (I) Diffusion: How hard is it to find the necessary information in the context? (II) Scope: How much necessary information is there to find? We survey the literature on long-context, provide justification for this taxonomy as an informative descriptor, and situate the literature with respect to it. We conclude that the most difficult and interesting settings, whose necessary information is very long and highly diffused within the input, is severely under-explored. By using a descriptive vocabulary and discussing the relevant properties of difficulty in long-context, we can implement more informed research in this area. We call for a careful design of tasks and benchmarks with distinctly long context, taking into account the characteristics that make it qualitatively different from shorter context.
- Abstract(参考訳): 言語モデルの能力の向上により、より長いコンテキストに応用され、長期のコンテキスト評価と開発が活発な研究領域となっている。
しかし、多くの異なるユースケースは"long-context"という傘の用語の下でグループ化され、モデル入力の総長さによって定義される。
これらの課題が多様であることを踏まえ、本稿では、文脈長による異なるタスクの混在は非生産的であると論じる。
コミュニティとして、長いコンテキストのタスクが似ているか異なるかを理解するために、より正確な語彙が必要です。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
難易度の直交軸を2つ提案する: (I)拡散: 文脈で必要な情報を見つけるのがどのくらい難しいか?
(II)
Scope: 必要な情報はどの程度ありますか?
我々は、長文の文献を調査し、この分類を情報記述者として正当化し、それに関する文献を整理する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
記述語彙を用いて、長文における難易度の関連性について議論することにより、この領域でより深い研究を行うことができる。
より短いコンテキストと定性的に異なる特徴を考慮し、明確に長いコンテキストでタスクとベンチマークを慎重に設計することを求めている。
関連論文リスト
- ACER: Automatic Language Model Context Extension via Retrieval [36.40066695682234]
現在のオープンウェイト・ジェネリリストのロングコンテキストモデルは、実用的ロングコンテキスト処理タスクにはまだ欠けている。
短文LMを用いて,この処理を模倣するテキスト自動データ合成パイプラインを構築した。
短文LMは、タスク固有の長文機能を得るために、これらの自己生成データを使ってさらに調整される。
論文 参考訳(メタデータ) (2024-10-11T17:57:06Z) - DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。
探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。
私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文 参考訳(メタデータ) (2024-09-04T06:28:22Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Why does in-context learning fail sometimes? Evaluating in-context learning on open and closed questions [14.999106867218572]
オープン・クローズドな質問に対するタスクノベルティと難解さの関数として,文脈内学習の性能を測定した。
反故意に、トピックとより整合したコンテキストは、必ずしもあまり関係のないコンテキストに役立ちません。
論文 参考訳(メタデータ) (2024-07-02T07:52:30Z) - Make Your LLM Fully Utilize the Context [70.89099306100155]
FILM-7Bは,32Kコンテキストウィンドウにおいて,異なる位置から情報を取り出すことができることを示す。
FILM-7Bは現実世界の長文タスクの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-25T17:55:14Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Lost in the Middle: How Language Models Use Long Contexts [88.78803442320246]
本研究では,言語モデルの性能を2つのタスクで解析する。
関連する情報の位置を変えると,性能が著しく低下することがわかった。
我々の分析は、言語モデルが入力コンテキストをどのように使用するかをよりよく理解し、将来の長文言語モデルのための新しい評価プロトコルを提供する。
論文 参考訳(メタデータ) (2023-07-06T17:54:11Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。