論文の概要: Hyper-multi-step: The Truth Behind Difficult Long-context Tasks
- arxiv url: http://arxiv.org/abs/2410.04422v2
- Date: Tue, 08 Oct 2024 03:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 10:17:05.253575
- Title: Hyper-multi-step: The Truth Behind Difficult Long-context Tasks
- Title(参考訳): 超多段階:難易度長文課題の真理
- Authors: Yijiong Yu,
- Abstract要約: Long-context Language Model (LCLM) はますます人気が高まっている。
長いコンテキストのベンチマークでは、最も先進的なLCLMでさえ完成に苦しむ課題が提示される。
本研究は, 主に2つの基本課題から生じる難易度を示す実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Long-context language models (LCLM), characterized by their extensive context window, is becoming increasingly popular. Meanwhile, many long-context benchmarks present challenging tasks that even the most advanced LCLMs struggle to complete. However, the underlying sources of various challenging long-context tasks have seldom been studied. To bridge this gap, we conduct experiments to indicate their difficulty stems primarily from two basic issues: "multi-matching retrieval," which requires the simultaneous retrieval of multiple items, and "logic-based retrieval," which necessitates logical judgment within retrieval criteria. These two problems, while seemingly straightforward, actually exceed the capabilities of LCLMs because they are proven to be hyper-multi-step (demanding numerous steps to solve) in nature. This finding could explain why LLMs struggle with more advanced long-context tasks, providing a more accurate perspective for rethinking solutions for them.
- Abstract(参考訳): 長期コンテキスト言語モデル(LCLM: Long-context Language Model)は、その広範なコンテキストウィンドウによって特徴付けられるようになり、ますます人気が高まっている。
一方、多くの長期コンテキストベンチマークでは、最も先進的なLCLMでさえ完成に苦しむ課題が提示されている。
しかし、様々な長文課題の根底にある源泉は研究されることはめったにない。
このギャップを埋めるために,我々は,複数の項目の同時検索を必要とする「マルチマッチング検索」と,検索基準内で論理的判断を必要とする「論理ベース検索」という2つの基本課題から,それらの難易度を示す実験を行った。
これらの2つの問題は一見単純だが、実際にはLCLMの能力を超えている。
この発見は、LLMがより高度なロングコンテキストタスクに苦しむ理由を説明することができ、ソリューションを再考するためのより正確な視点を提供する。
関連論文リスト
- NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。