論文の概要: Long-context Language Models Are Not Good At Retrieval Without Enough Steps
- arxiv url: http://arxiv.org/abs/2410.04422v6
- Date: Wed, 04 Dec 2024 07:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:16.744360
- Title: Long-context Language Models Are Not Good At Retrieval Without Enough Steps
- Title(参考訳): 長いコンテキスト言語モデルは十分なステップがなければ検索に適さない
- Authors: Yijiong Yu, Ma Xiufa, Fang Jianwei, Zhi Xu, Su Guangyao, Wang Jiancheng, Yongfeng Huang, Zhixiao Qi, Wei Wang, Weifeng Liu, Ran Chen, Ji Pei,
- Abstract要約: Long-context Language Model (LCLM) はますます人気が高まっている。
しかし、標準の長文検索では完璧に近いが、実際にはそれらすべてに向いていない。
- 参考スコア(独自算出の注目度): 21.725514727966026
- License:
- Abstract: Long-context language models (LCLMs), characterized by their extensive context window, are becoming increasingly popular. However, despite they are nearly perfect at standard long-context retrieval, we find they are actually not good at all of them. Specifically, we identify 2 basic cases, "multi-matching retrieval," and "logic-based retrieval", which LLMs struggle to solve under normal settings. Moreover, we find these cases can only be well addressed by specific CoT prompting, with enough reasoning steps. This finding reminds the developers and users of LCLMs that relying on LCLMs to directly perform even basic retrieval tasks may be unreliable, rather, a sufficiently long reasoning process is necessary.
- Abstract(参考訳): 長期コンテキスト言語モデル (LCLM) は、その広範なコンテキストウィンドウによって特徴付けられるようになり、ますます人気が高まっている。
しかし、標準の長文検索では完璧に近いが、実際にはそれらすべてに向いていない。
具体的には,LLMが通常の条件下で解決に苦慮する「マルチマッチング検索」と「論理ベース検索」の2つの基本事例を同定する。
さらに、これらのケースは特定のCoTプロンプトによってのみうまく対処でき、十分な推論ステップがある。
この発見はLCLMの開発者やユーザがLCLMを頼りに基本的な検索タスクを直接実行していることを思い出させる。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - FACT: Examining the Effectiveness of Iterative Context Rewriting for Multi-fact Retrieval [20.217386507637475]
大規模言語モデル(LLM)は、拡張された文脈から単一の事実を抽出するのに熟練しているが、複数の事実の同時検索を必要とするタスクに苦労する。
本稿では,LSMが生成過程を通じて重要情報の追跡を段階的に失う,新たな「中間者ロスト」現象を特定する。
本研究では,連続する書き直しラウンドを通じてコンテキストを洗練する反復的検索手法であるFind All Crucial Texts (FACT)を紹介する。
論文 参考訳(メタデータ) (2024-10-28T13:36:41Z) - FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding [32.197113821638936]
我々は,新しいLong-Context Large Language Model (FltLM)を提案する。
FltLMはコンテキストフィルタをソフトマスク機構に組み込み、関連する情報に集中するために無関係な内容を特定し、動的に排除する。
実験の結果,複雑なQAシナリオにおいて,FltLMは教師付き微調整法や検索法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T13:47:50Z) - ALR$^2$: A Retrieve-then-Reason Framework for Long-context Question Answering [42.146660039671076]
我々は,大規模言語モデル(LLM)のための検索・推論フレームワークを開発した。
現代のLLMは、関連した事実を正確に回収するのに苦労し、代わりにしばしば「検索された事実」を幻覚させる。
本稿では,LLMの長文推論能力を明示的な2段階手順で拡張する手法であるALR$2$を紹介する。
論文 参考訳(メタデータ) (2024-10-04T08:29:12Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - M4LE: A Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark for Large Language Models [58.54538318912159]
M4LEは、大規模言語モデル(LLM)の時系列能力を評価するためのベンチマークである。
M4LEは、36のNLPタスクタイプと12のドメインからなる多様なNLPタスクプールに基づいている。
我々は,11個のLLM,特に長文入力に最適化されたLLMについて,系統評価を行った。
論文 参考訳(メタデータ) (2023-10-30T03:11:30Z) - Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。