論文の概要: Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data
- arxiv url: http://arxiv.org/abs/2410.11996v1
- Date: Tue, 15 Oct 2024 19:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:58.031895
- Title: Holistic Reasoning with Long-Context LMs: A Benchmark for Database Operations on Massive Textual Data
- Title(参考訳): 長文LMを用いたホロスティック推論:大規模テキストデータに基づくデータベース操作のベンチマーク
- Authors: Seiji Maekawa, Hayate Iso, Nikita Bhutani,
- Abstract要約: HoloBenchは、テキストベースのコンテキストにデータベース推論操作をもたらすフレームワークです。
本研究では,文脈内の情報量が文脈長よりもLCLMの性能に大きく影響していることを示す。
複数の情報の集約を必要とするタスクは、コンテキスト長が増加するにつれて顕著な精度低下を示す。
- 参考スコア(独自算出の注目度): 6.195658947075431
- License:
- Abstract: The rapid increase in textual information means we need more efficient methods to sift through, organize, and understand it all. While retrieval-augmented generation (RAG) models excel in accessing information from large document collections, they struggle with complex tasks that require aggregation and reasoning over information spanning across multiple documents--what we call holistic reasoning. Long-context language models (LCLMs) have great potential for managing large-scale documents, but their holistic reasoning capabilities remain unclear. In this work, we introduce HoloBench, a novel framework that brings database reasoning operations into text-based contexts, making it easier to systematically evaluate how LCLMs handle holistic reasoning across large documents. Our approach adjusts key factors such as context length, information density, distribution of information, and query complexity to evaluate LCLMs comprehensively. Our experiments show that the amount of information in the context has a bigger influence on LCLM performance than the actual context length. Furthermore, the complexity of queries affects performance more than the amount of information, particularly for different types of queries. Interestingly, queries that involve finding maximum or minimum values are easier for LCLMs and are less affected by context length, even though they pose challenges for RAG systems. However, tasks requiring the aggregation of multiple pieces of information show a noticeable drop in accuracy as context length increases. Additionally, we find that while grouping relevant information generally improves performance, the optimal positioning varies across models. Our findings surface both the advancements and the ongoing challenges in achieving a holistic understanding of long contexts.
- Abstract(参考訳): テキスト情報の急速な増加は、これらすべてを網羅し、整理し、理解するために、より効率的な方法が必要であることを意味します。
検索強化生成(RAG)モデルは、大規模な文書コレクションから情報にアクセスするのに優れているが、複数の文書にまたがる情報の集約と推論を必要とする複雑なタスクに苦労する。
Long-context Language Model (LCLM) は大規模文書を管理する大きな可能性を持っているが、その全体的な推論能力は未だ不明である。
本研究では,テキストベースのコンテキストにデータベース推論操作をもたらす新しいフレームワークであるHoloBenchを紹介し,LCLMが大規模文書全体にわたる論理推論をどのように扱うかの体系的評価を容易にする。
提案手法は,LCLMを包括的に評価するために,文脈長,情報密度,情報分布,クエリ複雑性といった重要な要素を調整する。
実験の結果,文脈内の情報量は実際の文脈長よりもLCLMの性能に大きく影響していることがわかった。
さらに、クエリの複雑さは、特に異なるタイプのクエリにおいて、情報の量よりもパフォーマンスに影響する。
興味深いことに、LCLMでは最大値や最小値の検索を伴うクエリは簡単であり、RAGシステムに課題があるにもかかわらず、文脈長の影響を受けない。
しかし、複数の情報の集約を必要とするタスクは、コンテキストの長さが増加するにつれて、顕著な精度の低下を示す。
さらに、関連する情報をグループ化することで性能が向上するのに対し、最適な位置決めはモデルによって異なることがわかった。
本研究は,長期の文脈を総合的に理解する上での課題の進展と今後の課題を明らかにするものである。
関連論文リスト
- Retrieval or Global Context Understanding? On Many-Shot In-Context Learning for Long-Context Evaluation [10.500629810624769]
マルチショットインコンテキスト学習(ICL)による長文言語モデルの評価について検討する。
ICLタスクが必要とするスキルを特定し、それらに対するモデルの長期コンテキスト能力を調べる。
我々は、LCLMの検索機能とグローバルコンテキスト理解機能を別々に特徴付けるために、新しいマルチショットICLベンチマークMANYICLBENCHを導入する。
論文 参考訳(メタデータ) (2024-11-11T17:00:59Z) - LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。
私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。
本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。
ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。
複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文 参考訳(メタデータ) (2024-06-15T17:07:31Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。