論文の概要: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- arxiv url: http://arxiv.org/abs/2510.07414v1
- Date: Wed, 08 Oct 2025 18:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.652233
- Title: Haystack Engineering: Context Engineering for Heterogeneous and Agentic Long-Context Evaluation
- Title(参考訳): Haystack Engineering: 異種およびエージェントによる長期評価のためのコンテキストエンジニアリング
- Authors: Mufei Li, Dongqi Fu, Limei Wang, Si Zhang, Hanqing Zeng, Kaan Sancak, Ruizhong Qiu, Haoyu Wang, Xiaoxin He, Xavier Bresson, Yinglong Xia, Chonglin Sun, Pan Li,
- Abstract要約: LLM(Long-context Large Language Model)は、"needle-in-a-haystack"ベンチマークでよく機能する。
しかし、このようなテストは、バイアス付き検索とエージェントによる注意散逸から、いかにノイズの多いコンテキストが生じるかを見落としている。
私たちは、英語のWikipediaハイパーリンクネットワーク上に構築された新しいNIAHベンチマークであるHaystackCraftを通じて、これをインスタンス化する。
- 参考スコア(独自算出の注目度): 40.38390243268607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern long-context large language models (LLMs) perform well on synthetic "needle-in-a-haystack" (NIAH) benchmarks, but such tests overlook how noisy contexts arise from biased retrieval and agentic workflows. We argue that haystack engineering is necessary to construct noisy long contexts that faithfully capture key real-world factors -- distraction from heterogeneous biased retrievers and cascading errors in agentic workflows -- to test models' long-context robustness. We instantiate it through HaystackCraft, a new NIAH benchmark built on the full English Wikipedia hyperlink network with multi-hop questions. HaystackCraft evaluates how heterogeneous retrieval strategies (e.g., sparse, dense, hybrid, and graph-based) affect distractor composition, haystack ordering, and downstream LLM performance. HaystackCraft further extends NIAH to dynamic, LLM-dependent settings that simulate agentic operations, where models refine queries, reflect on their past reasonings, and decide when to stop. Experiments with 15 long-context models show that (1) while stronger dense retrievers can introduce more challenging distractors, graph-based reranking simultaneously improves retrieval effectiveness and mitigates more harmful distractors; (2) in agentic tests, even advanced models like Gemini 2.5 Pro and GPT-5 suffer cascading failures from self-generated distractors or struggle to perform early stops. These results highlight persistent challenges in agentic long-context reasoning and establish HaystackCraft as a valuable testbed for future progress.
- Abstract(参考訳): 現代の長文大言語モデル(LLM)は、合成された"needle-in-a-haystack"(NIAH)ベンチマークでよく機能するが、このようなテストは、バイアス付き検索やエージェントワークフローからノイズのあるコンテキストがどのように生じるかを見落としている。
ヘーススタックエンジニアリングは、異質なバイアスドレトリバーやエージェントワークフローのカスケードエラーなど、重要な現実世界の要因を忠実に捉えたノイズの多い長いコンテキストを構築し、モデルの長期コンテキストの堅牢性をテストするために必要である、と私たちは主張する。
私たちはHaystackCraftを通じてこれをインスタンス化します。これは、英語のWikipediaハイパーリンクネットワーク上に構築された新しいNIAHベンチマークで、マルチホップ質問ができます。
HaystackCraftは、異種検索戦略(例えば、スパース、密度、ハイブリッド、グラフベース)が、イントラクタ構成、干し草の順序付け、下流のLLMパフォーマンスにどのように影響するかを評価する。
HaystackCraftはさらにNIAHを拡張し、エージェント操作をシミュレートする動的 LLM 依存設定、クエリを洗練、過去の推論を反映し、いつ停止するかを決定する。
15種類の長文モデルを用いた実験では,(1)より高密度な検索者がより難易度なトラヒックを導入できる一方で,グラフベースのリクエンシングは検索効率を向上し,より有害なトラヒックを緩和する。(2)エージェントテストでは,ジェミニ2.5 ProやGPT-5のような高度なモデルでさえ,自己破壊型トラヒックのカスケード障害や早期停止の障害に悩まされる。
これらの結果は、エージェント的長期コンテキスト推論における永続的な課題を強調し、将来の進歩のための価値のあるテストベッドとしてHaystackCraftを確立します。
関連論文リスト
- GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Reasoning on Multiple Needles In A Haystack [9.765859280987053]
直接質問をフィルタリングすることで,メモリベースの回答問題に対処する。
この知見に基づいて,マルチラウンド拡張のためのリフレクション機構を導入する。
生成した反復的思考プロセスを使用してモデルをトレーニングし、パフォーマンスの劣化を軽減する。
論文 参考訳(メタデータ) (2025-04-05T11:58:08Z) - Adaptive Distraction: Probing LLM Contextual Robustness with Automated Tree Search [76.54475437069395]
大きな言語モデル(LLM)は、意味的に一貫性があるがタスクに依存しないコンテキスト情報に直面している場合、元のパフォーマンスを維持するのに苦労することが多い。
本稿では,木探索に基づく動的散逸生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Stress-Testing Long-Context Language Models with Lifelong ICL and Task Haystack [33.178008350124315]
長いコンテキスト言語モデル(LM)に挑戦し、インコンテキスト学習(ICL)を通して言語タスクのシーケンスを学習する問題設定であるLifelong ICLを導入する。
長文LMがLifelong ICLのコンテキストをどのように利用するかを評価し診断するための評価スイートであるTask Haystackを紹介する。
論文 参考訳(メタデータ) (2024-07-23T17:57:41Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - Enhancing Retrieval-Augmented Large Language Models with Iterative
Retrieval-Generation Synergy [164.83371924650294]
検索と生成を反復的に同期させるIter-RetGenと呼ばれる手法により,高い性能が得られることを示す。
モデル出力は、タスクを完了するために必要なものを示し、より関連する知識を取得するための情報的コンテキストを提供する。
Iter-RetGenプロセスは、すべての知識を全体として取得し、構造的な制約なしに生成時の柔軟性をほとんど保持します。
論文 参考訳(メタデータ) (2023-05-24T16:17:36Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。