論文の概要: VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora
- arxiv url: http://arxiv.org/abs/2605.28683v1
- Date: Wed, 27 May 2026 16:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.203729
- Title: VeriTrip: A Verifiable Benchmark for Travel Planning Agents over Unstructured Web Corpora
- Title(参考訳): VeriTrip: 構造化されていないWebコーパス上の旅行計画エージェントの検証可能なベンチマーク
- Authors: Yuting Xu, Jiayi Tian, Jian Liang, Xin Xiong, Hang Zhang, Mu Xu, Xiao-Yu Zhang,
- Abstract要約: 既存のベンチマークでは、情報ノイズを考慮せず、複数ソースの事実矛盾を無視し、論理的計画に視覚的認識を根ざす必要性を見落としている。
エージェントの堅牢性と信頼性の増大に対応するために設計された検証可能なベンチマークであるVeriTripを紹介する。
- 参考スコア(独自算出の注目度): 24.484384823423216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks have laid the foundation for travel planning agents by establishing API-centric paradigms. However, as the capabilities of Autonomous Agents continue to advance, their evaluation must evolve beyond simple tool execution toward handling the inherent complexities of the open web. Current benchmarks bypass core cognitive hurdles: they fail to account for information noise, ignore multi-source factual contradictions, and overlook the necessity of grounding visual perception into logical planning. We introduce VeriTrip, a verifiable benchmark designed to meet the increasing demands for agent robustness and reliability. VeriTrip shifts the evaluation focus to evidence-grounded reasoning over unstructured multimodal web corpora. It establishes a Multimodal Retrieval Base (MRB) derived from real-world sources, forcing agents to autonomously orchestrate queries across heterogeneous data. A synchronized Verifiable Knowledge Base (VKB) enables a cell-wise verification protocol that precisely quantifies factual reliability, distinguishing systematic reasoning failures from parametric hallucinations. Our evaluations across leading MLLMs reveal a critical \textit{retrieval-reasoning trade-off}: the cognitive load of autonomous retrieval significantly erodes instruction retention. VeriTrip provides the rigorous foundation necessary for the next generation of planning agents capable of operating in unconstrained, multimodal environments.
- Abstract(参考訳): 既存のベンチマークは、API中心のパラダイムを確立することによって、旅行計画エージェントの基礎を築いた。
しかし、自律エージェントの能力が進歩し続けるにつれて、その評価は、オープンウェブの本質的な複雑さを扱うための単純なツールの実行を超えて進化しなければなりません。
現在のベンチマークでは、情報ノイズの考慮に失敗し、複数ソースの事実矛盾を無視し、論理的計画に視覚的認識を根ざす必要性を見落としている。
エージェントの堅牢性と信頼性の増大に対応するために設計された検証可能なベンチマークであるVeriTripを紹介する。
VeriTripは、非構造化マルチモーダルウェブコーパスに対するエビデンスに基づく推論に焦点を移す。
現実世界のソースから派生したMRB(Multimodal Retrieval Base)を確立し、異種データ間のクエリを自律的にオーケストレーションすることを強制する。
同期検証知識ベース(VKB)は、現実の信頼性を正確に定量化し、体系的な推論失敗とパラメトリック幻覚を区別する、セルワイズ検証プロトコルを可能にする。
MLLMを対象とする評価では, 自律的検索の認知的負荷が, 指導の維持を著しく損なうという, 批判的な<textit{retrieval-reasoning trade-off} が示された。
VeriTripは、制約のないマルチモーダル環境で動作可能な次世代の計画エージェントに必要な厳格な基盤を提供する。
関連論文リスト
- MAVEN: Multi-Agent Verification-Elaboration Network with In-Step Epistemic Auditing [18.35295672031847]
MAVENは、LLMを明示的な役割分離を通じて意図的な推論に変換するように設計されたフレームワークである。
MAVEN は GEMINI-3.1-Pro などの潜在推論モデルより一貫して優れている。
MAVENは完全にモデルに依存しず、強力で伝達可能な推論ブースターとして機能する。
論文 参考訳(メタデータ) (2026-05-08T12:11:08Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - RPA-Check: A Multi-Stage Automated Framework for Evaluating Dynamic LLM-based Role-Playing Agents [4.07447364754644]
本稿では,LLM ベースの RPA の性能を客観的に評価する多段階自動評価フレームワーク RPA-Check を紹介する。
我々は,この枠組みを,いくつかの定量化ローカルモデルを含む法医学的な訓練のための真剣なゲームであるLLM Courtに適用することで検証する。
論文 参考訳(メタデータ) (2026-04-13T16:08:03Z) - Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces [0.0]
Agent Execution Record (AER) は構造化された推論プリミティブであり、すべてのステップで第一級クエリ可能なフィールドとしてインテント、観察、推論をキャプチャする。
AERが集団レベルの行動分析を可能にする方法を示す: 推論パターンマイニング、信頼度校正、クロスエージェント比較、モックリプレイによる反事実回帰テスト。
論文 参考訳(メタデータ) (2026-03-23T08:27:54Z) - Multimodal Fact-Level Attribution for Verifiable Reasoning [80.60864342985748]
マルチモーダル大言語モデル(MLLM)は、多段階推論と長文生成を含む実世界のタスクにますます利用されている。
既存のマルチモーダルグラウンドベンチマークと評価手法は、複雑なマルチモーダル推論における属性評価に失敗する。
我々は、直接観察以上の推論を必要とする設定において、ファクトレベルのマルチモーダル属性を評価するためのベンチマークであるMuRGAtを紹介する。
論文 参考訳(メタデータ) (2026-02-12T03:10:02Z) - From Prompt-Response to Goal-Directed Systems: The Evolution of Agentic AI Software Architecture [0.0]
Agentic AIは、ステートレスでプロンプト駆動型生成モデルからゴール指向システムへのアーキテクチャ移行を表す。
本稿では、知的エージェント理論と現代のLCM中心のアプローチを結びつけることによって、この遷移を考察する。
この研究は、標準化されたエージェントループ、登録、監査可能な制御機構への収束を特定する。
論文 参考訳(メタデータ) (2026-02-11T03:34:48Z) - MiRAGE: A Multiagent Framework for Generating Multimodal Multihop Question-Answer Dataset for RAG Evaluation [0.3499870393443268]
既存のデータセットは一般的なドメインコーパスや純粋にテキスト検索に依存していることが多い。
RAGシステム評価のためのMultiagentフレームワークであるMiRAGEを紹介する。
MiRAGEは、検証済み、ドメイン固有、マルチモーダル、マルチホップ質問応答データセットを生成するために、専門エージェントの群を編成する。
論文 参考訳(メタデータ) (2026-01-21T21:39:09Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。