論文の概要: Benchmarking Real-Time Question Answering via Executable Code Workflows
- arxiv url: http://arxiv.org/abs/2604.16349v1
- Date: Mon, 16 Mar 2026 16:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.916135
- Title: Benchmarking Real-Time Question Answering via Executable Code Workflows
- Title(参考訳): 実行可能なコードワークフローによるリアルタイム質問回答のベンチマーク
- Authors: Wenjie Zhou, Yuan Gao, Xin Zhou, Hao Fu, Zhongjian Miao, Wei Chen, Bo Chen, Xiaobing Zhao,
- Abstract要約: RT-QAは動的評価フレームワークで、実行可能コードを利用して評価時に最新の回答を取得する。
我々は,WebクローリングやDOMベースの回答抽出のためのコードの自動生成を行うエージェント駆動パイプラインを構築した。
RT-QAは12のドメインにまたがって320の中国語の質問を3つの困難レベルに分類している。
- 参考スコア(独自算出の注目度): 15.866566641224715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving real-time information is a fundamental capability for search-integrated agents in real-world applications. However, existing benchmarks are predominantly static and therefore fail to capture the temporal dynamics of information and the continuously evolving nature of real-world knowledge. To address this limitation, we propose RT-QA, a dynamic evaluation framework that leverages executable code workflows to retrieve up-to-date answers at evaluation time. Specifically, we construct an agent-driven pipeline that autonomously generates code for web crawling and DOM-based answer extraction to produce real-time ground truth. To ensure robust evaluation over time, the pipeline further incorporates a self-repair mechanism to adapt to changes in web page structures. RT-QA spans 12 domains (e.g., Finance, Sports) with 320 Chinese questions categorized into three difficulty levels. Extensive evaluations of state-of-the-art models (e.g., GPT-5.2, GLM-4.7) reveal significant limitations in real-time adaptability: even the best models achieve only 46% accuracy. Our analysis highlights two primary failure modes: (1) Lazy Retrieval, where agents rely on search snippets instead of deeply scanning specific websites for information (20% of failures); and (2) Temporal Confusion, a cognitive error where agents retrieve a historical date (e.g., an event in 2024) and fail to re-anchor to the current time (2026) for subsequent reasoning. These findings suggest that future agents require not just better retrieval strategies, but robust temporal state management.
- Abstract(参考訳): リアルタイム情報を取得することは、リアルタイムアプリケーションにおける検索統合エージェントの基本的な機能である。
しかし、既存のベンチマークは主に静的であるため、情報の時間的ダイナミクスと現実世界の知識の継続的な進化の性質を捉えることができない。
この制限に対処するために,実行可能なコードワークフローを活用する動的評価フレームワークRT-QAを提案する。
具体的には,WebクローリングとDOMベースの回答抽出のためのコードを自動的に生成するエージェント駆動パイプラインを構築し,リアルタイムな地上真実を生成する。
時間とともに堅牢な評価を保証するため、パイプラインはさらに、Webページ構造の変化に適応するための自己修復メカニズムを取り入れている。
RT-QAは12のドメイン(例えばファイナンス、スポーツ)にまたがっており、320の中国語の質問は3つの難易度に分類される。
最先端モデル(例: GPT-5.2, GLM-4.7)の大規模な評価では、リアルタイム適応性に大きな制限が示され、最高のモデルでさえ46%の精度しか達成できない。
1) エージェントが特定のWebサイトを深くスキャンする代わりに検索スニペットを頼りにしている遅延検索(20%の障害)と,(2) エージェントが過去の日付(例:2024年の出来事)を検索し,その後の理由(2026年)の修正に失敗する認知的エラーであるテンポラル・コンフュージョン(Temporal Confusion)である。
これらの結果から, 将来的なエージェントは, 検索戦略の改善だけでなく, 時間的状態管理の堅牢性も要求されることが示唆された。
関連論文リスト
- FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - Beyond Isolated Tasks: A Framework for Evaluating Coding Agents on Sequential Software Evolution [5.10403054516716]
既存のデータセットは、分離された単一のプルリクエスト(PR)タスクのパフォーマンスをステートレスな方法で評価する。
本稿では,SWE-STEPSのデータセット生成を支援する自動コーディングタスク生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-03T13:44:40Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - Evaluating the Search Agent in a Parallel World [28.24678964635285]
並列世界における検索エージェント評価フレームワークであるMind-ParaWorldを紹介する。
パラワールド・ロー・モデル(ParaWorld Law Model)は、不可分なアトミック・ファクトの集合と、各質問に対する独特な基礎構造を構築する。
評価中、現実世界の結果を取得する代わりに、エージェントはパラワールドモデルと対話する。
MPW-Benchは19のドメインと1,608のインスタンスにまたがる対話型ベンチマークです。
論文 参考訳(メタデータ) (2026-03-05T02:56:42Z) - LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge [31.40589987269264]
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
論文 参考訳(メタデータ) (2025-11-03T10:00:49Z) - Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation [55.47971671635531]
大言語モデル(LLM)は、一般質問回答(QA)において顕著な性能を示した。
Retrieval-Augmented Generation (RAG)は、LLMを外部知識で強化することで、この制限に対処する。
既存のシステムは、主に構造化されていないドキュメントに依存しているが、主にリレーショナルデータベースを見下ろしている。
論文 参考訳(メタデータ) (2025-09-30T22:19:44Z) - Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search [54.987957691350665]
クエリ駆動テキスト要約(QDTS)は、与えられたクエリに基づいてテキスト文書から簡潔で情報的な要約を生成することを目的としている。
従来の抽出的要約モデルは、主にランク付け候補の要約セグメントに基づいており、産業応用において支配的なアプローチとなっている。
産業Web検索におけるリアルタイムQDTSに対処するための生成モデルの適用を開拓するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T08:51:51Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。