論文の概要: IDRBench: Interactive Deep Research Benchmark
- arxiv url: http://arxiv.org/abs/2601.06676v1
- Date: Sat, 10 Jan 2026 20:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.936193
- Title: IDRBench: Interactive Deep Research Benchmark
- Title(参考訳): IDRBench: インタラクティブなディープリサーチベンチマーク
- Authors: Yingchaojie Feng, Qiang Huang, Xiaoya Xie, Zhaorui Yang, Jun Yu, Wei Chen, Anthony K. H. Tung,
- Abstract要約: インタラクティブディープリサーチを体系的に評価する最初のベンチマークであるIDRBenchを紹介する。
IDRBenchはモジュール型マルチエージェントリサーチフレームワークとオンデマンドインタラクション、スケーラブルなリファレンスグラウンドユーザシミュレータ、インタラクション認識評価スイートを組み合わせたものだ。
- 参考スコア(独自算出の注目度): 22.089706516440902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research agents powered by Large Language Models (LLMs) can perform multi-step reasoning, web exploration, and long-form report generation. However, most existing systems operate in an autonomous manner, assuming fully specified user intent and evaluating only final outputs. In practice, research goals are often underspecified and evolve during exploration, making sustained interaction essential for robust alignment. Despite its importance, interaction remains largely invisible to existing deep research benchmarks, which neither model dynamic user feedback nor quantify its costs. We introduce IDRBench, the first benchmark for systematically evaluating interactive deep research. IDRBench combines a modular multi-agent research framework with on-demand interaction, a scalable reference-grounded user simulator, and an interaction-aware evaluation suite that jointly measures interaction benefits (quality and alignment) and costs (turns and tokens). Experiments across seven state-of-the-art LLMs show that interaction consistently improves research quality and robustness, often outweighing differences in model capacity, while revealing substantial trade-offs in interaction efficiency.
- Abstract(参考訳): LLM(Large Language Models)を利用したディープリサーチエージェントは、多段階推論、Web探索、長期レポート生成を行うことができる。
しかしながら、既存のシステムの多くは、完全に指定されたユーザ意図を仮定し、最終的なアウトプットのみを評価する、自律的に動作する。
実際には、研究の目標はしばしば探索中に過小評価され、進化し、堅牢なアライメントに持続的な相互作用が不可欠である。
その重要性にもかかわらず、インタラクションは、動的ユーザのフィードバックをモデル化したり、コストを定量化したりしない既存のディープリサーチベンチマークには、ほとんど見えないままである。
インタラクティブディープリサーチを体系的に評価する最初のベンチマークであるIDRBenchを紹介する。
IDRBenchは、モジュール型のマルチエージェントリサーチフレームワークとオンデマンドインタラクション、スケーラブルなリファレンスグラウンドユーザシミュレータ、インタラクションのメリット(品質とアライメント)とコスト(ターンとトークン)を共同で測定するインタラクション認識評価スイートを組み合わせたものだ。
7つの最先端のLLM実験により、相互作用は研究の質と堅牢性を継続的に改善し、しばしばモデルの容量の違いを上回り、相互作用効率の実質的なトレードオフを明らかにしている。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations [70.94563079082751]
電子商取引は、複雑なマルチターンユーザーインタラクションを管理する上で、伝統的な製品検索システムの限界を明らかにしている。
本稿では,対話型マルチモーダル製品検索にテスト時間スケーリングを導入する新しいフレームワークを提案する。
提案手法は生成型レトリバー上に構築され,さらに検索精度の向上と,対話を通してユーザ意図の進化と結果の整合性を向上するテストタイムリグレード機構が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T15:38:56Z) - ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models [41.35497807436858]
本稿では,プロアクティブインタラクションに関わるシステムの能力を評価するための,初の総合的なベンチマークであるProactiveVideoQAを紹介する。
また,モデル応答の時間的ダイナミクスを考慮した最初の指標であるPAUCを提案する。
これらの結果から,PAUCは,アクティブなインタラクションシナリオにおけるユーザエクスペリエンスをより忠実に評価できることがわかった。
論文 参考訳(メタデータ) (2025-07-12T15:11:50Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning [39.4394389642761]
本稿では,対話型対話を対話型プロトタイプに切り離すための新しい対話型On Pattern DisenTangling (OPT) 手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスク,マルチタスク,ゼロショットのベンチマーク実験により,提案手法が最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-08T13:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。