論文の概要: Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision
- arxiv url: http://arxiv.org/abs/2601.13217v1
- Date: Mon, 19 Jan 2026 16:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.974524
- Title: Beyond Single-shot Writing: Deep Research Agents are Unreliable at Multi-turn Report Revision
- Title(参考訳): シングルショットの執筆を超えて: ディープリサーチエージェントはマルチターンレポートリビジョンでは信頼できない
- Authors: Bingsen Chen, Boyan Li, Ping Nie, Yuyu Zhang, Xi Ye, Chen Zhao,
- Abstract要約: Deep Research Agents (DRAs) の既存のベンチマークでは、レポート生成を単一ショットの書き込みタスクとして扱う。
我々は,DRAの新たな評価軸として,マルチターンレポートリビジョンを確立する評価スイートであるMr Dreを紹介する。
- 参考スコア(独自算出の注目度): 31.91310124834185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for Deep Research Agents (DRAs) treat report generation as a single-shot writing task, which fundamentally diverges from how human researchers iteratively draft and revise reports via self-reflection or peer feedback. Whether DRAs can reliably revise reports with user feedback remains unexplored. We introduce Mr Dre, an evaluation suite that establishes multi-turn report revision as a new evaluation axis for DRAs. Mr Dre consists of (1) a unified long-form report evaluation protocol spanning comprehensiveness, factuality, and presentation, and (2) a human-verified feedback simulation pipeline for multi-turn revision. Our analysis of five diverse DRAs reveals a critical limitation: while agents can address most user feedback, they also regress on 16-27% of previously covered content and citation quality. Over multiple revision turns, even the best-performing agents leave significant headroom, as they continue to disrupt content outside the feedback's scope and fail to preserve earlier edits. We further show that these issues are not easily resolvable through inference-time fixes such as prompt engineering and a dedicated sub-agent for report revision.
- Abstract(参考訳): 既存のDeep Research Agents(DRA)のベンチマークでは、レポート生成を単一ショットの書き込みタスクとして扱う。
DRAがユーザーからのフィードバックでレポートを確実に修正できるかどうかはまだ不明だ。
我々は,DRAの新たな評価軸として,マルチターンレポートリビジョンを確立する評価スイートであるMr Dreを紹介する。
Dre氏は(1)包括性、事実性、プレゼンテーションにまたがる統一された長期レポート評価プロトコルと、(2)マルチターンリビジョンのための人間検証されたフィードバックシミュレーションパイプラインから構成される。
エージェントはユーザからのフィードバックのほとんどに対処できるが、以前はカバーされていたコンテンツと引用品質の16~27%を抑えることができる。
複数のリビジョンを重ねると、最高のパフォーマンスのエージェントでさえ、フィードバックの範囲外のコンテンツを中断し続け、初期の編集を保存できないため、大きなヘッドルームを離れる。
さらに,これらの問題は,プロンプトエンジニアリングやレポートリビジョン専用のサブエージェントなど,推論時の修正によって容易には解決できないことを示す。
関連論文リスト
- How Far Are We from Genuinely Useful Deep Research Agents? [48.596990593729]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。
レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。
我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (2025-12-01T17:58:59Z) - Learning to Summarize by Learning to Quiz: Adversarial Agentic Collaboration for Long Document Summarization [86.98098988779809]
SummQは長期文書要約のための新しい逆多重エージェントフレームワークである。
提案手法では,包括的な要約を作成し,評価するために協調作業を行う要約ジェネレータとレビュアーを用いる。
広範に使用されている3つの文書要約ベンチマーク上でSummQを評価する。
論文 参考訳(メタデータ) (2025-09-25T08:36:19Z) - Re$^2$: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions [2.5226834810382113]
一貫性に保証された最大のピアレビューと、Re2というリビューデータセットを紹介します。
このデータセットは、最初の投稿19,926件、レビューコメント70,668件、OpenReviewに関する24のカンファレンスと21のワークショップからの53,818件からなる。
論文 参考訳(メタデータ) (2025-05-12T16:02:52Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [28.050468098801872]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - Read, Revise, Repeat: A System Demonstration for Human-in-the-loop
Iterative Text Revision [11.495407637511878]
本稿では,リピート・リバイス・リピート・リピート・リピート (R3) によるヒューマン・イン・ザ・ループ・イテレーティブ・テキスト・リフレクションシステムを提案する。
R3は、モデル生成のリビジョンとユーザからのフィードバックを読み、文書を改訂し、人間と機械の相互作用を繰り返すことで、人間の最小限の努力で高品質なテキストリビジョンを実現することを目的としている。
論文 参考訳(メタデータ) (2022-04-07T18:33:10Z) - How Useful are Reviews for Recommendation? A Critical Review and
Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。
実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。
さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文 参考訳(メタデータ) (2020-05-25T16:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。