論文の概要: Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind
- arxiv url: http://arxiv.org/abs/2601.15715v2
- Date: Tue, 27 Jan 2026 04:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:50.941365
- Title: Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind
- Title(参考訳): 鎖のダンシング--心の理論による学術的反論の戦略的説得
- Authors: Zhitao He, Zongwei Lyu, Yi R Fung,
- Abstract要約: RebuttalAgentを紹介します。それは、心の理論(ToM)における学術的貢献を基礎とする最初の枠組みです。
トレーニングプロセスは2段階で構成されており,まずエージェントにToMに基づく分析と戦略的計画能力を持たせるための微調整フェーズを監督する。
信頼性と効率のよい自動評価を行うため,100万以上のマルチソース・リビュータルデータからトレーニングした特殊評価器Rebuttal-RMを開発した。
- 参考スコア(独自算出の注目度): 4.964424546439509
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although artificial intelligence (AI) has become deeply integrated into various stages of the research workflow and achieved remarkable advancements, academic rebuttal remains a significant and underexplored challenge. This is because rebuttal is a complex process of strategic communication under severe information asymmetry rather than a simple technical debate. Consequently, current approaches struggle as they largely imitate surface-level linguistics, missing the essential element of perspective-taking required for effective persuasion. In this paper, we introduce RebuttalAgent, the first framework to ground academic rebuttal in Theory of Mind (ToM), operationalized through a ToM-Strategy-Response (TSR) pipeline that models reviewer mental state, formulates persuasion strategy, and generates strategy-grounded response. To train our agent, we construct RebuttalBench, a large-scale dataset synthesized via a novel critique-and-refine approach. Our training process consists of two stages, beginning with a supervised fine-tuning phase to equip the agent with ToM-based analysis and strategic planning capabilities, followed by a reinforcement learning phase leveraging the self-reward mechanism for scalable self-improvement. For reliable and efficient automated evaluation, we further develop Rebuttal-RM, a specialized evaluator trained on over 100K samples of multi-source rebuttal data, which achieves scoring consistency with human preferences surpassing powerful judge GPT-4.1. Extensive experiments show RebuttalAgent significantly outperforms the base model by an average of 18.3% on automated metrics, while also outperforming advanced proprietary models across both automated and human evaluations. Disclaimer: the generated rebuttal content is for reference only to inspire authors and assist in drafting. It is not intended to replace the author's own critical analysis and response.
- Abstract(参考訳): 人工知能(AI)は研究ワークフローの様々な段階に深く統合され、目覚ましい進歩を遂げてきたが、学術的な反論は依然として重要で未解明の課題である。
これは、反論は単純な技術的な議論ではなく、厳密な情報非対称性の下での戦略的コミュニケーションの複雑なプロセスであるからである。
結果として、現在のアプローチは表面レベルの言語学をほとんど模倣し、効果的な説得に必要な視点決定の必須要素を欠いているため、苦労している。
本稿では、ToM-Strategy-Response (TSR) パイプラインを通じて運用され、レビューの精神状態をモデル化し、説得戦略を定式化し、戦略的な応答を生成する。
エージェントを訓練するために、新しい批判と再定義アプローチによって合成された大規模なデータセットであるRebuttalBenchを構築した。
トレーニングプロセスは,ToMに基づく分析と戦略的計画能力を備えたエージェントを調整した微調整フェーズから始まり,拡張性のある自己改善のための自己回帰機構を活用する強化学習フェーズと,2段階からなる。
信頼性と効率的な自動評価のために,マルチソース・リビュータルデータの100K以上のサンプルに基づいて訓練された特殊評価器であるRebuttal-RMを開発し,強力な判定器であるGPT-4.1を超越した人間の選好との整合性を実現する。
大規模な実験では、RebuttalAgentは自動化されたメトリクスで平均18.3%、自動化された評価と人的評価の両方で先進的なプロプライエタリなモデルよりも大幅に優れている。
Disclaimer: 生成されたリビューコンテンツは、著者を刺激し、ドラフトを補助するためにのみ参照されます。
著者自身の批判的分析と反応を置き換えることを意図していない。
関連論文リスト
- AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。
我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。
DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-06T09:45:04Z) - Agentic Proposing: Enhancing Large Language Model Reasoning via Compositional Skill Synthesis [10.951981109673119]
Agentic Proposingは、問題合成をゴール駆動シーケンシャルな意思決定プロセスとしてモデル化するフレームワークである。
数学、コーディング、科学にまたがる高精度で検証可能な訓練軌道を生成する。
11,000個の合成軌道で訓練された30Bソルバは、AIME25で91.6%の精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T09:02:53Z) - EduResearchBench: A Hierarchical Atomic Task Decomposition Benchmark for Full-Lifecycle Educational Research [21.988207602041182]
EduResearchBenchは,学術論文を対象とした初の総合的評価プラットフォームである。
EduResearchBenchは階層的原子タスク分解(HATD)フレームワーク上に構築されています。
本稿では,基礎的スキルから複雑な方法論的推論,議論に至るまで,段階的に能力を高めるカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2026-01-22T09:52:30Z) - Step-DeepResearch Technical Report [90.50586290399683]
コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
論文 参考訳(メタデータ) (2025-12-23T16:32:27Z) - AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing [79.0112532518727]
我々はTeleSalesCorpusをリリースした。
次に、デュアルステージアーキテクチャを特徴とする新しいフレームワークであるAI-Salesmanを提案する。
提案したAI-Salesmanは,自動測定と総合的な人的評価の両方において,ベースラインモデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-11-15T09:44:42Z) - Following the TRACE: A Structured Path to Empathetic Response Generation with Multi-Agent Models [19.450298798183166]
共感的応答生成は、より人間らしく支持的な会話エージェントを作成するための重要なタスクである。
既存の手法は、専門モデルの分析的深さと大規模言語モデルの生成的頻度との間の中心的なトレードオフに直面している。
我々は,共感を構造化認知プロセスとしてモデル化する新しいフレームワークであるTRACEを提案し,そのタスクを解析と合成のためのパイプラインに分解する。
論文 参考訳(メタデータ) (2025-09-26T04:20:37Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。
このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文 参考訳(メタデータ) (2025-04-07T03:48:02Z) - MindGYM: What Matters in Question Synthesis for Thinking-Centric Fine-Tuning? [51.85759493254735]
MindGYMは、質問合成のための構造化されスケーラブルなフレームワークである。
モデル合成の振る舞いを形作るために、高レベルの推論目的を注入する。
より深い推論のために、QAシードに基づいてより複雑なマルチホップ質問を構成する。
論文 参考訳(メタデータ) (2025-03-12T16:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。