論文の概要: R2-Write: Reflection and Revision for Open-Ended Writing with Deep Reasoning
- arxiv url: http://arxiv.org/abs/2604.03004v1
- Date: Fri, 03 Apr 2026 12:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.470186
- Title: R2-Write: Reflection and Revision for Open-Ended Writing with Deep Reasoning
- Title(参考訳): R2-Write: ディープ推論によるオープンエンディングのリフレクションとリビジョン
- Authors: Wanlong Liu, Bo Zhang, Chenliang Li, Shaopeng Lai, Yuning Wu, Xuanyu Lei, Ming Yan,
- Abstract要約: 本稿では,R2-Writeについて紹介する。R2-Writeは,明示的なリフレクションとリフレクションパターンに富んだ高品質な思考軌道を合成する自動フレームワークである。
複数のクリエイティブな書き込みとDeep-Researchベンチマークの実験は、大幅な改善を示し、リフレクションとリフレクションパターンを明示的に取り入れることで、オープンな書き込みタスクの深い推論能力を解放する。
- 参考スコア(独自算出の注目度): 32.571149537152316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep reasoning with long chain-of-thought has dramatically improved large language models in verifiable domains like mathematics, its effectiveness for open-ended tasks such as writing remains unexplored. In this paper, we conduct a systematic investigation revealing that existing mainstream reasoning models achieve limited gains on open-ended writing tasks. Our further analysis shows that these models lack deep reflection and revision patterns in open-ended writing, resulting in substantially smaller improvements compared to mathematical reasoning tasks. To address this limitation, we introduce R2-Write: an automated framework that synthesizes high-quality thinking trajectories enriched with explicit reflection and revision patterns through iterative writer-judge interaction. To prevent redundant reflections, we design a process reward mechanism that supervises reflection quality during reinforcement learning, improving both performance and token efficiency. Extensive experiments across multiple creative writing and deep-research benchmarks demonstrate significant improvements, validating that explicitly incorporating reflection and revision patterns unlocks deep reasoning capabilities for open-ended writing tasks.
- Abstract(参考訳): 長いチェーンの深い推論は、数学のような検証可能な領域における大きな言語モデルを大幅に改善したが、筆記のようなオープンなタスクに対する有効性は未解明のままである。
本稿では,既存の主流推論モデルがオープンエンド記述タスクにおいて限られた利得を達成できることを示す体系的な調査を行う。
さらに解析したところ、これらのモデルにはオープンエンド書き込みにおける深いリフレクションとリフレクションパターンが欠如していることが示され、数学的推論タスクに比べて大幅に改善されている。
この制限に対処するため、我々はR2-Writeを紹介した。R2-Writeは、明示的なリフレクションとリフレクションパターンに富んだ高品質な思考軌跡を、反復的なライタとジャッジの相互作用を通じて合成する自動化フレームワークである。
冗長な反射を防止するために,強化学習時の反射品質を監視し,性能とトークン効率を向上するプロセス報酬機構を設計する。
複数のクリエイティブな書き込みとディープリサーチベンチマークにわたる大規模な実験は、大幅な改善を示し、リフレクションとリフレクションパターンを明示的に取り入れることで、オープンエンドな書き込みタスクの深い推論能力が解放される、と検証している。
関連論文リスト
- RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models [0.0]
本稿では,人間のアノテーションやタスク固有の監督を必要とせず,プロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を紹介する。
RASPRefは、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導処理により改善する。
論文 参考訳(メタデータ) (2026-03-27T21:49:21Z) - Reflexis: Supporting Reflexivity and Rigor in Collaborative Qualitative Analysis through Design for Deliberation [10.734737228019599]
ReflexisはReflexive Thematic Analysisのコラボレーティブワークスペースである。
反射性は、その場反射プロンプトを統合することで支持する。
また、違いを生産的で位置対応の対話に変換することで、協調的な解釈を足場とする。
論文 参考訳(メタデータ) (2026-01-21T20:24:39Z) - Teaching Large Reasoning Models Effective Reflection [62.73646680747003]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
しかし、すべてのリフレクションが有益であるとは限らない。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
論文 参考訳(メタデータ) (2026-01-19T04:51:53Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement [54.63337314382886]
自己書き起こしフレームワークを導入し、モデルが独自の推論テキストを書き直し、その後、書き直し推論から学習し、内部思考プロセスの品質を向上させる。
アルゴリズム設計において、モデルの一貫した正当性によって定義される「単純な」サンプルのみを書き換える選択的な書き換え手法を提案する。
モデルサイズが異なる多様なタスクの実験は、自己書き換えの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-20T13:10:52Z) - What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models [31.62165580395724]
大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。
適応エントロピーポリシー最適化(AEPO)と呼ばれる新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2025-11-09T13:33:46Z) - First Try Matters: Revisiting the Role of Reflection in Reasoning Models [66.39546876232512]
我々は、モデルがすでに答を生み出しているが、その出力を確定する前に反射し続ける反射行動に焦点を当てる。
分析の結果,反射はおおむね肯定的であり,モデルの初期回答を変えることは滅多にないことがわかった。
本稿では,いくつかの候補解が生成されると推論プロセスが停止し,推論時間のトークン効率を向上させる質問認識早期検索手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T14:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。