論文の概要: The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving
- arxiv url: http://arxiv.org/abs/2601.00747v1
- Date: Fri, 02 Jan 2026 17:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.606927
- Title: The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving
- Title(参考訳): Reasoning-Creativityのトレードオフ:クリエイティビティ駆動問題解決に向けて
- Authors: Max Ruiz Luyten, Mihaela van der Schaar,
- Abstract要約: 最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
- 参考スコア(独自算出の注目度): 57.652356955571065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art large language model (LLM) pipelines rely on bootstrapped reasoning loops: sampling diverse chains of thought and reinforcing the highest-scoring ones, mainly optimizing correctness. We analyze how this design choice is sensitive to the collapse of the model's distribution over reasoning paths, slashing semantic entropy and undermining creative problem-solving. To analyze this failure, we introduce Distributional Creative Reasoning (DCR), a unified variational objective that casts training as gradient flow through probability measures on solution traces. STaR, GRPO, and DPO, as well as entropy bonuses, and other methods, all constitute special cases of the same loss. The framework delivers three core results: (i) the diversity decay theorem, describing how correctness-based objectives lead to distinct modes of diversity decay for STaR, GRPO, and DPO; (ii) designs that ensure convergence to a stable and diverse policy, effectively preventing collapse; and (iii) simple, actionable recipes to achieve this in practice. DCR thus offers the first principled recipe for LLMs that remain both correct and creative.
- Abstract(参考訳): State-of-the-art large language model (LLM) パイプラインはブートストラップされた推論ループに依存している。
この設計選択が、推論経路上のモデルの分布の崩壊、意味論的エントロピーの削減、創造的問題解決の弱体化にどのように敏感であるかを分析する。
この障害を解析するために、解トレースの確率測定を通してトレーニングを勾配流としてキャストする統一的な変分目的である分散創造推論(DCR)を導入する。
STaR、GRPO、DPO、エントロピーボーナス、その他の方法は、すべて同じ損失の特別なケースを構成する。
このフレームワークは3つの中核的な結果をもたらす。
i) 多様性減衰定理は、正当性に基づく目的が、STaR, GRPO, DPOの多様性崩壊の異なるモードにどのように導かれるかを記述するものである。
二 安定多様政策への収束を確保するとともに、崩壊を効果的に防ぐ設計及び
(三)これを実現するためのシンプルで実用的なレシピ。
したがって、DCRはLLMに対して、正確かつ創造的であり続ける最初の原則的なレシピを提供する。
関連論文リスト
- Deconstructing Generative Diversity: An Information Bottleneck Analysis of Discrete Latent Generative Models [4.138804085040435]
生成の多様性は、AR、MIM、Diffusionのような個別の遅延生成モデルによって大きく異なる。
本稿では,情報ボトルネック(IB)理論に基づく診断フレームワークを提案し,その振る舞いを解明する基盤となる戦略を解析する。
論文 参考訳(メタデータ) (2025-12-01T16:13:23Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。