Fugu-MT 論文翻訳(概要): Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

論文の概要: Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities

arxiv url: http://arxiv.org/abs/2503.17979v1
Date: Sun, 23 Mar 2025 08:18:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.926665
Title: Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities
Title（参考訳）: 大規模推論モデルにおけるトレードオフ:基礎的能力に関する熟考的・適応的推論の実証分析
Authors: Weixiang Zhao, Xingyu Sui, Jiahe Guo, Yulin Hu, Yang Deng, Yanyan Zhao, Bing Qin, Wanxiang Che, Tat-Seng Chua, Ting Liu,
Abstract要約: 近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
参考スコア（独自算出の注目度）: 101.77467538102924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Reasoning Models (LRMs), such as OpenAI's o1/o3 and DeepSeek-R1, have demonstrated remarkable performance in specialized reasoning tasks through human-like deliberative thinking and long chain-of-thought reasoning. However, our systematic evaluation across various model families (DeepSeek, Qwen, and LLaMA) and scales (7B to 671B) reveals that acquiring these deliberative reasoning capabilities significantly reduces the foundational capabilities of LRMs, including notable declines in helpfulness and harmlessness, alongside substantially increased inference costs. Importantly, we demonstrate that adaptive reasoning -- employing modes like Zero-Thinking, Less-Thinking, and Summary-Thinking -- can effectively alleviate these drawbacks. Our empirical insights underline the critical need for developing more versatile LRMs capable of dynamically allocating inference-time compute according to specific task characteristics.
Abstract（参考訳）: OpenAIのo1/o3やDeepSeek-R1のような大規模推論モデル(LRM)の最近の進歩は、人間のような熟考的思考と長い連鎖的推論を通じて、特殊推論タスクにおいて顕著な性能を示した。しかし, 様々なモデルファミリー (DeepSeek, Qwen, LLaMA) とスケール (7Bから671B) の系統的評価から, それらの熟考的推論能力の獲得により, LRMの基礎的能力が著しく低下することが明らかとなった。重要なのは、アダプティブ推論(ゼロシンキング、小シンキング、サマリシンキングのようなモード)がこれらの欠点を効果的に軽減できることを示しています。我々の経験的洞察は、特定のタスク特性に応じて推論時間計算を動的に割り振ることのできる、より汎用的なLEMを開発するための重要な必要性を浮き彫りにしている。

関連論文リスト

Probing the "Psyche'' of Large Reasoning Models: Understanding Through a Human Lens [28.277723085755806]
大規模推論モデル(LRM)は、複雑なタスクに対処する際、例外的な能力のため、研究者から大きな注目を集めている。本稿では、原子推論のステップを特徴付け、LEM知能の「精神」を調査するための包括的分類法を提案する。人間の精神過程から派生した5つのグループと17のカテゴリから構成されており、学際的な観点からのLRMの理解の基礎となっている。
論文参考訳（メタデータ） (2025-11-30T04:49:44Z)
From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。 DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文参考訳（メタデータ） (2025-10-13T14:29:15Z)
Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
Reasoning Meets Personalization: Unleashing the Potential of Large Reasoning Model for Personalized Generation [21.89080753903469]
パーソナライズタスクのための大規模推論モデル(LRM)の最初の体系的評価について述べる。本分析では, 分散思考, 応答形式の不整合, 検索情報の有効利用の3つの重要な限界を同定した。階層的推論思考テンプレートを組み込んだ新しいフレームワークであるReinforced Reasoning for Personalization (model)を提案する。
論文参考訳（メタデータ） (2025-05-23T07:30:13Z)
When Can Large Reasoning Models Save Thinking? Mechanistic Analysis of Behavioral Divergence in Reasoning [19.329523111916682]
大規模推論モデル(LRM)は複雑なタスクにおいてかなり高度な性能を持つが、非効率性を導入する傾向にある。本研究では,Regress Learning (RL) 学習における内的メカニズムについて考察した。
論文参考訳（メタデータ） (2025-05-21T08:55:35Z)
Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。 RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文参考訳（メタデータ） (2025-05-20T17:59:16Z)
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)の深い分析的思考への依存は、システム1の思考能力を制限する可能性がある。 S1-Benchは、簡単なタスクでLEMの性能を評価するために設計された新しいベンチマークである。
論文参考訳（メタデータ） (2025-04-14T16:13:23Z)
Enhancing Reasoning Abilities of Small LLMs with Cognitive Alignment [15.763018008675083]
小型モデルは、より大きなモデルと比較して、推論能力と認知的軌跡が異なる。より小型で強力なLEMを訓練するためのCRV(Critique-Rethink-Verify)システムを提案する。また、より小さなモデルの推論能力を継続的に向上する認知的選好最適化(CogPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-14T02:03:54Z)
Efficient Inference for Large Reasoning Models: A Survey [42.61170621552432]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文参考訳（メタデータ） (2025-03-29T13:27:46Z)
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation [38.64751082999587]
大きな推論モデル(LRM)は、顕著な推論能力を示すが、主にパラメトリック知識に依存し、事実の正確性を制限する。本稿では,過剰な反復を伴わない多様なクエリを探索する,事実性強化推論モデルReaRAGを提案する。我々の研究は、レトリーバル強化世代(RAG)のロバスト推論を効果的に統合しつつ、LRMの事実性を向上する。
論文参考訳（メタデータ） (2025-03-27T17:44:18Z)
A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文参考訳（メタデータ） (2025-03-27T15:36:30Z)
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。 OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文参考訳（メタデータ） (2025-03-20T17:59:38Z)
The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks [96.27754404942364]
大規模推論モデル(LRM)は、AI問題解決能力の突破口となるが、インタラクティブ環境での有効性は制限される可能性がある。本稿では, LRMにおける過度な考察を紹介し, 分析する。解析的麻痺,ローグ行動,早期解離の3つのパターンを観察した。
論文参考訳（メタデータ） (2025-02-12T09:23:26Z)
Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。 LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文参考訳（メタデータ） (2024-12-31T04:50:15Z)
Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築 GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2024-08-29T08:02:09Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models [28.712359821231182]
大規模言語モデル(LLM)は、思考の連鎖(CoT)を利用して人間の思考を模倣することによって、言語モダリティの多段階的推論において顕著な進歩を遂げた。これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性に限らず、より高い課題をもたらす。本研究では,複数モーダリティを推論に組み込んだDDCoTプロンプトを提案する。
論文参考訳（メタデータ） (2023-10-25T08:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。