論文の概要: From Thinking to Output: Chain-of-Thought and Text Generation Characteristics in Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2506.21609v1
- Date: Fri, 20 Jun 2025 14:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.916979
- Title: From Thinking to Output: Chain-of-Thought and Text Generation Characteristics in Reasoning Language Models
- Title(参考訳): 思考から出力へ:推論言語モデルにおけるパターンとテキスト生成特性
- Authors: Junhao Liu, Zhenhao Xu, Yuxin Fang, Yichuan Chen, Zuobin Ying, Wenhan Chang,
- Abstract要約: 本稿では、4つの最先端大推論モデルの推論特性を解析するための新しい枠組みを提案する。
多様なデータセットは、論理的推論、因果推論、多段階問題解決を含む実世界のシナリオベースの質問で構成されている。
この研究結果は、これらのモデルがどのように探索と搾取のバランスをとり、問題に対処し、結論に達するかについて様々なパターンを明らかにする。
- 参考スコア(独自算出の注目度): 10.38327947136263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there have been notable advancements in large language models (LLMs), demonstrating their growing abilities in complex reasoning. However, existing research largely overlooks a thorough and systematic comparison of these models' reasoning processes and outputs, particularly regarding their self-reflection pattern (also termed "Aha moment") and the interconnections across diverse domains. This paper proposes a novel framework for analyzing the reasoning characteristics of four cutting-edge large reasoning models (GPT-o1, DeepSeek-R1, Kimi-k1.5, and Grok-3) using keywords statistic and LLM-as-a-judge paradigm. Our approach connects their internal thinking processes with their final outputs. A diverse dataset consists of real-world scenario-based questions covering logical deduction, causal inference, and multi-step problem-solving. Additionally, a set of metrics is put forward to assess both the coherence of reasoning and the accuracy of the outputs. The research results uncover various patterns of how these models balance exploration and exploitation, deal with problems, and reach conclusions during the reasoning process. Through quantitative and qualitative comparisons, disparities among these models are identified in aspects such as the depth of reasoning, the reliance on intermediate steps, and the degree of similarity between their thinking processes and output patterns and those of GPT-o1. This work offers valuable insights into the trade-off between computational efficiency and reasoning robustness and provides practical recommendations for enhancing model design and evaluation in practical applications. We publicly release our project at: https://github.com/ChangWenhan/FromThinking2Output
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の進歩が目覚ましい。
しかしながら、既存の研究は、これらのモデルの推論過程と出力、特に自己回帰パターン(「アハモーメント」とも呼ばれる)と様々な領域間の相互接続について、徹底的で体系的な比較を概観している。
本稿では,4つの最先端大推論モデル (GPT-o1, DeepSeek-R1, Kimi-k1.5, Grok-3) の推論特性を,キーワード統計とLLM-as-a-judgeパラダイムを用いて解析する手法を提案する。
我々のアプローチは、彼らの内的思考プロセスと最終的なアウトプットを結びつける。
多様なデータセットは、論理的推論、因果推論、多段階問題解決を含む実世界のシナリオベースの質問で構成されている。
さらに、一連のメトリクスは、推論の一貫性と出力の精度の両方を評価するために転送される。
この研究結果は、これらのモデルがどのように探索と搾取のバランスをとり、問題に対処し、推論プロセス中に結論に達するかの様々なパターンを明らかにする。
定量的および質的な比較を通じて、これらのモデル間の相違は、推論の深さ、中間ステップへの依存、思考過程と出力パターンとGPT-o1の類似度といった側面で識別される。
この研究は、計算効率と推論ロバスト性の間のトレードオフに関する貴重な洞察を提供し、実用的な応用におけるモデル設計と評価を強化するための実践的な推奨を提供する。
https://github.com/ChangWenhan/FromThinking2Output
関連論文リスト
- A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning [21.444049407715955]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)のプロンプトによる複雑な推論タスクにおいて、優れたパフォーマンスを実現している。
潜在CoT推論への研究の関心が高まっており、潜伏空間内で推論が行われる。
本稿では,この推論パラダイムの概観と解析について述べる。
論文 参考訳(メタデータ) (2025-05-22T15:26:51Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - Generation of Explanations for Logic Reasoning [0.0]
この研究は、GPT-3.5-turboを用いて、フォーティオリの議論の分析を自動化することに集中している。
この論文は人工知能と論理的推論の分野に多大な貢献をしている。
論文 参考訳(メタデータ) (2023-11-22T15:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。