論文の概要: ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning
- arxiv url: http://arxiv.org/abs/2512.00831v1
- Date: Sun, 30 Nov 2025 10:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.439274
- Title: ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning
- Title(参考訳): ReJump: LLM推論の分析と改善のためのツリージャンプ表現
- Authors: Yuchen Zeng, Shuibai Zhang, Wonjun Kang, Shutong Wu, Lynnix Zou, Ying Fan, Heeju Kim, Ziqian Lin, Jungtaek Kim, Hyung Il Koo, Dimitris Papailiopoulos, Kangwook Lee,
- Abstract要約: ReJumpは、中間的な問題解決ステップの木のノードへの訪問順序として推論トレースを表す。
我々は,2つのタスクに対して最先端のLarge Language Model (LRMs) を評価し,類似した精度のモデルが明確な推論行動を示すことを発見した。
学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
- 参考スコア(独自算出の注目度): 29.544265034647434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) are Large Language Models (LLMs) explicitly trained to generate long-form Chain-of-Thoughts (CoTs), achieving impressive success on challenging tasks like math and programming. However, their underlying reasoning "algorithms" remain poorly understood. To investigate this, we propose ReJump, which represents a reasoning trace as a visitation order over nodes in a tree of intermediate problem-solving steps. Transitions between nodes, which we term jumps, include adjacent moves that capture behaviors such as calculation, and non-adjacent moves that capture behaviors such as backtracking and verification. ReJump enables analyzing LLM reasoning with diverse metrics that quantify exploration, exploitation, overthinking, forgetting, and verification. Using our proposed LLM agent to extract reasoning traces into ReJump format, we evaluate state-of-the-art LRMs on two tasks and find that models with similar accuracy can exhibit distinct reasoning behaviors, while different tasks favor different reasoning styles (e.g., varying balance between exploration and exploitation). To further understand how learning strategies shape reasoning, we use ReJump to compare distilled LRMs with their teachers, CoT-prompted LLMs with LRMs, and to examine how the number of reasoning examples and reinforcement learning affect reasoning behavior. Finally, we show that ReJump can improve reasoning quality at test time through strategies such as ReJump-guided Best-of-N selection and prompt selection. Our code is publicly available at https://github.com/UW-Madison-Lee-Lab/ReJump.
- Abstract(参考訳): 大規模推論モデル(Large Reasoning Models, LRMs)は、大規模言語モデル(Large Language Models, LLMs)である。
しかし、その根底にある理由である「algorithms」はいまだに理解されていない。
そこで我々はReJumpを提案する。ReJumpは中間問題解決ステップのツリー内のノードへの訪問順序である推論トレースを表す。
ジャンプと呼ばれるノード間の遷移には、計算などの振る舞いをキャプチャする隣接移動や、バックトラックや検証のような振る舞いをキャプチャする非隣接移動が含まれる。
ReJumpは、探索、エクスプロイト、過度な考え、忘れ、検証を定量化する多様なメトリクスによるLCM推論の分析を可能にする。
提案したLLMエージェントを用いて,ReJumpフォーマットに推論トレースを抽出し,2つのタスクにおける最先端のRMMを評価し,類似した精度のモデルが異なる推論動作を示すのに対して,異なるタスクは異なる推論スタイル(例えば,探索と評価のバランスの相違)を好んでいることを発見した。
学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
最後に、ReJump誘導のBest-of-N選択やプロンプト選択といった戦略により、ReJumpはテスト時の推論品質を向上させることができることを示す。
私たちのコードはhttps://github.com/UW-Madison-Lee-Lab/ReJumpで公開されています。
関連論文リスト
- Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - From Long to Short: LLMs Excel at Trimming Own Reasoning Chains [48.692414597960244]
O1/R1スタイルの大推論モデル(LRM)は、従来の命令追従 LLM よりも大幅に進歩している。
近年の研究では、LEMは過剰思考に苦しむ傾向があることが示されている。
本研究では,LRMを効率よく誘導し,テスト時に最も短い正しい推論経路を特定するテスト時間スケーリング手法EDITを提案する。
論文 参考訳(メタデータ) (2025-09-07T19:00:44Z) - ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。
複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30~50%削減することが示された。
論文 参考訳(メタデータ) (2025-06-12T15:43:01Z) - Reason-to-Recommend: Using Interaction-of-Thought Reasoning to Enhance LLM Recommendation [9.282278040339138]
$textbfR2Rec$は推論強化レコメンデーションフレームワークである。
ユーザアイコングラフからインタラクションチェーンをサンプリングし、それらを構造化されたインタラクション・オブ・思想に変換する。
論文 参考訳(メタデータ) (2025-06-05T14:16:44Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering [46.41364317172677]
大規模言語モデル(LLM)は、しばしば誤ったあるいは幻覚的な応答を生成することで挑戦される。
本稿では,知識グラフから得られた検証可能な推論ステップに回答を固定することで,LLM応答の事実性を改善するための統合フレームワークFiDeLiSを提案する。
トレーニング不要のフレームワークである本手法は,性能の向上だけでなく,異なるベンチマークにおける現実性や解釈可能性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-05-22T17:56:53Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。