論文の概要: PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation
- arxiv url: http://arxiv.org/abs/2603.22754v1
- Date: Tue, 24 Mar 2026 03:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.278539
- Title: PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation
- Title(参考訳): PRISM: セマンティックフローと潜時計算によるLLM推論の二重視点
- Authors: Ruidi Chang, Jiawei Zhou, Hanjie Chen,
- Abstract要約: PRISM(Probabilistic Reasoning Inspection through Semantic and Implicit Modeling)は、両方のレベルを共同で分析するためのフレームワークおよび診断ツールである。
これは、推論過程における系統的なパターンを明らかにし、失敗した軌道は非生産的な検証ループに閉じ込められる傾向にあることを示した。
PRISMは、最終タスクの精度にのみ依存するのではなく、これらの振る舞いを観測し分析可能にする。
- 参考スコア(独自算出の注目度): 15.91920027845529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) solve complex problems by generating multi-step reasoning traces. Yet these traces are typically analyzed from only one of two perspectives: the sequence of tokens across different reasoning steps in the generated text, or the hidden-state vectors across model layers within one step. We introduce PRISM (Probabilistic Reasoning Inspection through Semantic and Implicit Modeling), a framework and diagnostic tool for jointly analyzing both levels, providing a unified view of how reasoning evolves across steps and layers. Across multiple reasoning models and benchmarks, PRISM uncovers systematic patterns in the reasoning process, showing that failed trajectories are more likely to become trapped in unproductive verification loops and further diverge into distinct modes such as overthinking and premature commitment, which behave differently once a candidate answer is reached. It further reveals how prompting reshapes reasoning behavior beyond aggregate accuracy by altering both semantic transitions and internal computational patterns. By modeling reasoning trajectories as structured processes, PRISM makes these behaviors observable and analyzable rather than relying solely on final-task accuracy. Taken together, these insights position PRISM as a practical tool for analyzing and diagnosing reasoning processes in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階の推論トレースを生成することで複雑な問題を解決する。
しかし、これらのトレースは通常、2つの観点のうちの1つだけから分析される: 生成されたテキストの異なる推論ステップにまたがるトークンのシーケンス、または1ステップ以内にモデル層にまたがる隠れ状態ベクトル。
PRISM(Probabilistic Reasoning Inspection through Semantic and Implicit Modeling)は、両方のレベルを共同で分析するフレームワークおよび診断ツールであり、ステップやレイヤ間での推論の進化に関する統一的な見解を提供する。
複数の推論モデルとベンチマークを通して、PRISMは推論プロセスの体系的なパターンを明らかにし、失敗した軌道は非生産的な検証ループに閉じ込められやすいことを示し、さらに過度な考えや早期のコミットメントのような異なるモードに分岐し、候補の答えが到達したら異なる振る舞いをすることを示した。
さらに、セマンティックトランジションと内部計算パターンの両方を変更することで、アグリゲーション精度以上の推論行動を促す方法を明らかにしている。
推論軌道を構造化過程としてモデル化することにより、PRISMはこれらの挙動を最終タスクの精度にのみ依存するのではなく、観測可能かつ解析可能とする。
これらの知見をまとめて、PRISMはLLMにおける推論プロセスの解析と診断の実践的なツールとして位置づけた。
関連論文リスト
- Implicit Patterns in LLM-Based Binary Analysis [6.612857121548629]
我々は,マルチパスLSM推論が,構造化されたトークンレベルの暗黙的パターンを生じさせることを示す,最初の大規模トレースレベル研究を示す。
本研究は,LLM駆動のバイナリ解析の体系的特徴と,より信頼性の高い解析システムの基礎を提供する。
論文 参考訳(メタデータ) (2026-03-19T16:56:56Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Process In-Context Learning: Enhancing Mathematical Reasoning via Dynamic Demonstration Insertion [11.708864769915857]
本稿では,リアルタイムな推論要求に応答して数学的推論を促進するプロセス・インコンテキスト・ラーニング(PICL)を提案する。
1)推論過程における意味論とエントロピーを分析し、そのコア特性を要約することにより、潜在的な混乱点を同定する。
混乱したコンテキストにマッチするデモプールから関連するデモを取得し、進行中の推論プロセスに直接挿入して、その後のステップをガイドする。
論文 参考訳(メタデータ) (2026-01-17T09:20:06Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Schoenfeld's Anatomy of Mathematical Reasoning by Language Models [56.656180566692946]
我々は、Schoenfeldのエピソード理論を誘導型中間スケールレンズとして採用し、ThinkARM(モデルにおける推論の解剖学)を紹介する。
ThinkARMは、推論トレースを分析、探索、実装、検証などの機能的推論ステップに明示的に抽象化する。
エピソードレベルの表現は推論ステップを明確にし、現代の言語モデルにおける推論がどのように構造化され、安定化され、変更されるかの体系的な分析を可能にする。
論文 参考訳(メタデータ) (2025-12-23T02:44:25Z) - PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection [33.98107848014898]
PRISM-Benchはマルチモーダル大言語モデル(MLLM)を評価するために設計されたパズルに基づく視覚的課題のベンチマークである。
PRISM-Benchは、最終回答精度のみを測定する以前の評価とは異なり、診断タスクを導入している: 視覚パズルと、正確に1つのエラーを含むステップバイステップの連鎖が与えられた場合、モデルは最初の誤ったステップを特定する必要がある。
PRISM-Benchのパズルは多段階の記号的、幾何学的、類推的推論を必要とし、表面的なパターンマッチングに基づくショートカットに抵抗する。
論文 参考訳(メタデータ) (2025-10-27T17:57:52Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Distributional reasoning in LLMs: Parallel reasoning processes in multi-hop reasoning [8.609587510471943]
本稿では,大規模言語モデルにおける内部マルチホップ推論プロセスの新規かつ解釈可能な解析手法を提案する。
推論中、ネットワークの中間層は高度に解釈可能な埋め込みを生成する。
我々の発見は、LLMが推論タスクの解決に使っている戦略を明らかにするのに役立ち、人工知能から生まれる思考プロセスのタイプに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-06-19T21:36:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。