Fugu-MT 論文翻訳(概要): Is my model "mind blurting"? Interpreting the dynamics of reasoning tokens with Recurrence Quantification Analysis (RQA)

論文の概要: Is my model "mind blurting"? Interpreting the dynamics of reasoning tokens with Recurrence Quantification Analysis (RQA)

arxiv url: http://arxiv.org/abs/2602.06266v1
Date: Thu, 05 Feb 2026 23:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.159611
Title: Is my model "mind blurting"? Interpreting the dynamics of reasoning tokens with Recurrence Quantification Analysis (RQA)
Title（参考訳）: 私のモデルは「ミンドボケ」か?Recurrence Quantification Analysis (RQA)による推論トークンのダイナミクスを解釈する
Authors: Quoc Tuan Pham, Mehdi Jafari, Flora Salim,
Abstract要約: 本稿では,テスト時にモデルの推論連鎖を分析するための非テクスチャ代替手段としてRecurrence Quantification Analysis (RQA)を提案する。 RQAは応答長に反映されず、タスクの複雑さの予測を8%改善する。
参考スコア（独自算出の注目度）: 1.593065406609169
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Test-time compute is central to large reasoning models, yet analysing their reasoning behaviour through generated text is increasingly impractical and unreliable. Response length is often used as a brute proxy for reasoning effort, but this metric fails to capture the dynamics and effectiveness of the Chain of Thoughts (CoT) or the generated tokens. We propose Recurrence Quantification Analysis (RQA) as a non-textual alternative for analysing model's reasoning chains at test time. By treating token generation as a dynamical system, we extract hidden embeddings at each generation step and apply RQA to the resulting trajectories. RQA metrics, including Determinism and Laminarity, quantify patterns of repetition and stalling in the model's latent representations. Analysing 3,600 generation traces from DeepSeek-R1-Distill, we show that RQA captures signals not reflected by response length, but also substantially improves prediction of task complexity by 8\%. These results help establish RQA as a principled tool for studying the latent token generation dynamics of test-time scaling in reasoning models.
Abstract（参考訳）: テストタイム計算は大きな推論モデルの中心であるが、生成されたテキストを通して推論の振る舞いを分析することは、ますます実用的ではなく信頼できないものになっている。応答長は推論のためのブルートプロキシとしてよく使用されるが、このメトリクスは、思考の連鎖(CoT)や生成されたトークンのダイナミクスと有効性を捉えるのに失敗する。本稿では,テスト時にモデルの推論連鎖を分析するための非テクスチャ代替手段としてRecurrence Quantification Analysis (RQA)を提案する。トークン生成を動的システムとして扱うことにより,各生成ステップに隠れた埋め込みを抽出し,その結果の軌道にRQAを適用する。決定論(Determinism)やラミナリティ(Laminarity)といったRQAメトリクスは、モデルの潜在表現における反復と停止のパターンを定量化する。我々は,DeepSeek-R1-Distillから3,600個の生成トレースを解析したところ,RQAは応答長に反映されず,タスクの複雑さの予測を8倍に向上させることがわかった。これらの結果は、推論モデルにおけるテスト時間スケーリングの潜在トークン生成ダイナミクスを研究するための原則的ツールとしてRQAを確立するのに役立つ。

関連論文リスト

APR: Penalizing Structural Redundancy in Large Reasoning Models via Anchor-based Process Rewards [61.52322047892064]
テスト時間スケーリング(TTS)は、Large Reasoning Models(LRM)の機能を大幅に強化した。我々は, LRM が推論過程において最終回答を得た後も, 再検討なしに反復的自己検証を頻繁に行うことを観察した。本稿では,Anchor-based Process Reward (APR)を提案する。
論文参考訳（メタデータ） (2026-01-31T14:53:20Z)
Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。 AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文参考訳（メタデータ） (2025-10-06T09:30:05Z)
Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文参考訳（メタデータ） (2025-09-07T11:52:18Z)
Inducing Faithfulness in Structured Reasoning via Counterfactual Sensitivity [6.908972852063454]
大規模言語モデルは、欠陥や無関係な推論トレースに依存しながら、正しい答えを生成することが多い。本稿では,新しい学習目標であるtextbfCounterfactual Sensitivity Regularization (CSR)を紹介する。 CSRは、標準的な微調整とプロセスの監督に対する忠実度を最大70パーセント向上させる。
論文参考訳（メタデータ） (2025-09-01T15:18:46Z)
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models [2.7645012830234]
大きな推論モデルは複雑な推論タスクでは優れているが、典型的には長いシーケンシャル連鎖を生成する。 SPRINTは、LRMが並列化の機会を動的に識別し活用できるようにするために設計された、新しいトレーニング後および推論時フレームワークである。本研究では,SPRINTフレームワークで微調整されたモデルが,数学などの複雑な領域における推論モデルの性能と一致することを示す。
論文参考訳（メタデータ） (2025-06-06T05:10:31Z)
Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文参考訳（メタデータ） (2025-05-12T15:50:44Z)
Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文参考訳（メタデータ） (2025-02-28T14:08:30Z)
Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Deep Generative Symbolic Regression [83.04219479605801]
記号回帰は、データから簡潔な閉形式数学的方程式を発見することを目的としている。既存の手法は、探索から強化学習まで、入力変数の数に応じてスケールできない。本稿では,我々のフレームワークであるDeep Generative Symbolic Regressionのインスタンス化を提案する。
論文参考訳（メタデータ） (2023-12-30T17:05:31Z)
Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2022-02-22T04:46:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。