論文の概要: ReasonOps: Operator Segmentation for LLM Reasoning Traces
- arxiv url: http://arxiv.org/abs/2605.29192v1
- Date: Thu, 28 May 2026 00:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.567921
- Title: ReasonOps: Operator Segmentation for LLM Reasoning Traces
- Title(参考訳): ReasonOps: LLM推論トレースのためのオペレータセグメンテーション
- Authors: Daniel Lee, Owen Queen, James Zou,
- Abstract要約: 大きな推論モデルからのチェーンオブシントトレースは、数万のトークンにまたがる可能性がある。
ReasonOpsは教師なし, 表現力のない, 思考の連鎖をアノテートする手法である。
我々は、8つの推論ベンチマークで6つのファミリーにまたがる12のLLMから44,662のトレースを分析した。
- 参考スコア(独自算出の注目度): 29.17171274711201
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-thought traces from large reasoning models can span tens of thousands of tokens, yet we lack a vocabulary for describing their internal structure. Previous methods developed to analyze chain-of-thought traces are either too rigid or not expressive enough, failing to capture features across domains and models. To remedy this, we develop ReasonOps, an unsupervised, expressive method for annotating chain-of-thought traces, providing succinct universal operators. Using ReasonOps, we analyze 44,662 traces from 12 thinking LLMs spanning 6 families across 8 reasoning benchmarks and discover that they share a common compositional structure: 7 recurring reasoning operators -- discourse-level moves such as backtracking, inferring, and hypothesizing -- that emerge from unsupervised clustering of sentence-initial 3-token pivots. These operators appear across every model family and benchmark domain, confirmed by three independent LLM judges who classify held-out samples at 70 -76% accuracy. We analyze the structure of operators on easy vs. hard problems, revealing that reflective operators are more helpful on hard problems and harm performance on easy problems. Operator sequences are highly model-identifying: a classifier trained on operator distributions alone recovers the source model with macro-AUC, revealing that each model family has a distinctive reasoning fingerprint. Structural operator features predict within-problem answer correctness well above baselines. Classifiers built on these operators reach WP-AUC and on AIME specifically. ReasonOps further enables early quality estimation well before the trace completes: we predict at WP-AUC for only 50% of the trace. The ReasonOps pipeline is unsupervised and annotation-free, enabling deep insights into LLM reasoning traces as well as strong downstream results on model identification and correctness prediction.
- Abstract(参考訳): 大きな推論モデルから得られたチェーンオブソートトレースは数万のトークンにまたがることができるが、内部構造を記述するための語彙は欠如している。
チェーン・オブ・ソート・トレースを分析するために開発された従来の手法は、あまりに厳しすぎるか、十分に表現できないかのいずれかであり、ドメインやモデルにまたがる特徴を捉えていない。
これを解決するために、我々は、簡潔なユニバーサル演算子を提供する無教師付き表現的手法であるReasonOpsを開発した。
ReasonOpsを使って、8つの推論ベンチマークにまたがる6つのファミリーにまたがる12のLLMから44,662のトレースを分析し、共通の構成構造を共有することを発見した。
これらの演算子は、すべてのモデルファミリとベンチマーク領域に現れ、70~76%の精度で保留サンプルを分類する3人の独立したLCM裁判官によって確認される。
本研究では,難解な問題と難解な問題に対する演算子の構造を解析し,難解な問題に対して反射演算子がより役に立つこと,難解な問題に対する性能を損なうことを明らかにする。
演算子列は、非常にモデル同定され、演算子分布だけで訓練された分類器は、ソースモデルをマクロAUCで復元し、各モデルファミリが特異な推論指紋を持つことを明らかにした。
構造演算子の特徴は、ベースラインよりもはるかに高い確率で答えの正しさを予測することである。
これらの演算子上に構築された分類器は、特にWP-AUCおよびAIMEに到達する。
ReasonOpsはさらに、トレースが完了する前に早期品質の見積もりを可能にする。
ReasonOpsパイプラインは教師なし、アノテーションなしで、LLM推論トレースの深い洞察と、モデルの識別と正確性予測に関する強力なダウンストリーム結果を可能にする。
関連論文リスト
- Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens [4.0704009036918025]
大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
論文 参考訳(メタデータ) (2026-04-29T07:06:43Z) - Reasoning Beyond Chain-of-Thought: A Latent Computational Mode in Large Language Models [39.5490415037017]
CoT(Chain-of-Thought)プロンプトにより,大規模言語モデル(LLM)の推論性能が向上した。
なぜそれが機能するのか、そしてそれが大きな言語モデルで推論をトリガーするユニークなメカニズムであるかどうかは不明だ。
論文 参考訳(メタデータ) (2026-01-12T23:01:21Z) - Do Cognitively Interpretable Reasoning Traces Improve LLM Performance? [15.970162088175593]
CoT(Chain-of-Thought)トレースは、回答を生成する前に中間的推論トレースを生成する。
よくあるが、しばしば暗黙的な仮定は、CoTトレースは意味論的に意味があり、エンドユーザに解釈可能であるべきだというものである。
本稿では,LLaMAモデルとQwenモデルの教師付き微調整によるオープンブック質問応答領域におけるこの問題について検討する。
論文 参考訳(メタデータ) (2025-08-21T23:48:50Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。