論文の概要: Your thoughts tell who you are: Characterize the reasoning patterns of LRMs
- arxiv url: http://arxiv.org/abs/2509.24147v1
- Date: Mon, 29 Sep 2025 00:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.661924
- Title: Your thoughts tell who you are: Characterize the reasoning patterns of LRMs
- Title(参考訳): あなたが誰なのか、あなたの考え:LEMの推論パターンを特徴づける
- Authors: Yida Chen, Yuning Mao, Xianjun Yang, Suyu Ge, Shengjie Bi, Lijuan Liu, Saghar Hosseini, Liang Tan, Yixin Nie, Shaoliang Nie,
- Abstract要約: 生成言語モデルを用いて、2つのLRMからの推論トレースを比較し、その特徴を単語で表現する。
このプロセスを推論トレースのデータセットで反復すると、モデルがどのように考えるかを特徴づける人間の言語分類が得られる。
LOTは、その思考の体系的な違いを特定し、スケール、ベースモデルファミリ、客観的領域が異なるLEMからの推論トレースを80-100%精度で識別する。
- 参考スコア(独自算出の注目度): 31.313418571838152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current comparisons of large reasoning models (LRMs) focus on macro-level statistics such as task accuracy or reasoning length. Whether different LRMs reason differently remains an open question. To address this gap, we introduce the LLM-proposed Open Taxonomy (LOT), a classification method that uses a generative language model to compare reasoning traces from two LRMs and articulate their distinctive features in words. LOT then models how these features predict the source LRM of a reasoning trace based on their empirical distributions across LRM outputs. Iterating this process over a dataset of reasoning traces yields a human-readable taxonomy that characterizes how models think. We apply LOT to compare the reasoning of 12 open-source LRMs on tasks in math, science, and coding. LOT identifies systematic differences in their thoughts, achieving 80-100% accuracy in distinguishing reasoning traces from LRMs that differ in scale, base model family, or objective domain. Beyond classification, LOT's natural-language taxonomy provides qualitative explanations of how LRMs think differently. Finally, in a case study, we link the reasoning differences to performance: aligning the reasoning style of smaller Qwen3 models with that of the largest Qwen3 during test time improves their accuracy on GPQA by 3.3-5.7%.
- Abstract(参考訳): 大規模推論モデル(LRM)の現在の比較は、タスク精度や推論長などのマクロレベルの統計に焦点を当てている。
異なる LRM が異なる理由があるかどうかは、未解決の問題である。
このギャップに対処するために,LLMが提案するオープンタコノミー (LOT) を導入し,生成言語モデルを用いて2つのLRMからの推論トレースを比較し,その特徴を単語で表現する手法を提案する。
するとLOTは、これらの特徴が LRM 出力にまたがる経験的分布に基づいて、推論トレースのソース LRM をどのように予測するかをモデル化する。
このプロセスを推論トレースのデータセットで反復すると、モデルがどのように考えるかを特徴づける人間可読な分類法が得られる。
数学,科学,コーディングのタスクに対する12のオープンソース LRM の推論を比較するため,LOT を適用した。
LOTは、その思考の体系的な違いを特定し、スケール、ベースモデルファミリ、客観的領域が異なるLEMからの推論トレースを80-100%精度で識別する。
分類以外にも、LOTの自然言語分類学は、LEMがどう考えるかの質的な説明を提供している。
最後に、ケーススタディにおいて、より小さなQwen3モデルの推論スタイルとテスト時間中に最大のQwen3の推論スタイルを一致させることで、GPQAの精度が3.3-5.7%向上する。
関連論文リスト
- A Study on Thinking Patterns of Large Reasoning Models in Code Generation [14.138043269602074]
大規模言語モデル(LLM)は、コード生成のようなソフトウェア工学のタスクに利用される。
本稿では,LRMのコード生成時の推論動作の調査と解明を目的とした総合的研究について述べる。
我々は, 4段階にわたる15の推論行動を含む, LRM推論行動の分類法を導出した。
論文 参考訳(メタデータ) (2025-09-17T07:13:12Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。