論文の概要: Your thoughts tell who you are: Characterize the reasoning patterns of LRMs
- arxiv url: http://arxiv.org/abs/2509.24147v1
- Date: Mon, 29 Sep 2025 00:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.661924
- Title: Your thoughts tell who you are: Characterize the reasoning patterns of LRMs
- Title(参考訳): あなたが誰なのか、あなたの考え:LEMの推論パターンを特徴づける
- Authors: Yida Chen, Yuning Mao, Xianjun Yang, Suyu Ge, Shengjie Bi, Lijuan Liu, Saghar Hosseini, Liang Tan, Yixin Nie, Shaoliang Nie,
- Abstract要約: 生成言語モデルを用いて、2つのLRMからの推論トレースを比較し、その特徴を単語で表現する。
このプロセスを推論トレースのデータセットで反復すると、モデルがどのように考えるかを特徴づける人間の言語分類が得られる。
LOTは、その思考の体系的な違いを特定し、スケール、ベースモデルファミリ、客観的領域が異なるLEMからの推論トレースを80-100%精度で識別する。
- 参考スコア(独自算出の注目度): 31.313418571838152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current comparisons of large reasoning models (LRMs) focus on macro-level statistics such as task accuracy or reasoning length. Whether different LRMs reason differently remains an open question. To address this gap, we introduce the LLM-proposed Open Taxonomy (LOT), a classification method that uses a generative language model to compare reasoning traces from two LRMs and articulate their distinctive features in words. LOT then models how these features predict the source LRM of a reasoning trace based on their empirical distributions across LRM outputs. Iterating this process over a dataset of reasoning traces yields a human-readable taxonomy that characterizes how models think. We apply LOT to compare the reasoning of 12 open-source LRMs on tasks in math, science, and coding. LOT identifies systematic differences in their thoughts, achieving 80-100% accuracy in distinguishing reasoning traces from LRMs that differ in scale, base model family, or objective domain. Beyond classification, LOT's natural-language taxonomy provides qualitative explanations of how LRMs think differently. Finally, in a case study, we link the reasoning differences to performance: aligning the reasoning style of smaller Qwen3 models with that of the largest Qwen3 during test time improves their accuracy on GPQA by 3.3-5.7%.
- Abstract(参考訳): 大規模推論モデル(LRM)の現在の比較は、タスク精度や推論長などのマクロレベルの統計に焦点を当てている。
異なる LRM が異なる理由があるかどうかは、未解決の問題である。
このギャップに対処するために,LLMが提案するオープンタコノミー (LOT) を導入し,生成言語モデルを用いて2つのLRMからの推論トレースを比較し,その特徴を単語で表現する手法を提案する。
するとLOTは、これらの特徴が LRM 出力にまたがる経験的分布に基づいて、推論トレースのソース LRM をどのように予測するかをモデル化する。
このプロセスを推論トレースのデータセットで反復すると、モデルがどのように考えるかを特徴づける人間可読な分類法が得られる。
数学,科学,コーディングのタスクに対する12のオープンソース LRM の推論を比較するため,LOT を適用した。
LOTは、その思考の体系的な違いを特定し、スケール、ベースモデルファミリ、客観的領域が異なるLEMからの推論トレースを80-100%精度で識別する。
分類以外にも、LOTの自然言語分類学は、LEMがどう考えるかの質的な説明を提供している。
最後に、ケーススタディにおいて、より小さなQwen3モデルの推論スタイルとテスト時間中に最大のQwen3の推論スタイルを一致させることで、GPQAの精度が3.3-5.7%向上する。
関連論文リスト
- Step-Tagging: Toward controlling the generation of Language Reasoning Models through step monitoring [5.190961793309368]
言語推論モデル(Language Reasoning Models, LRMs)は依然として非効率であり、過剰に生成される検証と反射のステップである。
LRMが生成する推論ステップのタイプをリアルタイムにアノテーションできる軽量な文分類器であるStep-Taggingフレームワークを導入する。
特定のステップの数のオンラインモニタリングは、LRM推論の効果的な早期停止基準を導出することができる。
論文 参考訳(メタデータ) (2025-12-16T12:01:16Z) - ReJump: A Tree-Jump Representation for Analyzing and Improving LLM Reasoning [29.544265034647434]
ReJumpは、中間的な問題解決ステップの木のノードへの訪問順序として推論トレースを表す。
我々は,2つのタスクに対して最先端のLarge Language Model (LRMs) を評価し,類似した精度のモデルが明確な推論行動を示すことを発見した。
学習戦略が推論をどう形成するかをより深く理解するために,ReJumpを用いて蒸留LRMを教師と比較し,CoTが推進するLLMとLRMを比較し,推論の事例数や強化学習が推論行動にどう影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-30T10:39:53Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - A Study on Thinking Patterns of Large Reasoning Models in Code Generation [14.138043269602074]
大規模言語モデル(LLM)は、コード生成のようなソフトウェア工学のタスクに利用される。
本稿では,LRMのコード生成時の推論動作の調査と解明を目的とした総合的研究について述べる。
我々は, 4段階にわたる15の推論行動を含む, LRM推論行動の分類法を導出した。
論文 参考訳(メタデータ) (2025-09-17T07:13:12Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - What makes Reasoning Models Different? Follow the Reasoning Leader for Efficient Decoding [84.42056293290015]
推論モデルと非推論モデルの間のトークンレベルのミスアライメントを分析する。
本稿では,FoReaL-Decodingを提案する。
一般的な4つの数学推論ベンチマークにおいて、FoReaL-Decodingは理論FLOPを30から50%減らし、CoTの長さを最大40%減らした。
論文 参考訳(メタデータ) (2025-06-08T05:08:32Z) - Socratic-PRMBench: Benchmarking Process Reward Models with Systematic Reasoning Patterns [79.42805969325036]
プロセス・リワード・モデル(PRM)は複雑な推論と問題解決に不可欠である。
PRMは、推論プロセス中に様々な推論パターンの下でエラーを特定する必要がある。
既存のベンチマークは主に、段階的に正しいPRMを評価することに焦点を当てている。
Socratic-PRMBenchは、6つの推論パターンでPRMを体系的に評価する新しいベンチマークである。
論文 参考訳(メタデータ) (2025-05-29T14:26:53Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。