論文の概要: Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks
- arxiv url: http://arxiv.org/abs/2604.16931v1
- Date: Sat, 18 Apr 2026 09:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.24456
- Title: Playing Psychic: Using Thought Trees to Predict Reasoning Models Accuracy on Coding Tasks
- Title(参考訳): サイキックの演奏 : 思考木を用いた思考モデルによる符号化作業の精度予測
- Authors: Jiaxin Fang, Runyuan He, Sahil Bhatia, Neel Gajare, Alvin Cheung,
- Abstract要約: 実世界のコーディングベンチマークにおいて,フロンティア推論モデルを用いてそれらの性能について考察する。
そこで我々は,論理的トレースを表現する手段として,構造化思考木を提案する。
抽出した特徴に基づく構造的異常トレースのフラグ付けと再試行により,より低い複雑性レベルで一貫した利得が得られることを示す。
- 参考スコア(独自算出の注目度): 7.675768582345005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) have shown that test-time scaling can substantially improve model performance on complex tasks, particularly in the coding domain. Under this paradigm, models use a larger token budget during inference to generate intermediate reasoning traces before producing a final answer. However, current evaluations primarily rely on competitive programming benchmarks, which may not capture the full range of reasoning abilities. In this work, we perform a systematic study of frontier reasoning models to understand their performance on real-world coding benchmarks. To gain more insights into the performance of such models, we devise a programmatic way to {\em automatically generate} coding tasks of arbitrary difficulty and structure from existing benchmarks. Using this framework, our analysis reveals that the structure of a reasoning trace, not just its contents, is a strong predictor of correctness. Motivated by this, we propose structured thought-trees as means to represent reasoning traces. To illustrate their use, we train a lightweight classifier on features extracted from thought-trees to predict trace correctness, and demonstrate that flagging and retrying structurally anomalous traces based on the extracted features yields consistent gains at lower complexity levels.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、特にコーディング領域において、テスト時間スケーリングが複雑なタスクにおけるモデルパフォーマンスを大幅に改善できることを示している。
このパラダイムの下では、モデルは推論中により大きなトークン予算を使用して、最終回答を生成する前に中間的推論トレースを生成する。
しかし、現在の評価は主に競合するプログラミングベンチマークに依存しており、それは推論能力の全範囲を捉えていないかもしれない。
本研究では,実世界の符号化ベンチマークにおいて,その性能を理解するために,フロンティア推論モデルを体系的に研究する。
このようなモデルの性能についてより深い知見を得るため、既存のベンチマークから任意の難易度と構造を持つコーディングタスクを自動的に生成するプログラム的手法を考案した。
この枠組みを用いることで、その内容だけでなく、推論トレースの構造が正確さの強い予測因子であることが判明した。
そこで我々は, 推論トレースを表す手段として, 構造化思考木を提案する。
それらの使用法を説明するために,思考木から抽出した特徴を軽量に分類してトレースの正しさを予測し,抽出した特徴に基づく構造的異常トレースのフラグ付けと再試行により,より低い複雑性レベルで一貫した利得が得られることを示す。
関連論文リスト
- TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems [52.91956121737963]
我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。
本稿では,反復的検証ループを用いて,数値的に基底となる推論トレースを合成するマルチエージェント・フレームワークを提案する。
評価は,この推論が因果的に有効であること,評価に有用であること,生成したトレースでLSMを誘導することにより,予測精度が大幅に向上することを確認した。
論文 参考訳(メタデータ) (2026-04-07T03:04:45Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - Fluid Representations in Reasoning Models [91.77876704697779]
本稿では,QwQ-32Bの抽象構造情報処理のメカニズム解析を行う。
その結果、QwQ-32Bは、推論中の行動や概念の内部表現を徐々に改善することがわかった。
論文 参考訳(メタデータ) (2026-02-04T18:34:50Z) - Combating Spurious Correlations in Graph Interpretability via Self-Reflection [4.81017678027464]
解釈可能なグラフ学習は、機械学習において人気のある研究トピックである。
最も難しいのは、ICLR 2022で導入されたSpurious-Motifベンチマークである。
本稿では,既存の解釈可能なグラフ学習手法と統合可能な自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-16T06:31:16Z) - Can an LLM Induce a Graph? Investigating Memory Drift and Context Length [11.214847796972705]
最近提案された評価ベンチマークは、大規模言語モデル(LLM)の有効文脈長と忘れ傾向を特徴付けることを目的としている。
我々は、これらのモデルをより複雑な推論タスクで評価し、テキストから構造化された関係知識を誘導する必要があると主張している。
以上の結果から,LLMは記憶のドリフトや文脈記憶を,このような関係推論を行う場合よりもはるかに短い有効長で表現し始めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-04T01:56:07Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Enhancing Performance of Explainable AI Models with Constrained Concept Refinement [10.241134756773228]
正確性と解釈可能性のトレードオフは、機械学習(ML)における長年の課題である。
本稿では,概念表現における偏差の影響について検討し,これらの効果を緩和するための新しい枠組みを提案する。
従来の説明可能な手法と比較して,提案手法は様々な大規模ベンチマークにおいてモデル解釈可能性を維持しながら予測精度を向上するだけでなく,計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-10T18:53:15Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。