論文の概要: Real-Time Progress Prediction in Reasoning Language Models
- arxiv url: http://arxiv.org/abs/2506.23274v3
- Date: Wed, 08 Oct 2025 12:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.058862
- Title: Real-Time Progress Prediction in Reasoning Language Models
- Title(参考訳): 推論言語モデルにおけるリアルタイム進行予測
- Authors: Hans Peter Lynsgøe Raaschou-jensen, Constanza Fierro, Anders Søgaard,
- Abstract要約: 本研究では,リアルタイムの進捗予測が実現可能かどうかを考察する。
我々は進捗を識別し、推論状態の分類のために線形プローブを訓練する。
次に、2段階の微調整手法を導入し、推論モデルにより進捗予測を生成する。
- 参考スコア(独自算出の注目度): 41.08450684104994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in reasoning language models -- particularly those that use long, latent chains of thought -- have demonstrated remarkable capabilities in complex, agentic tasks. However, as these models operate over increasingly extended time horizons, their internal progress becomes opaque to users, complicating expectation management and real-time oversight. In this work, we investigate whether real-time progress prediction is feasible. We discretize progress and train a linear probe to classify reasoning states. We then introduce a two-stage fine-tuning approach that enables reasoning models to generate progress estimates (0$\rightarrow$100\%) during inference. Our best fine-tuned model achieves an average error of 10\% for sequences less than 16,000 tokens, offering a practical mechanism for monitoring and interpreting model reasoning in real time.
- Abstract(参考訳): 近年の推論言語モデル(特に長く潜伏した思考の連鎖を使用するもの)の進歩は、複雑でエージェント的なタスクにおいて顕著な能力を示している。
しかし、これらのモデルがますます長い時間的地平線を乗り越えるにつれて、その内部の進歩はユーザにとって不透明になり、期待管理とリアルタイム監視が複雑になる。
本研究では,リアルタイムの進捗予測が実現可能かどうかを考察する。
我々は進捗を識別し、推論状態の分類のために線形プローブを訓練する。
次に、2段階の微調整手法を導入し、推理モデルが推論中に進捗推定(0$\rightarrow$100\%)を生成できるようにする。
我々の最良の微調整モデルでは、16,000トークン未満のシーケンスの平均誤差を10倍にし、モデル推論をリアルタイムで監視・解釈するための実用的なメカニズムを提供する。
関連論文リスト
- Towards Concise and Adaptive Thinking in Large Reasoning Models: A Survey [8.736170026262279]
OpenAI o1やDeepSeek R1のような大きな推論モデル(LRM)は、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
これらのモデルもまた、不要な長さと冗長な推論チェーンを生成するという大きな課題に直面しています。
論文 参考訳(メタデータ) (2025-07-13T14:51:59Z) - Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models [54.85405423240165]
トピックの階層構造としてチェーンオブ思考出力を可視化するインタラクション設計であるInteractive Reasoningを導入する。
私たちは、不確実なトレードオフに直面したAIによる意思決定のプロトタイプであるHippoで、インタラクティブな推論を実装しています。
論文 参考訳(メタデータ) (2025-06-30T10:00:43Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - TimeSHAP: Explaining Recurrent Models through Sequence Perturbations [3.1498833540989413]
リカレントニューラルネットワークは、多くの機械学習ドメインで標準的なビルディングブロックである。
これらのモデルにおける複雑な意思決定はブラックボックスと見なされ、正確性と解釈可能性の間の緊張を生み出す。
本研究では,モデルに依存しないリカレント説明器であるTimeSHAPを提示することにより,これらのギャップを埋めることに寄与する。
論文 参考訳(メタデータ) (2020-11-30T19:48:57Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。