論文の概要: Steering Large Reasoning Models towards Concise Reasoning via Flow Matching
- arxiv url: http://arxiv.org/abs/2602.05539v1
- Date: Thu, 05 Feb 2026 10:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.896252
- Title: Steering Large Reasoning Models towards Concise Reasoning via Flow Matching
- Title(参考訳): 流れマッチングによる高精度推論に向けた大規模推論モデルの構築
- Authors: Yawei Li, Benjamin Bergner, Yinghan Zhao, Vihang Prakash Patil, Bei Chen, Cheng Wang,
- Abstract要約: FlowSteerは、冗長性と簡潔な推論に関連する分布の完全な変換を学習する非線形ステアリング手法である。
本研究は, 生成技術による全分布輸送のモデル化が, LRMの制御に有効な基礎となることを実証するものである。
- 参考スコア(独自算出の注目度): 18.79674738541318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) excel at complex reasoning tasks, but their efficiency is often hampered by overly verbose outputs. Prior steering methods attempt to address this issue by applying a single, global vector to hidden representations -- an approach grounded in the restrictive linear representation hypothesis. In this work, we introduce FlowSteer, a nonlinear steering method that goes beyond uniform linear shifts by learning a complete transformation between the distributions associated with verbose and concise reasoning. This transformation is learned via Flow Matching as a velocity field, enabling precise, input-dependent control over the model's reasoning process. By aligning steered representations with the distribution of concise-reasoning activations, FlowSteer yields more compact reasoning than the linear shifts. Across diverse reasoning benchmarks, FlowSteer demonstrates strong task performance and token efficiency compared to leading inference-time baselines. Our work demonstrates that modeling the full distributional transport with generative techniques offers a more effective and principled foundation for controlling LRMs.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な推論タスクにおいて優れるが、その効率は過度に冗長な出力によって妨げられることが多い。
従来のステアリング手法では、単一の大域ベクトルを隠れ表現に適用することでこの問題に対処しようとするが、これは制限線形表現仮説に基づくアプローチである。
本研究では,一様線形シフトを超える非線形ステアリング手法であるFlowSteerを紹介する。
この変換は、フローマッチングを速度場として学習し、モデルの推論プロセスに対する正確な入力依存制御を可能にする。
ステアリング表現を簡潔な推論活性化の分布に合わせることで、FlowSteerは線形シフトよりもよりコンパクトな推論が得られる。
さまざまな推論ベンチマークを通じて、FlowSteerは、主要な推論時間ベースラインと比較して、強いタスクパフォーマンスとトークン効率を示している。
本研究は, 生成技術による全分布輸送のモデル化が, LRMの制御に有効な基礎となることを実証するものである。
関連論文リスト
- Disentangled Representation Learning via Flow Matching [48.12507436294143]
遠方表現学習は、観測データの基礎となる説明的要素を捉えることを目的としている。
既存の拡散に基づく手法は帰納的バイアスを通じて因子の独立を促進するが、しばしば強い意味的アライメントを欠く。
本稿では,不整合表現学習のためのフローマッチングに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T02:14:36Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Discrete Guidance Matching: Exact Guidance for Discrete Flow Matching [36.348940136801296]
この問題に対処するために、離散データのための新しいガイダンスフレームワークを提案する。
学習した離散フローマッチングモデルにより、所望の分布の正確な遷移率を導出する。
本稿では,エネルギー誘導型シミュレーションと嗜好アライメントによるテキスト・ツー・イメージ生成とマルチモーダル理解タスクの有効性を示す。
論文 参考訳(メタデータ) (2025-09-26T05:51:31Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。
ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文 参考訳(メタデータ) (2022-02-13T08:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。