論文の概要: Hybrid Latent Reasoning with Decoupled Policy Optimization
- arxiv url: http://arxiv.org/abs/2604.20328v1
- Date: Wed, 22 Apr 2026 08:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.040316
- Title: Hybrid Latent Reasoning with Decoupled Policy Optimization
- Title(参考訳): 疎結合ポリシ最適化を用いたハイブリッド潜時推論
- Authors: Tao Cheng, Shi-Zhe Chen, Hao Zhang, Yixin Qin, Jinwen Luo, Zheng Wei,
- Abstract要約: HyLaR(Hybrid Latent Reasoning)は、連続的な視覚的潜在表現を持つ離散テキスト生成をシームレスにインターリーブするフレームワークである。
我々は,HyLaRが細粒度知覚と一般的なマルチモーダル理解ベンチマークにおいて,最先端の潜時推論手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 19.348125016748018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) reasoning significantly elevates the complex problem-solving capabilities of multimodal large language models (MLLMs). However, adapting CoT to vision typically discretizes signals to fit LLM inputs, causing early semantic collapse and discarding fine-grained details. While external tools can mitigate this, they introduce a rigid bottleneck, confining reasoning to predefined operations. Although recent latent reasoning paradigms internalize visual states to overcome these limitations, optimizing the resulting hybrid discrete-continuous action space remains challenging. In this work, we propose HyLaR (Hybrid Latent Reasoning), a framework that seamlessly interleaves discrete text generation with continuous visual latent representations. Specifically, following an initial cold-start supervised fine-tuning (SFT), we introduce DePO (Decoupled Policy Optimization) to enable effective reinforcement learning within this hybrid space. DePO decomposes the policy gradient objective, applying independent trust-region constraints to the textual and latent components, alongside an exact closed-form von Mises-Fisher (vMF) KL regularizer. Extensive experiments demonstrate that HyLaR outperforms standard MLLMs and state-of-the-art latent reasoning approaches across fine-grained perception and general multimodal understanding benchmarks. Code is available at https://github.com/EthenCheng/HyLaR.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、マルチモーダル大言語モデル(MLLM)の複雑な問題解決能力を著しく高める。
しかしながら、CoTを視覚に適応させることは、通常、LSM入力に適合するシグナルを識別し、初期のセマンティック崩壊を引き起こし、きめ細かい詳細を破棄する。
外部ツールはこれを緩和できるが、それらは厳格なボトルネックを導入し、事前定義された操作に対する推論を精査する。
最近の潜在的推論パラダイムは、これらの制限を克服するために視覚状態を内部化するが、結果として生じるハイブリッドな離散連続アクション空間を最適化することは依然として困難である。
本研究では,連続的な視覚的潜在表現を伴う離散テキスト生成をシームレスにインターリーブするHyLaR(Hybrid Latent Reasoning)を提案する。
具体的には,初期冷間開始制御微調整(SFT)に続いて,このハイブリッド空間における効果的な強化学習を実現するために,DePO(Decoupled Policy Optimization)を導入する。
DePOはポリシー勾配の目的を分解し、独立した信頼領域制約をテキストおよび潜在コンポーネントに適用し、正確な閉形式であるvon Mises-Fisher (vMF) KL正則化器と併用する。
広汎な実験により、HyLaRは標準的なMLLMや最先端の潜伏推論アプローチより、きめ細かい知覚や一般的なマルチモーダル理解ベンチマークよりも優れていることが示された。
コードはhttps://github.com/EthenCheng/HyLaR.comで入手できる。
関連論文リスト
- LEPO: Latent Reasoning Policy Optimization for Large Language Models [11.032175358561162]
Gumbel-Softmax による潜在推論に制御性を導入する。
textbfunderline Latent Rtextbfunderlineesoning textbfunderlinePolicy textbfunderlineOptimization(textbfLEPO)を提案する。
テストでは、LEPOは離散的および潜在的推論のために既存のRL法を著しく上回っている。
論文 参考訳(メタデータ) (2026-04-20T07:05:12Z) - PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - Hybrid Latent Reasoning via Reinforcement Learning [50.6763762323985]
大規模言語モデル(LLM)の能力を活用した強化学習(RL)による潜時推論について検討する。
RLをベースとしたハイブリッド潜在推論手法であるハイブリッド推論ポリシー最適化(HRPO)を導入する。
HRPOで訓練されたLLMは解釈可能であり、言語横断パターンや短い完了長といった興味深い挙動を示す。
論文 参考訳(メタデータ) (2025-05-24T01:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。