論文の概要: LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
- arxiv url: http://arxiv.org/abs/2605.22012v1
- Date: Thu, 21 May 2026 05:18:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.104776
- Title: LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
- Title(参考訳): LatentOmni: 統一オーディオ・ビジュアル・レイトレント推論によるOmni-Modal理解の再考
- Authors: Yifan Dai, Zhenhua Wu, Bohan Zeng, Daili Hua, Jialing Liu, Bozhou Li, Yuran Wang, Chengzhuo Tong, Hao Liang, Xiaochen Ma, Junbo Niu, Tianyu Guo, Yang Shi, Yue Ding, Yiyan Ji, Bingyin Mei, Yushuo Guan, Yuanxing Zhang, Pengfei Wan, Fangcheng Fu, Wentao Zhang,
- Abstract要約: 自己回帰生成と互換性を維持しつつ、高密度な感覚情報を保存するため、統合された潜伏空間は、そのような推論のためのより良い媒体である、と我々は主張する。
この知見に基づいて,テキスト推論と音声視覚的潜在状態の相互関係を持つクロスモーダル推論フレームワークである textbfLatent Omni を提案する。
- 参考スコア(独自算出の注目度): 31.98142661908727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose \textbf{LatentOmni}, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct \textbf{LatentOmni-Instruct-35K}, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.
- Abstract(参考訳): 共同音声・視覚的推論は、一様理解には不可欠であるが、現在のマルチモーダル・大規模言語モデル(MLLM)は、両方のモダリティからきめ細かい証拠を必要とする場合に依然として苦戦している。
中心的な制限は、明示的なテキストベースのチェーン・オブ・シークレット(CoT)が、連続した音声視覚信号を離散トークンに圧縮し、時間的接地を弱め、中間的推論を言語先行に向けてシフトさせることである。
自己回帰生成と互換性を維持しつつ、高密度な感覚情報を保存するため、統合された潜伏空間は、そのような推論のためのより良い媒体である、と我々は主張する。
この知見に基づいて,音声・視覚的潜伏状態とテキスト推論を相互に伝達するクロスモーダル推論フレームワークである「textbf{LatentOmni}」を提案する。
LatentOmniは、潜時推論状態をタスク関連感覚機能と整合させる機能レベルの監視を導入し、Omni-Sync Position Embedding (OSPE)を使用して潜時オーディオと視覚状態間の時間的一貫性を維持する。
さらに,遅延空間推論を監督するための音声-視覚間干渉推論トラジェクトリのデータセットである「textbf{LatentOmni-Instruct-35K}」を構築した。
複数の音声-視覚的推論ベンチマークによる包括的評価は、LatentOmniが評価済みのオープンソースモデルの中で最高のパフォーマンスを達成し、拡張テキストCoTベースラインを一貫して上回り、より強力な全方位理解への有望な道としてラテント空間共同推論をサポートすることを証明している。
関連論文リスト
- Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning [11.05919811646786]
本稿では,事前学習型MLLM計算の互換性拡張として遅延推論を開発する空間意味的基盤となるRIS(Retrieve,Integrate,Synthesize)を提案する。
RISは潜伏トークンを空間的および意味的な証拠の両方に固定し、進行的な注意ボトルネックを通じて因果的役割を強制し、翻訳された潜伏状態から語彙に整合した復号に戻すために短い言語遷移トークンを導入する。
論文 参考訳(メタデータ) (2026-05-08T01:33:58Z) - Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs [54.16324124242172]
連続潜在空間推論は、マルチモーダルモデルに対するテキストチェーンのコンパクトな代替を提供する。
既存の視覚的推論手法では,これまで見過ごされてきた最適化病理を同定する。
パラメータ更新を伴わない推論時間潜時最適化は、視覚潜時における抑止的推論能力を効果的に解き放つことを示す。
論文 参考訳(メタデータ) (2026-05-04T15:36:12Z) - Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs [6.111899371682025]
視覚言語モデルは、テキストCoTの視覚的情報損失により、複雑な視覚的推論に苦しむことが多い。
我々は,強化潜在推論フレームワークである"Decompose, Look, and Reason"(DLR)を提案する。
ビジョン中心のベンチマークの実験では、DLRは一貫して強いベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-08T18:52:27Z) - The Silent Thought: Modeling Internal Cognition in Full-Duplex Spoken Dialogue Models via Latent Reasoning [76.96796481909581]
内部認知処理は高品質な応答の定式化に役立っている。
本稿では,音声認識と同時に潜在的思考を行うFLAIRという新しい手法を提案する。
我々のアプローチは音声対話システムとシームレスに一致している。
論文 参考訳(メタデータ) (2026-03-18T15:30:29Z) - Latent Thoughts Tuning: Bridging Context and Reasoning with Fused Information in Latent Tokens [13.653741247835091]
Latent Thoughts Tuning(LT-Tuning)は、潜在思想の構築とデプロイ方法を再定義するフレームワークである。
本研究では,コンテキスト隠蔽状態と予測意味指導を協調的に活用するコンテキスト予測融合機構を提案する。
提案手法は,既存の潜在推論ベースラインより優れ,機能崩壊を効果的に軽減し,頑健な推論精度を実現する。
論文 参考訳(メタデータ) (2026-02-10T19:19:10Z) - Mini-Omni-Reasoner: Token-Level Thinking-in-Speaking in Large Speech Models [80.75260664100644]
Mini-Omni-Reasonerは、"Thinking-in-Speaking"という新しい定式化を通じて、音声内での推論を可能にするフレームワークである。
トークンレベルで音声応答トークンとサイレント推論トークンをインターリーブする。
算術的推論では+19.1%、文脈的理解では+6.4%、出力は短く、復号遅延はゼロである。
論文 参考訳(メタデータ) (2025-08-18T15:14:04Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。