論文の概要: Semantic-Enriched Latent Visual Reasoning
- arxiv url: http://arxiv.org/abs/2605.19342v1
- Date: Tue, 19 May 2026 04:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.119165
- Title: Semantic-Enriched Latent Visual Reasoning
- Title(参考訳): Semantic-Enriched Latent Visual Reasoning
- Authors: Tianrun Xu, Yue Sun, Qixun Wang, Jingyi Lu, Yuan Wang, Tianren Zhang, Longteng Guo, Fengyun Rao, Jing Lyu, Feng Chen, Jing Liu,
- Abstract要約: マルチモーダル潜在空間推論は、視覚的推論を直接コンパクトな潜在空間で行うことにより、画像による明示的思考を置き換えることを目的としている。
既存のアプローチは視覚的監督に大きく依存しており、十分な意味的豊かさを欠いた潜在表現を生成する。
本稿では2段階の学習フレームワークであるセマンティック・エンリッチレイト・ビジュアル・リソン(SLVR)について紹介する。
- 参考スコア(独自算出の注目度): 28.31469233212317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal latent-space reasoning aims to replace explicit thinking with images by performing visual reasoning directly in a compact latent space. However, existing approaches largely rely on visual supervision and produce latent representations that lack sufficient semantic richness, limiting their ability to support diverse region-level reasoning tasks. In this work, we introduce Semantic-Enriched Latent Visual Reasoning (SLVR), a two-stage learning framework that enriches latent representations with attribute-level visual semantics and aligns them with diverse reasoning objectives. In the first stage, SLVR learns semantically enriched region-centric latents under fine-grained attribute supervision. In the second stage, we design Multi-query Group Relative Policy Optimization (M-GRPO) to align latent representations across multiple queries grounded in the same region. To support this framework, we construct SLV-Set, comprising approximately 400K region-level attribute annotations and 800K multi-query question answering samples, and introduce SV-QA, a benchmark that evaluates latent reasoning under semantic variation. Experiments demonstrate that SLVR improves the robustness and semantic consistency of latent visual reasoning compared to existing baselines.
- Abstract(参考訳): マルチモーダル潜在空間推論は、視覚的推論を直接コンパクトな潜在空間で行うことにより、画像による明示的思考を置き換えることを目的としている。
しかし、既存のアプローチは視覚的監督に大きく依存し、十分な意味的豊かさを欠いた潜在表現を生成し、多様な地域レベルの推論タスクをサポートする能力を制限する。
本研究では,2段階の学習フレームワークであるセマンティック・エンリッチレイトレント視覚推論(SLVR)を紹介し,属性レベルの視覚的意味論で潜在表現を豊かにし,多種多様な推論目的と整合させる。
第1段階では、SLVRは微粒な属性管理の下で、意味的に濃縮された領域中心の潜伏剤を学習する。
第2段階では,マルチクエリグループ相対ポリシー最適化 (M-GRPO) を設計し,複数のクエリにまたがる遅延表現を同一領域に配置する。
このフレームワークをサポートするために,約400Kの領域レベルの属性アノテーションと800Kのマルチクエリ質問応答サンプルからなるSLV-Setを構築し,セマンティック変動下での潜在推論を評価するベンチマークであるSV-QAを導入する。
実験により、SLVRは既存のベースラインと比較して、潜在視覚推論の堅牢性とセマンティック一貫性を向上させることが示された。
関連論文リスト
- Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning [11.05919811646786]
本稿では,事前学習型MLLM計算の互換性拡張として遅延推論を開発する空間意味的基盤となるRIS(Retrieve,Integrate,Synthesize)を提案する。
RISは潜伏トークンを空間的および意味的な証拠の両方に固定し、進行的な注意ボトルネックを通じて因果的役割を強制し、翻訳された潜伏状態から語彙に整合した復号に戻すために短い言語遷移トークンを導入する。
論文 参考訳(メタデータ) (2026-05-08T01:33:58Z) - Combating Visual Neglect and Semantic Drift in Large Multimodal Models for Enhanced Cross-Modal Retrieval [10.40757294607926]
Salient Subject-Aware Multimodal Embedding (SSA-ME)は、SSA-ME(Salient Subject-Aware Multimodal Embedding)と呼ばれる新しいフレームワークである。
提案手法はMMEBベンチマーク上での最先端性能を実現し,主観レベルのモデリングを取り入れることで,マルチモーダル検索を大幅に改善することを示した。
論文 参考訳(メタデータ) (2026-04-28T06:29:27Z) - Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - Reasoning in the Dark: Interleaved Vision-Text Reasoning in Latent Space [66.76138204796497]
マルチモーダル推論は、最終回答に到達する前に中間推論ステップを組み込むことでMLLMの能力を高めることを目的としている。
本稿では,視覚情報とテキスト情報の両方を潜在空間内の推論プロセスに注入するInterleaved Vision-Text Latent Reasoning (IVT-LR)を提案する。
M3CoTとScienceQAの実験により、我々のIVT-LR法は5.45%の精度で平均的な性能向上を実現し、同時に既存の手法に比べて5倍以上の速度向上を実現した。
論文 参考訳(メタデータ) (2025-10-14T14:58:25Z) - Remote Sensing Large Vision-Language Model: Semantic-augmented Multi-level Alignment and Semantic-aware Expert Modeling [42.46176089721314]
LVLM(Large Vision and Language Models)は、自然画像領域における様々な視覚言語タスクに強いパフォーマンスを示す。
リモートセンシング(RS)への応用は、視覚的外観、オブジェクトスケール、セマンティクスに大きな領域差があるため、いまだ探索されていない。
本稿では,RS理解に適した新しいLVLMフレームワークを提案する。セマンティック拡張多レベルアライメントとセマンティック対応エキスパートモデリングである。
論文 参考訳(メタデータ) (2025-06-27T02:31:37Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning [18.7712668000592]
動的空間推論の評価を目的とした新しい迷路ナビゲーションベンチマークを提案する。
実験により、動的視覚的ドラフトによる推論連鎖の増大、入力画像のオーバーレイドは、従来の手法よりも著しく優れていることが示された。
D2R(Dynamic Draft-Augmented Reasoning)は、テキストCoTと対応するビジュアルドラフトをシームレスにMLLMに統合するトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-05-22T12:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。