論文の概要: ReGuLaR: Relation-Grounded Latent Reasoning for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.30587v1
- Date: Thu, 28 May 2026 21:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.244096
- Title: ReGuLaR: Relation-Grounded Latent Reasoning for Large Vision-Language Models
- Title(参考訳): ReGuLaR:大型ビジョンランゲージモデルのためのリレーグラウンドラテント推論
- Authors: Zihu Wang, Karthik Somayaji N. S, Peng Li,
- Abstract要約: 思考の連鎖(CoT)推論は、自然言語の中間的推論ステップを言語化することによって、大きな視覚言語モデル(LVLM)の推論能力を大幅に向上させた。
最近の研究は、推論を連続的な潜在空間に移すことによって、この制限に対処している。
ReGuLaRは、視覚的証拠に潜伏状態を明確に根拠付ける潜在状態推論フレームワークである。
- 参考スコア(独自算出の注目度): 5.030873315667928
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chain-of-thought (CoT) reasoning has significantly improved the reasoning ability of large vision-language models (LVLMs) by verbalizing intermediate reasoning steps in natural language. However, such discrete textual rationales are often insufficient for encoding continuous visual evidence. Recent work addresses this limitation by moving reasoning into continuous latent space. Despite promising progress, existing methods leave latent reasoning insufficiently connected to the compositional and relational structure of visual evidence. To address this gap, we introduce ReGuLaR, a relation grounded latent reasoning framework that explicitly grounds latent states in these critical yet overlooked visual evidence. ReGuLaR uses a training-time ReGFormer to focus latent reasoning on question-relevant objects and inter-object relations, while at inference time the model reasons and generates answers without invoking the ReGFormer. To support training ReGuLaR, we construct RGROUNDING-351K, a real-world vision-language dataset annotated with key object bounding boxes and inter-object relations. Extensive experiments across diverse benchmarks show that ReGuLaR consistently outperforms existing approaches and achieves state-of-the-art performance. We include our code in the submission and will release the code and training data publicly upon acceptance.
- Abstract(参考訳): 思考の連鎖(CoT)推論は、自然言語の中間的推論ステップを言語化することによって、大きな視覚言語モデル(LVLM)の推論能力を大幅に向上させた。
しかし、このような離散的なテキスト的合理性は、しばしば連続した視覚的証拠を符号化するのに不十分である。
最近の研究は、推論を連続的な潜在空間に移すことによって、この制限に対処している。
有望な進歩にもかかわらず、既存の手法では、視覚的証拠の構成的および関係的な構造に、潜在的推論が不十分なまま残されている。
このギャップに対処するため、我々はReGuLaRを紹介した。ReGuLaRは、これらの批判的かつ見過ごされた視覚的証拠において、潜伏状態を明確に根拠付ける、潜在的推論フレームワークである。
ReGuLaRはトレーニングタイムのReGFormerを使用して、質問関連オブジェクトとオブジェクト間の関係に潜時推論を集中させ、推論時にReGFormerを呼び出すことなくモデル理由を判断し、回答を生成する。
ReGuLaRのトレーニングを支援するために,キーオブジェクト境界ボックスとオブジェクト間関係を付加した実世界の視覚言語データセットであるRGROUNDING-351Kを構築した。
さまざまなベンチマークにわたる大規模な実験により、ReGuLaRは既存のアプローチを一貫して上回り、最先端のパフォーマンスを実現している。
私たちのコードは提出書に含めており、受け入れ次第、コードとトレーニングデータを公開します。
関連論文リスト
- Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning [11.05919811646786]
本稿では,事前学習型MLLM計算の互換性拡張として遅延推論を開発する空間意味的基盤となるRIS(Retrieve,Integrate,Synthesize)を提案する。
RISは潜伏トークンを空間的および意味的な証拠の両方に固定し、進行的な注意ボトルネックを通じて因果的役割を強制し、翻訳された潜伏状態から語彙に整合した復号に戻すために短い言語遷移トークンを導入する。
論文 参考訳(メタデータ) (2026-05-08T01:33:58Z) - Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs [6.111899371682025]
視覚言語モデルは、テキストCoTの視覚的情報損失により、複雑な視覚的推論に苦しむことが多い。
我々は,強化潜在推論フレームワークである"Decompose, Look, and Reason"(DLR)を提案する。
ビジョン中心のベンチマークの実験では、DLRは一貫して強いベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-08T18:52:27Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Reasoning-Augmented Representations for Multimodal Retrieval [27.4146940988752]
Universal Multimodal Retrieval (UMR) は、テキストと視覚を横断する任意の検索を求める。
画像が“サイレント”なエビデンスを持ち、クエリがキーセマンティクスを暗黙的に残す場合、単一の埋め込みパスは理由と圧縮の両方でなければならない。
本稿では、検索前の推論を外部化することで、これらの役割を分離するデータ中心のフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-06T19:01:54Z) - ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought [49.203970812338916]
明示的な推論連鎖は、かなりの計算冗長性をもたらす。
近年の潜時推論法は、推理過程を潜時空間に圧縮することによりこれを緩和しようとする。
我々はRendered CoT-Guided Variational Latent Reasoning (ReGuLaR)を提案する。
論文 参考訳(メタデータ) (2026-01-30T17:08:06Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z) - GRIT: Teaching MLLMs to Think with Images [22.74533687444133]
Grounded Reasoning with Images and Texts (GRIT) はMLLMを画像で考えるための新しい手法である。
GRITは自然言語と明示的な境界ボックス座標をインターリーブする推論連鎖を生成する。
GRITは例外的なデータ効率を実現し、既存のデータセットから20のイメージクエスト・アンサートレットを必要とする。
論文 参考訳(メタデータ) (2025-05-21T17:54:49Z) - Prompt-based Logical Semantics Enhancement for Implicit Discourse
Relation Recognition [4.7938839332508945]
Inlicit Discourse Relation Recognition (IDRR) のための Prompt-based Logical Semantics Enhancement (PLSE) 法を提案する。
提案手法は,事前学習した言語モデルに対する対話関係に関する知識を,素早い接続予測によってシームレスに注入する。
PDTB 2.0 と CoNLL16 データセットによる実験結果から,本手法は現状の最先端モデルに対して優れた一貫した性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-11-01T08:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。