論文の概要: From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.08735v2
- Date: Tue, 10 Feb 2026 08:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.13572
- Title: From Correspondence to Actions: Human-Like Multi-Image Spatial Reasoning in Multi-modal Large Language Models
- Title(参考訳): 対応から行動へ:多モーダル大言語モデルにおけるヒューマンライクな空間推論
- Authors: Masanari Oi, Koki Maeda, Ryuto Koike, Daisuke Oba, Nakamasa Inoue, Naoaki Okazaki,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は, 単一画像空間推論において大きく進歩している。
クロスビュー対応と視点cHangeのためのヒューマン・アウェア・トレーニングを提案する。
- 参考スコア(独自算出の注目度): 31.570738638262956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models (MLLMs) have made substantial progress in single-image spatial reasoning, multi-image spatial reasoning, which requires integration of information from multiple viewpoints, remains challenging. Cognitive studies suggest that humans address such tasks through two mechanisms: cross-view correspondence, which identifies regions across different views that correspond to the same physical locations, and stepwise viewpoint transformation, which composes relative viewpoint changes sequentially. However, existing studies incorporate these mechanisms only partially and often implicitly, without explicit supervision for both. We propose Human-Aware Training for Cross-view correspondence and viewpoint cHange (HATCH), a training framework with two complementary objectives: (1) Patch-Level Spatial Alignment, which encourages patch representations to align across views for spatially corresponding regions, and (2) Action-then-Answer Reasoning, which requires the model to generate explicit viewpoint transition actions before predicting the final answer. Experiments on three benchmarks demonstrate that HATCH consistently outperforms baselines of comparable size by a clear margin and achieves competitive results against much larger models, while preserving single-image reasoning capabilities.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は単一画像空間推論において大きな進歩を遂げているが、複数の視点からの情報の統合を必要とするマルチモーダル空間推論は依然として困難である。
認知学的研究は、人間が同じ物理的位置に対応する異なる視点の領域を識別するクロスビュー対応と、相対的な視点変化を順次構成する段階的な視点変換という2つのメカニズムを通して、そのようなタスクに対処することを示唆している。
しかし、既存の研究はこれらのメカニズムを部分的に、しばしば暗黙的にのみ含み、両者の明確な監督は行わない。
本研究では,(1)空間的に対応する領域のビューを横断するパッチ表現を促すパッチレベル空間アライメント,(2)アクション-then-Answer Reasoning,(2)最終的な回答を予測する前に明確な視点遷移アクションを生成することを必要とする2つの相補的な目標を持つトレーニングフレームワークである,クロスビュー対応と視点対応のためのヒューマン・アウェアトレーニングcHange(HATCH)を提案する。
3つのベンチマークの実験では、HATCHは一貫して同等の大きさのベースラインをクリアマージンで上回り、より大きなモデルに対して競争的な結果を得る一方で、シングルイメージの推論能力を保っている。
関連論文リスト
- Alignment among Language, Vision and Action Representations [0.0]
言語,視覚,行動表現が部分的に共有された意味構造に収束することを示す。
これらの結果は、言語、視覚、行動表現が部分的に共有された意味構造に収束していることを示している。
論文 参考訳(メタデータ) (2026-01-30T13:12:07Z) - Distinguishing Visually Similar Actions: Prompt-Guided Semantic Prototype Modulation for Few-Shot Action Recognition [18.527513690285364]
少数のアクション認識は、限定されたラベル付きサンプルからモデルが新しいアクションカテゴリを素早く学習できるようにすることを目的としている。
本稿では、時間的モデリングと視覚的類似性の課題に対処する3つのコンポーネントを含むCLIP-SPMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T05:13:58Z) - Enhancing Spatial Reasoning in Multimodal Large Language Models through Reasoning-based Segmentation [50.81551581148339]
本稿では、推論に基づくセグメンテーションフレームワークRelevant Reasoning(R$2$S)を紹介する。
推論に基づくセグメンテーションデータセットである3D ReasonSegについても紹介する。
どちらの実験も、R$2$Sと3D ReasonSegは、空間的推論能力の強い3D点雲知覚を効果的に達成することを示した。
論文 参考訳(メタデータ) (2025-06-29T06:58:08Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations [48.98219448782818]
Reasoning(RS)は、暗黙のテキストクエリに基づいてオブジェクトをセグメント化する必要があるマルチモーダル視覚テキストタスクである。
現在のRSアプローチは、知覚と推論の両方に微調整の視覚言語モデル(VLM)に依存している。
本稿では、Digital Twin表現を中間層として活用し、認識を推論から切り離す新しいRS手法DTwinSegerを紹介する。
論文 参考訳(メタデータ) (2025-06-09T17:05:02Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal
Pre-training [21.017471684853987]
言語間およびモーダル間の事前学習を統一する,シンプルで効果的な事前学習フレームワークであるクロスビュー言語モデリングを導入する。
我々のアプローチは、言語横断とモーダル横断の事前学習が、同じオブジェクトの2つの異なるビューを共通の意味空間に整合させることで同じ目標を共有するという重要な観察によって動機付けられている。
CLMは、ゼロショットのクロスランガル転送により、代表的英語ビジョン言語モデルの翻訳テスト性能を上回る最初のマルチランガル・マルチモーダル事前訓練モデルである。
論文 参考訳(メタデータ) (2022-06-01T16:45:24Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。