論文の概要: Context Matters: Learning Global Semantics for Visual Reasoning and Comprehension
- arxiv url: http://arxiv.org/abs/2510.05674v1
- Date: Tue, 07 Oct 2025 08:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.158303
- Title: Context Matters: Learning Global Semantics for Visual Reasoning and Comprehension
- Title(参考訳): コンテキスト:ビジュアル推論と理解のためのグローバルセマンティクスの学習
- Authors: Jike Zhong, Yuxiang Lai, Xiaofeng Yang, Konstantinos Psounis,
- Abstract要約: ビジョンモデルは、コンテキスト内学習において同等の進歩を見せていない。
このギャップは、現在の視覚変換器(ViT)トレーニングスキームにおける意味的および文脈的ガイダンスの欠如に起因する可能性がある、と我々は主張する。
対象」を「単語」の視覚的等価性として直接モデル化し、そのモデルに視覚要素間のグローバルな文脈と意味を学習させることを提案する。
- 参考スコア(独自算出の注目度): 8.195437248815802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in language modeling have witnessed the rise of highly desirable emergent capabilities, such as reasoning and in-context learning. However, vision models have yet to exhibit comparable progress in these areas. In this paper, we argue that this gap could stem from the lack of semantic and contextual guidance in current vision transformer (ViT) training schemes, and such a gap can be narrowed through the design of a semantic-grounded objective. Specifically, we notice that individual words in natural language are inherently semantic, and modeling directly on word tokens naturally learns a realistic distribution. In contrast, ViTs rely on spatial patchification, which inevitably lacks semantic information. To bridge this gap, we propose to directly model "object" as the visual equivalence of "word," pushing the model to learn the global context and semantics among visual elements. We investigate our hypotheses via masked image modeling (MIM), a framework where our approach can be readily tested by applying masks to visual objects rather than random patches. Considerable evidence from qualitative and quantitative evaluations reveals a key finding: object-level representation alone helps to learn a real-world distribution, whereas pixel-averaging shortcuts are often learned without it. Moreover, further evaluations with multimodal LLMs (MLLM) on visual question answering (VQA, GQA, ScienceQA) tasks demonstrate the strong reasoning and contextual understanding gained with this simple objective. We hope our study highlights the effectiveness of object-level encoding and provides a plausible direction for developing stronger vision encoders and tokenizers. Code and model will be publicly released. Keywords: Semantic Visual Tokenizer, Vision Reasoning, In-context Learning, Multimodal Reasoning
- Abstract(参考訳): 言語モデリングの最近の進歩は、推論や文脈内学習など、非常に望ましい創発的能力の台頭を目撃している。
しかしながら、視覚モデルはこれらの領域で同等の進歩を見せていない。
本稿では、現在の視覚変換器(ViT)のトレーニング手法において、このギャップは意味的および文脈的ガイダンスの欠如に起因する可能性があり、そのギャップは意味的接地対象の設計によって狭めることができると論じる。
具体的には、自然言語の個々の単語が本質的に意味的であることに気付き、単語トークンを直接モデリングすることで、現実的な分布を自然に学習する。
対照的に、ViTは、必然的に意味情報を欠いている空間的整合性に依存している。
このギャップを埋めるために、我々は「言葉」の視覚的等価性として「オブジェクト」を直接モデル化し、視覚要素間のグローバルな文脈や意味を学習するようモデルを押し付けることを提案する。
マスクを用いた画像モデリング(MIM)による仮説を,ランダムなパッチではなく,視覚的オブジェクトにマスクを適用することで,我々のアプローチを容易に検証できるフレームワークとして検討する。
質的、定量的な評価から考慮すべき証拠は、オブジェクトレベルの表現だけで現実世界の分布を学ぶのに役立ちます。
さらに、視覚的質問応答(VQA、GQA、ScienceQA)タスクにおけるマルチモーダルLLM(MLLM)によるさらなる評価は、この単純な目的によって得られる強い推論と文脈的理解を示す。
本研究は、オブジェクトレベルのエンコーディングの有効性を強調し、より強力な視覚エンコーダとトークン化器を開発するための有効な方向性を提供することを願っている。
コードとモデルは公開されます。
キーワード:セマンティックビジュアルトケナイザ、ビジョン推論、インコンテキスト学習、マルチモーダル推論
関連論文リスト
- Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。