論文の概要: Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling
- arxiv url: http://arxiv.org/abs/2510.08470v1
- Date: Thu, 09 Oct 2025 17:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.23263
- Title: Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling
- Title(参考訳): 低リソースビジョンランゲージモデリングのためのToken-wise Dynamic Gating
- Authors: Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, Paula Buttery,
- Abstract要約: 認知的に証明可能な量のデータに基づいて視覚言語モデルをトレーニングするには、モデルがマルチモーダル情報を統合する方法を再考する必要がある。
本稿では,トークンワイド動的ゲーティングを用いた軽量デコーダアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 3.5408685781175016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Training vision-language models on cognitively-plausible amounts of data requires rethinking how models integrate multimodal information. Within the constraints of the Vision track for the BabyLM Challenge 2025, we propose a lightweight decoder-based architecture with (1) token-wise dynamic gating for adaptive fusion of linguistic and visual cues, (2) feature modulation and channel attention to maximise the utility of limited visual information and (3) auxiliary contrastive objectives for visual grounding. Evaluation on five benchmarks (BLiMP, BLiMP Supplement, EWoK, Winoground and VQA) shows competitive or superior performance to multimodal baselines. More notably, our dynamic gate discovers interpretable patterns without explicit supervision, favouring visual cues for content words and linguistic cues for function words. While we identify limitations in the Challenge constraints, such as the information bottleneck created by global image embeddings and training instability from the dataset split, our findings establish dynamic gating as a powerful tool for efficient multimodal learning, offering both interpretability and performance even under severe constraints.
- Abstract(参考訳): 認知的に証明可能な量のデータに基づいて視覚言語モデルをトレーニングするには、モデルがマルチモーダル情報を統合する方法を再考する必要がある。
BabyLM Challenge 2025のビジョントラックの制約の中で,(1)言語的および視覚的手がかりの適応的融合のためのトークンワイド動的ゲーティング,(2)限られた視覚情報の有用性を最大化するための特徴変調とチャネルアテンション,(3)視覚的接地のための補助的コントラスト目的を含む軽量デコーダベースのアーキテクチャを提案する。
BLiMP, BLiMP Supplement, EWoK, Winoground, VQAの5つのベンチマークによる評価は、マルチモーダルベースラインに対する競合性または優れた性能を示している。
より顕著なことは、我々の動的ゲートは、明示的な監督なしに解釈可能なパターンを発見し、内容語には視覚的手がかり、機能語には言語的手がかりを好むことである。
我々は,グローバルな画像埋め込みによる情報ボトルネックやデータセットからのトレーニング不安定性などの制約を識別する一方で,動的ゲーティングを効率的なマルチモーダル学習のための強力なツールとして確立し,解釈可能性と性能を厳しい制約の下でも提供する。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - FiVL: A Framework for Improved Vision-Language Alignment through the Lens of Training, Evaluation and Explainability [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
本稿では,モデルがイメージを実体的証拠として用いる能力を評価するためのベンチマークを示す。
視覚による幻覚を説明できる最強の視覚言語アライメントで注目頭を特定する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
本稿では,MUSE-VL(Unified Vision-Language Model Semantic)を紹介する。
提案手法は,従来のSOTA Emu3に比べて4.8%向上し,LLaVA-NeXT 34Bを3.7%上回った。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。