論文の概要: Bridging Hidden States in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.11526v1
- Date: Fri, 14 Nov 2025 17:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.753258
- Title: Bridging Hidden States in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける隠れ状態のブリッジング
- Authors: Benjamin Fein-Ashley, Jacob Fein-Ashley,
- Abstract要約: VLM(Vision-Language Models)は、画像コンテンツと自然言語を結びつける新しいモデルのファミリーである。
両エンコーダの上部付近に配置された,クロスオンリーで双方向の注意層を複数配置した軽量核融合モジュールを提案する。
エンコーダは非因果的であり、理解するために強く、生成はオプションのデコーダを介してクリーンに分離される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are a new family of models that align image content with natural language. Existing approaches typically fuse either (a) early: by mixing tokens/features inside the encoders, or (b) late: by comparing pooled embeddings. Many methods also tie fusion to an autoregressive decoder. However, the hidden states of both modalities already carry rich, modality-specific structure (spatial layout in vision; syntax and semantics in text), so directly aligning these states is a natural way to match what the two modalities "think". We propose a lightweight fusion module: a few cross-only, bidirectional attention layers placed near the top of both encoders. Each layer projects the vision and text encoder hidden-state sequences into a shared space, attends across modalities, and sends gated residual updates back, with simple stabilizers to improve alignment. The encoders remain non-causal and strong for understanding, while generation stays cleanly decoupled via an optional decoder. Across standard retrieval, VQA, and visual reasoning benchmarks, BRIDGE outperforms comparable VLMs while preserving the bi-encoder efficiency of contrastive models. We make our code publicly available at https://github.com/jfeinashley/BRIDGE.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像コンテンツと自然言語を結びつける新しいモデルのファミリーである。
既存のアプローチは一般的に融合する
(a)早期:エンコーダの内部にトークンや特徴を混ぜること、または
(b)後期:プール埋め込みを比較すること。
多くの手法は核融合を自己回帰デコーダに結びつける。
しかし、両方のモダリティの隠された状態は、既にリッチでモダリティ固有の構造(視覚における空間的レイアウト、テキストにおける構文と意味論)を持っているため、これらの状態を直接整合させることは、2つのモダリティが「考える」ものと一致する自然な方法である。
両エンコーダの上部付近に配置された,クロスオンリーで双方向の注意層を複数配置した軽量核融合モジュールを提案する。
各レイヤは、ビジョンとテキストエンコーダの隠れ状態シーケンスを共有スペースに投影し、モダリティをまたいで参加し、ゲート付残差更新を送信し、単純な安定化器でアライメントを改善する。
エンコーダは非因果的であり、理解するために強く、生成はオプションのデコーダを介してクリーンに分離される。
標準検索、VQA、ビジュアル推論ベンチマークの他、BRIDGEはコントラストモデルのバイエンコーダ効率を保ちながら、同等のVLMより優れている。
コードはhttps://github.com/jfeinashley/BRIDGE.comで公開しています。
関連論文リスト
- Fast and Fluent Diffusion Language Models via Convolutional Decoding and Rejective Fine-tuning [23.58934174168992]
Autoregressive (AR)言語モデルでは、テキストを1つずつ生成することで、推論速度が制限される。
ハードセグメンテーションなしでデコードウインドウを狭める正規化法である畳み込み復号法(Conv)を提案する。
Rejecting Rule-based Fine-Tuning (R2FT)も導入しています。
論文 参考訳(メタデータ) (2025-09-18T17:48:21Z) - Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization [20.063863466319326]
SignViPは、複数のきめ細かい条件を組み込んだ新しいフレームワークである。
SignViPは、ビデオ品質の時間的コヒーレンスやセマンティクスの忠実さなど、メトリクス間の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-19T02:56:06Z) - Perception Encoder: The best visual embeddings are not at the output of the network [70.86738083862099]
本稿では、単純な視覚言語学習によって訓練された画像と映像の理解のための視覚エンコーダであるPerception (PE)を紹介する。
対照的な視覚言語学習だけでは、これらの下流タスクに強力な汎用的な埋め込みを実現できることが分かっています。
PEモデル群は,多種多様なタスクにおいて,クラス内で最高の結果が得られる。
論文 参考訳(メタデータ) (2025-04-17T17:59:57Z) - Do Vision and Language Encoders Represent the World Similarly? [22.70701869402434]
CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。
非整列および整列エンコーダの表現空間は意味論的に類似していることがわかった。
CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。
論文 参考訳(メタデータ) (2024-01-10T15:51:39Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Scheduled Sampling in Vision-Language Pretraining with Decoupled
Encoder-Decoder Network [99.03895740754402]
本稿では,2つの切り離されたクロスモーダルエンコーダとデコーダが関与するエンコーダ・デコーダ構造の2ストリーム分離設計を提案する。
その代替として,2パス方式でエンコーダデコーダを事前学習することで,そのような不一致を緩和する一次サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-27T17:36:57Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。