論文の概要: Unified Vision-Language Modeling via Concept Space Alignment
- arxiv url: http://arxiv.org/abs/2603.01096v1
- Date: Sun, 01 Mar 2026 13:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.507307
- Title: Unified Vision-Language Modeling via Concept Space Alignment
- Title(参考訳): 概念空間アライメントによる統一視覚言語モデリング
- Authors: Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk,
- Abstract要約: V-SONAR(V-SONAR)は、テキストのみの埋め込み空間であるSONARから拡張された視覚言語埋め込み空間である。
V-LCMは視覚と言語入力をV-SONARとSONARを介して潜伏埋め込みの統一シーケンスに符号化する。
V-LCMは、画像/ビデオのキャプションと質問応答を含むタスクにおいて、最先端のビジョン言語モデルと一致する。
- 参考スコア(独自算出の注目度): 15.497574964678556
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce V-SONAR, a vision-language embedding space extended from the text-only embedding space SONAR (Omnilingual Embeddings Team et al., 2026), which supports 1500 text languages and 177 speech languages. To construct V-SONAR, we propose a post-hoc alignment pipeline that maps the representations of an existing vision encoder into the SONAR space. We thoroughly evaluate V-SONAR and show that its embeddings achieve competitive performance on text-to-video retrieval. Equipped with the OMNISONAR text decoder, V-SONAR further surpasses state-of-the-art vision-language models on video captioning tasks, including DREAM-1K (BLEU 23.9 vs. 19.6) and PE-VIDEO (BLEU 39.0 vs. 30.0). Leveraging V-SONAR, we first demonstrate that the Large Concept Model (LCM; LCM team et al. 2024) operating in SONAR and trained with English text only, can perform both single- and multi-visual concept understanding in a zero-shot manner. Finally, we introduce V-LCM, which extends the LCM with vision-language instruction tuning. V-LCM encodes vision and language inputs into an unified sequence of latent embeddings via V-SONAR and SONAR, and it is trained with the same latent diffusion objective for next-embedding prediction as in LCM's text-only pre-training. Experiments on a large-scale multilingual and -modal instruction-tuning data mixture highlight the potential of V-LCM: V-LCM matches state-of-the-art vision-language models on tasks covering image/video captioning and question answering, while significantly outperforming them across 61 rich- to low-resource languages out of all 62 tested languages.
- Abstract(参考訳): 1500のテキスト言語と177の音声言語をサポートするテキストのみの埋め込み空間であるSONAR(Omnilingual Embeddings Team et al , 2026)から拡張された視覚言語埋め込み空間であるV-SONARを紹介する。
V-SONARを構築するために,既存の視覚エンコーダの表現をSONAR空間にマッピングするポストホックアライメントパイプラインを提案する。
我々は、V-SONARを徹底的に評価し、その埋め込みがテキスト・ビデオ検索における競合性能を実現することを示す。
OMNISONARテキストデコーダを搭載したV-SONARは、DREAM-1K(BLEU 23.9 vs. 19.6)やPE-VIDEO(BLEU 39.0 vs. 30.0)など、ビデオキャプションタスクの最先端のビジョン言語モデルを上回る。
V-SONARを活用することで、SONARで動作し、英語テキストのみで訓練されたLarge Concept Model (LCM; LCM team et al 2024) が、ゼロショットでシングルビジョンとマルチビジュアルの両方の概念理解を実現できることを示す。
最後に,LCMを拡張したV-LCMを提案する。
V-LCMは視覚と言語入力をV-SONARとSONARを介して潜伏埋め込みの統一シーケンスにエンコードし、LCMのテキストのみの事前学習と同様の潜伏拡散目標で訓練する。
V-LCMは、画像/映像のキャプションと質問応答を含むタスクにおいて、最先端のビジョン言語モデルと照合し、62の試験言語のうち61のリッチ言語から低リソース言語で大幅に性能を向上する。
関連論文リスト
- Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models [17.444066202370397]
言語間移動により、視覚言語モデルは1つの言語でのみトレーニングデータを用いて様々な言語で視覚タスクを実行することができる。
現在のアプローチは、大規模で訓練済みの多言語言語モデルに依存している。
本稿では,事前学習したVLM Florence-2と大規模言語モデルGemma-2を組み合わせた,0.4Bから11.2Bの単一言語エンコーダVLMであるFlorenzを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:41:10Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - ICU: Conquering Language Barriers in Vision-and-Language Modeling by
Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。
ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-19T07:11:48Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and
Dataset [17.927825332032477]
本稿では,VAST-27Mという大規模モダリティビデオキャプションデータセットを自動生成する手法を提案する。
まず、2700万のオープンドメインのビデオクリップを収集し、視覚とオーディオキャプタを別々に訓練して、視覚とオーディオキャプタを生成します。
既成のLarge Language Model (LLM) を用いて生成されたキャプションと,字幕と指導プロンプトを総称モダリティキャプションに統合する。
論文 参考訳(メタデータ) (2023-05-29T14:34:50Z) - i-Code V2: An Autoregressive Generation Framework over Vision, Language,
and Speech Data [101.52821120195975]
i-Code V2は、視覚、言語、音声データの組み合わせから自然言語を生成することができる最初のモデルである。
システムは、デュアルモダリティとシングルモダリティのデータセットの大規模なコレクション上で、エンドツーエンドで事前訓練される。
論文 参考訳(メタデータ) (2023-05-21T01:25:44Z) - VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset [34.38377548121313]
マルチモーダル理解と生成のためのビジョン・オーディエンジュ・オムニ・ペセプション事前学習モデル(VALOR)を提案する。
VALORは、視覚、音声、言語の関係をエンドツーエンドで共同でモデル化する。
一連の公開モダリティベンチマークにおいて、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2023-04-17T15:08:15Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [39.35424739459689]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。