論文の概要: FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
- arxiv url: http://arxiv.org/abs/2510.10921v1
- Date: Mon, 13 Oct 2025 02:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.155255
- Title: FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model
- Title(参考訳): FG-CLIP 2: バイリンガルな細粒度視線調整モデル
- Authors: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin,
- Abstract要約: FG-CLIP 2(FG-CLIP 2)は、英語と中国語の微妙なアライメントを促進するために設計された視覚言語モデルである。
提案手法は, 領域テキストマッチングや長大キャプションモデリングなど, きめ細かい監督手法を利用する。
長文検索とバウンディングボックスの分類を特徴とする中国語マルチモーダル理解のための新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 11.423111315561151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
- Abstract(参考訳): 微粒な視覚言語理解には、視覚的内容と言語的記述の正確な一致が必要であり、これは現在のモデル、特に英語以外の設定において制限されている。
CLIPのようなモデルは、グローバルアライメントにおいてよく機能するが、オブジェクト属性、空間関係、言語表現の細かい詳細を捉えるのに苦慮し、バイリンガル理解を限定的にサポートしている。
これらの課題に対処するために、英語と中国語の両方の微粒化アライメントを促進するために設計されたバイリンガル視覚言語モデルであるFG-CLIP 2を導入する。
提案手法は,複数の識別目的と並行して,領域テキストマッチングや長大なキャプションモデリングなど,よりきめ細かな監督を生かしている。
さらに,意味的に類似したキャプションをよりよく区別するために,テキスト内コントラスト(TIC)の損失も導入する。
FG-CLIP 2は、大規模な英語と中国語のデータを慎重に混合して訓練し、強力なバイリンガル性能を実現する。
厳密な評価を可能にするため、長文検索と有界ボックス分類を特徴とする中国語マルチモーダル理解のための新しいベンチマークを提案する。
8つのタスクにわたる29のデータセットに対する大規模な実験は、FG-CLIP 2が既存のメソッドより優れており、両方の言語で最先端の結果が得られていることを示している。
バイリンガルな微粒化アライメントの今後の研究を容易にするため、モデル、コード、ベンチマークをリリースする。
関連論文リスト
- A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。