論文の概要: ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport
- arxiv url: http://arxiv.org/abs/2602.22678v1
- Date: Thu, 26 Feb 2026 06:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.562812
- Title: ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport
- Title(参考訳): ViCLIP-OT:ベトナム語画像検索のための第1基本視覚言語モデル
- Authors: Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham,
- Abstract要約: ベトナム語画像テキスト検索に特化して設計された基盤視覚言語モデルであるViCLIP-OTを導入する。
提案フレームワークは,CLIPスタイルのコントラスト学習と類似グラフ正規化最適輸送(SIGROT)損失を統合し,グローバルな相互整合性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval has become a fundamental component in intelligent multimedia systems; however, most existing vision-language models are optimized for highresource languages and remain suboptimal for low-resource settings such as Vietnamese. This work introduces ViCLIP-OT, a foundation vision-language model specifically designed for Vietnamese image-text retrieval. The proposed framework integrates CLIP-style contrastive learning with a Similarity-Graph Regularized Optimal Transport (SIGROT) loss to enhance global cross-modal consistency and mitigate modality gap issues. Extensive experiments on three Vietnamese benchmarks (UITOpenViIC, KTVIC, and Crossmodal-3600) demonstrate that ViCLIP-OT consistently outperforms CLIP and SigLIP baselines in both in-domain and zero-shot settings. On UIT-OpenViIC, the model achieves an average Recall@K of 67.34%, improving upon CLIP by 5.75 percentage points. In zero-shot evaluation on Crossmodal-3600, ViCLIPOT surpasses CLIP by 11.72 percentage points. Embedding-space analysis further confirms improved alignment and reduced modality gap. The results indicate that integrating SIGROT provides an effective and scalable strategy for cross-modal retrieval in low-resource languages, offering practical implications for intelligent multimedia retrieval systems in Vietnamese and other underrepresented linguistic contexts.
- Abstract(参考訳): 画像テキスト検索は、インテリジェントなマルチメディアシステムにおいて基本的なコンポーネントとなっているが、既存の視覚言語モデルは、ハイソース言語に最適化されており、ベトナムなどの低リソース設定に最適化されていない。
ベトナム語画像テキスト検索に特化して設計された基盤視覚言語モデルであるViCLIP-OTを導入する。
提案フレームワークは,CLIPスタイルのコントラスト学習と類似グラフ正規化最適輸送(SIGROT)の損失を統合し,グローバルな相互整合性を高め,モダリティギャップを緩和する。
ベトナムの3つのベンチマーク(UITOpenViIC、KTVIC、Crossmodal-3600)の大規模な実験は、ViCLIP-OTがドメイン内およびゼロショット設定の両方でCLIPとSigLIPベースラインを一貫して上回っていることを示している。
UIT-OpenViICでは、平均Recall@Kが67.34%、CLIPが5.75ポイント向上している。
Crossmodal-3600のゼロショット評価では、ViCLIPOTはCLIPを11.72ポイント上回っている。
埋め込み空間解析は、アライメントの改善とモダリティギャップの低減をさらに確認する。
その結果、SIGROTの統合は、低リソース言語におけるクロスモーダル検索の効果的かつスケーラブルな戦略を提供し、ベトナムや他の未表現言語文脈におけるインテリジェントマルチメディア検索システムに実践的な影響をもたらすことが示唆された。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - Generalized Contrastive Learning for Universal Multimodal Retrieval [53.70202081784898]
クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
論文 参考訳(メタデータ) (2025-09-30T01:25:04Z) - Meta CLIP 2: A Worldwide Scaling Recipe [112.4690561863437]
私たちは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMeta CLIP 2を紹介する。
ゼロショットイメージネットの分類では、Meta CLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
論文 参考訳(メタデータ) (2025-07-29T17:59:58Z) - Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models [29.571937393873444]
クロスモーダル・コントラッシブ・ラーニング (CLIP) 法は, 準最適視覚表現能力に悩まされる。
トレーニング可能なパラメータの約8%しか利用できない効率的な視覚言語アライメント手法であるALTA(Align Through Adapting)を提案する。
ALTAは、マスク付きレコードモデリングから事前学習された視覚モデルを適用することにより、検索やゼロショット分類などの視覚言語マッチングタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-06-10T17:02:27Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。