論文の概要: ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport
- arxiv url: http://arxiv.org/abs/2602.22678v1
- Date: Thu, 26 Feb 2026 06:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.562812
- Title: ViCLIP-OT: The First Foundation Vision-Language Model for Vietnamese Image-Text Retrieval with Optimal Transport
- Title(参考訳): ViCLIP-OT:ベトナム語画像検索のための第1基本視覚言語モデル
- Authors: Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham,
- Abstract要約: ベトナム語画像テキスト検索に特化して設計された基盤視覚言語モデルであるViCLIP-OTを導入する。
提案フレームワークは,CLIPスタイルのコントラスト学習と類似グラフ正規化最適輸送(SIGROT)損失を統合し,グローバルな相互整合性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text retrieval has become a fundamental component in intelligent multimedia systems; however, most existing vision-language models are optimized for highresource languages and remain suboptimal for low-resource settings such as Vietnamese. This work introduces ViCLIP-OT, a foundation vision-language model specifically designed for Vietnamese image-text retrieval. The proposed framework integrates CLIP-style contrastive learning with a Similarity-Graph Regularized Optimal Transport (SIGROT) loss to enhance global cross-modal consistency and mitigate modality gap issues. Extensive experiments on three Vietnamese benchmarks (UITOpenViIC, KTVIC, and Crossmodal-3600) demonstrate that ViCLIP-OT consistently outperforms CLIP and SigLIP baselines in both in-domain and zero-shot settings. On UIT-OpenViIC, the model achieves an average Recall@K of 67.34%, improving upon CLIP by 5.75 percentage points. In zero-shot evaluation on Crossmodal-3600, ViCLIPOT surpasses CLIP by 11.72 percentage points. Embedding-space analysis further confirms improved alignment and reduced modality gap. The results indicate that integrating SIGROT provides an effective and scalable strategy for cross-modal retrieval in low-resource languages, offering practical implications for intelligent multimedia retrieval systems in Vietnamese and other underrepresented linguistic contexts.
- Abstract(参考訳): 画像テキスト検索は、インテリジェントなマルチメディアシステムにおいて基本的なコンポーネントとなっているが、既存の視覚言語モデルは、ハイソース言語に最適化されており、ベトナムなどの低リソース設定に最適化されていない。
ベトナム語画像テキスト検索に特化して設計された基盤視覚言語モデルであるViCLIP-OTを導入する。
提案フレームワークは,CLIPスタイルのコントラスト学習と類似グラフ正規化最適輸送(SIGROT)の損失を統合し,グローバルな相互整合性を高め,モダリティギャップを緩和する。
ベトナムの3つのベンチマーク(UITOpenViIC、KTVIC、Crossmodal-3600)の大規模な実験は、ViCLIP-OTがドメイン内およびゼロショット設定の両方でCLIPとSigLIPベースラインを一貫して上回っていることを示している。
UIT-OpenViICでは、平均Recall@Kが67.34%、CLIPが5.75ポイント向上している。
Crossmodal-3600のゼロショット評価では、ViCLIPOTはCLIPを11.72ポイント上回っている。
埋め込み空間解析は、アライメントの改善とモダリティギャップの低減をさらに確認する。
その結果、SIGROTの統合は、低リソース言語におけるクロスモーダル検索の効果的かつスケーラブルな戦略を提供し、ベトナムや他の未表現言語文脈におけるインテリジェントマルチメディア検索システムに実践的な影響をもたらすことが示唆された。
関連論文リスト
- Meta CLIP 2: A Worldwide Scaling Recipe [112.4690561863437]
私たちは,世界規模のWebスケールイメージテキストペア上でCLIPをゼロからトレーニングする最初のレシピであるMeta CLIP 2を紹介する。
ゼロショットイメージネットの分類では、Meta CLIP 2 ViT-H/14は英語のみの分類を0.8%、mSigLIPを0.7%上回る。
論文 参考訳(メタデータ) (2025-07-29T17:59:58Z) - SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection [4.930667479611019]
本稿では,マルチモーダルモデルにおける空間的判断 -コーディネート検出による統一を目指して-
マルチモーダル空間における空間推論を通した視覚言語モデルとのセグメンテーション手法の統合手法を提案する。
ベンチマークデータセット間で優れたパフォーマンスを示し、COCO 2017では0.5958、Pascal VOCでは0.6758、IoUスコアを達成しました。
論文 参考訳(メタデータ) (2024-12-03T16:53:58Z) - LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task [0.0]
本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のための視覚言語モデルの開発について検討する。
計算効率と性能のバランスをとるために,CLIPモデルアーキテクチャを統合した。
私たちの研究では、EfficientNet0やTiny Swin Transformerといったモデルが、トレーニングしたデータセット上で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-08-25T18:10:16Z) - Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。