論文の概要: Multimodal Arabic Captioning with Interpretable Visual Concept Integration
- arxiv url: http://arxiv.org/abs/2510.03295v1
- Date: Mon, 29 Sep 2025 18:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.727224
- Title: Multimodal Arabic Captioning with Interpretable Visual Concept Integration
- Title(参考訳): 解釈可能な視覚概念の統合によるマルチモーダルアラビアキャプション
- Authors: Passant Elchafei, Amany Fashwan,
- Abstract要約: VLCAPは、CLIPベースのビジュアルラベル検索とマルチモーダルテキスト生成を統合したアラビア画像キャプションフレームワークである。
ハイブリッド語彙は、トレーニングキャプションから構築され、Visual Genomeデータセットから翻訳された約21Kの一般ドメインラベルで強化されている。
第2段階では、キャプション生成のためにQwen-VLとGemini Pro Visionをテストし、6つのエンコーダデコーダ構成を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present VLCAP, an Arabic image captioning framework that integrates CLIP-based visual label retrieval with multimodal text generation. Rather than relying solely on end-to-end captioning, VLCAP grounds generation in interpretable Arabic visual concepts extracted with three multilingual encoders, mCLIP, AraCLIP, and Jina V4, each evaluated separately for label retrieval. A hybrid vocabulary is built from training captions and enriched with about 21K general domain labels translated from the Visual Genome dataset, covering objects, attributes, and scenes. The top-k retrieved labels are transformed into fluent Arabic prompts and passed along with the original image to vision-language models. In the second stage, we tested Qwen-VL and Gemini Pro Vision for caption generation, resulting in six encoder-decoder configurations. The results show that mCLIP + Gemini Pro Vision achieved the best BLEU-1 (5.34%) and cosine similarity (60.01%), while AraCLIP + Qwen-VL obtained the highest LLM-judge score (36.33%). This interpretable pipeline enables culturally coherent and contextually accurate Arabic captions.
- Abstract(参考訳): VLCAPは、CLIPベースのビジュアルラベル検索とマルチモーダルテキスト生成を統合したアラビア画像キャプションフレームワークである。
VLCAPは、エンドツーエンドのキャプションのみに頼るのではなく、3つの多言語エンコーダ、mCLIP、AraCLIP、Jina V4で抽出された解釈可能なアラビア視覚概念を、ラベル検索のためにそれぞれ別々に評価する。
ハイブリッド語彙は、トレーニングキャプションから構築され、Visual Genomeデータセットから翻訳された約21Kの一般的なドメインラベルで強化され、オブジェクト、属性、シーンをカバーする。
トップkから取得したラベルは、アラビア語のプロンプトに流用され、元の画像とともに視覚言語モデルに渡される。
第2段階では、キャプション生成のためにQwen-VLとGemini Pro Visionをテストし、6つのエンコーダデコーダ構成を得た。
その結果、mCLIP + Gemini Pro VisionはBLEU-1(5.34%)とコサイン類似性(60.01%)を達成し、AraCLIP + Qwen-VL は最高 LLM-judge スコア(36.33%)を得た。
この解釈可能なパイプラインは、文化的に一貫性があり、文脈的に正確なアラビア語のキャプションを可能にする。
関連論文リスト
- BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions [118.35194230865451]
BLIP3-KALEは2億1800万の画像テキストペアからなるデータセットである。
KALEは、合成高密度画像キャプションをWebスケールのalt-textで拡張し、事実上接地された画像キャプションを生成する。
我々は、KALE上で視覚言語モデルを訓練し、視覚言語タスクの改善を示す。
論文 参考訳(メタデータ) (2024-11-12T00:52:52Z) - VL-Reader: Vision and Language Reconstructor is an Effective Scene Text Recognizer [22.06023928642522]
本稿では,VL-Readerという,革新的なシーンテキスト認識手法を提案する。
VL-Readerの新規性は、プロセス全体を通して視覚と言語の間の広範な相互作用にある。
トレーニング前の段階では、VL-Readerはマスクされたビジュアルトークンとテキストトークンの両方を再構築するが、微調整の段階では、ネットワークはマスクされた領域を使わずに画像からすべての文字を再構成する。
論文 参考訳(メタデータ) (2024-09-18T02:46:28Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation [34.45033554641476]
視覚的コンテンツの自動キャプション手法は、詳細の欠如、幻覚内容の欠如、後続の指示不足などの課題に直面している。
フレキシブルなトレーニングフリーパイプラインであるVisualFactChecker(VFC)を提案し、2次元画像と3次元オブジェクトの両方に対して高忠実かつ詳細なキャプションを生成する。
VFCは、1)画像からテキストへのキャプションモデルが複数の初期キャプションを提案する提案、2)大規模言語モデル(LLM)がオブジェクト検出やVQAモデルなどのツールを使用して提案されたキャプションをファクトチェックする検証の3段階で構成されている。
論文 参考訳(メタデータ) (2024-04-30T17:55:27Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual
Captioning [108.12011636732674]
MultiCapCLIPは、下流データセットのラベル付きビジョンキャプションペアなしで、さまざまなシナリオや言語に対する視覚的なキャプションを生成することができる。
本手法はBLEU@4とCIDErの基準で4.8%と21.5%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2023-08-25T07:32:34Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。