論文の概要: CONCAP: Seeing Beyond English with Concepts Retrieval-Augmented Captioning
- arxiv url: http://arxiv.org/abs/2507.20411v1
- Date: Sun, 27 Jul 2025 21:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.577459
- Title: CONCAP: Seeing Beyond English with Concepts Retrieval-Augmented Captioning
- Title(参考訳): CONCAP: Retrieval-Augmented Captioningで英語以外のものを見る
- Authors: George Ibrahim, Rita Ramos, Yova Kementchedjhieva,
- Abstract要約: 検索したキャプションと画像固有の概念を統合する多言語画像キャプションモデルであるConCAPを紹介する。
XM3600データセットの実験は、CONCAPが低級および中級の言語で強力なパフォーマンスを実現することを示唆している。
- 参考スコア(独自算出の注目度): 7.439550425786999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual vision-language models have made significant strides in image captioning, yet they still lag behind their English counterparts due to limited multilingual training data and costly large-scale model parameterization. Retrieval-augmented generation (RAG) offers a promising alternative by conditioning caption generation on retrieved examples in the target language, reducing the need for extensive multilingual training. However, multilingual RAG captioning models often depend on retrieved captions translated from English, which can introduce mismatches and linguistic biases relative to the source language. We introduce CONCAP, a multilingual image captioning model that integrates retrieved captions with image-specific concepts, enhancing the contextualization of the input image and grounding the captioning process across different languages. Experiments on the XM3600 dataset indicate that CONCAP enables strong performance on low- and mid-resource languages, with highly reduced data requirements. Our findings highlight the effectiveness of concept-aware retrieval augmentation in bridging multilingual performance gaps.
- Abstract(参考訳): 多言語視覚言語モデルは画像キャプションにおいて大きな進歩を遂げてきたが、多言語訓練データや大規模モデルのパラメータ化によって、英語のモデルよりも遅れている。
Retrieval-augmented Generation (RAG) は、ターゲット言語の検索例にキャプション生成を条件付けすることで、将来有望な代替手段を提供する。
しかし、多言語RAGキャプションモデルは、しばしば英語から翻訳された検索されたキャプションに依存し、ソース言語に対するミスマッチや言語バイアスを導入することができる。
検索したキャプションをイメージ固有の概念と統合し、入力画像の文脈化を強化し、異なる言語でキャプション処理を行う多言語画像キャプションモデルであるConCAPを紹介する。
XM3600データセットの実験は、CONCAPが低レベルの言語と中レベルの言語で強力なパフォーマンスを実現し、データ要求が大幅に削減されたことを示している。
本研究は,多言語間性能差の橋渡しにおける概念認識検索強化の有効性を明らかにするものである。
関連論文リスト
- Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization [9.349707150988893]
本稿では,視覚的インストラクションチューニング中にテキストのみの多言語データを注入する連続多言語統合戦略を提案する。
本手法は,視覚能力の低下を伴わない言語間の言語忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-28T16:26:52Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - LMCap: Few-shot Multilingual Image Captioning by Retrieval Augmented
Language Model Prompting [15.266569206458648]
本稿では,検索したキャプションを付加した言語モデルによって機能する多言語キャプションモデルLMCapを提案する。
地理的に多様な画像のXM3600データセットを用いた実験により、我々のモデルは、完全に教師付き多言語キャプションモデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-31T13:03:17Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Cross-modal Language Generation using Pivot Stabilization for Web-scale
Language Coverage [23.71195344840051]
画像キャプションなどのモーダル言語生成タスクは、非英語アノテーションの欠如と組み合わさったデータハングリーモデルの傾向によって、直接的に損なわれる。
既存の英語アノテーションと機械翻訳版の両方をトレーニング時に直接活用する Pivot-Language Generation Stabilization (PLuGS) というアプローチについて述べる。
PLuGSモデルは,5つの異なる言語を対象とした評価において,他の候補解よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T06:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。