論文の概要: IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning
- arxiv url: http://arxiv.org/abs/2409.18046v1
- Date: Thu, 26 Sep 2024 16:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 22:26:48.123814
- Title: IFCap: Image-like Retrieval and Frequency-based Entity Filtering for
Zero-shot Captioning
- Title(参考訳): IFCap:イメージライクな検索と周波数ベースのエンティティフィルタリング
ゼロショットキャプション
- Authors: Soeun Lee, Si-Woo Kim, Taewhan Kim, Dong-Jin Kim
- Abstract要約: テキストの特徴を視覚的に関連性のある特徴と整合させてモダリティギャップを緩和する,イメージライクな検索手法を提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
- 参考スコア(独自算出の注目度): 3.8265756182141346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in image captioning have explored text-only training
methods to overcome the limitations of paired image-text data. However,
existing text-only training methods often overlook the modality gap between
using text data during training and employing images during inference. To
address this issue, we propose a novel approach called Image-like Retrieval,
which aligns text features with visually relevant features to mitigate the
modality gap. Our method further enhances the accuracy of generated captions by
designing a Fusion Module that integrates retrieved captions with input
features. Additionally, we introduce a Frequency-based Entity Filtering
technique that significantly improves caption quality. We integrate these
methods into a unified framework, which we refer to as IFCap
($\textbf{I}$mage-like Retrieval and $\textbf{F}$requency-based Entity
Filtering for Zero-shot $\textbf{Cap}$tioning). Through extensive
experimentation, our straightforward yet powerful approach has demonstrated its
efficacy, outperforming the state-of-the-art methods by a significant margin in
both image captioning and video captioning compared to zero-shot captioning
based on text-only training.
- Abstract(参考訳): 画像キャプションの最近の進歩は、ペア画像テキストデータの限界を克服するために、テキストのみの訓練方法を模索している。
しかし、既存のテキストのみのトレーニング手法は、トレーニング中のテキストデータの使用と推論時の画像の使用とのモダリティギャップを無視することが多い。
この問題に対処するために,テキスト特徴と視覚的関連特徴を整合させてモダリティギャップを緩和する,Image-like Retrievalという新しいアプローチを提案する。
本手法は,検索したキャプションを入力特徴と統合したFusion Moduleを設計することにより,生成されたキャプションの精度をさらに向上する。
さらに、周波数ベースのエンティティフィルタリング技術を導入し、キャプションの品質を大幅に改善する。
これらのメソッドを統一されたフレームワークに統合し、IFCap ($\textbf{I}$mage-like Retrieval と $\textbf{F}$requency-based Entity Filtering for Zero-shot $\textbf{Cap}$tioning と呼ぶ。
画像キャプションと動画キャプションの両面で,テキストのみのトレーニングによるゼロショットキャプションに比べて,最先端の手法よりも優れていた。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Mining Fine-Grained Image-Text Alignment for Zero-Shot Captioning via
Text-Only Training [14.340740609933437]
そこで本研究では,モダリティギャップを低減するために,テキストのみのトレーニングを施したゼロショット画像キャプションフレームワークを提案する。
特に,地域情報を活用するためのサブリージョン機能アグリゲーションを導入する。
フレームワークを拡張してゼロショットのVQAパイプラインを構築し、その汎用性を実証します。
論文 参考訳(メタデータ) (2024-01-04T16:43:46Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Open-Vocabulary Temporal Action Detection with Off-the-Shelf Image-Text
Features [9.140696309404133]
本稿では,事前学習した画像テキストの共埋め込みを用いたオープン語彙時間的行動検出のための簡易かつ効果的な手法を提案する。
画像テキストの共埋め込みにより、完全に教師付きモデルと競合するオープンボキャブラリ性能が得られることを示す。
論文 参考訳(メタデータ) (2022-12-20T19:12:58Z) - Partially-supervised novel object captioning leveraging context from
paired data [11.215352918313577]
既存の画像キャプチャー・ペアからコンテキストを活用することで、新しいオブジェクトに対する合成ペアキャプションデータを作成する。
さらに、これらの部分的なペアイメージを新しいオブジェクトと再使用し、擬似ラベルキャプションを作成します。
提案手法は,MS COCOの領域外テスト分割における最先端結果を実現する。
論文 参考訳(メタデータ) (2021-09-10T21:31:42Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。