論文の概要: Transferable Decoding with Visual Entities for Zero-Shot Image
Captioning
- arxiv url: http://arxiv.org/abs/2307.16525v1
- Date: Mon, 31 Jul 2023 09:47:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:11:32.393733
- Title: Transferable Decoding with Visual Entities for Zero-Shot Image
Captioning
- Title(参考訳): ゼロショット画像キャプションのための視覚エンティティを用いた転送可能復号
- Authors: Junjie Fei, Teng Wang, Jinrui Zhang, Zhenyu He, Chengjie Wang, Feng
Zheng
- Abstract要約: ViECapは、見えるシナリオと見えないシナリオの両方で記述を生成する、転送可能なデコードモデルである。
ViECap にはエンティティ対応のハードプロンプトが組み込まれており、LLM の注意をイメージ内の視覚的実体へと導く。
我々の実験は、VECapが新しい最先端のクロスドメインキャプション(転送可能)を設定できることを実証した。
- 参考スコア(独自算出の注目度): 45.855652838621936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-text generation aims to describe images using natural language.
Recently, zero-shot image captioning based on pre-trained vision-language
models (VLMs) and large language models (LLMs) has made significant progress.
However, we have observed and empirically demonstrated that these methods are
susceptible to modality bias induced by LLMs and tend to generate descriptions
containing objects (entities) that do not actually exist in the image but
frequently appear during training (i.e., object hallucination). In this paper,
we propose ViECap, a transferable decoding model that leverages entity-aware
decoding to generate descriptions in both seen and unseen scenarios. ViECap
incorporates entity-aware hard prompts to guide LLMs' attention toward the
visual entities present in the image, enabling coherent caption generation
across diverse scenes. With entity-aware hard prompts, ViECap is capable of
maintaining performance when transferring from in-domain to out-of-domain
scenarios. Extensive experiments demonstrate that ViECap sets a new
state-of-the-art cross-domain (transferable) captioning and performs
competitively in-domain captioning compared to previous VLMs-based zero-shot
methods. Our code is available at: https://github.com/FeiElysia/ViECap
- Abstract(参考訳): 画像からテキストへの生成は自然言語を用いて画像を記述することを目的としている。
近年,事前学習された視覚言語モデル(VLM)と大規模言語モデル(LLM)に基づくゼロショット画像キャプションが大きな進歩を遂げている。
しかし, これらの手法は, LLMによって引き起こされるモダリティバイアスの影響を受けやすいこと, 画像中に存在しないが, 訓練中に頻繁に現れる物体(物体)を含む記述を生成する傾向があることを観察し, 実証的に実証した。
本稿では,エンティティ・アウェア・デコーディングを利用した転送可能なデコーディングモデルであるViECapを提案する。
ViECapは、LCMの注意をイメージに存在する視覚的実体に導くために、エンティティ対応のハードプロンプトを組み込んでいる。
エンティティ対応のハードプロンプトにより、ViECapはドメイン内からドメイン外のシナリオへ転送する際のパフォーマンスを維持することができる。
大規模な実験により、VECapは最先端のクロスドメインキャプション(転送可能)を新たに設定し、従来のVLMベースのゼロショット法と比較して、ドメイン内でのキャプションを競合的に行うことを示した。
私たちのコードは、https://github.com/FeiElysia/ViECapで利用可能です。
関連論文リスト
- MeaCap: Memory-Augmented Zero-shot Image Captioning [11.817667500151687]
メモリ拡張ゼロショット画像キャプチャフレームワーク(MeaCap)を提案する。
MeaCapは、幻覚の少ないコンセプト中心のキャプションを生成できる。
論文 参考訳(メタデータ) (2024-03-06T14:00:31Z) - Towards Automatic Satellite Images Captions Generation Using Large
Language Models [0.5439020425819]
リモートセンシング画像のキャプションを自動的に収集するARSIC(Automatic Remote Sensing Image Captioning)を提案する。
また、事前学習された生成画像2テキストモデル(GIT)を用いて、リモートセンシング画像の高品質なキャプションを生成するベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2023-10-17T16:45:47Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。