論文の概要: TPCap: Unlocking Zero-Shot Image Captioning with Trigger-Augmented and Multi-Modal Purification Modules
- arxiv url: http://arxiv.org/abs/2502.11024v1
- Date: Sun, 16 Feb 2025 07:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:55.379225
- Title: TPCap: Unlocking Zero-Shot Image Captioning with Trigger-Augmented and Multi-Modal Purification Modules
- Title(参考訳): TPCap: Trigger-Augmented and Multi-Modal Purification Modules によるゼロショット画像キャプションのアンロック
- Authors: Ruoyu Zhang, Lulu Wang, Yi He, Tongling Pan, Zhengtao Yu, Yingna Li,
- Abstract要約: TPCapは、ゼロショット画像キャプションのためのトリガー拡張およびマルチモーダル浄化フレームワークである。
0.82Mのトレーニング可能なパラメータとトレーニングしか持たず、TPCapは最先端のモデルに匹敵する競争性能を達成している。
- 参考スコア(独自算出の注目度): 14.085196457421121
- License:
- Abstract: Recent advancements in large language models (LLMs) have significantly enhanced the fluency and logical coherence of image captioning. Retrieval-Augmented Generation (RAG) is widely adopted to incorporate external knowledge into LLMs; however, existing RAG-based methods rely on separate retrieval banks, introducing computational overhead and limiting the utilization of LLMs' inherent zero-shot capabilities. To address these limitations, we propose TPCap, a novel trigger-augmented and multi-modal purification framework for zero-shot image captioning without external retrieval libraries. TPCap consists of two key components: trigger-augmented (TA) generation and multi-modal purification (MP). The TA module employs a trigger projector with frozen and learnable projections to activate LLMs' contextual reasoning, enhance visual-textual alignment, and mitigate data bias. The MP module further refines the generated entity-related information by filtering noise and enhancing feature quality, ensuring more precise and factually consistent captions. We evaluate TPCap on COCO, NoCaps, Flickr30k, and WHOOPS datasets. With only 0.82M trainable parameters and training on a single NVIDIA RTX 4090 GPU, TPCap achieves competitive performance comparable to state-of-the-art models.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は,画像キャプションの流布度と論理的コヒーレンスを大幅に向上させた。
Retrieval-Augmented Generation (RAG) は、外部知識をLLMに組み込むために広く採用されているが、既存のRAGベースの手法は、計算オーバーヘッドを導入し、LLM固有のゼロショット機能の利用を制限する、別々の検索バンクに依存している。
これらの制約に対処するため,外部検索ライブラリを使わずにゼロショット画像キャプションのための新しいトリガ拡張・マルチモーダル浄化フレームワークTPCapを提案する。
TPCapは、トリガー増強(TA)生成とマルチモーダル精製(MP)という2つの重要なコンポーネントから構成される。
TAモジュールは、凍結して学習可能なプロジェクションを備えたトリガープロジェクターを使用して、LLMのコンテキスト推論を活性化し、視覚的テキストアライメントを強化し、データのバイアスを軽減する。
MPモジュールは、ノイズをフィルタリングし、特徴品質を向上することにより、生成されたエンティティ関連情報をさらに洗練し、より正確で現実的に一貫性のあるキャプションを保証する。
我々は,COCO,NoCaps,Flickr30k,WHOOPSデータセット上でTPCapを評価する。
たったの0.82Mのトレーニング可能なパラメータと1つのNVIDIA RTX 4090 GPUでのトレーニングにより、TPCapは最先端のモデルに匹敵する競争性能を達成している。
関連論文リスト
- Multi-LLM Collaborative Caption Generation in Scientific Documents [30.856381292477177]
MLBCAP(Multi-LLM Collaborative Figure Caption Generation)というフレームワークを導入する。
私たちのアプローチは3つの重要なモジュールに展開します。
人間の評価から,我々のアプローチによる情報キャプションは人書きキャプションよりも格段に高いことが示された。
論文 参考訳(メタデータ) (2025-01-05T14:09:12Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Compositional Image Retrieval via Instruction-Aware Contrastive Learning [40.54022628032561]
Composed Image Retrieval (CIR)は、テキストとペアリングした画像の合成クエリに基づいてターゲットイメージを検索する。
実際には、下流タスクにおけるアノテートデータの不足のため、ゼロショットCIR(ZS-CIR)が望ましい。
命令調整型マルチモーダルLLM(MLLM)を用いて合成表現を生成する新しい埋め込み手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T22:46:52Z) - Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis [44.008094698200026]
本稿では,様々な画像記述ベンチマークにおいて,従来の画像キャプションネットワークに代えて,マルチモーダルLLMが性能を評価できるかどうかを検討する。
これらのモデルのゼロショット機能と、細調整による異なるセマンティックドメインへの適応性の両方について検討する。
以上の結果から,マルチモーダル LLM はゼロショット性能に優れる一方で,特定の領域を微調整し,その一般化能力を保ち続けることは依然として困難であることが示唆された。
論文 参考訳(メタデータ) (2024-12-04T19:01:06Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs [55.8550939439138]
VLM(Vision-Language Models)は、大きな言語モデルと視覚システムを統合することで、大きな可能性を秘めている。
これらのモデルは、主にキャプションを含むマルチモーダルデータに対するトレーニングのため、オブジェクトローカライゼーションの基本的なコンピュータビジョンタスクにおいて課題に直面している。
本稿では,空間的プロンプトであるPIN(Input-Agnostic Positional Insert)を導入する。
我々のPINモジュールは、新しい出力ヘッドを必要とせずに、合成データに対する単純な次トーケン予測タスクで訓練されている。
論文 参考訳(メタデータ) (2024-02-13T18:39:18Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling [14.563358764946498]
Masked Language and Image Modeling (MLIM) は2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。
モーダリティ間の相互作用を促進するため,モーダリティ・アウェア・マスキング(MAM)を提案する。
論文 参考訳(メタデータ) (2021-09-24T20:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。