論文の概要: Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights
- arxiv url: http://arxiv.org/abs/2407.11449v1
- Date: Tue, 16 Jul 2024 07:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 16:12:18.419944
- Title: Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights
- Title(参考訳): 制御可能なコンテクスト化画像キャプション: ユーザ定義ハイライトによるビジュアルナラティブの指示
- Authors: Shunqi Mao, Chaoyi Zhang, Hang Su, Hwanjun Song, Igor Shalyminov, Weidong Cai,
- Abstract要約: CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。
本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 28.963204452040813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextualized Image Captioning (CIC) evolves traditional image captioning into a more complex domain, necessitating the ability for multimodal reasoning. It aims to generate image captions given specific contextual information. This paper further introduces a novel domain of Controllable Contextualized Image Captioning (Ctrl-CIC). Unlike CIC, which solely relies on broad context, Ctrl-CIC accentuates a user-defined highlight, compelling the model to tailor captions that resonate with the highlighted aspects of the context. We present two approaches, Prompting-based Controller (P-Ctrl) and Recalibration-based Controller (R-Ctrl), to generate focused captions. P-Ctrl conditions the model generation on highlight by prepending captions with highlight-driven prefixes, whereas R-Ctrl tunes the model to selectively recalibrate the encoder embeddings for highlighted tokens. Additionally, we design a GPT-4V empowered evaluator to assess the quality of the controlled captions alongside standard assessment methods. Extensive experimental results demonstrate the efficient and effective controllability of our method, charting a new direction in achieving user-adaptive image captioning. Code is available at https://github.com/ShunqiM/Ctrl-CIC .
- Abstract(参考訳): コンテキスト化されたイメージキャプション(CIC)は、従来のイメージキャプションをより複雑なドメインに進化させ、マルチモーダル推論の能力を必要とする。
特定の文脈情報を付加した画像キャプションを生成することを目的としている。
本稿では,Ctrl-CIC(Ctrl-CIC)の新たな領域についても紹介する。
広義のコンテキストのみに依存するCICとは異なり、Ctrl-CICはユーザ定義のハイライトをアクセントし、コンテキストの強調された側面に共鳴するキャプションをカスタマイズするようにモデルを説得する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
P-Ctrlはハイライト駆動プレフィックス付きキャプションをプリプレプションすることで、モデル生成をハイライトに設定する一方、R-Ctrlは、ハイライトされたトークンに対するエンコーダ埋め込みを選択的に再調整するためにモデルをチューニングする。
さらに,標準評価手法とともに,制御されたキャプションの品質を評価するためのGPT-4Vパワー評価器を設計する。
広範にわたる実験結果から,ユーザ適応画像キャプションの実現に向けた新たな方向性を図示し,提案手法の効率的かつ効果的な制御性を示した。
コードはhttps://github.com/ShunqiM/Ctrl-CICで入手できる。
関連論文リスト
- Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - ControlCap: Controllable Region-level Captioning [57.57406480228619]
地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
論文 参考訳(メタデータ) (2024-01-31T15:15:41Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - Learning Distinct and Representative Styles for Image Captioning [24.13549951795951]
画像キャプションのための離散モード学習(DML)パラダイムを提案する。
私たちのイノベーティブなアイデアは、トレーニングキャプションコーパスのリッチモードを探求して、一連の「モード埋め込み」を学ぶことです。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
論文 参考訳(メタデータ) (2022-09-17T03:25:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。