論文の概要: ControlCap: Controllable Region-level Captioning
- arxiv url: http://arxiv.org/abs/2401.17910v3
- Date: Sat, 9 Mar 2024 10:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:33:39.362622
- Title: ControlCap: Controllable Region-level Captioning
- Title(参考訳): ControlCap: コントロール可能なリージョンレベルのキャプション
- Authors: Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan,
Qixiang Ye
- Abstract要約: 地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
- 参考スコア(独自算出の注目度): 57.57406480228619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Region-level captioning is challenged by the caption degeneration issue,
which refers to that pre-trained multimodal models tend to predict the most
frequent captions but miss the less frequent ones. In this study, we propose a
controllable region-level captioning (ControlCap) approach, which introduces
control words to a multimodal model to address the caption degeneration issue.
In specific, ControlCap leverages a discriminative module to generate control
words within the caption space to partition it to multiple sub-spaces. The
multimodal model is constrained to generate captions within a few sub-spaces
containing the control words, which increases the opportunity of hitting less
frequent captions, alleviating the caption degeneration issue. Furthermore,
interactive control words can be given by either a human or an expert model,
which enables captioning beyond the training caption space, enhancing the
model's generalization ability. Extensive experiments on Visual Genome and
RefCOCOg datasets show that ControlCap respectively improves the CIDEr score by
21.6 and 2.2, outperforming the state-of-the-arts by significant margins. Code
is available at https://github.com/callsys/ControlCap.
- Abstract(参考訳): 地域レベルのキャプションは、プレトレーニングされたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻度の低いキャプションを見逃す傾向にある。
本研究では,マルチモーダルモデルに制御語を導入してキャプション変性問題に対処する制御可能な領域レベルキャプション(controlcap)手法を提案する。
ControlCapは、識別モジュールを利用してキャプション空間内でコントロールワードを生成し、複数のサブスペースに分割する。
マルチモーダルモデルは、制御語を含むいくつかのサブスペース内でキャプションを生成するよう制約され、キャプション劣化問題を緩和し、頻繁なキャプションを打つ機会を増大させる。
さらに、対話型制御語は人間または専門家モデルによって与えられ、訓練キャプション空間を超えたキャプションが可能となり、モデルの一般化能力が向上する。
Visual GenomeとRefCOCOgデータセットの大規模な実験により、ControlCapはそれぞれCIDErのスコアを21.6と2.2に改善し、最先端の成果をかなりの差で上回った。
コードはhttps://github.com/callsys/ControlCapで入手できる。
関連論文リスト
- SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。
Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。
複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2023-10-16T07:08:39Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。