論文の概要: ControlCap: Controllable Region-level Captioning
- arxiv url: http://arxiv.org/abs/2401.17910v3
- Date: Sat, 9 Mar 2024 10:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:33:39.362622
- Title: ControlCap: Controllable Region-level Captioning
- Title(参考訳): ControlCap: コントロール可能なリージョンレベルのキャプション
- Authors: Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan,
Qixiang Ye
- Abstract要約: 地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。
事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。
制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
- 参考スコア(独自算出の注目度): 57.57406480228619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Region-level captioning is challenged by the caption degeneration issue,
which refers to that pre-trained multimodal models tend to predict the most
frequent captions but miss the less frequent ones. In this study, we propose a
controllable region-level captioning (ControlCap) approach, which introduces
control words to a multimodal model to address the caption degeneration issue.
In specific, ControlCap leverages a discriminative module to generate control
words within the caption space to partition it to multiple sub-spaces. The
multimodal model is constrained to generate captions within a few sub-spaces
containing the control words, which increases the opportunity of hitting less
frequent captions, alleviating the caption degeneration issue. Furthermore,
interactive control words can be given by either a human or an expert model,
which enables captioning beyond the training caption space, enhancing the
model's generalization ability. Extensive experiments on Visual Genome and
RefCOCOg datasets show that ControlCap respectively improves the CIDEr score by
21.6 and 2.2, outperforming the state-of-the-arts by significant margins. Code
is available at https://github.com/callsys/ControlCap.
- Abstract(参考訳): 地域レベルのキャプションは、プレトレーニングされたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻度の低いキャプションを見逃す傾向にある。
本研究では,マルチモーダルモデルに制御語を導入してキャプション変性問題に対処する制御可能な領域レベルキャプション(controlcap)手法を提案する。
ControlCapは、識別モジュールを利用してキャプション空間内でコントロールワードを生成し、複数のサブスペースに分割する。
マルチモーダルモデルは、制御語を含むいくつかのサブスペース内でキャプションを生成するよう制約され、キャプション劣化問題を緩和し、頻繁なキャプションを打つ機会を増大させる。
さらに、対話型制御語は人間または専門家モデルによって与えられ、訓練キャプション空間を超えたキャプションが可能となり、モデルの一般化能力が向上する。
Visual GenomeとRefCOCOgデータセットの大規模な実験により、ControlCapはそれぞれCIDErのスコアを21.6と2.2に改善し、最先端の成果をかなりの差で上回った。
コードはhttps://github.com/callsys/ControlCapで入手できる。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。
本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:32:48Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。