論文の概要: Controllable Dense Captioner with Multimodal Embedding Bridging
- arxiv url: http://arxiv.org/abs/2401.17910v2
- Date: Thu, 1 Feb 2024 03:34:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 11:54:33.664824
- Title: Controllable Dense Captioner with Multimodal Embedding Bridging
- Title(参考訳): マルチモーダル埋め込みブリジングを用いた制御可能なデンスキャピタ
- Authors: Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan,
Qixiang Ye
- Abstract要約: 本稿では,言語指導を導入することで,利用者の高密度キャプションに対する意図を把握できる制御可能な高密度キャプタ(ControlCap)を提案する。
ControlCapは、MEGモジュールとBEBモジュールからなるマルチモーダル埋め込みブリッジアーキテクチャとして定義される。
Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。
- 参考スコア(独自算出の注目度): 57.57406480228619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a controllable dense captioner (ControlCap), which
accommodates user's intention to dense captioning by introducing linguistic
guidance. ControlCap is defined as a multimodal embedding bridging
architecture, which comprises multimodal embedding generation (MEG) module and
bi-directional embedding bridging (BEB) module. While MEG module represents
objects/regions by combining embeddings of detailed information with
context-aware ones, it also endows ControlCap the adaptability to specialized
controls by utilizing them as linguistic guidance. BEB module aligns the
linguistic guidance with visual embeddings through borrowing/returning features
from/to the visual domain and gathering such features to predict text
descriptions. Experiments on Visual Genome and VG-COCO datasets show that
ControlCap respectively outperforms the state-of-the-art methods by 1.5% and
3.7% (mAP). Last but not least, with the capability of converting
region-category pairs to region-text pairs, ControlCap is able to act as a
powerful data engine for dense captioning. Code is available at
https://github.com/callsys/ControlCap.
- Abstract(参考訳): 本稿では,言語指導の導入により,利用者の字幕表現に対する意図を満足させる制御可能な字幕生成装置(controlcap)を提案する。
controlcapは、マルチモーダル組込み生成(meg)モジュールと双方向組込みブリッジング(beb)モジュールからなるマルチモーダル組込みブリッジングアーキテクチャとして定義される。
megモジュールは、詳細情報の埋め込みと文脈認識の埋め込みを組み合わせることでオブジェクト/領域を表現するが、言語指導として利用することで、特殊制御への適応性を制御できる。
BEBモジュールは、視覚領域から/または視覚領域へ機能を借用し、そのような機能を収集してテキスト記述を予測することで、言語指導と視覚埋め込みを一致させる。
Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。
最後に重要なのは、リージョンカテゴリペアをリージョンテキストペアに変換する機能によって、ControlCapは、高密度キャプションのための強力なデータエンジンとして機能することができることだ。
コードはhttps://github.com/callsys/ControlCapで入手できる。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。
本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。
本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-16T07:32:48Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。
具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。
推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文 参考訳(メタデータ) (2022-12-04T11:59:31Z) - Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。
入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:47:49Z) - Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。
SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。
2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文 参考訳(メタデータ) (2021-12-02T09:24:45Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。