Fugu-MT 論文翻訳(概要): Controllable Dense Captioner with Multimodal Embedding Bridging

論文の概要: Controllable Dense Captioner with Multimodal Embedding Bridging

arxiv url: http://arxiv.org/abs/2401.17910v2
Date: Thu, 1 Feb 2024 03:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 11:54:33.664824
Title: Controllable Dense Captioner with Multimodal Embedding Bridging
Title（参考訳）: マルチモーダル埋め込みブリジングを用いた制御可能なデンスキャピタ
Authors: Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye
Abstract要約: 本稿では,言語指導を導入することで,利用者の高密度キャプションに対する意図を把握できる制御可能な高密度キャプタ(ControlCap)を提案する。 ControlCapは、MEGモジュールとBEBモジュールからなるマルチモーダル埋め込みブリッジアーキテクチャとして定義される。 Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。
参考スコア（独自算出の注目度）: 57.57406480228619
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a controllable dense captioner (ControlCap), which accommodates user's intention to dense captioning by introducing linguistic guidance. ControlCap is defined as a multimodal embedding bridging architecture, which comprises multimodal embedding generation (MEG) module and bi-directional embedding bridging (BEB) module. While MEG module represents objects/regions by combining embeddings of detailed information with context-aware ones, it also endows ControlCap the adaptability to specialized controls by utilizing them as linguistic guidance. BEB module aligns the linguistic guidance with visual embeddings through borrowing/returning features from/to the visual domain and gathering such features to predict text descriptions. Experiments on Visual Genome and VG-COCO datasets show that ControlCap respectively outperforms the state-of-the-art methods by 1.5% and 3.7% (mAP). Last but not least, with the capability of converting region-category pairs to region-text pairs, ControlCap is able to act as a powerful data engine for dense captioning. Code is available at https://github.com/callsys/ControlCap.
Abstract（参考訳）: 本稿では,言語指導の導入により,利用者の字幕表現に対する意図を満足させる制御可能な字幕生成装置(controlcap)を提案する。 controlcapは、マルチモーダル組込み生成(meg)モジュールと双方向組込みブリッジング(beb)モジュールからなるマルチモーダル組込みブリッジングアーキテクチャとして定義される。 megモジュールは、詳細情報の埋め込みと文脈認識の埋め込みを組み合わせることでオブジェクト/領域を表現するが、言語指導として利用することで、特殊制御への適応性を制御できる。 BEBモジュールは、視覚領域から/または視覚領域へ機能を借用し、そのような機能を収集してテキスト記述を予測することで、言語指導と視覚埋め込みを一致させる。 Visual GenomeとVG-COCOデータセットの実験では、ControlCapはそれぞれ最先端のメソッドを1.5%と3.7%(mAP)で上回っている。最後に重要なのは、リージョンカテゴリペアをリージョンテキストペアに変換する機能によって、ControlCapは、高密度キャプションのための強力なデータエンジンとして機能することができることだ。コードはhttps://github.com/callsys/ControlCapで入手できる。

関連論文リスト

SGCap: Decoding Semantic Group for Zero-shot Video Captioning [14.484825416367338]
ゼロショットビデオキャプションは、ビデオテキストペアのモデルをトレーニングすることなく、ビデオを記述するための文を生成することを目的としている。ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
論文参考訳（メタデータ） (2025-08-02T09:05:45Z)
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning [79.67661446549039]
我々は、モデル、データセット、評価にまたがる統合ソリューションであるAnyCapプロジェクトを紹介します。 ACMはオリジナルのキャプションをベースモデルから再利用し、ユーザ命令とモダリティ機能を取り入れて改良されたキャプションを生成する。 ACMはAnyCapEvalの様々なベースモデルのキャプション品質を著しく改善する。
論文参考訳（メタデータ） (2025-07-17T07:04:05Z)
CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning [29.201855758383036]
多様な言語パターンを扱える単一のキャプションモデルを得るための新しいアプローチであるCaptionSmithsを提案する。提案手法は, 単語の字幕, 長さ, 記述性, 特異性の3つの特性を, 人間のアノテーションを使わずに連続的な値として定量化する。実験結果から, 出力キャプションの特性をスムーズに変化させることができ, ベースラインよりも高い語彙アライメントを示すことがわかった。
論文参考訳（メタデータ） (2025-07-02T07:02:45Z)
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。 450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:55Z)
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文参考訳（メタデータ） (2025-03-31T17:59:01Z)
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-03T17:54:52Z)
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-16T07:32:48Z)
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文参考訳（メタデータ） (2024-06-03T11:15:16Z)
SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文参考訳（メタデータ） (2023-11-28T16:33:08Z)
Caption Anything: Interactive Image Description with Diverse Multimodal Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。 Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文参考訳（メタデータ） (2023-05-04T09:48:22Z)
Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文参考訳（メタデータ） (2022-12-04T11:59:31Z)
Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文参考訳（メタデータ） (2022-04-28T07:47:49Z)
Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。 SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。 2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文参考訳（メタデータ） (2021-12-02T09:24:45Z)
Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文参考訳（メタデータ） (2020-07-19T03:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。