Fugu-MT 論文翻訳(概要): ControlCap: Controllable Region-level Captioning

論文の概要: ControlCap: Controllable Region-level Captioning

arxiv url: http://arxiv.org/abs/2401.17910v3
Date: Sat, 9 Mar 2024 10:23:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 14:33:39.362622
Title: ControlCap: Controllable Region-level Captioning
Title（参考訳）: ControlCap: コントロール可能なリージョンレベルのキャプション
Authors: Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye
Abstract要約: 地域レベルのキャプションは、キャプション・デジェネレーションの問題によって挑戦される。事前訓練されたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻繁でないキャプションを見逃す。制御可能な領域レベルのキャプション手法を提案し,マルチモーダルモデルに制御語を導入する。
参考スコア（独自算出の注目度）: 57.57406480228619
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Region-level captioning is challenged by the caption degeneration issue, which refers to that pre-trained multimodal models tend to predict the most frequent captions but miss the less frequent ones. In this study, we propose a controllable region-level captioning (ControlCap) approach, which introduces control words to a multimodal model to address the caption degeneration issue. In specific, ControlCap leverages a discriminative module to generate control words within the caption space to partition it to multiple sub-spaces. The multimodal model is constrained to generate captions within a few sub-spaces containing the control words, which increases the opportunity of hitting less frequent captions, alleviating the caption degeneration issue. Furthermore, interactive control words can be given by either a human or an expert model, which enables captioning beyond the training caption space, enhancing the model's generalization ability. Extensive experiments on Visual Genome and RefCOCOg datasets show that ControlCap respectively improves the CIDEr score by 21.6 and 2.2, outperforming the state-of-the-arts by significant margins. Code is available at https://github.com/callsys/ControlCap.
Abstract（参考訳）: 地域レベルのキャプションは、プレトレーニングされたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻度の低いキャプションを見逃す傾向にある。本研究では,マルチモーダルモデルに制御語を導入してキャプション変性問題に対処する制御可能な領域レベルキャプション(controlcap)手法を提案する。 ControlCapは、識別モジュールを利用してキャプション空間内でコントロールワードを生成し、複数のサブスペースに分割する。マルチモーダルモデルは、制御語を含むいくつかのサブスペース内でキャプションを生成するよう制約され、キャプション劣化問題を緩和し、頻繁なキャプションを打つ機会を増大させる。さらに、対話型制御語は人間または専門家モデルによって与えられ、訓練キャプション空間を超えたキャプションが可能となり、モデルの一般化能力が向上する。 Visual GenomeとRefCOCOgデータセットの大規模な実験により、ControlCapはそれぞれCIDErのスコアを21.6と2.2に改善し、最先端の成果をかなりの差で上回った。コードはhttps://github.com/callsys/ControlCapで入手できる。

関連論文リスト

SGCap: Decoding Semantic Group for Zero-shot Video Captioning [14.484825416367338]
ゼロショットビデオキャプションは、ビデオテキストペアのモデルをトレーニングすることなく、ビデオを記述するための文を生成することを目的としている。ゼロショットビデオキャプションのためのセマンティックグループキャプション(SGCap)手法を提案する。
論文参考訳（メタデータ） (2025-08-02T09:05:45Z)
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning [79.67661446549039]
我々は、モデル、データセット、評価にまたがる統合ソリューションであるAnyCapプロジェクトを紹介します。 ACMはオリジナルのキャプションをベースモデルから再利用し、ユーザ命令とモダリティ機能を取り入れて改良されたキャプションを生成する。 ACMはAnyCapEvalの様々なベースモデルのキャプション品質を著しく改善する。
論文参考訳（メタデータ） (2025-07-17T07:04:05Z)
CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning [29.201855758383036]
多様な言語パターンを扱える単一のキャプションモデルを得るための新しいアプローチであるCaptionSmithsを提案する。提案手法は, 単語の字幕, 長さ, 記述性, 特異性の3つの特性を, 人間のアノテーションを使わずに連続的な値として定量化する。実験結果から, 出力キャプションの特性をスムーズに変化させることができ, ベースラインよりも高い語彙アライメントを示すことがわかった。
論文参考訳（メタデータ） (2025-07-02T07:02:45Z)
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing [128.8346376825612]
高品質画像キャプションの主な課題は、LVLMの固有のバイアスにある。本稿では,キャプションを継続的に強化・校正し,推論予算を増大させる,スケーラブルなデバイアス付きキャプション戦略を提案する。 450KイメージにScaleCapをアノテートし、LVLMプレトレーニングに使用することで、11の広く使用されているベンチマークで一貫したパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2025-06-24T17:59:55Z)
Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation [118.5096631571738]
我々は任意の条件下で制御可能なビデオ生成のための新しいフレームワークであるAny2Captionを提示する。現代のマルチモーダルな大言語モデル(MLLM)を活用することで、Any2Captionはテキスト、画像、ビデオ、地域、動き、カメラのポーズなど、多種多様な入力を解釈する。包括的評価は,既存の映像生成モデルの様々な側面において,制御性と映像品質の大幅な向上を示す。
論文参考訳（メタデータ） (2025-03-31T17:59:01Z)
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文参考訳（メタデータ） (2024-10-03T17:54:52Z)
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights [28.963204452040813]
CIC(Contextualized Image Captioning)は、従来の画像キャプションをより複雑なドメインに進化させる。本稿では,Ctrl-CIC(Contulable Contextualized Image Captioning)の新たな領域を提案する。本稿では, Prompting-based Controller (P-Ctrl) と Recalibration-based Controller (R-Ctrl) の2つのアプローチを提案する。
論文参考訳（メタデータ） (2024-07-16T07:32:48Z)
ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文参考訳（メタデータ） (2024-06-03T11:15:16Z)
SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文参考訳（メタデータ） (2023-11-28T16:33:08Z)
Caption Anything: Interactive Image Description with Diverse Multimodal Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。 Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文参考訳（メタデータ） (2023-05-04T09:48:22Z)
Controllable Image Captioning via Prompting [9.935191668056463]
統一モデルは、多様なドメインでうまく機能し、複数のスタイルで自由に切り替えることができることを示す。具体的には、事前訓練された画像キャプタを微調整する一連のプロンプトを設計する。推論段階では,本モデルでは,対応するプロンプトを選択することで,所望のキャプションを生成することができる。
論文参考訳（メタデータ） (2022-12-04T11:59:31Z)
Controllable Image Captioning [0.0]
本稿では,パートオフ音声タグとセマンティクスの相互依存を捉えることで,多様な記述を生成できる画像キャプションのための新しいフレームワークを提案する。入力されたPart-Of-Speechタグシーケンスに基づいて単語を予測するトランスフォーマーネットワークを介してキャプションを生成する手法を提案する。
論文参考訳（メタデータ） (2022-04-28T07:47:49Z)
Controllable Video Captioning with an Exemplar Sentence [89.78812365216983]
本稿では,エンコーダ・デコーダ・リコンストラクタアーキテクチャに組み込んだ新しいSMCGを提案する。 SMCGはビデオセマンティック表現を入力とし、長期記憶ネットワークのゲートとセルを条件的に変調する。 2つの公開ビデオキャプションデータセットに対して、補助的な例文を収集して実験を行う。
論文参考訳（メタデータ） (2021-12-02T09:24:45Z)
Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文参考訳（メタデータ） (2020-07-19T03:40:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。