論文の概要: Length-Controllable Image Captioning
- arxiv url: http://arxiv.org/abs/2007.09580v1
- Date: Sun, 19 Jul 2020 03:40:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 23:50:10.821643
- Title: Length-Controllable Image Captioning
- Title(参考訳): 長さ制御可能な画像キャプション
- Authors: Chaorui Deng, Ning Ding, Mingkui Tan, Qi Wu
- Abstract要約: 簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
- 参考スコア(独自算出の注目度): 67.2079793803317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has witnessed remarkable progress in the image captioning
task; however, most existing methods cannot control their captions,
\emph{e.g.}, choosing to describe the image either roughly or in detail. In
this paper, we propose to use a simple length level embedding to endow them
with this ability. Moreover, due to their autoregressive nature, the
computational complexity of existing models increases linearly as the length of
the generated captions grows. Thus, we further devise a non-autoregressive
image captioning approach that can generate captions in a length-irrelevant
complexity. We verify the merit of the proposed length level embedding on three
models: two state-of-the-art (SOTA) autoregressive models with different types
of decoder, as well as our proposed non-autoregressive model, to show its
generalization ability. In the experiments, our length-controllable image
captioning models not only achieve SOTA performance on the challenging MS COCO
dataset but also generate length-controllable and diverse image captions.
Specifically, our non-autoregressive model outperforms the autoregressive
baselines in terms of controllability and diversity, and also significantly
improves the decoding efficiency for long captions. Our code and models are
released at \textcolor{magenta}{\texttt{https://github.com/bearcatt/LaBERT}}.
- Abstract(参考訳): この10年間、画像キャプションタスクの顕著な進歩が見られたが、既存のほとんどの手法では字幕を制御できない。
本稿では,簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
さらに,その自己回帰的な性質から,生成キャプションの長さが大きくなるにつれて,既存モデルの計算複雑性が線形に増加する。
そこで我々はさらに,字幕を長く無関係な複雑さで生成できる非自己回帰的な字幕化手法を考案する。
提案する長さレベル埋め込みの利点を3つのモデルに検証した。異なる種類のデコーダを持つ2つのstate-of-the-art (sota) 自己回帰モデルと、その一般化能力を示すために提案する非自己回帰モデルである。
実験では,MS COCOデータセット上でのSOTA性能だけでなく,長さ制御可能な多種多様な画像キャプションを生成する。
特に,非自己回帰モデルは,制御可能性や多様性の観点から自己回帰ベースラインよりも優れており,長いキャプションの復号効率も著しく向上している。
私たちのコードとモデルは、 \textcolor{magenta}{\texttt{https://github.com/bearcatt/labert}}でリリースされる。
関連論文リスト
- Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models [63.01630478059315]
マルチモーダルモデルの最近の進歩は、性能向上のための書き直しキャプションの価値を強調している。
プレトレーニングにおける合成キャプションとオリジナルのWebcrawled AltTextsとの相互作用が、まだよく理解されていないかどうかは不明だ。
様々なマルチモーダルモデルに適した多様なキャプションフォーマットを生成するために,新しい,制御可能な,スケーラブルなキャプションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-03T17:54:52Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - FuseCap: Leveraging Large Language Models for Enriched Fused Image
Captions [11.274127953112574]
本稿では,「凍った」視覚専門家を用いて,既存のキャプションを視覚的詳細で拡張するための自動アプローチを提案する。
提案手法であるFuseCapは,そのような視覚専門家の出力を,大規模言語モデルを用いて原文のキャプションと融合する。
私たちはこの大規模な画像キャプチャーペアのデータセットをコミュニティ向けにリリースします。
論文 参考訳(メタデータ) (2023-05-28T13:16:03Z) - CLID: Controlled-Length Image Descriptions with Limited Data [14.857590796528902]
本稿では,字幕の長さ,すなわち簡潔で簡潔な記述,あるいは長くて詳細な記述の制御に焦点を当てる。
既存の画像キャプションデータセットにはほとんど短いキャプションが含まれているため、長いキャプションを生成するのは難しい。
長いトレーニング例の不足に対処するため,様々な長さの自己生成キャプションでデータセットを充実させることを提案する。
論文 参考訳(メタデータ) (2022-11-27T14:18:40Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Semi-Autoregressive Transformer for Image Captioning [17.533503295862808]
画像キャプションのための半自己回帰モデル(SATIC)を提案する。
グローバルに自己回帰特性を保持するが、局所的に並列に単語を生成する。
MSCOCO画像キャプションベンチマークの実験では、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。
論文 参考訳(メタデータ) (2021-06-17T12:36:33Z) - Non-Autoregressive Image Captioning with Counterfactuals-Critical
Multi-Agent Learning [46.060954649681385]
新たな訓練パラダイムを持つ非自己回帰的画像キャプションモデル: 対実的クリティカルなマルチエージェント学習(CMAL)を提案する。
我々のNAICモデルは、最先端の自己回帰モデルに匹敵する性能を達成し、13.9倍のデコードスピードアップを実現している。
論文 参考訳(メタデータ) (2020-05-10T15:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。