論文の概要: Macroscopic Control of Text Generation for Image Captioning
- arxiv url: http://arxiv.org/abs/2101.08000v1
- Date: Wed, 20 Jan 2021 07:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:24:07.677884
- Title: Macroscopic Control of Text Generation for Image Captioning
- Title(参考訳): 画像キャプションのためのテキスト生成のマクロ制御
- Authors: Zhangzi Zhu, Tianlei Wang, and Hong Qu
- Abstract要約: 問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
- 参考スコア(独自算出の注目度): 4.742874328556818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the fact that image captioning models have been able to generate
impressive descriptions for a given image, challenges remain: (1) the
controllability and diversity of existing models are still far from
satisfactory; (2) models sometimes may produce extremely poor-quality captions.
In this paper, two novel methods are introduced to solve the problems
respectively. Specifically, for the former problem, we introduce a control
signal which can control the macroscopic sentence attributes, such as sentence
quality, sentence length, sentence tense and number of nouns etc. With such a
control signal, the controllability and diversity of existing captioning models
are enhanced. For the latter problem, we innovatively propose a strategy that
an image-text matching model is trained to measure the quality of sentences
generated in both forward and backward directions and finally choose the better
one. As a result, this strategy can effectively reduce the proportion of
poorquality sentences. Our proposed methods can be easily applie on most image
captioning models to improve their overall performance. Based on the Up-Down
model, the experimental results show that our methods achieve BLEU-
4/CIDEr/SPICE scores of 37.5/120.3/21.5 on MSCOCO Karpathy test split with
cross-entropy training, which surpass the results of other state-of-the-art
methods trained by cross-entropy loss.
- Abstract(参考訳): 画像キャプションモデルが与えられた画像に対して印象的な記述を生成できたという事実にもかかわらず、(1)既存のモデルの制御可能性と多様性はまだ十分ではない。
本稿では, 2つの新しい手法をそれぞれ導入し, 課題を解決した。
具体的には,前者問題に対して,文の質,文長,文時制,名詞数などのマクロな文属性を制御可能な制御信号を導入する。
このような制御信号により、既存のキャプションモデルの制御性と多様性が向上する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
その結果、この戦略は質の低い文の割合を効果的に減らすことができる。
提案手法は,ほとんどの画像キャプションモデルに容易に適用でき,全体的な性能が向上する。
Up-Downモデルに基づく実験の結果,MSCOCO KarpathyテストではBLEU4/CIDEr/SPICEスコアが37.5/120.3/21.5であり,クロスエントロピー・トレーニングでは,クロスエントロピー・ロスによって訓練された他の最先端手法よりも優れていることがわかった。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Improving Image Captioning Descriptiveness by Ranking and LLM-based
Fusion [17.99150939602917]
State-of-The-Art (SoTA)イメージキャプションモデルは、トレーニングのためにMicrosoft COCO(MS-COCO)データセットに依存することが多い。
本稿では,異なるSoTAモデルから生成されたキャプションを効果的に融合させる方法を示すことによって,従来の課題に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-20T15:13:02Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Comprehensive Image Captioning via Scene Graph Decomposition [51.660090468384375]
本稿では,画像シーングラフの表現を再検討することにより,画像キャプションの課題に対処する。
我々の手法の核となるのは、シーングラフをサブグラフの集合に分解することである。
我々は,重要な部分グラフを選択し,選択した各サブグラフを1つのターゲット文にデコードするディープモデルを設計する。
論文 参考訳(メタデータ) (2020-07-23T00:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。