論文の概要: Analysis of diversity-accuracy tradeoff in image captioning
- arxiv url: http://arxiv.org/abs/2002.11848v1
- Date: Thu, 27 Feb 2020 00:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:29:43.680580
- Title: Analysis of diversity-accuracy tradeoff in image captioning
- Title(参考訳): 画像キャプションにおける多様性-正確性トレードオフの解析
- Authors: Ruotian Luo, Gregory Shakhnarovich
- Abstract要約: 低温と組み合わせた単純復号法は,多種多様な精度のキャプションセットを生成するための競争的かつ高速な手法であることを示す。
本稿では,字幕集合の精度と多様性を1つの値で評価するための新しい指標AllSPICEを提案する。
- 参考スコア(独自算出の注目度): 15.735086091894365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the effect of different model architectures, training
objectives, hyperparameter settings and decoding procedures on the diversity of
automatically generated image captions. Our results show that 1) simple
decoding by naive sampling, coupled with low temperature is a competitive and
fast method to produce diverse and accurate caption sets; 2) training with
CIDEr-based reward using Reinforcement learning harms the diversity properties
of the resulting generator, which cannot be mitigated by manipulating decoding
parameters. In addition, we propose a new metric AllSPICE for evaluating both
accuracy and diversity of a set of captions by a single value.
- Abstract(参考訳): 自動生成画像キャプションの多様性に及ぼす異なるモデルアーキテクチャ,トレーニング目標,ハイパーパラメータ設定,デコード手順の影響について検討する。
私たちの結果は
1) 簡素なサンプリングによる簡単な復号は,低温と組み合わせて,多様で正確なキャプションセットを作成するための競争的で高速な方法である。
2) 強化学習を用いたサイダー報酬による訓練は, 復号パラメータの操作では軽減できない生成器の多様性を損なう。
さらに,一組のキャプションの精度と多様性を1つの値で評価する新たな指標であるAllSPICEを提案する。
関連論文リスト
- Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Transformer-based Image Compression with Variable Image Quality
Objectives [23.56234172940883]
トランスフォーマーベースの画像圧縮システムは、ユーザの好みに応じて、可変画像品質目標を実現する。
本手法は,2つの画像品質目標間のトレードオフを,単一の共有モデルを用いて選択する柔軟性を提供する。
論文 参考訳(メタデータ) (2023-09-22T08:58:28Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning [32.11006090613004]
深部強化学習の概念を用いて,光リモートセンシング(RS)画像からテキストキャプションを生成する問題に対処する。
本稿では,第2の批評家モデルをエンコーダ・デコーダRNNの形式で展開するアクタデュアル・クリティカルトレーニング戦略を提案する。
提案手法は, 基礎的事実と非常によく似たテストデータから文を生成し, 多くの批判事例においてさらに優れた字幕を生成することに成功している。
論文 参考訳(メタデータ) (2020-10-05T13:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。