論文の概要: Variational Transformer: A Framework Beyond the Trade-off between
Accuracy and Diversity for Image Captioning
- arxiv url: http://arxiv.org/abs/2205.14458v1
- Date: Sat, 28 May 2022 15:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:46:10.210340
- Title: Variational Transformer: A Framework Beyond the Trade-off between
Accuracy and Diversity for Image Captioning
- Title(参考訳): 変分トランスフォーマー:画像キャプションにおける精度と多様性のトレードオフを超えた枠組み
- Authors: Longzhen Yang, Shaohua Shang, Yihang Liu, Yitao Peng, Lianghua He
- Abstract要約: 我々は、新しい変分変換器のフレームワークを利用して、精度と多様性を同時に向上する。
精度を確保するため、自動選択可能なGMMとともに「見えない情報優先」を導入する。
- 参考スコア(独自算出の注目度): 4.8823191988533585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accuracy and Diversity are two essential metrizable manifestations in
generating natural and semantically correct captions. Many efforts have been
made to enhance one of them with another decayed due to the trade-off gap.
However, compromise does not make the progress. Decayed diversity makes the
captioner a repeater, and decayed accuracy makes it a fake advisor. In this
work, we exploit a novel Variational Transformer framework to improve accuracy
and diversity simultaneously. To ensure accuracy, we introduce the "Invisible
Information Prior" along with the "Auto-selectable GMM" to instruct the encoder
to learn the precise language information and object relation in different
scenes. To ensure diversity, we propose the "Range-Median Reward" baseline to
retain more diverse candidates with higher rewards during the RL-based training
process. Experiments show that our method achieves the simultaneous promotion
of accuracy (CIDEr) and diversity (self-CIDEr), up to 1.1 and 4.8 percent,
compared with the baseline. Also, our method outperforms others under the newly
proposed measurement of the trade-off gap, with at least 3.55 percent
promotion.
- Abstract(参考訳): 正確さと多様性は、自然および意味的に正しいキャプションを生成する上で重要な2つの特徴である。
トレードオフのギャップにより、一方が崩壊し、他方が強化されるよう多くの努力がなされている。
しかし、妥協は進展しない。
多様性の低下によりキャプターはリピータとなり、精度の低下により偽のアドバイザとなる。
本研究では,新しい変分変換器のフレームワークを用いて,精度と多様性を同時に向上する。
正確性を確保するために,エンコーダに異なる場面で正確な言語情報と対象関係を学習するよう指示する"auto-selectable gmm"と共に,"invisible information prior"を導入する。
多様性を確保するため,RLベースのトレーニングプロセスにおいて,より多様な候補をより高い報酬で維持する"Range-Median Reward"ベースラインを提案する。
実験の結果,本手法はベースラインに比べて1.1~4.8%の精度(CIDEr)と多様性(自己CIDEr)の同時促進を実現していることがわかった。
また,本手法は,新たに提案するトレードオフギャップの測定結果よりも優れており,少なくとも3.55パーセントの促進が期待できる。
関連論文リスト
- DiveR-CT: Diversity-enhanced Red Teaming with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - IFDID: Information Filter upon Diversity-Improved Decoding for Diversity-Faithfulness Tradeoff in NLG [5.771099867942164]
本稿では、多様性と忠実性のトレードオフを得るために、多様性改善復号化情報フィルタ(IFDID)を提案する。
提案手法では, 忠実度を表すROUGEスコアが1.24高く, Dist-2では62.5%の多様性が従来の手法よりも高い。
論文 参考訳(メタデータ) (2022-10-25T08:14:20Z) - A Closer Look at Few-shot Image Generation [38.83570296616384]
訓練済みのGANを小さなターゲットデータで転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。
この数ショットの画像生成に対処するいくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が不足している。
適応中に既存の手法を解析するためのフレームワークを提案する。
第2のコントリビューションは、ソースドメインのリッチなマルチレベル多様性情報をターゲットドメインジェネレータに保持するために、相互情報(MI)を適用することを提案する。
論文 参考訳(メタデータ) (2022-05-08T07:46:26Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - One-Shot Generative Domain Adaptation [39.17324951275831]
本研究の目的は,GAN (Generative Adversarial Network) を1つの画像領域に事前トレーニングし,対象とする画像がわずかに少ない新しい領域に転送することである。
論文 参考訳(メタデータ) (2021-11-18T18:55:08Z) - DivAug: Plug-in Automated Data Augmentation with Explicit Diversity
Maximization [41.82120128496555]
拡張データの多様性に関する2つの要因はまだ欠けている:1)多様性の明示的な定義(したがって測定)と2)多様性とその正規化効果の定量化可能な関係。
分散多様性(Variance Diversity)と呼ばれる多様性尺度を提案し、理論的にはデータ拡張の正規化効果がVariance Diversityによって約束されることを示した。
監視されていないサンプリングベースのフレームワークであるDivAugは、Variance Diversityを直接最大化し、正規化効果を強化するように設計されています。
論文 参考訳(メタデータ) (2021-03-26T16:00:01Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z) - Analysis of diversity-accuracy tradeoff in image captioning [15.735086091894365]
低温と組み合わせた単純復号法は,多種多様な精度のキャプションセットを生成するための競争的かつ高速な手法であることを示す。
本稿では,字幕集合の精度と多様性を1つの値で評価するための新しい指標AllSPICEを提案する。
論文 参考訳(メタデータ) (2020-02-27T00:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。