論文の概要: Cross-Modal Generative Augmentation for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2105.04780v1
- Date: Tue, 11 May 2021 04:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 00:48:43.471993
- Title: Cross-Modal Generative Augmentation for Visual Question Answering
- Title(参考訳): 視覚質問応答のためのクロスモーダル生成拡張法
- Authors: Zixu Wang, Yishu Miao, Lucia Specia
- Abstract要約: 本稿では,複数のモダリティ間の相関を利用したデータ拡張生成モデルを提案する。
提案したモデルは,生成確率によって拡張データの信頼度を定量化し,下流パイプラインと共同して更新することができる。
- 参考スコア(独自算出の注目度): 34.9601948665926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is an approach that can effectively improve the performance
of multimodal machine learning. This paper introduces a generative model for
data augmentation by leveraging the correlations among multiple modalities.
Different from conventional data augmentation approaches that apply low level
operations with deterministic heuristics, our method proposes to learn an
augmentation sampler that generates samples of the target modality conditioned
on observed modalities in the variational auto-encoder framework. Additionally,
the proposed model is able to quantify the confidence of augmented data by its
generative probability, and can be jointly updated with a downstream pipeline.
Experiments on Visual Question Answering tasks demonstrate the effectiveness of
the proposed generative model, which is able to boost the strong UpDn-based
models to the state-of-the-art performance.
- Abstract(参考訳): データ拡張は、マルチモーダル機械学習のパフォーマンスを効果的に改善するアプローチである。
本稿では,複数のモダリティ間の相関を利用したデータ拡張のための生成モデルを提案する。
決定論的ヒューリスティックスを用いて低レベル操作を適用する従来のデータ拡張アプローチとは異なり,本手法では,変分オートエンコーダフレームワークで観測されたモダリティに基づく対象モダリティのサンプルを生成する拡張サンプラーを学習する。
さらに,提案モデルでは,生成確率によって拡張データの信頼度を定量化し,下流パイプラインと共同で更新することが可能である。
Visual Question Answeringタスクの実験では、強力なUpDnベースのモデルを最先端のパフォーマンスに拡張できる生成モデルの有効性が示されている。
関連論文リスト
- Non-autoregressive Generative Models for Reranking Recommendation [10.442028111471876]
NAR4Rec(Non-Regressive Generative Model)を提案する。
ユーザフィードバックの多様性を考慮し、本研究では、不可能なシーケンスと区別するための、シーケンスレベルの相違したトレーニング目標を提案する。
私たちの方法は、毎日3億人以上のアクティブユーザーがいる人気ビデオアプリKuaishouに完全にデプロイされています。
論文 参考訳(メタデータ) (2024-02-10T03:21:13Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - Learning Data Representations with Joint Diffusion Models [20.25147743706431]
データの合成と分類を可能にする統合機械学習モデルは、多くの場合、それらのタスク間の不均一なパフォーマンスを提供するか、トレーニングが不安定である。
それらの目的間のパラメータ化を共用した安定な連立エンドツーエンドトレーニングを可能にする分類器を用いて,バニラ拡散モデルを拡張した。
結果として得られた共同拡散モデルは、評価された全てのベンチマークにおいて、分類と生成品質の両方の観点から、最近の最先端のハイブリッド手法よりも優れている。
論文 参考訳(メタデータ) (2023-01-31T13:29:19Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。