論文の概要: Domain-robust VQA with diverse datasets and methods but no target labels
- arxiv url: http://arxiv.org/abs/2103.15974v1
- Date: Mon, 29 Mar 2021 22:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:01:32.400090
- Title: Domain-robust VQA with diverse datasets and methods but no target labels
- Title(参考訳): 多様なデータセットとメソッドを持つがターゲットラベルがないドメインロバストvqa
- Authors: Mingda Zhang, Tristan Maidment, Ahmad Diab, Adriana Kovashka, Rebecca
Hwa
- Abstract要約: VQAのドメイン適応は、さらなる複雑さのためにオブジェクト認識の適応とは異なる。
これらの課題に取り組むために、まず一般的なVQAデータセット間のドメインシフトを定量化します。
また,画像領域と質問領域の合成シフトを別々に構築する。
- 参考スコア(独自算出の注目度): 34.331228652254566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The observation that computer vision methods overfit to dataset specifics has
inspired diverse attempts to make object recognition models robust to domain
shifts. However, similar work on domain-robust visual question answering
methods is very limited. Domain adaptation for VQA differs from adaptation for
object recognition due to additional complexity: VQA models handle multimodal
inputs, methods contain multiple steps with diverse modules resulting in
complex optimization, and answer spaces in different datasets are vastly
different. To tackle these challenges, we first quantify domain shifts between
popular VQA datasets, in both visual and textual space. To disentangle shifts
between datasets arising from different modalities, we also construct synthetic
shifts in the image and question domains separately. Second, we test the
robustness of different families of VQA methods (classic two-stream,
transformer, and neuro-symbolic methods) to these shifts. Third, we test the
applicability of existing domain adaptation methods and devise a new one to
bridge VQA domain gaps, adjusted to specific VQA models. To emulate the setting
of real-world generalization, we focus on unsupervised domain adaptation and
the open-ended classification task formulation.
- Abstract(参考訳): コンピュータビジョンの手法がデータセット仕様に過剰に適合するという観測は、オブジェクト認識モデルをドメインシフトに堅牢にしようとする様々な試みに影響を与えている。
しかし、ドメインロバストな視覚的質問応答メソッドに関する同様の作業は非常に限られている。
VQAモデルはマルチモーダル入力を処理し、メソッドは複雑な最適化をもたらす多様なモジュールを持つ複数のステップを含み、異なるデータセットの応答空間は大幅に異なる。
これらの課題に対処するために、私たちはまず、視覚空間とテキスト空間の両方において、人気のあるVQAデータセット間のドメインシフトを定量化する。
異なるモダリティから生じるデータセット間のシフトを解消するために、画像と質問領域の合成シフトを別々に構築する。
第2に、これらのシフトに対するVQA法(古典的二流法、トランスフォーマー法、ニューロシンボリック法)の異なるファミリーの堅牢性をテストする。
第3に、既存のドメイン適応手法の適用性を検証し、特定のVQAモデルに適応したVQAドメインギャップをブリッジする新しい手法を考案する。
実世界の一般化の設定をエミュレートするために,教師なし領域適応とオープンエンド分類タスクの定式化に着目した。
関連論文リスト
- Revisiting the Domain Shift and Sample Uncertainty in Multi-source
Active Domain Transfer [69.82229895838577]
Active Domain Adaptation (ADA)は、アノテートするターゲットデータの限られた数を選択することで、新しいターゲットドメインにおけるモデル適応を最大限に向上することを目的としている。
この設定は、複数のソースからトレーニングデータを収集するより実践的なシナリオを無視します。
これは、ADAを単一のソースドメインから複数のソースドメインに拡張する、新しい、挑戦的な知識転送の設定を目標にしています。
論文 参考訳(メタデータ) (2023-11-21T13:12:21Z) - VQA-GEN: A Visual Question Answering Benchmark for Domain Generalization [15.554325659263316]
視覚的質問応答(VQA)モデルは、視覚的テキスト推論能力を示すように設計されている。
既存のVQA用の領域一般化データセットは、テキストシフトに一方的な焦点をあてている。
VQA-GEN(VQA-GEN)は、シフト誘導パイプラインによって生成された分散シフトのための最初のマルチモーダルベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-11-01T19:43:56Z) - Multi-Domain Learning with Modulation Adapters [33.54630534228469]
マルチドメイン学習は、複数のドメインにまたがる画像分類など、関連するタスクを同時に処理することを目的としている。
変調アダプタは、各タスクに対して乗法的にモデルの畳み込み重みを更新する。
我々のアプローチは、既存の最先端のアプローチと同等かそれ以上の精度で、優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-07-17T14:40:16Z) - Robust Domain Adaptive Object Detection with Unified Multi-Granularity Alignment [59.831917206058435]
ドメイン適応検出は、ターゲットドメイン上の検出器の一般化を改善することを目的としている。
近年のアプローチは、異なる粒度の特徴アライメントを通じて、逆学習を通じてドメイン適応を実現する。
ドメイン不変な特徴学習のための統合多重粒度アライメント(MGA)に基づく検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-01T08:38:07Z) - QA Domain Adaptation using Hidden Space Augmentation and Self-Supervised
Contrastive Adaptation [24.39026345750824]
質問応答(QA)は、最近、カスタマイズされたドメインからの質問に答えるための印象的な結果を示している。
しかし、一般的な課題は、QAモデルを目に見えないターゲットドメインに適応させることである。
我々はQAドメイン適応のためのQADAと呼ばれる新しい自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-19T19:52:57Z) - Domain Invariant Masked Autoencoders for Self-supervised Learning from
Multi-domains [73.54897096088149]
マルチドメインからの自己教師型学習のためのドメイン不変のMasked AutoEncoder (DiMAE)を提案する。
中心となる考え方は、入力画像を異なるドメインからのスタイルノイズで拡張し、拡張イメージの埋め込みからイメージを再構築することである。
PACSとDomainNetの実験は、最近の最先端の手法と比較して、DiMAEがかなりの利益を得ていることを示している。
論文 参考訳(メタデータ) (2022-05-10T09:49:40Z) - Multi-Granularity Alignment Domain Adaptation for Object Detection [33.32519045960187]
ドメイン適応型オブジェクト検出は、ソースドメインとターゲットドメインの間に特有のデータ分布があるため、難しい。
ドメイン不変な特徴学習に向けた多粒度アライメントに基づくオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-31T09:05:06Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Adversarial Dual Distinct Classifiers for Unsupervised Domain Adaptation [67.83872616307008]
Unversarial Domain adaptation (UDA)は、異なる分散されたラベル付きソースドメインから学習モデルを構築することで、ラベルなしのターゲットサンプルを認識しようとする。
本稿では,タスク固有のカテゴリ境界に一致するソースとターゲット領域のデータ分布を同時に整合させる新しいアドリラルデュアル・ディスタンス・ネットワーク(AD$2$CN)を提案する。
具体的には、ドメイン不変の特徴発生器を利用して、識別的クロスドメインアライメントのガイダンスにより、ソースとターゲットデータを潜在共通空間に埋め込む。
論文 参考訳(メタデータ) (2020-08-27T01:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。