論文の概要: Improved RAMEN: Towards Domain Generalization for Visual Question
Answering
- arxiv url: http://arxiv.org/abs/2109.02370v1
- Date: Mon, 6 Sep 2021 11:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 23:26:42.307103
- Title: Improved RAMEN: Towards Domain Generalization for Visual Question
Answering
- Title(参考訳): ramenの改善: ビジュアル質問応答のためのドメインの一般化に向けて
- Authors: Bhanuka Manesha Samarasekara Vitharana Gamage, Lim Chern Hong
- Abstract要約: RAMENモデルのciteShrestha 2019は、2つの主要なVQAデータセットの最高スコアを取得することで、ドメインの一般化を実現することを目的としている。
本研究はRAMENアーキテクチャの初期/後期融合モジュールとアグリゲーションモジュールに2つの大きな改善を加えたものである。
その結果, 2つの改善が領域一般化問題に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently nearing human-level performance, Visual Question Answering (VQA) is
an emerging area in artificial intelligence.
Established as a multi-disciplinary field in machine learning, both computer
vision and natural language processing communities are working together to
achieve state-of-the-art (SOTA) performance.
However, there is a gap between the SOTA results and real world applications.
This is due to the lack of model generalisation.
The RAMEN model \cite{Shrestha2019} aimed to achieve domain generalization by
obtaining the highest score across two main types of VQA datasets.
This study provides two major improvements to the early/late fusion module
and aggregation module of the RAMEN architecture, with the objective of further
strengthening domain generalization.
Vector operations based fusion strategies are introduced for the fusion
module and the transformer architecture is introduced for the aggregation
module.
Improvements of up to five VQA datasets from the experiments conducted are
evident.
Following the results, this study analyses the effects of both the
improvements on the domain generalization problem.
The code is available on GitHub though the following link
\url{https://github.com/bhanukaManesha/ramen}.
- Abstract(参考訳): 現在人間レベルのパフォーマンスに近づいているVisual Question Answering(VQA)は、人工知能の新興分野である。
機械学習の多分野分野として構築され、コンピュータビジョンと自然言語処理のコミュニティが協力して最先端(SOTA)のパフォーマンスを実現している。
しかし、SOTAの結果と現実世界の応用の間にはギャップがある。
これはモデル一般化の欠如によるものである。
RAMENモデル \cite{Shrestha2019}は、2つの主要なVQAデータセットの最高スコアを取得することでドメインの一般化を実現することを目的としている。
本研究は,RAMENアーキテクチャのアーリー・ラト融合モジュールとアグリゲーションモジュールに2つの大きな改良を加え,ドメインの一般化をさらに強化することを目的とする。
融合モジュールにはベクトル演算に基づく融合戦略が導入され、集約モジュールにはトランスフォーマーアーキテクチャが導入される。
実験による最大5つのVQAデータセットの改善は明らかである。
その結果, 2つの改善が領域一般化問題に与える影響について検討した。
コードはgithubで入手できるが、次のリンクはurl{https://github.com/bhanukamanesha/ramen}である。
関連論文リスト
- Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-30T22:32:50Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Domain Generalisation with Bidirectional Encoder Representations from
Vision Transformers [3.236217153362305]
ドメインの一般化は、ソースドメインからの知識を単一のモデルにプールすることで、目に見えないターゲットドメインに一般化する。
ドメイン一般化における最近の研究は、深層学習モデルを用いて、訓練対象と異なるデータ分布と相互作用する際の課題に直面している。
ここでは、視覚変換器を用いて、オフ・オブ・ディストリビューション(OOD)ビジョンベンチマークの領域一般化を行う。
論文 参考訳(メタデータ) (2023-07-16T17:50:37Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - DANNTe: a case study of a turbo-machinery sensor virtualization under
domain shift [0.0]
ドメイン適応(DA)時系列回帰タスク(DANNTe)に取り組むための逆学習法を提案する。
このレグレッションは、ガスタービンに搭載されたセンサーの仮想コピーを構築することを目的としており、特定の状況で欠落する可能性がある物理的なセンサーの代わりに使用される。
ソースドメインでのみトレーニングされたベースラインモデルと比較して,回帰性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2022-01-11T09:24:33Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。