論文の概要: Actions and Objects Pathways for Domain Adaptation in Video Question Answering
- arxiv url: http://arxiv.org/abs/2411.19434v1
- Date: Fri, 29 Nov 2024 02:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:25.053042
- Title: Actions and Objects Pathways for Domain Adaptation in Video Question Answering
- Title(参考訳): ビデオ質問応答における領域適応のための行動と対象経路
- Authors: Safaa Abdullahi Moallim Mohamud, Ho-Young Jung,
- Abstract要約: 本稿では,ビデオ質問応答タスクにおける領域外一般化のためのAOPath(Actions and Objects Pathways)を提案する。
AOPathは、大きな事前訓練されたモデルの特徴を活用して、目に見えないドメインに対する明示的なトレーニングを必要とせずに、一般化性を高める。
人間の脳にインスパイアされたAOPathは、訓練済みの特徴を行動と対象の特徴に解離させ、その後別々の推論経路を通して処理する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we introduce the Actions and Objects Pathways (AOPath) for out-of-domain generalization in video question answering tasks. AOPath leverages features from a large pretrained model to enhance generalizability without the need for explicit training on the unseen domains. Inspired by human brain, AOPath dissociates the pretrained features into action and object features, and subsequently processes them through separate reasoning pathways. It utilizes a novel module which converts out-of-domain features into domain-agnostic features without introducing any trainable weights. We validate the proposed approach on the TVQA dataset, which is partitioned into multiple subsets based on genre to facilitate the assessment of generalizability. The proposed approach demonstrates 5% and 4% superior performance over conventional classifiers on out-of-domain and in-domain datasets, respectively. It also outperforms prior methods that involve training millions of parameters, whereas the proposed approach trains very few parameters.
- Abstract(参考訳): 本稿では,ビデオ質問応答タスクにおけるドメイン外一般化のためのAOPath(Actions and Objects Pathways)を提案する。
AOPathは、未確認領域の明示的なトレーニングを必要とせずに、大きな事前訓練されたモデルの特徴を活用して、一般化性を高める。
人間の脳にインスパイアされたAOPathは、訓練済みの特徴を行動と対象の特徴に解離させ、その後別々の推論経路を通して処理する。
トレーニング可能な重みを導入することなく、ドメイン外の機能をドメインに依存しない機能に変換する新しいモジュールを利用する。
ジャンルに基づいて複数のサブセットに分割し,一般化可能性の評価を容易にするTVQAデータセットに対する提案手法を検証した。
提案手法は,ドメイン外データセットとドメイン内データセットの従来の分類器よりも5%,4%優れた性能を示す。
また、数百万のパラメータをトレーニングする以前の手法よりも優れており、提案手法はごく少数のパラメータを訓練する。
関連論文リスト
- Boundless Across Domains: A New Paradigm of Adaptive Feature and Cross-Attention for Domain Generalization in Medical Image Segmentation [1.93061220186624]
ドメイン不変表現学習は、ドメイン一般化の強力な方法である。
従来のアプローチでは、高い計算要求、トレーニングの不安定性、高次元データによる限られた有効性といった課題に直面していた。
本研究では,分布空間を探索しながら分布外サンプルを生成する適応的特徴ブレンディング(AFB)手法を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:06:24Z) - Enhancing Domain Adaptation through Prompt Gradient Alignment [16.618313165111793]
我々は、ドメイン不変性と特定の特徴の両方を学ぶために、素早い学習に基づく一連の作品を開発する。
我々は、UDAを、各目的がドメイン損失で表される多重目的最適化問題とみなした。
提案手法は,異なるUDAベンチマークにおいて,他のプロンプトベースベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-13T17:40:15Z) - Adaptive Parametric Prototype Learning for Cross-Domain Few-Shot
Classification [23.82751179819225]
本稿では,メタラーニング・コンベンションの下で新しい適応パラメトリックプロトタイプ学習法(APPL)を開発した。
APPLは多くの最先端のクロスドメイン・ショット・ラーニング手法よりも優れた性能が得られる。
論文 参考訳(メタデータ) (2023-09-04T03:58:50Z) - NormAUG: Normalization-guided Augmentation for Domain Generalization [60.159546669021346]
ディープラーニングのためのNormAUG(Normalization-guided Augmentation)と呼ばれるシンプルで効果的な手法を提案する。
本手法は特徴レベルで多様な情報を導入し,主経路の一般化を改善する。
テスト段階では、アンサンブル戦略を利用して、モデルの補助経路からの予測を組み合わせ、さらなる性能向上を図る。
論文 参考訳(メタデータ) (2023-07-25T13:35:45Z) - Efficient Hierarchical Domain Adaptation for Pretrained Language Models [77.02962815423658]
生成言語モデルは、多種多様な一般的なドメインコーパスに基づいて訓練される。
計算効率のよいアダプタアプローチを用いて,ドメイン適応を多種多様なドメインに拡張する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T11:09:29Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Adaptive Methods for Real-World Domain Generalization [32.030688845421594]
本研究では、未確認の試験サンプルからドメイン情報を活用できるかどうかを検討する。
a) 教師なしのトレーニング例から識別的ドメイン埋め込みを最初に学び、b) このドメイン埋め込みを補足的な情報として使ってドメイン適応モデルを構築する。
提案手法は,各種領域一般化ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-03-29T17:44:35Z) - Multi-path Neural Networks for On-device Multi-domain Visual
Classification [55.281139434736254]
本稿では,モバイルデバイス上でのマルチドメイン視覚分類のためのマルチパスネットワークの自動学習手法を提案する。
提案するマルチパスネットワークは,各ドメインに1つの強化学習コントローラを適用して,MobileNetV3のような検索空間から生成されたスーパーネットワークの最適経路を選択することにより,ニューラルネットワーク検索から学習する。
決定されたマルチパスモデルは、個々のドメインパス内の非共有ノード内にドメイン固有のパラメータを保持しながら、共有ノード内のドメイン間でパラメータを選択的に共有する。
論文 参考訳(メタデータ) (2020-10-10T05:13:49Z) - Cross-domain Face Presentation Attack Detection via Multi-domain
Disentangled Representation Learning [109.42987031347582]
顔提示攻撃検出(PAD)は,顔認識システムにおいて緊急に解決すべき課題である。
クロスドメイン顔PADのための効率的な非交叉表現学習を提案する。
我々のアプローチは、不整合表現学習(DR-Net)とマルチドメイン学習(MD-Net)からなる。
論文 参考訳(メタデータ) (2020-04-04T15:45:14Z) - Cross-domain Detection via Graph-induced Prototype Alignment [114.8952035552862]
カテゴリレベルのドメインアライメントを求めるグラフ誘発プロトタイプアライメント(GPA)フレームワークを提案する。
さらに,クラス不均衡がドメイン適応に与える影響を軽減するために,クラス重み付きコントラスト損失を設計する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-03-28T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。