論文の概要: Hierarchical Domain-Adapted Feature Learning for Video Saliency
Prediction
- arxiv url: http://arxiv.org/abs/2010.01220v4
- Date: Thu, 6 May 2021 08:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:59:10.367780
- Title: Hierarchical Domain-Adapted Feature Learning for Video Saliency
Prediction
- Title(参考訳): 階層型ドメイン適応型特徴学習によるビデオサリエンシー予測
- Authors: Giovanni Bellitto, Federica Proietto Salanitri, Simone Palazzo,
Francesco Rundo, Daniela Giordano, Concetto Spampinato
- Abstract要約: 本稿では,ビデオ・サリエンシ予測のための3次元完全畳み込みアーキテクチャを提案する。
ドメイン適応とドメイン固有学習の2つの手法を用いて,基本階層学習機構を提供する。
実験の結果,提案モデルにより,教師付きサリエンシ予測における最先端の精度が得られた。
- 参考スコア(独自算出の注目度): 15.270499225813841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a 3D fully convolutional architecture for video
saliency prediction that employs hierarchical supervision on intermediate maps
(referred to as conspicuity maps) generated using features extracted at
different abstraction levels. We provide the base hierarchical learning
mechanism with two techniques for domain adaptation and domain-specific
learning. For the former, we encourage the model to unsupervisedly learn
hierarchical general features using gradient reversal at multiple scales, to
enhance generalization capabilities on datasets for which no annotations are
provided during training. As for domain specialization, we employ
domain-specific operations (namely, priors, smoothing and batch normalization)
by specializing the learned features on individual datasets in order to
maximize performance. The results of our experiments show that the proposed
model yields state-of-the-art accuracy on supervised saliency prediction. When
the base hierarchical model is empowered with domain-specific modules,
performance improves, outperforming state-of-the-art models on three out of
five metrics on the DHF1K benchmark and reaching the second-best results on the
other two. When, instead, we test it in an unsupervised domain adaptation
setting, by enabling hierarchical gradient reversal layers, we obtain
performance comparable to supervised state-of-the-art.
- Abstract(参考訳): 本研究では,異なる抽象レベルから抽出した特徴を用いて生成する中間写像(conspicuity map)の階層的監督を用いる,ビデオ・サリエンシ予測のための3次元完全畳み込みアーキテクチャを提案する。
ドメイン適応とドメイン固有学習の2つの手法を用いて,基本階層学習機構を提供する。
前者に対しては,複数のスケールで逆勾配を用いて階層的汎用性を教師なしに学習し,トレーニング中にアノテーションが提供されないデータセットの一般化能力を高めることを推奨した。
ドメインの特殊化については、各データセットの学習機能を専門化してパフォーマンスを最大化することで、ドメイン固有の操作(前処理、スムーズ化、バッチ正規化)を採用する。
実験の結果,提案モデルが教師付き塩分予測に最先端の精度をもたらすことがわかった。
基本階層モデルがドメイン固有のモジュールで強化されると、パフォーマンスが向上し、DHF1Kベンチマークの5つの指標のうち3つで最先端モデルのパフォーマンスが向上し、他の2つでは2番目に高い結果が得られる。
代わりに、非教師付きドメイン適応環境でテストする場合、階層的勾配反転層を有効にすることで、教師付き最先端技術に匹敵する性能が得られる。
関連論文リスト
- Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - RADA: Robust and Accurate Feature Learning with Domain Adaptation [7.905594146253435]
本稿では、2つの重要な要素を組み込んだ多層機能集約ネットワークを導入し、堅牢で正確な特徴の学習を容易にする。
提案手法は,画像マッチング,カメラポーズ推定,視覚的ローカライゼーションタスクにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2024-07-22T16:49:58Z) - Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation [2.2265038612930663]
本稿では,高密度下流タスクに適したボクセルワイド粗い表現を学習するための自己教師型フレームワークについて述べる。
我々は、複数のスケールから機能のコントリビューションのバランスをとるためのトレーニング戦略を考案し、学習された表現が粗い詳細ときめ細かい詳細の両方を捉えることを保証する。
論文 参考訳(メタデータ) (2024-01-12T09:47:17Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Domain Generalisation for Object Detection under Covariate and Concept Shift [10.32461766065764]
ドメインの一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変の機能の学習を促進することを目的としている。
オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-10T11:14:18Z) - Unsupervised Domain Adaptation for Semantic Segmentation via Low-level
Edge Information Transfer [27.64947077788111]
セマンティックセグメンテーションのための教師なしドメイン適応は、合成データに基づいて訓練されたモデルを実際の画像に適応させることを目的としている。
従来の特徴レベルの対数学習手法は、高レベルの意味的特徴に適応するモデルのみを考慮していた。
本稿では,ドメイン間ギャップが小さい低レベルエッジ情報を明示的に利用して意味情報の伝達をガイドする試みについて紹介する。
論文 参考訳(メタデータ) (2021-09-18T11:51:31Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。