論文の概要: Diversifying Spatial-Temporal Perception for Video Domain Generalization
- arxiv url: http://arxiv.org/abs/2310.17942v1
- Date: Fri, 27 Oct 2023 07:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:32:06.574798
- Title: Diversifying Spatial-Temporal Perception for Video Domain Generalization
- Title(参考訳): ビデオ領域一般化のための空間時間知覚の多様化
- Authors: Kun-Yu Lin, Jia-Run Du, Yipeng Gao, Jiaming Zhou, Wei-Shi Zheng
- Abstract要約: ビデオドメインの一般化は、ソースドメインでトレーニングすることで、目に見えないターゲットドメインに対する一般化可能なビデオ分類モデルを学ぶことを目的としている。
そこで本稿では,ドメイン固有の手がかりに加えて,潜在的なドメイン不変の手がかりを発見することを目的として,ビデオにおける多様な時空間的手がかりを知覚することを提案する。
- 参考スコア(独自算出の注目度): 32.49202592793828
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video domain generalization aims to learn generalizable video classification
models for unseen target domains by training in a source domain. A critical
challenge of video domain generalization is to defend against the heavy
reliance on domain-specific cues extracted from the source domain when
recognizing target videos. To this end, we propose to perceive diverse
spatial-temporal cues in videos, aiming to discover potential domain-invariant
cues in addition to domain-specific cues. We contribute a novel model named
Spatial-Temporal Diversification Network (STDN), which improves the diversity
from both space and time dimensions of video data. First, our STDN proposes to
discover various types of spatial cues within individual frames by spatial
grouping. Then, our STDN proposes to explicitly model spatial-temporal
dependencies between video contents at multiple space-time scales by
spatial-temporal relation modeling. Extensive experiments on three benchmarks
of different types demonstrate the effectiveness and versatility of our
approach.
- Abstract(参考訳): ビデオドメインの一般化は、ソースドメインでトレーニングすることで、見えないターゲットドメインに対する一般化可能なビデオ分類モデルを学ぶことを目的としている。
ビデオドメインの一般化における重要な課題は、ターゲットビデオを認識する際にソースドメインから抽出されたドメイン固有のヒントに強く依存することを防ぐことである。
そこで本研究では,ドメイン固有の手がかりに加えて,潜在的なドメイン不変の手がかりを発見することを目的として,ビデオにおける多様な時空間的手がかりを知覚することを提案する。
我々は,空間時間分割ネットワーク(STDN)と呼ばれる新しいモデルを提案し,ビデオデータの空間次元と時間次元の多様性を向上させる。
まず,stdnは,空間的グループ化により,個々のフレーム内の様々な種類の空間的手がかりを探索する。
そこで,STDNは空間時間関係モデルを用いて,複数の時空間スケールで映像コンテンツ間の空間時間依存性を明示的にモデル化することを提案する。
3つの異なるタイプのベンチマークに関する広範囲な実験は、我々のアプローチの有効性と汎用性を示している。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Aggregation of Disentanglement: Reconsidering Domain Variations in
Domain Generalization [9.577254317971933]
ドメイン変種には、下流のタスクに有用な情報、すなわち分類対応情報も含まれている、と我々は主張する。
本稿では,ドメインエキスパートの特徴をソース・ドメイン・イメージから切り離すために,DDN(Domain Disentanglement Network)と呼ばれる新しいパラダイムを提案する。
また、ドメインの専門家がよりバランスよく分離可能な機能空間を形成するための、新しい対照的な学習方法を提案します。
論文 参考訳(メタデータ) (2023-02-05T09:48:57Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - Channel-wise Alignment for Adaptive Object Detection [66.76486843397267]
遺伝的物体検出は、ディープ畳み込みニューラルネットワークの開発によって大いに促進されている。
このタスクの既存の方法は、通常、画像全体や関心の対象に基づいて、ハイレベルなアライメントに注意を向ける。
本稿では,チャネルワイドアライメント(チャネルワイドアライメント)という,まったく異なる観点からの適応を実現する。
論文 参考訳(メタデータ) (2020-09-07T02:42:18Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。