論文の概要: EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action
Recognition 2022: Team HNU-FPV Technical Report
- arxiv url: http://arxiv.org/abs/2207.03095v1
- Date: Thu, 7 Jul 2022 05:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:07:06.597247
- Title: EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action
Recognition 2022: Team HNU-FPV Technical Report
- Title(参考訳): EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2022: Team HNU-FPV Technical Report
- Authors: Nie Lin, Minjie Cai
- Abstract要約: 我々は2022年のEPIC-Kitchens Unsupervised Domain Adaptation Challengeに応募する。
本手法は,EPIC-KITCHENS-100のテストセットにおいて,今年のチームの中で4位である。
- 参考スコア(独自算出の注目度): 4.88605334919407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present the technical details of our submission to the
2022 EPIC-Kitchens Unsupervised Domain Adaptation (UDA) Challenge. Existing UDA
methods align the global features extracted from the whole video clips across
the source and target domains but suffer from the spatial redundancy of feature
matching in video recognition. Motivated by the observation that in most cases
a small image region in each video frame can be informative enough for the
action recognition task, we propose to exploit informative image regions to
perform efficient domain alignment. Specifically, we first use lightweight CNNs
to extract the global information of the input two-stream video frames and
select the informative image patches by a differentiable interpolation-based
selection strategy. Then the global information from videos frames and local
information from image patches are processed by an existing video adaptation
method, i.e., TA3N, in order to perform feature alignment for the source domain
and the target domain. Our method (without model ensemble) ranks 4th among this
year's teams on the test set of EPIC-KITCHENS-100.
- Abstract(参考訳): 本稿では,2022年のEPIC-Kitchens Unsupervised Domain Adaptation (UDA) Challengeへの提出の技術的詳細を報告する。
既存のUDA手法は、ソースとターゲットドメイン全体にわたるビデオクリップから抽出されたグローバルな特徴を整列するが、ビデオ認識における特徴マッチングの空間的冗長性に悩まされる。
ビデオフレーム内の小さな画像領域が行動認識タスクに十分な情報が得られる場合が多いという観測に動機づけられ、情報付き画像領域を利用して効率的なドメインアライメントを行うことを提案する。
具体的には、まず軽量CNNを用いて、入力された2ストリームビデオフレームのグローバル情報を抽出し、異なる補間に基づく選択戦略により情報的画像パッチを選択する。
そして、映像フレームからのグローバル情報と画像パッチからのローカル情報とを、ソースドメインとターゲットドメインの特徴アライメントを行うために、既存のビデオ適応方法、すなわちTA3Nで処理する。
本手法は,EPIC-KITCHENS-100のテストセットにおいて,今年のチームの中で第4位である。
関連論文リスト
- Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Team VI-I2R Technical Report on EPIC-KITCHENS-100 Unsupervised Domain
Adaptation Challenge for Action Recognition 2021 [6.614021153407064]
EPIC-KITCHENS-100データセットは、人間の手と周囲の物体との相互作用に焦点を当てた日常的なキッチン活動で構成されている。
オブジェクトや視覚的に類似したアクションクラスが存在するため、これらのきめ細かいアクティビティを正確に認識することは極めて困難である。
そこで我々は,UDAのハンドバウンディングボックス情報を利用して,手中心の特徴を学習することを提案する。
提案手法は,RGBと光フローモードのみを入力として,トップ1の動作認識精度で第1位を達成した。
論文 参考訳(メタデータ) (2022-06-03T07:37:48Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Local-Global Associative Frame Assemble in Video Re-ID [57.7470971197962]
ビデオ列から自動生成されたオブジェクト境界ボックスにおける雑音および非表現フレームは、ビデオ再識別(Re-ID)における識別表現の学習に困難をもたらす
既存の手法の多くは、局所的な部分アライメントまたはグローバルな外観相関によって、ビデオフレームの重要性を個別に評価することで、この問題に対処している。
本研究では,局所的なアライメントとグローバルな相関関係を共同で検討し,相互の促進・強化について考察する。
論文 参考訳(メタデータ) (2021-10-22T19:07:39Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - DRIV100: In-The-Wild Multi-Domain Dataset and Evaluation for Real-World
Domain Adaptation of Semantic Segmentation [9.984696742463628]
本研究は,インターネットから収集した道路シーン映像の領域適応手法をベンチマークするための,新しいマルチドメインデータセットを提示する。
データセットは、人間の主観的判断と既存の道路シーンデータセットを用いて判断される異常スコアという2つの基準に基づいて、多様なシーン/ドメインをカバーするために選択された100本のビデオに対するピクセルレベルのアノテーションで構成されている。
論文 参考訳(メタデータ) (2021-01-30T04:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。