論文の概要: Video Swin Transformers for Egocentric Video Understanding @ Ego4D
Challenges 2022
- arxiv url: http://arxiv.org/abs/2207.11329v1
- Date: Fri, 22 Jul 2022 20:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:17:24.294612
- Title: Video Swin Transformers for Egocentric Video Understanding @ Ego4D
Challenges 2022
- Title(参考訳): エゴセントリックなビデオ理解のためのビデオスウィントランスフォーマー@Ego4Dが2022年に挑戦
- Authors: Maria Escobar, Laura Daza, Cristina Gonz\'alez, Jordi Pont-Tuset,
Pablo Arbel\'aez
- Abstract要約: 我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。
我々の手法は両課題において競争力を発揮した。
- 参考スコア(独自算出の注目度): 6.351691358760346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We implemented Video Swin Transformer as a base architecture for the tasks of
Point-of-No-Return temporal localization and Object State Change
Classification. Our method achieved competitive performance on both challenges.
- Abstract(参考訳): 我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。
本手法は両課題において競争性能を達成した。
関連論文リスト
- Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Vision Transformer for Action Units Detection [11.479653866646762]
本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
論文 参考訳(メタデータ) (2023-03-16T13:43:02Z) - Egocentric Video Task Translation @ Ego4D Challenge 2022 [109.30649877677257]
EgoTask Translationアプローチは、Ego4Dチャレンジにおけるエゴ中心のビデオタスク間の関係を探索する。
本稿では,他のタスク用に開発された既存のモデルを活用し,タスクを「翻訳」するタスクを主タスクに導入することを提案する。
提案手法は,2つのEgo4D課題において,PNRローカライゼーション課題において第1位,第3位にランクインする。
論文 参考訳(メタデータ) (2023-02-03T18:05:49Z) - Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge
2022 [35.59465012528485]
本稿では,2つのエゴセントリックビデオ理解タスクにマスク付きオートエンコーダを適用した手法と実験結果について述べる。
チーム TheSSVL では、両方のタスクで2位にランク付けしました。
私たちのコードは利用可能になります。
論文 参考訳(メタデータ) (2022-11-18T16:05:15Z) - The Runner-up Solution for YouTube-VIS Long Video Challenge 2022 [72.13080661144761]
この課題に対して,提案したオンラインビデオインスタンス分割方式IDOLを採用した。
擬似ラベルを使用して、コントラスト学習をさらに支援し、時間的に一貫したインスタンスの埋め込みを得る。
提案手法は、YouTube-VIS 2022長ビデオデータセット上で40.2 APを取得し、この課題において第2位にランクされた。
論文 参考訳(メタデータ) (2022-11-18T01:40:59Z) - Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands
and Objects Challenge 2022 [40.50231830741559]
提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。
これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。
論文 参考訳(メタデータ) (2022-11-16T07:36:52Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Object State Change Classification in Egocentric Videos using the
Divided Space-Time Attention Mechanism [14.46525612314649]
本報告では,Ego4D: Object State Change Classification Challengeへの応募について述べる。
我々はトランスフォーマーに基づくビデオ認識モデルを用いて、エゴセントリックなビデオにおけるオブジェクトの状態変化を分類するために、分割された空間時間アテンション機構を利用する。
私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。
論文 参考訳(メタデータ) (2022-07-24T20:53:36Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z) - PE-former: Pose Estimation Transformer [0.0]
2次元ボディポーズ推定問題に対する純変圧器アーキテクチャの適用について検討する。
エンコーダ・デコーダ変換器アーキテクチャを用いることで, この推定問題に対して, 技術結果の状態が得られることを示す。
論文 参考訳(メタデータ) (2021-12-09T15:20:23Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。