Fugu-MT 論文翻訳(概要): Video Swin Transformers for Egocentric Video Understanding @ Ego4D Challenges 2022

論文の概要: Video Swin Transformers for Egocentric Video Understanding @ Ego4D Challenges 2022

arxiv url: http://arxiv.org/abs/2207.11329v1
Date: Fri, 22 Jul 2022 20:45:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-26 14:17:24.294612
Title: Video Swin Transformers for Egocentric Video Understanding @ Ego4D Challenges 2022
Title（参考訳）: エゴセントリックなビデオ理解のためのビデオスウィントランスフォーマー@Ego4Dが2022年に挑戦
Authors: Maria Escobar, Laura Daza, Cristina Gonz\'alez, Jordi Pont-Tuset, Pablo Arbel\'aez
Abstract要約: 我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。我々の手法は両課題において競争力を発揮した。
参考スコア（独自算出の注目度）: 6.351691358760346
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We implemented Video Swin Transformer as a base architecture for the tasks of Point-of-No-Return temporal localization and Object State Change Classification. Our method achieved competitive performance on both challenges.
Abstract（参考訳）: 我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。本手法は両課題において競争性能を達成した。

関連論文リスト

PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文参考訳（メタデータ） (2025-04-15T16:02:47Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文参考訳（メタデータ） (2024-06-11T08:05:26Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
Understanding Video Transformers via Universal Concept Discovery [44.869479587300525]
我々は,自動で発見される高レベルな時間的概念に基づいて,トランスフォーマーの意思決定プロセスを説明する。本稿では,VTCD(Video Transformer Concept Discovery)アルゴリズムについて紹介する。結果として生じる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時間的推論機構とオブジェクト中心の表現を明らかにする。
論文参考訳（メタデータ） (2024-01-19T17:27:21Z)
Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文参考訳（メタデータ） (2023-03-17T09:37:07Z)
Vision Transformer for Action Units Detection [11.479653866646762]
本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
論文参考訳（メタデータ） (2023-03-16T13:43:02Z)
Egocentric Video Task Translation @ Ego4D Challenge 2022 [109.30649877677257]
EgoTask Translationアプローチは、Ego4Dチャレンジにおけるエゴ中心のビデオタスク間の関係を探索する。本稿では,他のタスク用に開発された既存のモデルを活用し,タスクを「翻訳」するタスクを主タスクに導入することを提案する。提案手法は,2つのEgo4D課題において,PNRローカライゼーション課題において第1位,第3位にランクインする。
論文参考訳（メタデータ） (2023-02-03T18:05:49Z)
Masked Autoencoders for Egocentric Video Understanding @ Ego4D Challenge 2022 [35.59465012528485]
本稿では,2つのエゴセントリックビデオ理解タスクにマスク付きオートエンコーダを適用した手法と実験結果について述べる。チーム TheSSVL では、両方のタスクで2位にランク付けしました。私たちのコードは利用可能になります。
論文参考訳（メタデータ） (2022-11-18T16:05:15Z)
Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands and Objects Challenge 2022 [40.50231830741559]
提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。
論文参考訳（メタデータ） (2022-11-16T07:36:52Z)
Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism [14.46525612314649]
本報告では,Ego4D: Object State Change Classification Challengeへの応募について述べる。我々はトランスフォーマーに基づくビデオ認識モデルを用いて、エゴセントリックなビデオにおけるオブジェクトの状態変化を分類するために、分割された空間時間アテンション機構を利用する。私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。
論文参考訳（メタデータ） (2022-07-24T20:53:36Z)
Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。エピソード変換器(E.T.)を提案する。言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文参考訳（メタデータ） (2021-05-13T17:51:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。