Fugu-MT 論文翻訳(概要): Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @ Ego4d Looking at me Challenge

論文の概要: Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @ Ego4d Looking at me Challenge

arxiv url: http://arxiv.org/abs/2211.16206v1
Date: Thu, 17 Nov 2022 06:49:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 14:33:27.660455
Title: Exploring adaptation of VideoMAE for Audio-Visual Diarization & Social @ Ego4d Looking at me Challenge
Title（参考訳）: videomaeのオーディオ・ビジュアルダイアリゼーションとsocial @ego4dによるmeチャレンジへの適応の検討
Authors: Yinan He and Guo Chen
Abstract要約: VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルである。ビデオMAEから転送された表現は時空間モデルに優れていることを示す。
参考スコア（独自算出の注目度）: 5.429147779652134
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this report, we present the transferring pretrained video mask autoencoders(VideoMAE) to egocentric tasks for Ego4d Looking at me Challenge. VideoMAE is the data-efficient pretraining model for self-supervised video pre-training and can easily transfer to downstream tasks. We show that the representation transferred from VideoMAE has good Spatio-temporal modeling and the ability to capture small actions. We only need to use egocentric data to train 10 epochs based on VideoMAE which pretrained by the ordinary videos acquired from a third person's view, and we can get better results than the baseline on Ego4d Looking at me Challenge.
Abstract（参考訳）: 本稿では,ego4dにおける学習済みビデオマスク自動エンコーダ(videomae)のエゴセントリックタスクへの移行について述べる。 VideoMAEは、セルフ教師付きビデオ事前トレーニングのためのデータ効率のよい事前トレーニングモデルであり、ダウンストリームタスクに簡単に移行できる。ビデオMAEから転送された表現は、時空間モデルに優れ、小さなアクションを捉えることができる。 egocentric dataを使用して、第三者の視点から取得した通常のビデオによって事前学習されたvideomaeに基づく10エポックのトレーニングを行うだけで、ego4dのベースラインよりも優れた結果を得ることができます。

関連論文リスト

Fine-grained Spatiotemporal Grounding on Egocentric Videos [13.319346673043286]
EgoMaskは、エゴセントリックビデオの微細時間グラウンド化のための最初のピクセルレベルのベンチマークである。 EgoMaskは、式やオブジェクトマスクを参照するアノテーションパイプラインによって構築されている。また、モデル開発を容易にする大規模なトレーニングデータセットであるEgoMask-Trainも作成しています。
論文参考訳（メタデータ） (2025-08-01T10:53:27Z)
EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos [49.24266108952835]
エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。 EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
論文参考訳（メタデータ） (2025-04-16T03:12:39Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。 Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文参考訳（メタデータ） (2022-12-09T02:25:20Z)
InternVideo-Ego4D: A Pack of Champion Solutions to Ego4D Challenges [66.62885923201543]
Ego4D Challengeで5トラックにチャンピオンソリューションを提示します。ビデオファンデーションモデルであるInternVideoを5つのEgo4Dタスクに活用しています。 InternVideo-Ego4Dは、強力な基盤モデルを下流のエゴ中心のビデオ理解タスクに適用するための効果的なパラダイムである。
論文参考訳（メタデータ） (2022-11-17T13:45:06Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)
Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文参考訳（メタデータ） (2021-10-13T22:19:32Z)
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文参考訳（メタデータ） (2021-04-16T06:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。