論文の概要: Object State Change Classification in Egocentric Videos using the
Divided Space-Time Attention Mechanism
- arxiv url: http://arxiv.org/abs/2207.11814v1
- Date: Sun, 24 Jul 2022 20:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:40:48.912616
- Title: Object State Change Classification in Egocentric Videos using the
Divided Space-Time Attention Mechanism
- Title(参考訳): 分割時空間アテンション機構を用いたエゴセントリックビデオの物体状態変化分類
- Authors: Md Mohaiminul Islam, Gedas Bertasius
- Abstract要約: 本報告では,Ego4D: Object State Change Classification Challengeへの応募について述べる。
我々はトランスフォーマーに基づくビデオ認識モデルを用いて、エゴセントリックなビデオにおけるオブジェクトの状態変化を分類するために、分割された空間時間アテンション機構を利用する。
私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。
- 参考スコア(独自算出の注目度): 14.46525612314649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report describes our submission called "TarHeels" for the Ego4D: Object
State Change Classification Challenge. We use a transformer-based video
recognition model and leverage the Divided Space-Time Attention mechanism for
classifying object state change in egocentric videos. Our submission achieves
the second-best performance in the challenge. Furthermore, we perform an
ablation study to show that identifying object state change in egocentric
videos requires temporal modeling ability. Lastly, we present several positive
and negative examples to visualize our model's predictions. The code is
publicly available at: https://github.com/md-mohaiminul/ObjectStateChange
- Abstract(参考訳): 本稿では,Ego4D: Object State Change Classification Challengeに対するTarHeelsという提案について述べる。
トランス方式の映像認識モデルを用いて,エゴセントリック映像における物体状態変化の分類に,分割時空注意機構を利用する。
私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。
さらに,自己中心型ビデオにおける物体の状態変化の同定には時間的モデリング能力が必要であることを示す。
最後に,モデルの予測を可視化するための肯定的,否定的な例をいくつか提示する。
コードは、https://github.com/md-mohaiminul/ObjectStateChangeで公開されている。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。