論文の概要: Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands
and Objects Challenge 2022
- arxiv url: http://arxiv.org/abs/2211.08728v1
- Date: Wed, 16 Nov 2022 07:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:30:22.732719
- Title: Exploring State Change Capture of Heterogeneous Backbones @ Ego4D Hands
and Objects Challenge 2022
- Title(参考訳): 異種バックボーンの状態変化キャプチャの探求 @ego4d hands and objects challenge 2022
- Authors: Yin-Dong Zheng, Guo Chen, Jiahao Wang, Tong Lu, Limin Wang
- Abstract要約: 提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。
これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。
- 参考スコア(独自算出の注目度): 40.50231830741559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing the state changes of interacting objects is a key technology for
understanding human-object interactions. This technical report describes our
method using heterogeneous backbones for the Ego4D Object State Change
Classification and PNR Temporal Localization Challenge. In the challenge, we
used the heterogeneous video understanding backbones, namely CSN with 3D
convolution as operator and VideoMAE with Transformer as operator. Our method
achieves an accuracy of 0.796 on OSCC while achieving an absolute temporal
localization error of 0.516 on PNR. These excellent results rank 1st on the
leaderboard of Ego4D OSCC & PNR-TL Challenge 2022.
- Abstract(参考訳): 相互作用するオブジェクトの状態変化を捉えることは、人間とオブジェクトの相互作用を理解するための重要な技術である。
本稿では,Ego4Dオブジェクト状態変化分類とPNR時間的局所化チャレンジのための異種バックボーンを用いた手法について述べる。
この課題では,3次元畳み込みを演算子とするcsnと,トランスフォーマーをオペレータとするvideomaeという異種ビデオ理解バックボーンを用いた。
提案手法はOSCCにおいて0.796の精度を実現し,PNRでは0.516の絶対時間局所化誤差を達成した。
これらの優れた結果は、Ego4D OSCC & PNR-TL Challenge 2022のリーダーボードにランクインした。
関連論文リスト
- RemoCap: Disentangled Representation Learning for Motion Capture [13.638129235443976]
RemoCapはリアルなモーションシーケンスから3Dの人体を再構築する。
現在の方法は、閉塞した身体部分の力学を捉えるのに苦労している。
本稿では,時間的コヒーレンスを促進するシーケンス速度損失を提案する。
論文 参考訳(メタデータ) (2024-05-21T12:24:01Z) - Transformer-based Fusion of 2D-pose and Spatio-temporal Embeddings for
Distracted Driver Action Recognition [8.841708075914353]
運転行動の時間的局所化は、先進的な運転支援システムと自然主義運転研究にとって重要である。
本研究では,映像行動認識と2次元人文推定ネットワークを1つのモデルに適用することにより,時間的局所化と分類精度の向上を目指す。
このモデルは、2023年のNVIDIA AI City ChallengeというA2テストセットで、自然な運転行動認識のためにうまく機能する。
論文 参考訳(メタデータ) (2024-03-11T10:26:38Z) - Neural-Logic Human-Object Interaction Detection [67.4993347702353]
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
論文 参考訳(メタデータ) (2023-11-16T11:47:53Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Vision Transformer for Action Units Detection [11.479653866646762]
本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
論文 参考訳(メタデータ) (2023-03-16T13:43:02Z) - ReLER@ZJU Submission to the Ego4D Moment Queries Challenge 2022 [42.02602065259257]
我々はECCV 2022のEgo4D Moment Queries ChallengeにReLER@ZJU1を提出する。
目標は、エゴセントリックなビデオで起こりうるアクティビティのすべてのインスタンスを検索し、ローカライズすることだ。
Recall@1,tIoU=0.5スコア37.24、平均mAPスコア17.67、そして3位となった。
論文 参考訳(メタデータ) (2022-11-17T14:28:31Z) - Video Swin Transformers for Egocentric Video Understanding @ Ego4D
Challenges 2022 [6.351691358760346]
我々は,時間的局所化とオブジェクト状態変化分類のタスクのベースアーキテクチャとして,ビデオスウィントランスフォーマーを実装した。
我々の手法は両課題において競争力を発揮した。
論文 参考訳(メタデータ) (2022-07-22T20:45:05Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Uniformer: Unified Transformer for Efficient Spatiotemporal
Representation Learning [68.55487598401788]
この研究の最近の進歩は、主に3D畳み込みニューラルネットワークと視覚変換器によって推進されている。
本稿では3次元畳み込み自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々は、Kineetics-400、Kineetics-600、Something V1&V2といった人気ビデオベンチマークで広範な実験を行っている。
我々の UniFormer は Kinetics-400/Kinetics-600 で 8/84.8% のトップ-1 の精度を実現している。
論文 参考訳(メタデータ) (2022-01-12T20:02:32Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。