論文の概要: PCIE_LAM Solution for Ego4D Looking At Me Challenge
- arxiv url: http://arxiv.org/abs/2406.12211v1
- Date: Tue, 18 Jun 2024 02:16:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:08:33.403682
- Title: PCIE_LAM Solution for Ego4D Looking At Me Challenge
- Title(参考訳): Ego4DのためのPCIE_LAMソリューション
- Authors: Kanokphan Lertniphonphan, Jun Xie, Yaqing Meng, Shijing Wang, Feng Chen, Zhepeng Wang,
- Abstract要約: 本報告では,CVPR2024におけるEgo4D Looking At Me Challengeのソリューションについて述べる。
課題の主な目的は、現場の人がカメラ着用者を見ているかどうかを正確に判断することである。
提案手法は,0.81mAPと0.93の精度で,私の挑戦に対する第1位を達成した。
- 参考スコア(独自算出の注目度): 25.029465595146533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents our team's 'PCIE_LAM' solution for the Ego4D Looking At Me Challenge at CVPR2024. The main goal of the challenge is to accurately determine if a person in the scene is looking at the camera wearer, based on a video where the faces of social partners have been localized. Our proposed solution, InternLSTM, consists of an InternVL image encoder and a Bi-LSTM network. The InternVL extracts spatial features, while the Bi-LSTM extracts temporal features. However, this task is highly challenging due to the distance between the person in the scene and the camera movement, which results in significant blurring in the face image. To address the complexity of the task, we implemented a Gaze Smoothing filter to eliminate noise or spikes from the output. Our approach achieved the 1st position in the looking at me challenge with 0.81 mAP and 0.93 accuracy rate. Code is available at https://github.com/KanokphanL/Ego4D_LAM_InternLSTM
- Abstract(参考訳): 本報告では,CVPR2024におけるEgo4D Looking At Me ChallengeにおけるPCIE_LAMソリューションについて述べる。
この課題の主な目的は、ソーシャルパートナーの顔がローカライズされたビデオに基づいて、現場の人がカメラ着用者を見ているかどうかを正確に判断することである。
提案するソリューションであるInternLSTMは,InternVL画像エンコーダとBi-LSTMネットワークから構成される。
InternVLは空間的特徴を抽出し、Bi-LSTMは時間的特徴を抽出する。
しかし,この課題は,映像中の人物とカメラの動きとの距離が大きな課題であり,顔画像に顕著なぼやけが生じている。
タスクの複雑さに対処するため,我々はGaze Smoothing filterを実装し,出力からノイズやスパイクを除去した。
提案手法は,0.81mAPと0.93の精度で,私の挑戦に対する第1位を達成した。
コードはhttps://github.com/KanokphanL/Ego4D_LAM_InternLSTMで公開されている。
関連論文リスト
- Social EgoMesh Estimation [7.021561988248192]
身体の社会中心性評価のための新しい枠組み(SEE-ME)を提案する。
我々のアプローチは、潜在確率拡散モデルのみを用いて着用者のメッシュを推定する最初の方法である。
全体として、SEE-MEは現在の最高の手法を超え、ポーズ推定誤差(MPJPE)を53%削減する。
論文 参考訳(メタデータ) (2024-11-07T10:28:49Z) - AIM 2024 Sparse Neural Rendering Challenge: Methods and Results [64.19942455360068]
本稿では,ECCV 2024と共同で開催されるAIM(Advanceds in Image Manipulation)ワークショップの一部であるスパースニューラルレンダリングの課題についてレビューする。
この課題は、スパース画像から多様なシーンを合成する新しいカメラビューを作ることである。
参加者は、Pak Signal-to-Noise Ratio (PSNR) 測定によって測定された地中真実像に対する客観的忠実度を最適化するよう依頼される。
論文 参考訳(メタデータ) (2024-09-23T14:17:40Z) - PCIE_EgoHandPose Solution for EgoExo4D Hand Pose Challenge [12.31892993103657]
課題の主な目的は、RGBエゴセントリックなビデオ画像を用いて、21個の3D関節を含む手ポーズを正確に推定することである。
タスクの複雑さに対処するため,Hand Pose Vision Transformer (HP-ViT)を提案する。
HP−ViTは、MPJPEおよびRLE損失関数を利用して、3Dにおける関節位置を推定するViTバックボーンとトランスフォーマーヘッドとを備える。
提案手法は25.51MPJPEと8.49PA-MPJPEでハンドポースの1位を獲得した。
論文 参考訳(メタデータ) (2024-06-18T02:41:32Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - MIPI 2023 Challenge on Nighttime Flare Removal: Methods and Results [88.0792325532059]
我々は、MIPI 2023でナイトタイムフレア除去トラックを要約し、レビューする。
120人が登録され、11チームが最終テストフェーズで結果を提出した。
この課題で開発されたソリューションは、夜間フレア除去における最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-05-23T07:34:49Z) - EgoLocate: Real-time Motion Capture, Localization, and Mapping with
Sparse Body-mounted Sensors [74.1275051763006]
本研究では,人間のモーションキャプチャ(モキャップ),ローカライゼーション,マッピングを,スパースボディ搭載センサからリアルタイムに行うシステムを開発した。
我々の技術は2つの分野の最先端技術と比較して,我々の技術によって大きく改善されている。
論文 参考訳(メタデータ) (2023-05-02T16:56:53Z) - NTIRE 2022 Challenge on High Dynamic Range Imaging: Methods and Results [173.32437855731752]
この課題はCVPR 2022と共同でNTIRE(New Trends in Image Restoration and Enhancement)ワークショップの一環として行われた。
この課題は、複数の低ダイナミックレンジ(LDR)観測からHDR画像を推定することを目的としている。
論文 参考訳(メタデータ) (2022-05-25T10:20:06Z) - A Simple Baseline for Pose Tracking in Videos of Crowded Scenes [130.84731947842664]
混み合った複雑な環境での人間のポーズを追跡する方法は、十分に対処されていない。
検出モデルにより生成された各境界ボックスに人体IDを割り当てるために,多目的追跡手法を用いる。
最終的に、ビデオ中の時間情報を利用して、最終的なポーズ追跡結果を生成するために光学フローが使用される。
論文 参考訳(メタデータ) (2020-10-16T13:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。