論文の概要: PCIE_Interaction Solution for Ego4D Social Interaction Challenge
- arxiv url: http://arxiv.org/abs/2505.24404v1
- Date: Fri, 30 May 2025 09:35:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.882167
- Title: PCIE_Interaction Solution for Ego4D Social Interaction Challenge
- Title(参考訳): PCIE_Interaction Solution for Ego4D Social Interaction Challenge
- Authors: Kanokphan Lertniphonphan, Feng Chen, Junda Xu, Fengbu Lan, Jun Xie, Tao Zhang, Zhepeng Wang,
- Abstract要約: 本報告では,CVPR 2025におけるEgo4D Social Interaction Challengeに対するPCIE_Interactionソリューションについて述べる。
課題は、被写体とカメラ装着者の社会的相互作用を正確に検出することである。
LAMおよびTTMチャレンジリーダーボード上で平均精度(mAP)を0.81と0.71と達成した。
- 参考スコア(独自算出の注目度): 25.283193734091462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report presents our team's PCIE_Interaction solution for the Ego4D Social Interaction Challenge at CVPR 2025, addressing both Looking At Me (LAM) and Talking To Me (TTM) tasks. The challenge requires accurate detection of social interactions between subjects and the camera wearer, with LAM relying exclusively on face crop sequences and TTM combining speaker face crops with synchronized audio segments. In the LAM track, we employ face quality enhancement and ensemble methods. For the TTM task, we extend visual interaction analysis by fusing audio and visual cues, weighted by a visual quality score. Our approach achieved 0.81 and 0.71 mean average precision (mAP) on the LAM and TTM challenges leader board. Code is available at https://github.com/KanokphanL/PCIE_Ego4D_Social_Interaction
- Abstract(参考訳): 本稿では,CVPR 2025におけるEgo4D Social Interaction ChallengeのPCIE_Interactionソリューションについて述べる。
課題は、被写体とカメラ装着者の社会的相互作用を正確に検出することであり、LAMは顔の作物配列にのみ依存し、TTMは話者の顔の作物と同期された音声セグメントを合成する。
LAMトラックでは,顔の質向上とアンサンブル手法を採用している。
TTMタスクでは、視覚的品質スコアによって重み付けされた音声と視覚的手がかりを融合させて視覚的相互作用分析を拡張する。
LAMおよびTTMチャレンジリーダーボード上で平均精度(mAP)を0.81と0.71と達成した。
コードはhttps://github.com/KanokphanL/PCIE_Ego4D_Social_Interactionで公開されている。
関連論文リスト
- Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction [7.412918099791407]
予測的ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進するが、ほとんどは音声にのみ依存する。
本稿では,マルチモーダルPTTMであるMM-VAPを紹介する。
ビデオ会議のインタラクションにおいて、最先端のオーディオオンリー(ホールド/シフト予測精度が84%に対して79%)を上回っていることが判明した。
論文 参考訳(メタデータ) (2025-05-27T11:24:38Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - PCIE_LAM Solution for Ego4D Looking At Me Challenge [25.029465595146533]
本報告では,CVPR2024におけるEgo4D Looking At Me Challengeのソリューションについて述べる。
課題の主な目的は、現場の人がカメラ着用者を見ているかどうかを正確に判断することである。
提案手法は,0.81mAPと0.93の精度で,私の挑戦に対する第1位を達成した。
論文 参考訳(メタデータ) (2024-06-18T02:16:32Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - On the Linguistic and Computational Requirements for Creating
Face-to-Face Multimodal Human-Machine Interaction [0.0]
ビデオ記録では、34人の人間とアバターのインタラクションを録画し、ビデオの抜粋で完全な言語的マイクロアナリシスを行い、マルチモーダル行動やイベントの発生を全て記録した。
このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。
本稿では,会話分析(CA)や認知科学,心の理論(ToM)などの知識を,人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案する。
論文 参考訳(メタデータ) (2022-11-24T21:17:36Z) - Face-to-Face Contrastive Learning for Social Intelligence
Question-Answering [55.90243361923828]
マルチモーダル手法は多くのタスクで技術の状態を設定するが、複雑な対面会話のダイナミクスをモデル化することは困難である。
社会的相互作用をモデル化するグラフニューラルネットワークF2F-CLを提案する。
課題であるSocial-IQデータセットを実験的に評価し、最先端の結果を示す。
論文 参考訳(メタデータ) (2022-07-29T20:39:44Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Modeling Cross-view Interaction Consistency for Paired Egocentric
Interaction Recognition [16.094976277810556]
Paired Egocentric Interaction Recognition (PEIR) は、2人の人間とビデオの相互作用を協調的に認識するタスクである。
本稿では,2つのビュー間の関係を両耳プーリングを用いて構築し,特徴レベルの一貫性を捉えることを提案する。
データセットPEVにおける実験結果は,タスクPEIRにおける提案手法の優位性を示している。
論文 参考訳(メタデータ) (2020-03-24T05:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。