論文の概要: EgoAction: Egocentric Action Composition with Reliability-Aware Temporal Fusion for the EPIC-KITCHENS Action Detection Challenge at CVPR 2026
- arxiv url: http://arxiv.org/abs/2605.24496v1
- Date: Sat, 23 May 2026 10:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.134294
- Title: EgoAction: Egocentric Action Composition with Reliability-Aware Temporal Fusion for the EPIC-KITCHENS Action Detection Challenge at CVPR 2026
- Title(参考訳): EgoAction: Egocentric Action composition with Reliability-Aware Temporal Fusion for the EPIC-KITCHENS Action Detection Challenge at CVPR 2026
- Authors: Zhiheng Fu, Zixu Li, Zhiwei Chen, Fangxu Liu, Yupeng Hu, Weili Guan, Liqiang Nie,
- Abstract要約: EgoActionは、統合された分離された検出と融合パイプラインである。
パイプラインはEPICに精細化されたVideoMAE-L機能を使用し、因果時間モデルを用いて名詞と動詞の時間的検出器を分離する。
EgoActionは、エゴセントリックな時間的行動検出のためのコンパクトで再現可能なシステムを提供する。
- 参考スコア(独自算出の注目度): 69.56534058291463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The EPIC-KITCHENS-100 Action Detection challenge evaluates whether a model can localize the start and end of each action in long untrimmed egocentric videos and assign the corresponding verb--noun action label. In this report, we formulate our submission as EgoAction (Egocentric Action Composition with Reliability-Aware Temporal Fusion), a unified decoupled detection and fusion pipeline. The pipeline uses EPIC-finetuned VideoMAE-L features, trains separate noun and verb temporal detectors with causal temporal modeling, composes action hypotheses from top noun--verb pairs, and introduces a confidence-adaptive boundary fusion rule at post-processing time. The key observation is that verb and noun streams often fail differently: verb scores are sensitive to motion transitions, whereas noun scores are sensitive to hand-object visibility and object clutter. A fixed arithmetic mean of their predicted boundaries can therefore amplify localization errors when one stream degenerates. We replace this hard-coded mean with Dynamic Weighted Fusion (DWF), which normalizes the maximum noun and verb classification confidences into proposal-wise boundary weights and linearly combines the two intervals. This lightweight tensor-only operator shifts boundary authority toward the more reliable stream while preserving the decoupled action scoring mechanism. Together with sliding-window inference, top-K noun--verb action composition, and class-wise Soft-NMS, EgoAction provides a compact and reproducible system for egocentric temporal action detection.
- Abstract(参考訳): EPIC-KITCHENS-100 Action Detection Challenge(EPIC-KITCHENS-100 Action Detection)は、長編のエゴセントリックビデオにおいて、モデルが各アクションの開始と終了をローカライズできるかどうかを評価し、対応する動詞-名詞アクションラベルを割り当てる。
本稿では,EgoAction(Egocentric Action composition with Reliability-Aware Temporal Fusion, Egocentric Action composition with Reliability-Aware Temporal Fusion, Egocentric Action composition with Reliability-Aware Temporal Fusion)として提案する。
このパイプラインはEPICで微調整されたVideoMAE-L機能を使用し、因果時間モデルで名詞と動詞の時間的検出を分離し、上位の名詞-動詞対からアクション仮説を作成し、後処理時に信頼適応境界融合ルールを導入する。
動詞のスコアは動きの遷移に敏感であり、名詞のスコアは手動の可視性とオブジェクトの乱れに敏感である。
したがって、予測境界の固定算術平均は、あるストリームが縮退したときの局所化誤差を増幅することができる。
我々は、このハードコードされた平均値を動的重み付き融合(DWF)に置き換え、最大名詞と動詞の分類の信頼度をプロポーザルワイド境界重みに正規化し、2つの区間を線形に結合する。
この軽量なテンソルのみ演算子は、分離されたアクションスコアリング機構を保持しながら、バウンダリ権限をより信頼性の高いストリームにシフトする。
EgoActionは、スライドウインドウ推論、トップK名詞動詞アクション合成、およびクラスワイドなソフトNMSとともに、エゴセントリックな時間的行動検出のためのコンパクトで再現可能なシステムを提供する。
関連論文リスト
- VISTA: Technical Report for the Ego4D Short-Term Object Interaction Anticipation at EgoVis 2026 [70.67609435035631]
エゴセントリックなビデオタイムスタンプが与えられたら、次の人間と物体の相互作用を予測する必要がある。
ViSTAは、オブジェクト中心空間検出と短時間時間コンテキストを組み合わせたStillFastスタイルの設計に従う。
実験の結果、VISTAはEgoVis 2026 Ego4D STA Challengeで1位を獲得した。
論文 参考訳(メタデータ) (2026-05-20T08:42:56Z) - Masked Temporal Interpolation Diffusion for Procedure Planning in Instructional Videos [32.71627274876863]
本稿では,授業ビデオにおけるプロシージャ計画の課題に対処し,開始と終了の視覚的観察から協調的かつタスクに沿ったアクションシーケンスを生成することを目的とする。
これまでの研究は主に、観察された状態と観察されていない行動の間のギャップを埋めるためにテキストレベルの監督に依存してきたが、行動間の複雑な時間的関係を捉えるのに苦労した。
本研究では,拡散モデル内に潜時空間時間モジュールを導入した仮設仮設時間補間拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-07-04T08:54:59Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Egocentric Action Recognition by Video Attention and Temporal Context [83.57475598382146]
我々は,Samsung AI Centre Cambridge を CVPR 2020 EPIC-Kitchens Action Recognition Challenge に提出する。
この課題では、入力トリミングされたビデオクリップが与えられた1つの動詞と名詞のクラスラベルを同時に予測する問題として、行動認識が提案される。
我々のソリューションは、オブジェクト固有の推論や余分なトレーニングデータを用いることなく、課題メトリクスの強力なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-03T18:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。