HOI-aware Adaptive Network for Weakly-supervised Action Segmentation
Abstractの概要
本論文は、トランスクリプト監督下での弱教師付き行動セグメンテーションのためのHOI認識適応ネットワーク「AdaAct」を提案する。本手法は、視覚的に類似した行動(例:ジュースを注ぐ vs. コーヒーを注ぐ)間の混同を、時間的にグローバルかつ空間的にローカルな人物-物体インタラクション(HOI)手がかりを動画レベルの事前知識として活用することで解決する。パイプラインには、ViTベースのネットワークを介して代表的なインタラクションを抽出・選択・統合するビデオHOIエンコーダと、HOI依存知識とHOI非依存知識を組み合わせて適応的時間エンコーダ(GRU+線形層)のパラメータを生成する2分岐HyperNetworkが含まれる。本手法はBreakfastおよび50Saladsベンチマークにおいて、行動セグメンテーションと行動アライメントの両タスクで評価されている。
新規性
本論文の主な新規性は、弱教師付き行動セグメンテーションにおいて、動画レベルのHOI情報を用いてテスト時に時間エンコーダのパラメータを動的に適応させる点にある。具体的には、3段階のビデオHOIエンコーダ(ViTを介した抽出・選択・統合)と、HOI依存知識とHOI非依存知識を要素積および後期融合により統合する2分岐HyperNetworkという特定のアーキテクチャを導入している。
成果
行動セグメンテーションにおいて、AdaActはBreakfastで51.2 MoF(次善手法を1.4%上回る)、50Saladsで55.6 MoF(0.9%上回る)を報告している。行動アライメントでは、Breakfastで64.4 MoF、50Saladsで69.8 MoFを達成し、比較手法を上回っている。アブレーション研究では、HOI依存知識が最大の単独改善(+3.7% MoF)を提供し、HOI非依存知識(+0.9%)およびマルチヘッド機構(+1.8%)がさらなる改善に寄与することが示された。
論文の注目点
- AdaActは、動画全体から選択された代表的な人物-物体インタラクション(ビデオNMSアルゴリズムとViTベース統合器を使用)を事前知識として活用し、異なる注ぎ動作などの視覚的に類似した行動を区別する。
- モデルは、HOI依存手がかりとHOI非依存の転移可能な知識を要素積で融合する2分岐HyperNetworkを通じて、動画ごとに時間エンコーダのパラメータを適応させる。
- BreakfastおよびSaladsでの実験では、行動セグメンテーションとアライメントの両タスクで既存手法に対する一貫した改善が示され、特に曖昧な行動を含む活動で大きな改善(例:コーヒー作りで+13.7% MoF、パンケーキ作りで+15.9%)が確認された。