Understanding-Enhanced Model Collaboration for Long-Tailed Egocentric Mistake Detection
Abstractの概要
本論文は、対象となるアクションが誤って実行されたかどうかを判定することを目的とする、インストラクショナルビデオにおける一人称視点のエラー検出を研究する。提案する理解強化型モデル連携アプローチ(UE-MCM)は、2つの補完的なブランチを使用する。すなわち、粗いビデオ全体と細かいアクションセグメントの両方から効率的なワークフローレベルの推論を行うスモールブランチと、ターゲットセグメントからきめ細かいアクションレベルの判定を行うラージブランチである。スモールブランチはDCR強化型CLIP4CLIPエンコーダで構築され、ラージブランチはQwen3-VL埋め込み特徴量を使用し、それらの予測は適応型コラボレーションゲートを通じて結合される。エラーサンプルの稀少性に対処するため、学習目標には、ロングテール最適化に向けた再重み付けクロスエントロピー、AUC指向の学習、およびラベル考慮調整が組み合わされている。
新規性
主な新規性は、異なる役割を持つ2つのモデル間の明示的な連携にある。一方は幅広いワークフロー内でアクションが適切かどうかを推論し、もう一方はアクションの実行自体が間違っているかどうかを判定する。また本手法は、このブランチ特化型設計を、適応的な予測融合や、稀で曖昧な一人称視点のエラーに合わせた多目的ロングテール学習戦略と組み合わせている点も特徴である。
成果
報告されたテストセットにおいて、本手法はRGB入力のみを使用して0.60のFスコアを達成している。表に示されている通り、これは記載されたTimeSformerベースライン(最大0.40)、2024年のトップ解法(0.51)、および2025年のトップ解法(0.57)よりも高い。報告された内訳では、2025年のトップ解法と比べて正解リコールが向上し(0.72対0.60)、2024年のトップ解法と比べてエラーリコールがはるかに高い(0.62対0.09)ことも示されている。
論文の注目点
- UE-MCMは、ワークフローレベルの不整合推論とアクションレベルの実行推論をスモールブランチとラージブランチに分離し、適応型コラボレーションゲートでそれらを融合する。
- スモールブランチはDCR強化型CLIP4CLIPエンコーダを使用して粗いビデオ全体と細かいアクションセグメントを結合エンコードし、ラージブランチは細かいセグメントから抽出した凍結されたQwen3-VL埋め込み特徴量を使用する。
- 学習設定では、再重み付けクロスエントロピー、AUC指向損失、およびラベル考慮調整を組み合わせることでクラス不均衡に対処し、最終システムはテストセットにおいてRGBのみで0.60のFスコアを報告している。