FuguReport

Understanding-Enhanced Model Collaboration for Long-Tailed Egocentric Mistake Detection

著者 Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Ruochen Cui, Qingming Huang
所属 Institute of Computing Technology, CAS / University of the Chinese Academy of Sciences / Beijing Academy of Artificial Intelligence / Institute of Information Engineering, CAS
カテゴリ Method / Model Collaboration / Enhanced cooperation for video understanding, Application / Video Analysis / Egocentric action mistake detection, Evaluation / Performance Trade-offs / Speed and accuracy balance assessment
ライセンス CC BY 4.0

Abstractの概要

本論文は、対象となるアクションが誤って実行されたかどうかを判定することを目的とする、インストラクショナルビデオにおける一人称視点のエラー検出を研究する。提案する理解強化型モデル連携アプローチ(UE-MCM)は、2つの補完的なブランチを使用する。すなわち、粗いビデオ全体と細かいアクションセグメントの両方から効率的なワークフローレベルの推論を行うスモールブランチと、ターゲットセグメントからきめ細かいアクションレベルの判定を行うラージブランチである。スモールブランチはDCR強化型CLIP4CLIPエンコーダで構築され、ラージブランチはQwen3-VL埋め込み特徴量を使用し、それらの予測は適応型コラボレーションゲートを通じて結合される。エラーサンプルの稀少性に対処するため、学習目標には、ロングテール最適化に向けた再重み付けクロスエントロピー、AUC指向の学習、およびラベル考慮調整が組み合わされている。

新規性

主な新規性は、異なる役割を持つ2つのモデル間の明示的な連携にある。一方は幅広いワークフロー内でアクションが適切かどうかを推論し、もう一方はアクションの実行自体が間違っているかどうかを判定する。また本手法は、このブランチ特化型設計を、適応的な予測融合や、稀で曖昧な一人称視点のエラーに合わせた多目的ロングテール学習戦略と組み合わせている点も特徴である。

成果

報告されたテストセットにおいて、本手法はRGB入力のみを使用して0.60のFスコアを達成している。表に示されている通り、これは記載されたTimeSformerベースライン(最大0.40)、2024年のトップ解法(0.51)、および2025年のトップ解法(0.57)よりも高い。報告された内訳では、2025年のトップ解法と比べて正解リコールが向上し(0.72対0.60)、2024年のトップ解法と比べてエラーリコールがはるかに高い(0.62対0.09)ことも示されている。

論文の注目点

  1. UE-MCMは、ワークフローレベルの不整合推論とアクションレベルの実行推論をスモールブランチとラージブランチに分離し、適応型コラボレーションゲートでそれらを融合する。
  2. スモールブランチはDCR強化型CLIP4CLIPエンコーダを使用して粗いビデオ全体と細かいアクションセグメントを結合エンコードし、ラージブランチは細かいセグメントから抽出した凍結されたQwen3-VL埋め込み特徴量を使用する。
  3. 学習設定では、再重み付けクロスエントロピー、AUC指向損失、およびラベル考慮調整を組み合わせることでクラス不均衡に対処し、最終システムはテストセットにおいてRGBのみで0.60のFスコアを報告している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。