論文の概要: SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion
- arxiv url: http://arxiv.org/abs/2603.12764v1
- Date: Fri, 13 Mar 2026 08:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.991771
- Title: SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion
- Title(参考訳): SAVA-X:シーン適応型ビューアライメントと双方向クロスビューフュージョンによるエゴ・ト・エクソイミテーション誤差検出
- Authors: Xiang Li, Heqian Qiu, Lanxiao Wang, Benliu Qiu, Fanman Meng, Linfeng Xu, Hongliang Li,
- Abstract要約: エラー検出は、産業訓練、医療、組立品質管理において重要である。
既存の作業の多くは、単一視点の設定を前提としており、第三者(エゴ)の模擬(エゴ)を評価するために第三者(エゴ)のデモンストレーションを使用する実践的なケースを扱うことができない。
Ego$rightarrow$Exo Imitation Error Detection: 非同期、長さミスマッチしたエゴおよびエクソビデオが与えられた場合、モデルはエゴタイムライン上の手続きステップをローカライズし、それぞれが誤っているかを決定する必要がある。
統合されたプロトコルの下では、高密度ビデオキャプションと時間的行動検出から強いベースラインを適応し、それらが困難であることを示す。
- 参考スコア(独自算出の注目度): 40.3840960397891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Error detection is crucial in industrial training, healthcare, and assembly quality control. Most existing work assumes a single-view setting and cannot handle the practical case where a third-person (exo) demonstration is used to assess a first-person (ego) imitation. We formalize Ego$\rightarrow$Exo Imitation Error Detection: given asynchronous, length-mismatched ego and exo videos, the model must localize procedural steps on the ego timeline and decide whether each is erroneous. This setting introduces cross-view domain shift, temporal misalignment, and heavy redundancy. Under a unified protocol, we adapt strong baselines from dense video captioning and temporal action detection and show that they struggle in this cross-view regime. We then propose SAVA-X, an Align-Fuse-Detect framework with (i) view-conditioned adaptive sampling, (ii) scene-adaptive view embeddings, and (iii) bidirectional cross-attention fusion. On the EgoMe benchmark, SAVA-X consistently improves AUPRC and mean tIoU over all baselines, and ablations confirm the complementary benefits of its components. Code is available at https://github.com/jack1ee/SAVAX.
- Abstract(参考訳): エラー検出は、産業訓練、医療、組立品質管理において重要である。
既存の作業の多くは、単一視点の設定を前提としており、第三者(エゴ)の模擬(エゴ)を評価するために第三者(エゴ)のデモンストレーションを使用する実践的なケースを扱うことができない。
Ego$\rightarrow$Exo Imitation Error Detection: 非同期、長さミスマッチしたエゴおよびエクソビデオが与えられた場合、モデルはegoタイムライン上の手続きステップをローカライズし、それぞれが誤っているかを決定する必要がある。
この設定は、クロスビュードメインシフト、時間的ミスアライメント、重い冗長性を導入します。
統合されたプロトコルの下では,高密度映像キャプションと時間的行動検出から強いベースラインに適応し,このクロスビュー体制に苦しむことを示す。
次に、Align-Fuse-DetectフレームワークであるSAVA-Xを提案する。
(i)ビューコンディショニング適応サンプリング
(二)シーン適応型ビュー埋め込み、及び
三 双方向横断核融合
EgoMeベンチマークでは、SAVA-XはAUPRCとtIoUをすべてのベースラインで一貫して改善し、Ablationsはそのコンポーネントの補完的なメリットを確認している。
コードはhttps://github.com/jack1ee/SAVAX.comで入手できる。
関連論文リスト
- VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer [18.348454274148185]
ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-09T04:33:56Z) - V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence [90.92892171307055]
V2-SAMは、統合されたクロスビューオブジェクト対応フレームワークである。
SAM2は2つの相補的なプロンプトジェネレータを通して、シングルビューセグメンテーションからクロスビュー対応に適応する。
V2-SAMは、Ego-Exo4D(ego-exoオブジェクト対応)、DAVIS-2017(ビデオオブジェクト追跡)、HANDAL-X(robotic-ready cross-view対応)の新たな最先端性能を実現する
論文 参考訳(メタデータ) (2025-11-25T22:06:30Z) - EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization [17.622013322533423]
EVA02-ATは、エゴセントリックなビデオ理解タスクに適した、EVA02ベースのビデオ言語基盤モデルのスイートである。
EVA02-ATは、画像ベースのCLIPモデルをシングルステージプレトレーニングを介して、統一ビデオエンコーダに効率的に転送する。
我々は,Symmetric Multi-Similarity(SMS)損失と,正と負のペアに対してすべてのソフトラベルを前進させる新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-06-17T09:51:51Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。