論文の概要: Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency
- arxiv url: http://arxiv.org/abs/2603.09798v1
- Date: Tue, 10 Mar 2026 15:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.42723
- Title: Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency
- Title(参考訳): Ego-Exo-centric Adaptation for Action Precipation by Multi-Label Prototype Growing and Dual-Clue Consistency
- Authors: Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li,
- Abstract要約: エゴセントリック(エゴ)とエクソセントリック(エクソ)の視点の効率的な適応は、人間とロボットの協調のような応用には不可欠である。
本研究では,テスト期間中にオンラインのソースビュー学習モデルを調整することを目的とした,テスト時間Ego-Exo Adaptation for Action Precipationタスクを初めて検討する。
本稿では,多言語知識を蓄積し,効率的なテストタイムEgo-Exo適応とアクション予測のためのモダリティ間ヒントを統合する,Dual-Clue enhanced Prototype Growing Network (DCPGN)を提案する。
- 参考スコア(独自算出の注目度): 40.40925141225835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient adaptation between Egocentric (Ego) and Exocentric (Exo) views is crucial for applications such as human-robot cooperation. However, the success of most existing Ego-Exo adaptation methods relies heavily on target-view data for training, thereby increasing computational and data collection costs. In this paper, we make the first exploration of a Test-time Ego-Exo Adaptation for Action Anticipation (TE$^{2}$A$^{3}$) task, which aims to adjust the source-view-trained model online during test time to anticipate target-view actions. It is challenging for existing Test-Time Adaptation (TTA) methods to address this task due to the multi-action candidates and significant temporal-spatial inter-view gap. Hence, we propose a novel Dual-Clue enhanced Prototype Growing Network (DCPGN), which accumulates multi-label knowledge and integrates cross-modality clues for effective test-time Ego-Exo adaptation and action anticipation. Specifically, we propose a Multi-Label Prototype Growing Module (ML-PGM) to balance multiple positive classes via multi-label assignment and confidence-based reweighting for class-wise memory banks, which are updated by an entropy priority queue strategy. Then, the Dual-Clue Consistency Module (DCCM) introduces a lightweight narrator to generate textual clues indicating action progressions, which complement the visual clues containing various objects. Moreover, we constrain the inferred textual and visual logits to construct dual-clue consistency for temporally and spatially bridging Ego and Exo views. Extensive experiments on the newly proposed EgoMe-anti and the existing EgoExoLearn benchmarks show the effectiveness of our method, which outperforms related state-of-the-art methods by a large margin. Code is available at \href{https://github.com/ZhaofengSHI/DCPGN}{https://github.com/ZhaofengSHI/DCPGN}.
- Abstract(参考訳): エゴセントリック(エゴ)とエクソセントリック(エクソ)の視点の効率的な適応は、人間とロボットの協調のような応用には不可欠である。
しかし,既存のEgo-Exo適応手法の成功は,目標視データに大きく依存しているため,計算コストやデータ収集コストが増大する。
本稿では,テスト時間中にオンラインのソースビュー学習モデルを調整することを目的とした,テスト時間Ego-Exo Adaptation for Action Precipation (TE$^{2}$A$^{3}$)タスクを初めて探索する。
従来のテスト時間適応(TTA)手法では,多アクション候補と時間空間間の大きなギャップのため,この課題に対処することが困難である。
そこで本研究では,多ラベル知識を蓄積し,効率的なテストタイムEgo-Exo適応とアクション予測のためのモダリティヒントを統合する,Dual-Clue enhanced Prototype Growing Network (DCPGN)を提案する。
具体的には,マルチラベル代入とクラスワイドメモリバンクの信頼度に基づく再重み付けによって複数の正のクラスをバランスさせるマルチラベルプロトタイプ成長モジュール(ML-PGM)を提案する。
次に、Dual-Clue Consistency Module (DCCM)が軽量なナレーターを導入し、さまざまなオブジェクトを含む視覚的手がかりを補完する行動進行を示すテキストのヒントを生成する。
さらに、推定テキストと視覚ロジットを制約し、時間的・空間的にEgoとExoのビューをブリッジするための二重キュー整合性を構築する。
新たに提案したEgoMe-antiと既存のEgoExoLearnベンチマークの大規模な実験により,提案手法の有効性が示された。
コードは \href{https://github.com/ZhaofengSHI/DCPGN}{https://github.com/ZhaofengSHI/DCPGN} で公開されている。
関連論文リスト
- A Unified Multi-Task Learning Framework for Generative Auto-Bidding with Validation-Aligned Optimization [51.27959658504722]
マルチタスク学習は、これらのタスクを共有表現を通じて共同でトレーニングするための、原則化されたフレームワークを提供する。
既存のマルチタスク最適化戦略は、主にトレーニングダイナミクスによって導かれ、不安定な入札環境ではよく一般化される。
本稿では,タスク毎のトレーニング勾配と保留有効度勾配のアライメントに基づいてタスク重みを適応的に割り当てる,バリデーション適応型マルチタスク最適化(VAMO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T03:59:51Z) - HAMoBE: Hierarchical and Adaptive Mixture of Biometric Experts for Video-based Person ReID [14.923830228090246]
バイオメトリックエキスパートの階層的・適応的混合(HAMoBE)フレームワークを提案する。
HamoBEは、キーバイオメトリックの特徴を独立してモデル化することで、人間の知覚機構を模倣する。
私たちのアプローチは、大幅なパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2025-08-07T05:34:14Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - KOPPA: Improving Prompt-based Continual Learning with Key-Query Orthogonal Projection and Prototype-based One-Versus-All [24.50129285997307]
本稿では,新しいキークエリ学習戦略を導入し,マッチング効率を向上し,機能変更の課題に対処する。
提案手法は,現在の最先端手法を最大20%の差で超えた結果を達成するためのモデルである。
論文 参考訳(メタデータ) (2023-11-26T20:35:19Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。