論文の概要: Active Multimodal Distillation for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2506.13322v1
- Date: Mon, 16 Jun 2025 10:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.090174
- Title: Active Multimodal Distillation for Few-shot Action Recognition
- Title(参考訳): ファウショット動作認識のためのアクティブマルチモーダル蒸留法
- Authors: Weijia Feng, Yichen Zhu, Ruojia Zhang, Chenyang Wang, Fei Ma, Xiaobao Wang, Xiaobai Li,
- Abstract要約: 本稿では,タスク固有のコンテキストキューを用いて,各サンプルに対する信頼度を積極的に識別する新しいフレームワークを提案する。
我々のフレームワークはアクティブサンプル推論(ASI)モジュールを統合し、アクティブ推論を利用して信頼性の高いモダリティを予測する。
強化学習とは異なり、アクティブ推論は報酬をエビデンスに基づく選好に置き換え、より安定した予測を行う。
- 参考スコア(独自算出の注目度): 19.872938560809988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to its rapid progress and broad application prospects, few-shot action recognition has attracted considerable interest. However, current methods are predominantly based on limited single-modal data, which does not fully exploit the potential of multimodal information. This paper presents a novel framework that actively identifies reliable modalities for each sample using task-specific contextual cues, thus significantly improving recognition performance. Our framework integrates an Active Sample Inference (ASI) module, which utilizes active inference to predict reliable modalities based on posterior distributions and subsequently organizes them accordingly. Unlike reinforcement learning, active inference replaces rewards with evidence-based preferences, making more stable predictions. Additionally, we introduce an active mutual distillation module that enhances the representation learning of less reliable modalities by transferring knowledge from more reliable ones. Adaptive multimodal inference is employed during the meta-test to assign higher weights to reliable modalities. Extensive experiments across multiple benchmarks demonstrate that our method significantly outperforms existing approaches.
- Abstract(参考訳): 急速な進歩と幅広い応用の見通しのために、少数発のアクション認識はかなりの関心を集めている。
しかし、現在の手法は主に、マルチモーダル情報の可能性を十分に活用していない限定的な単一モーダルデータに基づいている。
本稿では,タスク固有のコンテキストキューを用いて各サンプルに対する信頼度を積極的に識別し,認識性能を大幅に向上させる新しいフレームワークを提案する。
我々のフレームワークはアクティブサンプル推論(Active Sample Inference, ASI)モジュールを統合し, 後続分布に基づいて信頼度を推定し, それらを整理する。
強化学習とは異なり、アクティブ推論は報酬をエビデンスに基づく選好に置き換え、より安定した予測を行う。
さらに,信頼性の低いモダリティの表現学習を,より信頼性の高いモダリティから知識を伝達することで促進する能動的相互蒸留モジュールを導入する。
アダプティブ・マルチモーダル推論は、メタテストの間、高い重みを信頼できるモダリティに割り当てるために使用される。
複数のベンチマークにまたがる大規模な実験により,本手法が既存手法より大幅に優れていることが示された。
関連論文リスト
- Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Elevating Skeleton-Based Action Recognition with Efficient
Multi-Modality Self-Supervision [40.16465314639641]
近年,人間の行動認識のための自己指導型表現学習が急速に発展している。
既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。
本稿ではまず,低性能モード間の誤った知識の伝播を緩和するインプリシト知識交換モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-21T12:27:43Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。