論文の概要: Active Multimodal Distillation for Few-shot Action Recognition
- arxiv url: http://arxiv.org/abs/2506.13322v1
- Date: Mon, 16 Jun 2025 10:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.090174
- Title: Active Multimodal Distillation for Few-shot Action Recognition
- Title(参考訳): ファウショット動作認識のためのアクティブマルチモーダル蒸留法
- Authors: Weijia Feng, Yichen Zhu, Ruojia Zhang, Chenyang Wang, Fei Ma, Xiaobao Wang, Xiaobai Li,
- Abstract要約: 本稿では,タスク固有のコンテキストキューを用いて,各サンプルに対する信頼度を積極的に識別する新しいフレームワークを提案する。
我々のフレームワークはアクティブサンプル推論(ASI)モジュールを統合し、アクティブ推論を利用して信頼性の高いモダリティを予測する。
強化学習とは異なり、アクティブ推論は報酬をエビデンスに基づく選好に置き換え、より安定した予測を行う。
- 参考スコア(独自算出の注目度): 19.872938560809988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to its rapid progress and broad application prospects, few-shot action recognition has attracted considerable interest. However, current methods are predominantly based on limited single-modal data, which does not fully exploit the potential of multimodal information. This paper presents a novel framework that actively identifies reliable modalities for each sample using task-specific contextual cues, thus significantly improving recognition performance. Our framework integrates an Active Sample Inference (ASI) module, which utilizes active inference to predict reliable modalities based on posterior distributions and subsequently organizes them accordingly. Unlike reinforcement learning, active inference replaces rewards with evidence-based preferences, making more stable predictions. Additionally, we introduce an active mutual distillation module that enhances the representation learning of less reliable modalities by transferring knowledge from more reliable ones. Adaptive multimodal inference is employed during the meta-test to assign higher weights to reliable modalities. Extensive experiments across multiple benchmarks demonstrate that our method significantly outperforms existing approaches.
- Abstract(参考訳): 急速な進歩と幅広い応用の見通しのために、少数発のアクション認識はかなりの関心を集めている。
しかし、現在の手法は主に、マルチモーダル情報の可能性を十分に活用していない限定的な単一モーダルデータに基づいている。
本稿では,タスク固有のコンテキストキューを用いて各サンプルに対する信頼度を積極的に識別し,認識性能を大幅に向上させる新しいフレームワークを提案する。
我々のフレームワークはアクティブサンプル推論(Active Sample Inference, ASI)モジュールを統合し, 後続分布に基づいて信頼度を推定し, それらを整理する。
強化学習とは異なり、アクティブ推論は報酬をエビデンスに基づく選好に置き換え、より安定した予測を行う。
さらに,信頼性の低いモダリティの表現学習を,より信頼性の高いモダリティから知識を伝達することで促進する能動的相互蒸留モジュールを導入する。
アダプティブ・マルチモーダル推論は、メタテストの間、高い重みを信頼できるモダリティに割り当てるために使用される。
複数のベンチマークにまたがる大規模な実験により,本手法が既存手法より大幅に優れていることが示された。
関連論文リスト
- Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Elevating Skeleton-Based Action Recognition with Efficient
Multi-Modality Self-Supervision [40.16465314639641]
近年,人間の行動認識のための自己指導型表現学習が急速に発展している。
既存の作業の多くは、マルチモダリティ設定を使用してスケルトンデータに基づいている。
本稿ではまず,低性能モード間の誤った知識の伝播を緩和するインプリシト知識交換モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-21T12:27:43Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。
この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文 参考訳(メタデータ) (2023-06-02T04:29:57Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Active Speaker Detection as a Multi-Objective Optimization with
Uncertainty-based Multimodal Fusion [0.07874708385247352]
本稿では, 能動話者検出を多目的学習問題として概説し, 新たな自己注意・不確実性に基づくマルチモーダル融合方式を用いて各モーダルを最大限活用する。
その結果,提案した多目的学習アーキテクチャは,mAPとAUCのスコアを改善する従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T17:38:55Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。