論文の概要: View-aware Cross-modal Distillation for Multi-view Action Recognition
- arxiv url: http://arxiv.org/abs/2511.12870v1
- Date: Mon, 17 Nov 2025 02:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.594958
- Title: View-aware Cross-modal Distillation for Multi-view Action Recognition
- Title(参考訳): 多視点行動認識のためのビュー対応クロスモーダル蒸留
- Authors: Trung Thanh Nguyen, Yasutomo Kawanishi, Vijay John, Takahiro Komamizu, Ichiro Ide,
- Abstract要約: 完全教師付きマルチモーダル教師からモダリティとアノテーションに制限された学生へ知識を抽出するために,ビューアウェアなクロスモーダル知識蒸留(ViCoKD)を提案する。
ViCoKDは、クロスモーダルな注意を持つクロスモーダルなアダプタを採用しており、学生は不完全なモーダルで操作しながらマルチモーダルな相関を利用することができる。
また,ビューアウェア・コンシステンシー・モジュールを提案する。ビューアウェア・コンシステンシー・モジュールはビューアライメントのミスアライメントに対処する。
- 参考スコア(独自算出の注目度): 7.312418283882337
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread use of multi-sensor systems has increased research in multi-view action recognition. While existing approaches in multi-view setups with fully overlapping sensors benefit from consistent view coverage, partially overlapping settings where actions are visible in only a subset of views remain underexplored. This challenge becomes more severe in real-world scenarios, as many systems provide only limited input modalities and rely on sequence-level annotations instead of dense frame-level labels. In this study, we propose View-aware Cross-modal Knowledge Distillation (ViCoKD), a framework that distills knowledge from a fully supervised multi-modal teacher to a modality- and annotation-limited student. ViCoKD employs a cross-modal adapter with cross-modal attention, allowing the student to exploit multi-modal correlations while operating with incomplete modalities. Moreover, we propose a View-aware Consistency module to address view misalignment, where the same action may appear differently or only partially across viewpoints. It enforces prediction alignment when the action is co-visible across views, guided by human-detection masks and confidence-weighted Jensen-Shannon divergence between their predicted class distributions. Experiments on the real-world MultiSensor-Home dataset show that ViCoKD consistently outperforms competitive distillation methods across multiple backbones and environments, delivering significant gains and surpassing the teacher model under limited conditions.
- Abstract(参考訳): マルチセンサーシステムの普及により、多視点動作認識の研究が活発化している。
完全に重なり合うセンサーを備えたマルチビューセットアップにおける既存のアプローチは、一貫したビューカバレッジの恩恵を受けるが、部分的に重なり合う設定では、ビューのサブセットでのみアクションが見える。
多くのシステムは限られた入力モダリティしか提供せず、密度の高いフレームレベルのラベルの代わりにシーケンスレベルのアノテーションに依存しているため、現実のシナリオではこの課題はより深刻になる。
本研究では,教師の指導を受けた教師からモダリティとアノテーションに制限された学生に知識を蒸留するフレームワークViCoKD(View-Aware Cross-modal Knowledge Distillation)を提案する。
ViCoKDは、クロスモーダルな注意を持つクロスモーダルなアダプタを採用しており、学生は不完全なモーダルで操作しながらマルチモーダルな相関を利用することができる。
また,ビューアウェア・コンシステンシー・モジュールを提案する。ビューアウェア・コンシステンシー・モジュールはビューアライメントのミスアライメントに対処する。
これは、人間の検出マスクと、予測されたクラス分布間の信頼度に富んだジェンセン・シャノンの偏差によって導かれる、ビュー間でアクションがコビジュアライズされたときの予測アライメントを強制する。
実世界のMultiSensor-Homeデータセットの実験では、ViCoKDは複数のバックボーンと環境の競争蒸留法を一貫して上回り、大きな利益をもたらし、限られた条件下で教師モデルを上回っている。
関連論文リスト
- Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Hierarchical Mutual Distillation for Multi-View Fusion: Learning from All Possible View Combinations [0.053801353100098995]
本稿では,新しいMV-UWMD法を提案する。
MV-UWMDは既存のマルチビュー学習手法と比較して予測精度と一貫性を向上させる。
論文 参考訳(メタデータ) (2024-11-15T09:45:32Z) - Towards Generalized Multi-stage Clustering: Multi-view Self-distillation [10.368796552760571]
既存のマルチステージクラスタリング手法は、独立して複数のビューから健全な特徴を学習し、クラスタリングタスクを実行する。
本稿では,多視点自己蒸留(DistilMVC)を導入し,ラベル分布の暗黒知識を抽出する多段階深層MVCフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:35:34Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。