論文の概要: Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views
- arxiv url: http://arxiv.org/abs/2602.08755v2
- Date: Tue, 10 Feb 2026 13:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.13889
- Title: Redundancy-Free View Alignment for Multimodal Human Activity Recognition with Arbitrarily Missing Views
- Title(参考訳): 任意視点を欠いたマルチモーダル・ヒューマン・アクティビティ認識のための冗長性のないビューアライメント
- Authors: Duc-Anh Nguyen, Nhien-An Le-Khac,
- Abstract要約: RALISは、マルチビューのコントラスト学習とエキスパートの混合モジュールを組み合わせて、トレーニングと推論の両方で任意のビューアベイラビリティをサポートするモデルである。
RALISは、慣性と人間のポーズのモダリティを含む4つのモードで検証され、3から9までのビューの数は、そのパフォーマンスと柔軟性を示している。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal multiview learning seeks to integrate information from diverse sources to enhance task performance. Existing approaches often struggle with flexible view configurations, including arbitrary view combinations, numbers of views, and heterogeneous modalities. Focusing on the context of human activity recognition, we propose RALIS, a model that combines multiview contrastive learning with a mixture-of-experts module to support arbitrary view availability during both training and inference. Instead of trying to reconstruct missing views, an adjusted center contrastive loss is used for self-supervised representation learning and view alignment, mitigating the impact of missing views on multiview fusion. This loss formulation allows for the integration of view weights to account for view quality. Additionally, it reduces computational complexity from $O(V^2)$ to $O(V)$, where $V$ is the number of views. To address residual discrepancies not captured by contrastive learning, we employ a mixture-of-experts module with a specialized load balancing strategy, tasked with adapting to arbitrary view combinations. We highlight the geometric relationship among components in our model and how they combine well in the latent space. RALIS is validated on four datasets encompassing inertial and human pose modalities, with the number of views ranging from three to nine, demonstrating its performance and flexibility.
- Abstract(参考訳): マルチモーダルなマルチビュー学習は、タスクパフォーマンスを向上させるために、多様なソースからの情報を統合することを目指している。
既存のアプローチでは、任意のビューの組み合わせ、ビューの数、不均一なモダリティなど、フレキシブルなビュー設定に悩まされることが多い。
人間の活動認識の文脈に着目し,マルチビューのコントラスト学習と,学習と推論の双方において,任意のビューアベイラビリティをサポートするミックス・オブ・エキスパート・モジュールを組み合わせたモデルであるRALISを提案する。
欠落したビューを再構築する代わりに、自己教師付き表現学習とビューアライメントに調整された中心のコントラスト損失が使われ、欠落したビューがマルチビュー融合に与える影響を緩和する。
この損失の定式化は、ビューの質を考慮に入れたビューウェイトの統合を可能にする。
さらに、計算複雑性を$O(V^2)$から$O(V)$に減らし、$V$はビューの数である。
コントラスト学習では得られない残差に対処するため,任意のビューの組み合わせに適応する特別のロードバランシング戦略を備えたMix-of-expertsモジュールを用いる。
我々は、モデル内の成分間の幾何学的関係と、それらが潜在空間においてどのようにうまく結合するかを強調した。
RALISは、慣性と人間のポーズのモダリティを含む4つのデータセットで検証されており、3から9までのビュー数があり、そのパフォーマンスと柔軟性を示している。
関連論文リスト
- Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。
本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。
我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文 参考訳(メタデータ) (2025-01-11T12:19:20Z) - Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。
MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。
本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文 参考訳(メタデータ) (2025-01-05T14:42:47Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。