論文の概要: Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations
- arxiv url: http://arxiv.org/abs/2602.08755v3
- Date: Wed, 18 Feb 2026 16:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.925392
- Title: Align and Adapt: Multimodal Multiview Human Activity Recognition under Arbitrary View Combinations
- Title(参考訳): アライメントと適応:任意ビューの組み合わせによるマルチモーダル・マルチビュー人間活動認識
- Authors: Duc-Anh Nguyen, Nhien-An Le-Khac,
- Abstract要約: AliAdは、マルチビューのコントラスト学習とエキスパートの混合モジュールを組み合わせて、トレーニングと推論の両方で任意のビューアベイラビリティをサポートするモデルである。
AliAdは、慣性と人間のポーズのモダリティを含む4つのデータセットで検証されており、ビュー数は3から9までで、パフォーマンスと柔軟性を示している。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal multiview learning seeks to integrate information from diverse sources to enhance task performance. Existing approaches often struggle with flexible view configurations, including arbitrary view combinations, numbers of views, and heterogeneous modalities. Focusing on the context of human activity recognition, we propose AliAd, a model that combines multiview contrastive learning with a mixture-of-experts module to support arbitrary view availability during both training and inference. Instead of trying to reconstruct missing views, an adjusted center contrastive loss is used for self-supervised representation learning and view alignment, mitigating the impact of missing views on multiview fusion. This loss formulation allows for the integration of view weights to account for view quality. Additionally, it reduces computational complexity from $O(V^2)$ to $O(V)$, where $V$ is the number of views. To address residual discrepancies not captured by contrastive learning, we employ a mixture-of-experts module with a specialized load balancing strategy, tasked with adapting to arbitrary view combinations. We highlight the geometric relationship among components in our model and how they combine well in the latent space. AliAd is validated on four datasets encompassing inertial and human pose modalities, with the number of views ranging from three to nine, demonstrating its performance and flexibility.
- Abstract(参考訳): マルチモーダルなマルチビュー学習は、タスクパフォーマンスを向上させるために、多様なソースからの情報を統合することを目指している。
既存のアプローチは、任意のビューの組み合わせ、ビューの数、不均一なモダリティなど、フレキシブルなビュー設定に悩まされることが多い。
人間の活動認識のコンテキストに着目し,多視点コントラスト学習と実験モジュールを併用したモデルAliAdを提案し,学習と推論の双方において,任意のビューアベイラビリティをサポートする。
欠落したビューを再構築する代わりに、自己教師付き表現学習とビューアライメントに調整された中心のコントラスト損失が使われ、欠落したビューがマルチビュー融合に与える影響を緩和する。
この損失の定式化は、ビューの質を考慮に入れたビューウェイトの統合を可能にする。
さらに、計算複雑性を$O(V^2)$から$O(V)$に減らし、$V$はビューの数である。
コントラスト学習では得られない残差に対処するため,任意のビューの組み合わせに適応する特別のロードバランシング戦略を備えたMix-of-expertsモジュールを用いる。
我々は、モデル内の成分間の幾何学的関係と、それらが潜在空間においてどのようにうまく結合するかを強調した。
AliAdは、慣性と人間のポーズのモダリティを含む4つのデータセットで検証されており、ビュー数は3から9までで、パフォーマンスと柔軟性を示している。
関連論文リスト
- Multi-View Factorizing and Disentangling: A Novel Framework for Incomplete Multi-View Multi-Label Classification [9.905528765058541]
非完全多視点マルチラベル分類(iMvMLC)のための新しいフレームワークを提案する。
本手法は,多視点表現をビュー一貫性とビュー固有の2つの独立した要素に分解する。
我々のフレームワークは、一貫した表現学習を3つの重要なサブオブジェクトに革新的に分解する。
論文 参考訳(メタデータ) (2025-01-11T12:19:20Z) - Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。
MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。
本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文 参考訳(メタデータ) (2025-01-05T14:42:47Z) - Learning from Semantic Alignment between Unpaired Multiviews for
Egocentric Video Recognition [23.031934558964473]
本稿では,セマンティックスをベースとしたUnpaired Multiview Learning (SUM-L)を提案する。
主要なアイデアは、ビデオの意味情報を活用することで、クロスビューの擬似ペアを構築し、ビュー不変アライメントを行うことである。
また,本手法は,より難易度の高いシナリオ下で,既存のビューアライメント手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-22T15:10:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Cross-view Graph Contrastive Representation Learning on Partially
Aligned Multi-view Data [52.491074276133325]
マルチビュー表現学習は、過去数十年間で急速に発展し、多くの分野に応用されてきた。
本稿では,多視点情報を統合してデータアライメントを行い,潜在表現を学習する,新しいクロスビューグラフコントラスト学習フレームワークを提案する。
複数の実データを用いて実験を行い,クラスタリングおよび分類作業における提案手法の有効性を示した。
論文 参考訳(メタデータ) (2022-11-08T09:19:32Z) - MORI-RAN: Multi-view Robust Representation Learning via Hybrid
Contrastive Fusion [4.36488705757229]
多視点表現学習は、クラスタリングや分類といった多くの多視点タスクに不可欠である。
ラベルのないデータから堅牢なビュー-共通表現を抽出するハイブリッドコントラスト融合アルゴリズムを提案する。
実験の結果,提案手法は実世界の4つのデータセットにおいて,12の競合的マルチビュー手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-26T09:58:37Z) - V3H: View Variation and View Heredity for Incomplete Multi-view
Clustering [65.29597317608844]
不完全なマルチビュークラスタリングは、これらの不完全なビューを統合する効果的な方法である。
本稿では,この制限を克服するために,新しいビューバージョニング・ビュー・ジェレダリティ・アプローチ(V3H)を提案する。
V3Hは、不完全なマルチビューデータから一貫した情報とユニークな情報を同時に学習するためのクラスタリングアルゴリズムに遺伝学を導入する最初の研究である可能性がある。
論文 参考訳(メタデータ) (2020-11-23T03:24:48Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z) - Multi-view Low-rank Preserving Embedding: A Novel Method for Multi-view
Representation [11.91574721055601]
本稿では,MvLPE(Multi-view Low-rank Preserving Embedding)という新しい多視点学習手法を提案する。
異なるビューを1つのセントロイドビューに統合し、インスタンス間の距離や類似性行列に基づいて、不一致項を最小化する。
6つのベンチマークデータセットの実験では、提案手法がそれよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-06-14T12:47:25Z) - Generalized Multi-view Shared Subspace Learning using View Bootstrapping [43.027427742165095]
マルチビュー学習の主な目的は、下流学習タスクを改善するために、オブジェクト/イベントのクラスの複数の並列ビューに共通する情報をモデル化することである。
本稿では,多視点相関に基づくニューラルな手法を提案する。
音声認識、3次元オブジェクト分類、ポーズ不変顔認識の実験は、多数のビューをモデル化するためのビューブートストラップの堅牢性を示している。
論文 参考訳(メタデータ) (2020-05-12T20:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。