論文の概要: D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference
- arxiv url: http://arxiv.org/abs/2509.09747v1
- Date: Thu, 11 Sep 2025 10:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.878249
- Title: D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference
- Title(参考訳): D-CAT: 一様推論のためのセンサモード間の相互注意伝達の分離
- Authors: Leen Daher, Zhaobo Wang, Malcolm Mielle,
- Abstract要約: クロスモーダル変換学習はマルチモーダル分類モデルを改善するために用いられる。
既存の方法は、トレーニングと推論の両方でペアのセンサーデータを必要とする。
本稿では,共振器の共振器を使わずにモダリティ特異的な表現を整列するフレームワークであるDecoupled Cross-Attention Transfer (D-CAT)を提案する。
- 参考スコア(独自算出の注目度): 3.6344649347926326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal transfer learning is used to improve multi-modal classification models (e.g., for human activity recognition in human-robot collaboration). However, existing methods require paired sensor data at both training and inference, limiting deployment in resource-constrained environments where full sensor suites are not economically and technically usable. To address this, we propose Decoupled Cross-Attention Transfer (D-CAT), a framework that aligns modality-specific representations without requiring joint sensor modality during inference. Our approach combines a self-attention module for feature extraction with a novel cross-attention alignment loss, which enforces the alignment of sensors' feature spaces without requiring the coupling of the classification pipelines of both modalities. We evaluate D-CAT on three multi-modal human activity datasets (IMU, video, and audio) under both in-distribution and out-of-distribution scenarios, comparing against uni-modal models. Results show that in in-distribution scenarios, transferring from high-performing modalities (e.g., video to IMU) yields up to 10% F1-score gains over uni-modal training. In out-of-distribution scenarios, even weaker source modalities (e.g., IMU to video) improve target performance, as long as the target model isn't overfitted on the training data. By enabling single-sensor inference with cross-modal knowledge, D-CAT reduces hardware redundancy for perception systems while maintaining accuracy, which is critical for cost-sensitive or adaptive deployments (e.g., assistive robots in homes with variable sensor availability). Code is available at https://github.com/Schindler-EPFL-Lab/D-CAT.
- Abstract(参考訳): クロスモーダルトランスファー学習は、マルチモーダル分類モデル(例えば、人間とロボットのコラボレーションにおける人間の活動認識)を改善するために使用される。
しかし、既存の方法は、トレーニングと推論の両方でペア化されたセンサーデータを必要とし、完全なセンサースイートが経済的および技術的に使用できないようなリソース制約された環境への展開を制限する。
そこで本稿では,D-CAT(Decoupled Cross-Attention Transfer)を提案する。
提案手法は,特徴抽出のための自己注意モジュールと,両モードの分類パイプラインの結合を必要とせず,センサの特徴空間のアライメントを強制する新たなアライメントアライメントアライメントアライメントアライメントロスとを組み合わせる。
マルチモーダル・ヒューマン・アクティビティ・データセット(IMU, ビデオ, 音声)におけるD-CATの評価を行った。
その結果, 単調トレーニングでは, ハイパフォーマンスなモダリティ(例えばビデオからIMU)から最大10%のF1スコアゲインを得ることができた。
アウト・オブ・ディストリビューション(out-of-distribution)のシナリオでは、トレーニングデータにターゲットモデルが過度に適合していない限り、ソースモダリティ(例:IMUからビデオまで)が弱くなることで、ターゲットのパフォーマンスが向上します。
クロスモーダルな知識で単一センサ推論を可能にすることで、D-CATは精度を維持しながら認識システムのハードウェア冗長性を低減する。
コードはhttps://github.com/Schindler-EPFL-Lab/D-CATで入手できる。
関連論文リスト
- XTransfer: Cross-Modality Model Transfer for Human Sensing with Few Data at the Edge [32.69565269313996]
事前訓練されたモデルの転送に依存する現在の方法は、モダリティシフトのような問題に遭遇することが多い。
資源効率, モダリティに依存しないモデル転送のための第一種手法であるXTransferを提案する。
XTransferは、センサデータ収集、モデルトレーニング、エッジデプロイメントのコストを大幅に削減しつつ、人間のセンシングタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-28T02:14:43Z) - CAML: Collaborative Auxiliary Modality Learning for Multi-Agent Systems [38.20651868834145]
我々は,新しいマルチモーダル・マルチエージェント・フレームワークである協調補助モダリティ学習(CAML)を提案する。
事故検出においてCAMLが最大で$bf 58.1%の改善を達成していることを示す。
また,コラボレーティブセマンティックセグメンテーションのための実世界の地上ロボットデータ上でCAMLを検証する。
論文 参考訳(メタデータ) (2025-02-25T03:59:40Z) - PRIMUS: Pretraining IMU Encoders with Multimodal Self-Supervision [7.896850422430362]
ラベルなしまたは弱いラベル付きIMUデータは、人間の動きをモデル化するために使用できる。
本稿では,新しい事前学習目標を用いたIMUエンコーダのPRIMUSを提案する。
PRIMUSは最先端のベースラインと比較して、テスト精度を最大15%改善する。
論文 参考訳(メタデータ) (2024-11-22T18:46:30Z) - M3BAT: Unsupervised Domain Adaptation for Multimodal Mobile Sensing with Multi-Branch Adversarial Training [5.128670847334003]
マルチモーダルモバイルセンシングは、健康、健康、行動、文脈に関する推論に広く用いられている。
トレーニングセット内のデータの分布は、実世界のデータの分布、デプロイメント環境と異なる。
M3BATは,マルチブランチ対向学習を用いたマルチモーダル・モバイルセンシングのための教師なしドメイン適応である。
論文 参考訳(メタデータ) (2024-04-26T13:09:35Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Multi-modal Sensor Data Fusion for In-situ Classification of Animal
Behavior Using Accelerometry and GNSS Data [16.47484520898938]
動物行動の分類には,複数のセンシングモード,すなわち加速度計とグローバルナビゲーション衛星システム(GNSS)のデータを用いて検討する。
スマート牛首輪と耳札を用いて収集した実世界の2つのデータセットを用いたマルチモーダル動物行動分類アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-24T04:54:03Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model Training and Inference [86.03382625531951]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。