Fugu-MT 論文翻訳(概要): Multimodal sensor fusion in the latent representation space

論文の概要: Multimodal sensor fusion in the latent representation space

arxiv url: http://arxiv.org/abs/2208.02183v1
Date: Wed, 3 Aug 2022 16:13:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 13:21:27.163122
Title: Multimodal sensor fusion in the latent representation space
Title（参考訳）: 潜在表現空間におけるマルチモーダルセンサ融合
Authors: Robert J. Piechocki, Xiaoyang Wang, Mohammud J. Bocus
Abstract要約: 学習データからマルチモーダル生成モデルを構築する。第2段階では、生成モデルは、センサー融合タスクの事前と探索多様体の再構成として機能する。マルチモーダル核融合実験における有効性と優れた性能を示す。
参考スコア（独自算出の注目度）: 4.132799233018846
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A new method for multimodal sensor fusion is introduced. The technique relies on a two-stage process. In the first stage, a multimodal generative model is constructed from unlabelled training data. In the second stage, the generative model serves as a reconstruction prior and the search manifold for the sensor fusion tasks. The method also handles cases where observations are accessed only via subsampling i.e. compressed sensing. We demonstrate the effectiveness and excellent performance on a range of multimodal fusion experiments such as multisensory classification, denoising, and recovery from subsampled observations.
Abstract（参考訳）: マルチモーダルセンサ融合のための新しい手法を提案する。この技術は2段階のプロセスに依存している。第1段階では、未学習のトレーニングデータからマルチモーダル生成モデルを構築する。第2段階では、生成モデルは、センサ融合タスクの事前再構成および探索多様体として機能する。この方法は、サブサンプリング、すなわち圧縮センシングを通じてのみ観測がアクセスされる場合も扱う。本研究は,マルチセンサ分類,デノナイジング,サブサンプリング観測からの回復などの多モード核融合実験における有効性と優れた性能を示す。

関連論文リスト

FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
EM Distillation for One-step Diffusion Models [65.57766773137068]
最小品質の損失を最小限に抑えた1ステップ生成モデルに拡散モデルを蒸留する最大可能性に基づく手法を提案する。本研究では, 蒸留プロセスの安定化を図るため, 再パラメータ化サンプリング手法とノイズキャンセリング手法を開発した。
論文参考訳（メタデータ） (2024-05-27T05:55:22Z)
AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文参考訳（メタデータ） (2024-05-21T17:17:17Z)
DifFUSER: Diffusion Model for Robust Multi-Sensor Fusion in 3D Object Detection and BEV Segmentation [34.42067276754897]
DifFは3次元オブジェクト検出とBEVマップセグメンテーションにおける多モード融合のための拡散モデルを利用する新しいアプローチである。 DifFは拡散の固有のノイズ発生特性から利点を生かし、センサーの故障時にセンサーの特徴を洗練または合成することができる。
論文参考訳（メタデータ） (2024-04-06T13:25:29Z)
Generative Modeling on Manifolds Through Mixture of Riemannian Diffusion Processes [57.396578974401734]
一般多様体上に生成拡散過程を構築するための原理的枠組みを導入する。従来の拡散モデルの認知的アプローチに従う代わりに、橋梁プロセスの混合を用いて拡散過程を構築する。混合過程を幾何学的に理解し,データ点への接する方向の重み付け平均としてドリフトを導出する。
論文参考訳（メタデータ） (2023-10-11T06:04:40Z)
Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文参考訳（メタデータ） (2023-09-25T12:31:18Z)
Multimodal Industrial Anomaly Detection via Hybrid Fusion [59.16333340582885]
ハイブリッド核融合方式を用いた新しいマルチモーダル異常検出法を提案する。本モデルでは,MVTecD-3 ADデータセットにおける検出精度とセグメンテーション精度の両面で,最先端(SOTA)手法より優れている。
論文参考訳（メタデータ） (2023-03-01T15:48:27Z)
Multimodal Channel-Mixing: Channel and Spatial Masked AutoEncoder on Facial Action Unit Detection [12.509298933267225]
本稿では,MCM(Multimodal Channel-Mixing)と呼ばれる新しいマルチモーダル再構成ネットワークを提案する。このアプローチは、Channel-Mixingモジュールを統合して、5つのうち2つをランダムにドロップする、初期の融合設定に従っている。このモジュールはチャネルの冗長性を低下させるだけでなく、マルチモーダル学習と再構成機能も促進し、ロバストな特徴学習をもたらす。
論文参考訳（メタデータ） (2022-09-25T15:18:56Z)
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-01-24T17:48:04Z)
Multistage linguistic conditioning of convolutional layers for speech emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文参考訳（メタデータ） (2021-10-13T11:28:04Z)
Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文参考訳（メタデータ） (2021-04-07T04:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。