論文の概要: Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection
- arxiv url: http://arxiv.org/abs/2506.00365v1
- Date: Sat, 31 May 2025 03:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.800431
- Title: Feature Fusion and Knowledge-Distilled Multi-Modal Multi-Target Detection
- Title(参考訳): 特徴融合と知識拡張型マルチモーダルマルチターゲット検出
- Authors: Ngoc Tuyen Do, Tri Nhu Do,
- Abstract要約: マルチモーダルMTDのための機能融合および知識蒸留フレームワークを提案する。
後続確率最適化タスクとしてこの問題を定式化し,多段階学習パイプラインを用いて解決する。
実験の結果,教師モデルの平均平均精度の約95%を学生モデルが達成していることがわかった。
- 参考スコア(独自算出の注目度): 2.295863158976069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the surveillance and defense domain, multi-target detection and classification (MTD) is considered essential yet challenging due to heterogeneous inputs from diverse data sources and the computational complexity of algorithms designed for resource-constrained embedded devices, particularly for Al-based solutions. To address these challenges, we propose a feature fusion and knowledge-distilled framework for multi-modal MTD that leverages data fusion to enhance accuracy and employs knowledge distillation for improved domain adaptation. Specifically, our approach utilizes both RGB and thermal image inputs within a novel fusion-based multi-modal model, coupled with a distillation training pipeline. We formulate the problem as a posterior probability optimization task, which is solved through a multi-stage training pipeline supported by a composite loss function. This loss function effectively transfers knowledge from a teacher model to a student model. Experimental results demonstrate that our student model achieves approximately 95% of the teacher model's mean Average Precision while reducing inference time by approximately 50%, underscoring its suitability for practical MTD deployment scenarios.
- Abstract(参考訳): 監視・防衛分野において、多目的検出・分類(MTD)は、多種多様なデータソースからの異種入力と、特にAlベースのソリューションのためにリソース制約の組込みデバイス向けに設計されたアルゴリズムの計算複雑性のため、不可欠だが困難であると考えられている。
これらの課題に対処するため、我々は、データ融合を利用して精度を高め、知識蒸留を用いてドメイン適応を改善するマルチモーダルMTDのための機能融合および知識蒸留フレームワークを提案する。
具体的には、新しい核融合モデルにおけるRGBおよび熱画像入力と、蒸留訓練パイプラインを組み合わせた熱画像入力を利用する。
この問題を,複合損失関数によって支援された多段階学習パイプラインを用いて解く,後続確率最適化タスクとして定式化する。
この損失関数は、教師モデルから生徒モデルへの知識の伝達を効果的に行う。
実験の結果,教師モデルの平均平均精度は95%程度であり,推論時間は約50%削減され,実践的なMTD展開シナリオに適合する可能性が示唆された。
関連論文リスト
- FedMHO: Heterogeneous One-Shot Federated Learning Towards Resource-Constrained Edge Devices [12.08958206272527]
フェデレートラーニング(FL)はエッジコンピューティングのシナリオにおいてますます採用され、多くの異種クライアントが制約や十分なリソースの下で運用されている。
ワンショットFLは通信オーバーヘッドを軽減するための有望なアプローチとして登場し、モデルヘテロジニアスFLはクライアント間の多様なコンピューティングリソースの問題を解決する。
本稿では,リソースに制約のあるデバイス上で,リソースに十分なクライアントと軽量な生成モデルに対して,詳細な分類モデルを活用するFedMHOという新しいFLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T15:54:56Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Distilled Mid-Fusion Transformer Networks for Multi-Modal Human Activity
Recognition [34.424960016807795]
マルチモーダルなヒューマンアクティビティ認識は、補完的な情報を利用して、うまく一般化できるモデルを構築することができる。
深層学習法は有望な結果を示しており,有意な多モーダルな時空間特徴抽出の可能性は十分に検討されていない。
知識蒸留に基づくマルチモーダル・ミッドフュージョン・アプローチ(DMFT)を提案し,多モーダル・ヒューマンアクティビティ認識タスクを効率的に解決するために,情報的特徴抽出と融合を行う。
論文 参考訳(メタデータ) (2023-05-05T19:26:06Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Bayesian Multiscale Deep Learning Framework for Flows in Random Media [0.0]
マルチスケール偏微分方程式(PDE)によって制御される複雑なシステムの微細スケールシミュレーションは計算コストが高く,そのような問題に対処する様々なマルチスケール手法が開発されている。
本研究では,学習データに制限のあるマルチスケールPDEのためのハイブリッドディープラーニングとマルチスケールアプローチを提案する。
実演目的では,多孔質メディアフローの問題に焦点をあてる。
画像から画像への教師あり深層学習モデルを用いて,入力透過性場とマルチスケール基底関数のマッピングを学習する。
論文 参考訳(メタデータ) (2021-03-08T23:11:46Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。