論文の概要: Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge
- arxiv url: http://arxiv.org/abs/2404.01492v1
- Date: Mon, 1 Apr 2024 21:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 20:27:20.491728
- Title: Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge
- Title(参考訳): 事前知識を使わずにオブジェクト検出適応のためのモダリティ変換
- Authors: Heitor Rapela Medeiros, Masih Aminbeidokhti, Fidel Guerrero Pena, David Latortue, Eric Granger, Marco Pedersoli,
- Abstract要約: 我々は、微調整大型モデルの一般的なアプローチの代替としてModTrを提案する。
ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。
2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチによって、標準の微調整よりも可視またはより優れた動作が可能な検出器が提供されることが示された。
- 参考スコア(独自算出の注目度): 11.905387325966311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common practice in deep learning consists of training large neural networks on massive datasets to perform accurately for different domains and tasks. While this methodology may work well in numerous application areas, it only applies across modalities due to a larger distribution shift in data captured using different sensors. This paper focuses on the problem of adapting a large object detection model to one or multiple modalities while being efficient. To do so, we propose ModTr as an alternative to the common approach of fine-tuning large models. ModTr consists of adapting the input with a small transformation network trained to minimize the detection loss directly. The original model can therefore work on the translated inputs without any further change or fine-tuning to its parameters. Experimental results on translating from IR to RGB images on two well-known datasets show that this simple ModTr approach provides detectors that can perform comparably or better than the standard fine-tuning without forgetting the original knowledge. This opens the doors to a more flexible and efficient service-based detection pipeline in which, instead of using a different detector for each modality, a unique and unaltered server is constantly running, where multiple modalities with the corresponding translations can query it. Code: https://github.com/heitorrapela/ModTr.
- Abstract(参考訳): ディープラーニングの一般的なプラクティスは、大規模なデータセット上で大規模なニューラルネットワークをトレーニングして、さまざまなドメインやタスクを正確に実行することです。
この手法は多くのアプリケーション領域でうまく機能するかもしれないが、異なるセンサーを用いてキャプチャしたデータの分布シフトが大きいため、モダリティを越えてのみ適用できる。
本稿では,大規模物体検出モデルを効率よく1つまたは複数のモードに適応させる問題に焦点をあてる。
そこで本研究では,大規模モデルを微調整する一般的なアプローチの代替としてModTrを提案する。
ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。
従って、元のモデルは、さらなる変更やパラメータの微調整をすることなく、翻訳された入力を扱うことができる。
2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチは、元の知識を忘れることなく標準の微調整よりも可視またはより優れた動作が可能な検出器を提供することが示された。
これにより、よりフレキシブルで効率的なサービスベースの検出パイプラインへの扉が開かれ、各モダリティに対して異なる検出器を使用する代わりに、一意で変更されていないサーバが常時実行され、対応する翻訳と複数のモダリティがクエリできる。
コード:https://github.com/heitorrapela/ModTr。
関連論文リスト
- TEN-GUARD: Tensor Decomposition for Backdoor Attack Detection in Deep
Neural Networks [3.489779105594534]
本稿では,ネットワークアクティベーションに適用した2つのテンソル分解法によるバックドア検出手法を提案する。
これは、複数のモデルを同時に分析する機能など、既存の検出方法と比較して、多くの利点がある。
その結果,現在の最先端手法よりも,バックドアネットワークを高精度かつ効率的に検出できることがわかった。
論文 参考訳(メタデータ) (2024-01-06T03:08:28Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - DTAAD: Dual Tcn-Attention Networks for Anomaly Detection in Multivariate Time Series Data [0.0]
本稿では,Transformer と Dual Temporal Convolutional Network (TCN) に基づく異常検出・診断モデル DTAAD を提案する。
予測精度の向上と相関性の向上のために,スケーリング手法とフィードバック機構を導入している。
7つの公開データセットに対する実験により、DTAADは検出および診断性能の両面で現在最先端のベースライン法の大部分を超えていることが確認された。
論文 参考訳(メタデータ) (2023-02-17T06:59:45Z) - The Devil Is in the Details: An Efficient Convolutional Neural Network
for Transport Mode Detection [3.008051369744002]
トランスポートモード検出は、マルチモーダル信号が与えられたユーザのトランスポートモードを推測できるアルゴリズムを設計することを目的とした分類問題である。
小型で最適化されたモデルが、現在のディープモデルと同様に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-09-16T08:05:47Z) - Single-stream CNN with Learnable Architecture for Multi-source Remote
Sensing Data [16.810239678639288]
マルチソースリモートセンシングデータ共同分類のための,深層畳み込みニューラルネットワーク(CNN)に基づく効率的なフレームワークを提案する。
提案手法は,最新のCNNモデルを任意のマルチソースリモートセンシングデータセットに理論的に調整することができる。
実験により,提案したシングルストリームCNNの有効性が示された。
論文 参考訳(メタデータ) (2021-09-13T16:10:41Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Hierarchical Dynamic Filtering Network for RGB-D Salient Object
Detection [91.43066633305662]
RGB-D Salient Object Detection (SOD) の主な目的は、相互融合情報をよりよく統合し活用する方法である。
本稿では,これらの問題を新たな視点から考察する。
我々は、より柔軟で効率的なマルチスケールのクロスモーダルな特徴処理を実装している。
論文 参考訳(メタデータ) (2020-07-13T07:59:55Z) - Self domain adapted network [6.040230864736051]
ドメインシフトは、臨床実践においてディープネットワークをデプロイする上で大きな問題である。
単体テスト対象に迅速に適応できる新しい自己ドメイン適応ネットワーク(SDA-Net)を提案する。
論文 参考訳(メタデータ) (2020-07-07T01:41:34Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。