Fugu-MT 論文翻訳(概要): Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge

論文の概要: Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge

arxiv url: http://arxiv.org/abs/2404.01492v1
Date: Mon, 1 Apr 2024 21:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 20:27:20.491728
Title: Modality Translation for Object Detection Adaptation Without Forgetting Prior Knowledge
Title（参考訳）: 事前知識を使わずにオブジェクト検出適応のためのモダリティ変換
Authors: Heitor Rapela Medeiros, Masih Aminbeidokhti, Fidel Guerrero Pena, David Latortue, Eric Granger, Marco Pedersoli,
Abstract要約: 我々は、微調整大型モデルの一般的なアプローチの代替としてModTrを提案する。 ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。 2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチによって、標準の微調整よりも可視またはより優れた動作が可能な検出器が提供されることが示された。
参考スコア（独自算出の注目度）: 11.905387325966311
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A common practice in deep learning consists of training large neural networks on massive datasets to perform accurately for different domains and tasks. While this methodology may work well in numerous application areas, it only applies across modalities due to a larger distribution shift in data captured using different sensors. This paper focuses on the problem of adapting a large object detection model to one or multiple modalities while being efficient. To do so, we propose ModTr as an alternative to the common approach of fine-tuning large models. ModTr consists of adapting the input with a small transformation network trained to minimize the detection loss directly. The original model can therefore work on the translated inputs without any further change or fine-tuning to its parameters. Experimental results on translating from IR to RGB images on two well-known datasets show that this simple ModTr approach provides detectors that can perform comparably or better than the standard fine-tuning without forgetting the original knowledge. This opens the doors to a more flexible and efficient service-based detection pipeline in which, instead of using a different detector for each modality, a unique and unaltered server is constantly running, where multiple modalities with the corresponding translations can query it. Code: https://github.com/heitorrapela/ModTr.
Abstract（参考訳）: ディープラーニングの一般的なプラクティスは、大規模なデータセット上で大規模なニューラルネットワークをトレーニングして、さまざまなドメインやタスクを正確に実行することです。この手法は多くのアプリケーション領域でうまく機能するかもしれないが、異なるセンサーを用いてキャプチャしたデータの分布シフトが大きいため、モダリティを越えてのみ適用できる。本稿では,大規模物体検出モデルを効率よく1つまたは複数のモードに適応させる問題に焦点をあてる。そこで本研究では,大規模モデルを微調整する一般的なアプローチの代替としてModTrを提案する。 ModTrは、入力を小さな変換ネットワークに適応して、検出損失を直接最小化する。従って、元のモデルは、さらなる変更やパラメータの微調整をすることなく、翻訳された入力を扱うことができる。 2つのよく知られたデータセット上のIRからRGB画像への変換実験の結果、この単純なModTrアプローチは、元の知識を忘れることなく標準の微調整よりも可視またはより優れた動作が可能な検出器を提供することが示された。これにより、よりフレキシブルで効率的なサービスベースの検出パイプラインへの扉が開かれ、各モダリティに対して異なる検出器を使用する代わりに、一意で変更されていないサーバが常時実行され、対応する翻訳と複数のモダリティがクエリできる。コード:https://github.com/heitorrapela/ModTr。

関連論文リスト

XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文参考訳（メタデータ） (2024-05-28T03:00:58Z)
MiPa: Mixed Patch Infrared-Visible Modality Agnostic Object Detection [12.462709547836289]
可視光(RGB)や赤外線(IR)のような複数のモードを使用することで、オブジェクト検出(OD)のような予測タスクの性能を大幅に向上させることができる。本稿では,RGB と IR のモダリティの異なる手法に取り組み,一方のモダリティと他方のモダリティのみを1つの共有ビジョンエンコーダで観測する。本研究では、RGBとIRのモダリティを効率よく活用して、共通トランスフォーマーベースのODビジョンエンコーダをトレーニングし、モダリティの不均衡の影響に対処する方法について検討する。
論文参考訳（メタデータ） (2024-04-29T16:42:58Z)
SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。 Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文参考訳（メタデータ） (2024-03-08T16:14:54Z)
HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information [12.376615603048279]
HalluciDetは、オブジェクト検出のためのIR-RGB画像変換モデルである。我々は、画像翻訳とIRの微調整のための最先端手法に対する我々のアプローチを実証的に比較した。
論文参考訳（メタデータ） (2023-10-07T03:00:33Z)
Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection [22.60228799622782]
赤外線画像における物体検出のボトルネックは、十分なラベル付きトレーニングデータがないことである。我々は、RGBモードにおけるモデル性能を保ちながら、RGBモードからオブジェクト検出器をIRモードにスケールするために、RGBモードからの手がかりを活用しようとしている。まず、これらの因子行列をRGBモードで事前トレーニングし、多くのトレーニングデータが存在すると仮定した後、IRモードでトレーニングするためのトレーニング可能なパラメータをわずかに増やして過度な適合を避ける。
論文参考訳（メタデータ） (2023-09-28T16:55:52Z)
Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。 5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文参考訳（メタデータ） (2022-06-07T08:35:41Z)
Self-Supervised Modality-Aware Multiple Granularity Pre-Training for RGB-Infrared Person Re-Identification [9.624510941236837]
Modality-Aware Multiple Granularity Learning (MMGL)は、ImageNetの事前学習に代わる自己教師付き事前学習である。 MMGLはImageNetの事前トレーニングよりも高速なトレーニング速度(数時間で収束)とデータ効率(5%のデータサイズ)で、より良い表現(+6.47% Rank-1)を学習する。結果は、既存のさまざまなモデル、損失をうまく一般化し、データセット間で有望な転送可能性を持つことを示唆している。
論文参考訳（メタデータ） (2021-12-12T04:40:33Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。