論文の概要: A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training
- arxiv url: http://arxiv.org/abs/2408.10787v2
- Date: Fri, 04 Oct 2024 08:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:07:34.350842
- Title: A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training
- Title(参考訳): 低コストオープン語彙物体検出訓練のための軽量モジュラーフレームワーク
- Authors: Bilal Faye, Binta Sow, Hanane Azzag, Mustapha Lebbah,
- Abstract要約: 我々は軽量なフレームワークを導入し、性能を保ちながらパラメータの数を大幅に減らします。
MDETR の最適化版である Lightweight MDETR (LightMDETR) を開発した。
LightMDETRは計算コストを削減できるだけでなく、いくつかの最先端の手法よりも精度が高い。
- 参考スコア(独自算出の注目度): 0.07499722271664146
- License:
- Abstract: Object detection is a fundamental challenge in computer vision, centered on recognizing objects within images, with diverse applications in areas like image analysis, robotics, and autonomous vehicles. Although existing methods have achieved great success, they are often constrained by a fixed vocabulary of objects. To overcome this limitation, approaches like MDETR have redefined object detection by incorporating region-level vision-language pre-training, enabling open-vocabulary object detectors. However, these methods are computationally heavy due to the simultaneous training of large models for both vision and language representations. To address this, we introduce a lightweight framework that significantly reduces the number of parameters while preserving, or even improving, performance. Our solution is applied to MDETR, resulting in the development of Lightweight MDETR (LightMDETR), an optimized version of MDETR designed to enhance computational efficiency without sacrificing accuracy. The core of our approach involves freezing the MDETR backbone and training only the Universal Projection module (UP), which bridges vision and language representations. A learnable modality token parameter allows the UP to seamlessly switch between modalities. Evaluations on tasks like phrase grounding, referring expression comprehension, and segmentation show that LightMDETR not only reduces computational costs but also outperforms several state-of-the-art methods in terms of accuracy.
- Abstract(参考訳): 物体検出は、画像分析、ロボット工学、自動運転車といった分野における多様な応用によって、画像内の物体を認識することを中心に、コンピュータビジョンにおける基本的な課題である。
既存の手法は大きな成功を収めているが、それらはしばしば固定されたオブジェクトの語彙によって制約される。
この制限を克服するために、MDETRのようなアプローチは、領域レベルの視覚言語事前学習を取り入れてオブジェクト検出を再定義し、オープン語彙オブジェクト検出を可能にする。
しかし、これらの手法は、視覚と言語表現の両方のための大きなモデルの同時訓練のため、計算的に重くなっている。
これを解決するために、私たちは軽量なフレームワークを導入しました。
本手法はMDETRに適用され,MDETRの最適化版である軽量MDETR (LightMDETR) が開発された。
我々のアプローチの中核は、MDETRのバックボーンを凍結し、ビジョンと言語表現をブリッジするユニバーサル・プロジェクション・モジュール(UP)のみを訓練することである。
学習可能なモダリティトークンパラメータにより、UPはモダリティをシームレスに切り替えることができる。
フレーズグラウンド、参照表現理解、セグメンテーションといったタスクの評価から、LightMDETRは計算コストを削減できるだけでなく、精度の点でいくつかの最先端手法よりも優れていることが分かる。
関連論文リスト
- MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Bridging the Gap between Multi-focus and Multi-modal: A Focused
Integration Framework for Multi-modal Image Fusion [5.417493475406649]
MMIF(Multi-Modal Image fusion)は、異なるモダリティ画像からの貴重な情報を融合画像に統合する。
本稿では,協調型統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。
提案アルゴリズムは、視覚知覚と定量的評価において最先端の手法を超越することができる。
論文 参考訳(メタデータ) (2023-11-03T12:58:39Z) - Multi-Depth Branch Network for Efficient Image Super-Resolution [12.042706918188566]
超解像(SR)における長年の課題は、低解像(LR)の高頻度細部を効率的に拡張する方法である。
MDBM(Multi-Depth Branch Module)を特徴とする非対称SRアーキテクチャを提案する。
MDBMには異なる深さの枝があり、高い周波数と低周波の情報を同時に、効率的に捉えるように設計されている。
論文 参考訳(メタデータ) (2023-09-29T15:46:25Z) - GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular
Multi-Frame Depth Estimation [7.158264965010546]
単分子多フレーム深度推定におけるキュー融合の効率的な構成法を提案する。
我々は、正確な形状に頼ることなく、シーン特性をスーパートークンの形で表現する。
本手法は,KITTIデータセット上での高速核融合速度で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-29T08:43:16Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。