論文の概要: A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training
- arxiv url: http://arxiv.org/abs/2408.10787v2
- Date: Tue, 22 Oct 2024 07:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:33:41.964489
- Title: A Lightweight Modular Framework for Low-Cost Open-Vocabulary Object Detection Training
- Title(参考訳): 低コストオープン語彙物体検出訓練のための軽量モジュラーフレームワーク
- Authors: Bilal Faye, Binta Sow, Hanane Azzag, Mustapha Lebbah,
- Abstract要約: 我々は軽量なフレームワークを導入し、性能を保ちながらパラメータの数を大幅に減らします。
MDETR の最適化版である Lightweight MDETR (LightMDETR) を開発した。
LightMDETRは計算コストを削減できるだけでなく、いくつかの最先端の手法よりも精度が高い。
- 参考スコア(独自算出の注目度): 0.07499722271664146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object detection is a fundamental challenge in computer vision, centered on recognizing objects within images, with diverse applications in areas like image analysis, robotics, and autonomous vehicles. Although existing methods have achieved great success, they are often constrained by a fixed vocabulary of objects. To overcome this limitation, approaches like MDETR have redefined object detection by incorporating region-level vision-language pre-training, enabling open-vocabulary object detectors. However, these methods are computationally heavy due to the simultaneous training of large models for both vision and language representations. To address this, we introduce a lightweight framework that significantly reduces the number of parameters while preserving, or even improving, performance. Our solution is applied to MDETR, resulting in the development of Lightweight MDETR (LightMDETR), an optimized version of MDETR designed to enhance computational efficiency without sacrificing accuracy. The core of our approach involves freezing the MDETR backbone and training only the Universal Projection module (UP), which bridges vision and language representations. A learnable modality token parameter allows the UP to seamlessly switch between modalities. Evaluations on tasks like phrase grounding, referring expression comprehension, and segmentation show that LightMDETR not only reduces computational costs but also outperforms several state-of-the-art methods in terms of accuracy.
- Abstract(参考訳): 物体検出は、画像分析、ロボット工学、自動運転車といった分野における多様な応用によって、画像内の物体を認識することを中心に、コンピュータビジョンにおける基本的な課題である。
既存の手法は大きな成功を収めているが、それらはしばしば固定されたオブジェクトの語彙によって制約される。
この制限を克服するために、MDETRのようなアプローチは、領域レベルの視覚言語事前学習を取り入れてオブジェクト検出を再定義し、オープン語彙オブジェクト検出を可能にする。
しかし、これらの手法は、視覚と言語表現の両方のための大きなモデルの同時訓練のため、計算的に重くなっている。
これを解決するために、私たちは軽量なフレームワークを導入しました。
本手法はMDETRに適用され,MDETRの最適化版である軽量MDETR (LightMDETR) が開発された。
我々のアプローチの中核は、MDETRのバックボーンを凍結し、ビジョンと言語表現をブリッジするユニバーサル・プロジェクション・モジュール(UP)のみを訓練することである。
学習可能なモダリティトークンパラメータにより、UPはモダリティをシームレスに切り替えることができる。
フレーズグラウンド、参照表現理解、セグメンテーションといったタスクの評価から、LightMDETRは計算コストを削減できるだけでなく、精度の点でいくつかの最先端手法よりも優れていることが分かる。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Visual Grounding with Attention-Driven Constraint Balancing [19.30650183073788]
本稿では,言語関連領域における視覚的特徴の挙動を最適化するために,注意駆動制約バランス(AttBalance)を提案する。
4つの異なるベンチマークで評価された5つの異なるモデルに対して、一定の改善が達成される。
QRNetにメソッドを統合することにより,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-03T16:14:09Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Contrastive Learning for Multi-Object Tracking with Transformers [79.61791059432558]
我々は、DETRをインスタンスレベルのコントラスト損失を用いてMOTモデルに変換する方法を示す。
本手法では,検出能力を維持しながらオブジェクトの外観を学習し,オーバーヘッドを少なく抑える。
そのパフォーマンスは、BDD100Kデータセットにおいて、以前の最先端の+2.6 mMOTAを上回っている。
論文 参考訳(メタデータ) (2023-11-14T10:07:52Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。