論文の概要: Open-Det: An Efficient Learning Framework for Open-Ended Detection
- arxiv url: http://arxiv.org/abs/2505.20639v1
- Date: Tue, 27 May 2025 02:33:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.355785
- Title: Open-Det: An Efficient Learning Framework for Open-Ended Detection
- Title(参考訳): Open-Det: オープンエンド検出のための効率的な学習フレームワーク
- Authors: Guiping Cao, Tao Wang, Wenjian Huang, Xiangyuan Lan, Jianguo Zhang, Dongmei Jiang,
- Abstract要約: Open-Ended Object Detection (OED)は、オブジェクトを検出し、そのカテゴリ名を自由形式で生成する、新しくて困難なタスクである。
4つの協調部品からなる新規で効率的なOpen-Detフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.550029747903707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-Ended object Detection (OED) is a novel and challenging task that detects objects and generates their category names in a free-form manner, without requiring additional vocabularies during inference. However, the existing OED models, such as GenerateU, require large-scale datasets for training, suffer from slow convergence, and exhibit limited performance. To address these issues, we present a novel and efficient Open-Det framework, consisting of four collaborative parts. Specifically, Open-Det accelerates model training in both the bounding box and object name generation process by reconstructing the Object Detector and the Object Name Generator. To bridge the semantic gap between Vision and Language modalities, we propose a Vision-Language Aligner with V-to-L and L-to-V alignment mechanisms, incorporating with the Prompts Distiller to transfer knowledge from the VLM into VL-prompts, enabling accurate object name generation for the LLM. In addition, we design a Masked Alignment Loss to eliminate contradictory supervision and introduce a Joint Loss to enhance classification, resulting in more efficient training. Compared to GenerateU, Open-Det, using only 1.5% of the training data (0.077M vs. 5.077M), 20.8% of the training epochs (31 vs. 149), and fewer GPU resources (4 V100 vs. 16 A100), achieves even higher performance (+1.0% in APr). The source codes are available at: https://github.com/Med-Process/Open-Det.
- Abstract(参考訳): Open-Ended Object Detection (OED)は、オブジェクトを検出し、推論中に追加の語彙を必要とせず、自由にカテゴリ名を生成できる、新しくて困難なタスクである。
しかし、GenerateUのような既存のOEDモデルは、トレーニングのために大規模なデータセットを必要とし、緩やかな収束に悩まされ、限られた性能を示す。
これらの課題に対処するために,4つの協調的な部分からなる,新規で効率的なOpen-Detフレームワークを提案する。
具体的には、Open-DetはObject DetectorとObject Name Generatorを再構築することで、バウンディングボックスとオブジェクト名生成プロセスの両方でのモデルトレーニングを加速する。
視覚と言語モダリティのセマンティックなギャップを埋めるために,V-to-LとL-to-Vのアライメント機構を備えたビジョン・ランゲージ・アライメント・アライメント(Vision-Language Aligner)を提案し,VLMからVL-promptsへの知識伝達にPrompts Distillerを導入し,LLMの正確なオブジェクト名生成を実現する。
また,マスク付きアライメント・ロスを設計し,矛盾する監督を排除し,分類を向上するジョイント・ロスを導入し,より効率的なトレーニングを実現する。
GenerateUと比較して、Open-Detはトレーニングデータのわずか1.5%(0.077M vs. 5.077M)、トレーニングエポックの20.8%(31 vs. 149)、GPUリソースの少ない(4 V100 vs. 16 A100)を使用して、さらに高いパフォーマンス(APrでは+1.0%)を実現している。
ソースコードは、https://github.com/Med-Process/Open-Det.comで入手できる。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension [24.335348817838216]
大言語モデル(LLM)に基づく画像キャプションは、トレーニングデータで明示的に観察されていないオブジェクトを記述する能力を持つ。
外部視覚名メモリ(EVCap)から取得したオブジェクト名でLLMを誘導する高効率な画像キャプション手法を提案する。
我々のモデルはCOCOデータセットでのみトレーニングされており、追加の微調整や再トレーニングを必要とせず、ドメイン外への適応が可能である。
論文 参考訳(メタデータ) (2023-11-27T14:51:37Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。