論文の概要: ODOV: Towards Open-Domain Open-Vocabulary Object Detection
- arxiv url: http://arxiv.org/abs/2508.01253v1
- Date: Sat, 02 Aug 2025 08:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.787954
- Title: ODOV: Towards Open-Domain Open-Vocabulary Object Detection
- Title(参考訳): ODOV: Open-Domain Open-Vocabulary Object Detection
- Authors: Yupeng Zhang, Ruize Han, Fangnan Zhou, Song Wang, Wei Feng, Liang Wan,
- Abstract要約: まず、46,949の画像を含む新しいベンチマークOD-LVISを構築し、18の複雑な現実世界ドメインと1,203のカテゴリをカバーした。
そこで我々は,ODOV検出のための新しいベースライン法を開発した。
提案するODOV検出タスクに対して十分なベンチマーク評価を行い,その結果を報告する。
- 参考スコア(独自算出の注目度): 28.25079830063646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we handle a new problem of Open-Domain Open-Vocabulary (ODOV) object detection, which considers the detection model's adaptability to the real world including both domain and category shifts. For this problem, we first construct a new benchmark OD-LVIS, which includes 46,949 images, covers 18 complex real-world domains and 1,203 categories, and provides a comprehensive dataset for evaluating real-world object detection. Besides, we develop a novel baseline method for ODOV detection.The proposed method first leverages large language models to generate the domain-agnostic text prompts for category embedding. It further learns the domain embedding from the given image, which, during testing, can be integrated into the category embedding to form the customized domain-specific category embedding for each test image. We provide sufficient benchmark evaluations for the proposed ODOV detection task and report the results, which verify the rationale of ODOV detection, the usefulness of our benchmark, and the superiority of the proposed method.
- Abstract(参考訳): 本研究では,ODOV(Open-Domain Open-Vocabulary, Open-Domain Open-Vocabulary, Open-Domain Open-Vocabulary, ODOV)オブジェクト検出の課題に対処する。
そこで我々はまず,46,949の画像を含む新しいベンチマークOD-LVISを構築し,実世界の18の複雑なドメインと1,203のカテゴリをカバーし,実世界のオブジェクト検出を評価するための包括的なデータセットを提供する。
さらに, ODOV検出のための新しいベースライン手法を開発し, 提案手法はまず大きな言語モデルを用いて, カテゴリ埋め込みのためのドメインに依存しないテキストプロンプトを生成する。
さらに、与えられたイメージからドメインの埋め込みを学習し、テスト中にカテゴリの埋め込みに統合して、各テストイメージに対してカスタマイズされたドメイン固有のカテゴリの埋め込みを形成する。
提案したODOV検出タスクに対して十分なベンチマーク評価を行い,ODOV検出の理論的根拠,ベンチマークの有用性,提案手法の優位性を検証した。
関連論文リスト
- DATR: Unsupervised Domain Adaptive Detection Transformer with Dataset-Level Adaptation and Prototypical Alignment [7.768332621617199]
我々は、オブジェクト検出の教師なし領域適応のために、ドメイン適応検出TRansformer(DATR)と呼ばれる強力なDETRベースの検出器を導入する。
提案するDATRは,教師モデルによって生成された擬似ラベルを用いて,平均教師に基づく自己学習フレームワークを組み込んで,ドメインバイアスをさらに緩和する。
複数のドメイン適応シナリオにおいて,提案したDATRの性能と一般化性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:48:45Z) - Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector [72.05791402494727]
本稿では,CD-FSODを用いたクロスドメイン小ショット検出法について検討する。
最小限のラベル付き例で、新しいドメインのための正確なオブジェクト検出器を開発することを目的としている。
論文 参考訳(メタデータ) (2024-02-05T15:25:32Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Application of Unsupervised Domain Adaptation for Structural MRI
Analysis [0.0]
本稿では,バイナリ分類や異常検出など,さまざまな応用における教師なし領域適応手法の有効性について検討する。
また、3次元構造的MRIデータの解析と生成のための画像再構成と画像合成についても検討する。
ドメイン適応は、教師なし設定と教師なし設定の両方で実装された場合、AD検出の性能を向上させることを実証した。
論文 参考訳(メタデータ) (2022-12-26T01:59:56Z) - D2DF2WOD: Learning Object Proposals for Weakly-Supervised Object
Detection via Progressive Domain Adaptation [25.41133780678981]
D2DF2WODは完全な監視対象検出フレームワークである。
自然なイメージターゲットドメインを補うために、正確なオブジェクトローカライゼーションを付加した合成データを使用する。
提案手法は,最先端手法と比較してオブジェクト検出と局所化を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-02T18:58:03Z) - Domain Generalisation for Object Detection under Covariate and Concept Shift [10.32461766065764]
ドメインの一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変の機能の学習を促進することを目的としている。
オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-10T11:14:18Z) - Decompose to Adapt: Cross-domain Object Detection via Feature
Disentanglement [79.2994130944482]
本研究では,DDF(Domain Disentanglement Faster-RCNN)を設計し,タスク学習のための特徴のソース固有情報を排除した。
DDF法は,グローバルトリプルト・ディアンタングルメント(GTD)モジュールとインスタンス類似性・ディアンタングルメント(ISD)モジュールを用いて,グローバルおよびローカルステージでの機能ディアンタングルを容易にする。
提案手法は,4つのUDAオブジェクト検出タスクにおいて最先端の手法より優れており,広い適用性で有効であることが実証された。
論文 参考訳(メタデータ) (2022-01-06T05:43:01Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Bi-Dimensional Feature Alignment for Cross-Domain Object Detection [71.85594342357815]
教師なしクロスドメイン検出モデルを提案する。
ソースドメインのアノテーション付きデータを利用して、異なるターゲットドメインに対してオブジェクト検出器をトレーニングする。
提案モデルでは、オブジェクト検出のためのクロスドメイン表現のばらつきを緩和する。
論文 参考訳(メタデータ) (2020-11-14T03:03:11Z) - Cross-domain Detection via Graph-induced Prototype Alignment [114.8952035552862]
カテゴリレベルのドメインアライメントを求めるグラフ誘発プロトタイプアライメント(GPA)フレームワークを提案する。
さらに,クラス不均衡がドメイン適応に与える影響を軽減するために,クラス重み付きコントラスト損失を設計する。
我々のアプローチは、既存の手法よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2020-03-28T17:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。