論文の概要: Described Object Detection: Liberating Object Detection with Flexible
Expressions
- arxiv url: http://arxiv.org/abs/2307.12813v2
- Date: Wed, 11 Oct 2023 14:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:43:19.779582
- Title: Described Object Detection: Liberating Object Detection with Flexible
Expressions
- Title(参考訳): 記述対象検出:フレキシブル表現によるオブジェクト検出の解放
- Authors: Chi Xie, Zhao Zhang, Yixuan Wu, Feng Zhu, Rui Zhao, Shuang Liang
- Abstract要約: オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
- 参考スコア(独自算出の注目度): 19.392927971139652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting objects based on language information is a popular task that
includes Open-Vocabulary object Detection (OVD) and Referring Expression
Comprehension (REC). In this paper, we advance them to a more practical setting
called Described Object Detection (DOD) by expanding category names to flexible
language expressions for OVD and overcoming the limitation of REC only
grounding the pre-existing object. We establish the research foundation for DOD
by constructing a Description Detection Dataset ($D^3$). This dataset features
flexible language expressions, whether short category names or long
descriptions, and annotating all described objects on all images without
omission. By evaluating previous SOTA methods on $D^3$, we find some
troublemakers that fail current REC, OVD, and bi-functional methods. REC
methods struggle with confidence scores, rejecting negative instances, and
multi-target scenarios, while OVD methods face constraints with long and
complex descriptions. Recent bi-functional methods also do not work well on DOD
due to their separated training procedures and inference strategies for REC and
OVD tasks. Building upon the aforementioned findings, we propose a baseline
that largely improves REC methods by reconstructing the training data and
introducing a binary classification sub-task, outperforming existing methods.
Data and code are available at https://github.com/shikras/d-cube and related
works are tracked in
https://github.com/Charles-Xie/awesome-described-object-detection.
- Abstract(参考訳): 言語情報に基づくオブジェクトの検出は、OVD(Open-Vocabulary Object Detection)やREC(Referring Expression Comprehension)を含む一般的なタスクである。
本稿では,カテゴリ名をOVDのフレキシブル言語表現に拡張し,既存のオブジェクトのみを根拠とするRECの制限を克服することで,より実践的なDOD(Description Object Detection)へと前進させる。
記述検出データセット(d^3$)を構築することで,dodの研究基盤を確立する。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
従来のSOTA法を$D^3$で評価することにより、現在のREC、OVD、二機能的手法を失敗するトラブルメーカーを見つけ出す。
RECメソッドは信頼性スコア、負のインスタンスの拒絶、マルチターゲットシナリオに苦しむ一方、OVDメソッドは長く複雑な記述を伴う制約に直面している。
最近の2機能的手法は,RECタスクとOVDタスクの分離したトレーニング手順と推論戦略のため,DODではうまく機能しない。
上記の知見に基づいて、トレーニングデータを再構築し、バイナリ分類サブタスクを導入し、既存の手法よりも優れたREC手法を大幅に改善するベースラインを提案する。
データとコードはhttps://github.com/shikras/d-cubeで入手できる。
関連論文リスト
- Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。
本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2024-03-15T10:52:39Z) - The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。
提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文 参考訳(メタデータ) (2023-11-29T10:40:52Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated
Student-Teacher Learning [14.35268391981271]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - InstructDET: Diversifying Referring Object Detection with Generalized
Instructions [39.36186258308405]
本稿では,ユーザ指示に基づいて対象オブジェクトをローカライズするオブジェクト検出(ROD)をデータ中心で参照する手法を提案する。
1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する素晴らしい命令を生成します。
論文 参考訳(メタデータ) (2023-10-08T12:10:44Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - Linear Object Detection in Document Images using Multiple Object
Tracking [58.720142291102135]
線形オブジェクトは文書構造に関する実質的な情報を伝達する。
多くのアプローチはベクトル表現を復元できるが、1994年に導入された1つのクローズドソース技術のみである。
複数オブジェクト追跡を用いた文書画像中の線形オブジェクトの正確なインスタンスセグメンテーションのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:22:03Z) - Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection [16.09136931440765]
Open-vocabulary Object Detectionは、任意のテキストクエリによって記述されたオブジェクトを検出する汎用性を備えた、固定されたオブジェクトカテゴリのセットでトレーニングされたオブジェクト検出器を提供することを目的としている。
従来の方法では知識蒸留を用いて、事前訓練されたビジョン・アンド・ランゲージモデル(PVLM)から知識を抽出し、検出器に転送する。
本稿では,OAKEモジュールとDP機構を含むOADP(Object-Aware Distillation Pyramid)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-10T12:58:34Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit
Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。
局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。
これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文 参考訳(メタデータ) (2021-10-26T03:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。