Fugu-MT 論文翻訳(概要): Described Object Detection: Liberating Object Detection with Flexible Expressions

論文の概要: Described Object Detection: Liberating Object Detection with Flexible Expressions

arxiv url: http://arxiv.org/abs/2307.12813v2
Date: Wed, 11 Oct 2023 14:35:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 22:43:19.779582
Title: Described Object Detection: Liberating Object Detection with Flexible Expressions
Title（参考訳）: 記述対象検出:フレキシブル表現によるオブジェクト検出の解放
Authors: Chi Xie, Zhao Zhang, Yixuan Wu, Feng Zhu, Rui Zhao, Shuang Liang
Abstract要約: オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
参考スコア（独自算出の注目度）: 19.392927971139652
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.
Abstract（参考訳）: 言語情報に基づくオブジェクトの検出は、OVD(Open-Vocabulary Object Detection)やREC(Referring Expression Comprehension)を含む一般的なタスクである。本稿では,カテゴリ名をOVDのフレキシブル言語表現に拡張し,既存のオブジェクトのみを根拠とするRECの制限を克服することで,より実践的なDOD(Description Object Detection)へと前進させる。記述検出データセット(d^3$)を構築することで,dodの研究基盤を確立する。このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。従来のSOTA法を$D^3$で評価することにより、現在のREC、OVD、二機能的手法を失敗するトラブルメーカーを見つけ出す。 RECメソッドは信頼性スコア、負のインスタンスの拒絶、マルチターゲットシナリオに苦しむ一方、OVDメソッドは長く複雑な記述を伴う制約に直面している。最近の2機能的手法は,RECタスクとOVDタスクの分離したトレーニング手順と推論戦略のため,DODではうまく機能しない。上記の知見に基づいて、トレーニングデータを再構築し、バイナリ分類サブタスクを導入し、既存の手法よりも優れたREC手法を大幅に改善するベースラインを提案する。データとコードはhttps://github.com/shikras/d-cubeで入手できる。

関連論文リスト

Open-vocabulary vs. Closed-set: Best Practice for Few-shot Object Detection Considering Text Describability [19.54008511592332]
現実世界のアプリケーションでは、ターゲットクラスの概念をテキストで記述することはしばしば困難である。マイクロショット物体検出(FSOD)の需要が高い。 OVDの利点は、テキストで記述するのが難しいオブジェクトクラスに対してFSODに拡張できるだろうか?
論文参考訳（メタデータ） (2024-10-20T06:59:35Z)
Global-Local Collaborative Inference with LLM for Lidar-Based Open-Vocabulary Detection [44.92009038111696]
Open-Vocabulary Detection (OVD)は、事前に定義されたオブジェクトクラスなしで、あるシーンですべての興味深いオブジェクトを検出するタスクである。我々は,ライダーに基づくOVDタスクのためのグローバルローカル協調スキーム(GLIS)を提案する。グローバルなローカル情報では、Large Language Model (LLM) がチェーン・オブ・シント推論に適用される。
論文参考訳（メタデータ） (2024-07-12T02:34:11Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Learning Background Prompts to Discover Implicit Knowledge for Open Vocabulary Object Detection [101.15777242546649]
Open vocabulary Object Detection (OVD) は、ベースと新規の両方のカテゴリからオブジェクトを認識できる最適なオブジェクト検出器を求めることを目的としている。近年の進歩は、知識蒸留を利用して、事前訓練された大規模視覚言語モデルからオブジェクト検出のタスクに洞察力のある知識を伝達している。本稿では,暗黙的背景知識を活用するための学習バックグラウンドプロンプトを提案するため,LBPと呼ばれる新しいOVDフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T17:32:26Z)
Generative Region-Language Pretraining for Open-Ended Object Detection [55.42484781608621]
我々は,高密度物体を検出し,その名前を自由形式の方法で生成できるGenerateUというフレームワークを提案する。本フレームワークはオープン語彙オブジェクト検出手法GLIPに匹敵する結果が得られる。
論文参考訳（メタデータ） (2024-03-15T10:52:39Z)
The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文参考訳（メタデータ） (2023-11-29T10:40:52Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
InstructDET: Diversifying Referring Object Detection with Generalized Instructions [39.36186258308405]
本稿では,ユーザ指示に基づいて対象オブジェクトをローカライズするオブジェクト検出(ROD)をデータ中心で参照する手法を提案する。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する素晴らしい命令を生成します。
論文参考訳（メタデータ） (2023-10-08T12:10:44Z)
What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文参考訳（メタデータ） (2023-09-01T03:03:50Z)
Linear Object Detection in Document Images using Multiple Object Tracking [58.720142291102135]
線形オブジェクトは文書構造に関する実質的な情報を伝達する。多くのアプローチはベクトル表現を復元できるが、1994年に導入された1つのクローズドソース技術のみである。複数オブジェクト追跡を用いた文書画像中の線形オブジェクトの正確なインスタンスセグメンテーションのためのフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-26T14:22:03Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Plug-and-Play Few-shot Object Detection with Meta Strategy and Explicit Localization Inference [78.41932738265345]
本稿では, 微調整を行なわずに新しいカテゴリーの物体を正確に検出できるプラグ検出器を提案する。局所化プロセスに2つの明示的な推論を導入し、アノテーション付きデータへの依存を減らす。これは、様々な評価プロトコルの下で、効率、精度、リコールの両方において大きなリードを示している。
論文参考訳（メタデータ） (2021-10-26T03:09:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。