論文の概要: InstructDET: Diversifying Referring Object Detection with Generalized
Instructions
- arxiv url: http://arxiv.org/abs/2310.05136v5
- Date: Mon, 11 Mar 2024 07:32:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:02:42.431422
- Title: InstructDET: Diversifying Referring Object Detection with Generalized
Instructions
- Title(参考訳): InstructDET:一般化命令による参照対象検出の多様化
- Authors: Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song,
Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song
- Abstract要約: 本稿では,ユーザ指示に基づいて対象オブジェクトをローカライズするオブジェクト検出(ROD)をデータ中心で参照する手法を提案する。
1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する素晴らしい命令を生成します。
- 参考スコア(独自算出の注目度): 39.36186258308405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose InstructDET, a data-centric method for referring object detection
(ROD) that localizes target objects based on user instructions. While deriving
from referring expressions (REC), the instructions we leverage are greatly
diversified to encompass common user intentions related to object detection.
For one image, we produce tremendous instructions that refer to every single
object and different combinations of multiple objects. Each instruction and its
corresponding object bounding boxes (bbxs) constitute one training data pair.
In order to encompass common detection expressions, we involve emerging
vision-language model (VLM) and large language model (LLM) to generate
instructions guided by text prompts and object bbxs, as the generalizations of
foundation models are effective to produce human-like expressions (e.g.,
describing object property, category, and relationship). We name our
constructed dataset as InDET. It contains images, bbxs and generalized
instructions that are from foundation models. Our InDET is developed from
existing REC datasets and object detection datasets, with the expanding
potential that any image with object bbxs can be incorporated through using our
InstructDET method. By using our InDET dataset, we show that a conventional ROD
model surpasses existing methods on standard REC datasets and our InDET test
set. Our data-centric method InstructDET, with automatic data expansion by
leveraging foundation models, directs a promising field that ROD can be greatly
diversified to execute common object detection instructions.
- Abstract(参考訳): InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。
参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。
1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。
各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。
共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。
構築したデータセットをInDETと名付けます。
基礎モデルからのイメージ、bbx、一般化された命令を含む。
我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。
InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。
基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。
関連論文リスト
- Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Described Object Detection: Liberating Object Detection with Flexible
Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。
本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。
このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-07-24T14:06:54Z) - Switching Head-Tail Funnel UNITER for Dual Referring Expression
Comprehension with Fetch-and-Carry Tasks [3.248019437833647]
本稿では,日常的な対象物を収集し,自由形式の自然言語指示に従って特定の目的地へ搬送するホームサービスロボットについて述べる。
既存の多モーダル言語理解手法のほとんどは、計算複雑性の観点からは実用的ではない。
対象物と宛先を1つのモデルで個別に予測することでタスクを解決できるスイッチングヘッドタイルファンネルUNITERを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:27:56Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Target-dependent UNITER: A Transformer-Based Multimodal Language
Comprehension Model for Domestic Service Robots [0.0]
画像内の関連領域に着目し,対象オブジェクトと他のオブジェクトの関係を直接学習するターゲット依存型UNITERを提案する。
提案手法は,汎用データセット上で事前学習が可能なUNITERベースのトランスフォーマーの拡張である。
本モデルでは,2つの標準データセットに対して検証を行い,分類精度の点で,ターゲット依存型UNITERがベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T03:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。