Fugu-MT 論文翻訳(概要): InstructDET: Diversifying Referring Object Detection with Generalized Instructions

論文の概要: InstructDET: Diversifying Referring Object Detection with Generalized Instructions

arxiv url: http://arxiv.org/abs/2310.05136v5
Date: Mon, 11 Mar 2024 07:32:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 16:02:42.431422
Title: InstructDET: Diversifying Referring Object Detection with Generalized Instructions
Title（参考訳）: InstructDET:一般化命令による参照対象検出の多様化
Authors: Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song
Abstract要約: 本稿では,ユーザ指示に基づいて対象オブジェクトをローカライズするオブジェクト検出(ROD)をデータ中心で参照する手法を提案する。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する素晴らしい命令を生成します。
参考スコア（独自算出の注目度）: 39.36186258308405
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
Abstract（参考訳）: InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。構築したデータセットをInDETと名付けます。基礎モデルからのイメージ、bbx、一般化された命令を含む。我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。 InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。

関連論文リスト

Beyond Object Categories: Multi-Attribute Reference Understanding for Visual Grounding [10.04904999444546]
Referring Expression comprehensionは、自然言語記述に基づくオブジェクトのローカライゼーションを実現することを目的としている。既存のRECアプローチは、オブジェクトカテゴリ記述と単一属性の意図記述によって制約される。我々は、状態記述、導出意図、およびターゲット対象物を特定するための具体的ジェスチャーを統合する新しいフレームワークであるMulti-ref ECを提案する。
論文参考訳（メタデータ） (2025-03-25T00:59:58Z)
New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。 MLLM(Multimodal Large Language Models)の試験場として機能する。
論文参考訳（メタデータ） (2025-02-27T13:58:44Z)
YOLO-RD: Introducing Relevant and Compact Explicit Knowledge to YOLO by Retriever-Dictionary [12.39040757106137]
この問題に対処するために,革新的なem textbfRetriever-emtextbfDictionary (RD) モジュールを導入する。このアーキテクチャにより、YOLOベースのモデルは、データセットの洞察を含むDictionaryから機能を効率的に取得できる。
論文参考訳（メタデータ） (2024-10-20T09:38:58Z)
Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文参考訳（メタデータ） (2024-07-18T20:29:49Z)
UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文参考訳（メタデータ） (2024-06-23T06:58:55Z)
Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文参考訳（メタデータ） (2023-12-26T01:40:31Z)
Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文参考訳（メタデータ） (2023-12-10T03:56:06Z)
Instruct and Extract: Instruction Tuning for On-Demand Information Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。 InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。 InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文参考訳（メタデータ） (2023-10-24T17:54:25Z)
Described Object Detection: Liberating Object Detection with Flexible Expressions [19.392927971139652]
オープンボキャブラリオブジェクト検出(OVD)とReferring Expression(REC)を記述対象検出(DOD)に進める。本稿では,カテゴリ名を OVD のフレキシブル言語表現に拡張することで,より実践的な "Description Object Detection (DOD)" へと前進させる。このデータセットは、短いカテゴリ名や長い記述など、柔軟な言語表現と、省略せずにすべての画像に記述されたすべてのオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-07-24T14:06:54Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文参考訳（メタデータ） (2023-06-12T17:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。