論文の概要: DetGPT: Detect What You Need via Reasoning
- arxiv url: http://arxiv.org/abs/2305.14167v2
- Date: Wed, 24 May 2023 02:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:45:17.009303
- Title: DetGPT: Detect What You Need via Reasoning
- Title(参考訳): DetGPT: 推論で必要なものを検出する
- Authors: Renjie Pi, Jiahui Gao, Shizhe Diao, Rui Pan, Hanze Dong, Jipeng Zhang,
Lewei Yao, Jianhua Han, Hang Xu, Lingpeng Kong, Tong Zhang
- Abstract要約: 我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。
特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。
提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
- 参考スコア(独自算出の注目度): 33.00345609506097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the field of computer vision has seen significant
advancements thanks to the development of large language models (LLMs). These
models have enabled more effective and sophisticated interactions between
humans and machines, paving the way for novel techniques that blur the lines
between human and machine intelligence. In this paper, we introduce a new
paradigm for object detection that we call reasoning-based object detection.
Unlike conventional object detection methods that rely on specific object
names, our approach enables users to interact with the system using natural
language instructions, allowing for a higher level of interactivity. Our
proposed method, called DetGPT, leverages state-of-the-art multi-modal models
and open-vocabulary object detectors to perform reasoning within the context of
the user's instructions and the visual scene. This enables DetGPT to
automatically locate the object of interest based on the user's expressed
desires, even if the object is not explicitly mentioned. For instance, if a
user expresses a desire for a cold beverage, DetGPT can analyze the image,
identify a fridge, and use its knowledge of typical fridge contents to locate
the beverage. This flexibility makes our system applicable across a wide range
of fields, from robotics and automation to autonomous driving. Overall, our
proposed paradigm and DetGPT demonstrate the potential for more sophisticated
and intuitive interactions between humans and machines. We hope that our
proposed paradigm and approach will provide inspiration to the community and
open the door to more interative and versatile object detection systems. Our
project page is launched at detgpt.github.io.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の開発により,コンピュータビジョンの分野が大幅に進歩している。
これらのモデルは、人間と機械の間のより効果的で洗練された相互作用を可能にし、人間と機械の知性の境界を曖昧にする新しいテクニックの道を開いた。
本稿では、推論に基づくオブジェクト検出と呼ばれるオブジェクト検出の新しいパラダイムを提案する。
特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能であり,対話性が向上する。
提案手法はdetgptと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を用いて,ユーザの指示と視覚シーンのコンテキスト内で推論を行う。
これにより、明示的に言及されていないオブジェクトであっても、ユーザの表現された要求に基づいて、DetGPTが自動的に関心の対象を特定できる。
例えば、ユーザーが冷たい飲み物を欲しがっている場合、DetGPTはイメージを分析し、冷蔵庫を特定し、典型的な冷蔵庫の内容の知識を使って飲み物を見つけることができる。
この柔軟性により、ロボット工学や自動化から自動運転まで、幅広い分野に適用できます。
全体として、提案したパラダイムとDetGPTは、人間と機械間のより洗練された直感的な相互作用の可能性を示している。
提案したパラダイムとアプローチがコミュニティにインスピレーションを与え、よりインタラクティブで多目的なオブジェクト検出システムへの扉を開くことを願っています。
プロジェクトページはdetgpt.github.ioで公開しています。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Learning Intuitive Physics with Multimodal Generative Models [24.342994226226786]
本稿では,視覚と触覚のフィードバックを融合させ,動的シーンにおける物体の動きを予測する枠組みを提案する。
我々は、接触面の高解像度マルチモーダルセンシングを提供する新しいSee-Through-your-Skin(STS)センサを使用します。
物体の静止状態を所定の初期条件から予測するシミュレーションおよび実世界の実験を通じて検証する。
論文 参考訳(メタデータ) (2021-01-12T12:55:53Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。