論文の概要: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
- arxiv url: http://arxiv.org/abs/2403.14610v1
- Date: Thu, 21 Mar 2024 17:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:00:31.974847
- Title: T-Rex2: Towards Generic Object Detection via Text-Visual Prompt Synergy
- Title(参考訳): T-Rex2:テキスト・ビジュアル・プロンプト・シナジーによるジェネリック・オブジェクト検出を目指して
- Authors: Qing Jiang, Feng Li, Zhaoyang Zeng, Tianhe Ren, Shilong Liu, Lei Zhang,
- Abstract要約: T-Rex2は、オープンセットオブジェクト検出のための非常に実用的なモデルである。
対照的な学習を通じて、単一のモデル内でテキストと視覚的なプロンプトを相乗化します。
幅広いシナリオにまたがって、目覚ましいゼロショットオブジェクト検出機能を備えている。
- 参考スコア(独自算出の注目度): 19.847227079624716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present T-Rex2, a highly practical model for open-set object detection. Previous open-set object detection methods relying on text prompts effectively encapsulate the abstract concept of common objects, but struggle with rare or complex object representation due to data scarcity and descriptive limitations. Conversely, visual prompts excel in depicting novel objects through concrete visual examples, but fall short in conveying the abstract concept of objects as effectively as text prompts. Recognizing the complementary strengths and weaknesses of both text and visual prompts, we introduce T-Rex2 that synergizes both prompts within a single model through contrastive learning. T-Rex2 accepts inputs in diverse formats, including text prompts, visual prompts, and the combination of both, so that it can handle different scenarios by switching between the two prompt modalities. Comprehensive experiments demonstrate that T-Rex2 exhibits remarkable zero-shot object detection capabilities across a wide spectrum of scenarios. We show that text prompts and visual prompts can benefit from each other within the synergy, which is essential to cover massive and complicated real-world scenarios and pave the way towards generic object detection. Model API is now available at \url{https://github.com/IDEA-Research/T-Rex}.
- Abstract(参考訳): 我々は、オープンセットオブジェクト検出のための非常に実用的なモデルであるT-Rex2を提案する。
テキストプロンプトに依存する従来のオープンセットオブジェクト検出手法は、一般的なオブジェクトの抽象的な概念を効果的にカプセル化するが、データ不足と記述的制限のため、希少または複雑なオブジェクト表現に苦労する。
逆に、ビジュアルプロンプトは、具体的な視覚的な例を通して、新しいオブジェクトを描くのに優れているが、テキストプロンプトと同様に、抽象的なオブジェクトの概念を伝えることには不足している。
テキストと視覚的プロンプトの相補的な長所と短所を認識し, 対照的な学習を通して, 一つのモデル内で両方のプロンプトを相乗化するT-Rex2を導入する。
T-Rex2はテキストプロンプト、視覚的プロンプト、両方の組み合わせを含む様々な形式の入力を受け付けるため、2つのプロンプトモダリティを切り替えることで異なるシナリオを処理できる。
総合的な実験により、T-Rex2は様々なシナリオで顕著なゼロショット物体検出能力を示すことが示された。
テキストのプロンプトと視覚的なプロンプトが相乗効果の恩恵を受けることを示す。これは、大規模で複雑な現実世界のシナリオをカバーし、ジェネリックオブジェクト検出への道を開くのに不可欠である。
Model APIは現在、 \url{https://github.com/IDEA-Research/T-Rex}で利用可能である。
関連論文リスト
- TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT [0.0]
マルチオブジェクト追跡(MOT)は、かなり進歩しているが、事前の知識に大きく依存している。
ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)は、類似した外観を持つ複数のオブジェクトを追跡するが、ターゲットに関する事前情報が少ない。
我々はtextbftextTP-GMOTと呼ばれる新しいテキストプロンプトベースのオープン語彙GMOTフレームワークを導入する。
GMOTタスク用のtextRefer-GMOTデータセット上で、コントリビューションをベンチマークします。
論文 参考訳(メタデータ) (2024-09-04T07:33:09Z) - T-Rex: Counting by Visual Prompting [19.847227079624716]
T-Rexは対話型オブジェクトカウントモデルで、まず任意のオブジェクトを検出し、次にカウントするように設計されている。
ユーザは、参照イメージにポイントやボックスをマークすることで、関心のあるオブジェクトを指定することができ、T-Rexは、同じパターンですべてのオブジェクトを検出する。
T-Rexはいくつかのクラスに依存しないカウントベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-22T18:57:24Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。