論文の概要: FindIt: Generalized Localization with Natural Language Queries
- arxiv url: http://arxiv.org/abs/2203.17273v1
- Date: Thu, 31 Mar 2022 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:43:52.429382
- Title: FindIt: Generalized Localization with Natural Language Queries
- Title(参考訳): FindIt: 自然言語クエリによる一般化ローカライゼーション
- Authors: Weicheng Kuo, Fred Bertsch, Wei Li, AJ Piergiovanni, Mohammad Saffar,
Anelia Angelova
- Abstract要約: FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
- 参考スコア(独自算出の注目度): 43.07139534653485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose FindIt, a simple and versatile framework that unifies a variety of
visual grounding and localization tasks including referring expression
comprehension, text-based localization, and object detection. Key to our
architecture is an efficient multi-scale fusion module that unifies the
disparate localization requirements across the tasks. In addition, we discover
that a standard object detector is surprisingly effective in unifying these
tasks without a need for task-specific design, losses, or pre-computed
detections. Our end-to-end trainable framework responds flexibly and accurately
to a wide range of referring expression, localization or detection queries for
zero, one, or multiple objects. Jointly trained on these tasks, FindIt
outperforms the state of the art on both referring expression and text-based
localization, and shows competitive performance on object detection. Finally,
FindIt generalizes better to out-of-distribution data and novel categories
compared to strong single-task baselines. All of these are accomplished by a
single, unified and efficient model. The code will be released.
- Abstract(参考訳): 本研究では,表現理解の参照,テキストベースのローカライゼーション,オブジェクト検出など,さまざまなビジュアルグラウンドとローカライゼーションタスクを統合する,シンプルで汎用的なフレームワークfinditを提案する。
我々のアーキテクチャの鍵は、タスク間で異なるローカライズ要求を統一する効率的なマルチスケールフュージョンモジュールである。
さらに,タスク固有の設計や損失,事前計算による検出を必要とせず,これらのタスクを統一する上で,標準オブジェクト検出器が驚くほど有効であることが判明した。
エンドツーエンドのトレーニング可能なフレームワークは、ゼロ、ワン、あるいは複数のオブジェクトに対する幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に応答します。
これらのタスクを共同でトレーニングしたFindItは、表現の参照とテキストベースのローカライゼーションの両方において、技術の状態を上回り、オブジェクト検出における競合性能を示す。
最後に、finditは、強力なシングルタスクベースラインと比較して、分散外データや新しいカテゴリをより一般化します。
これらはすべて、単一で統一的で効率的なモデルによって実現されます。
コードはリリースされます。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - GMC: A General Framework of Multi-stage Context Learning and Utilization for Visual Detection Tasks [10.840556935747784]
多段階のコンテキスト学習と利用のための一般的なフレームワークが提案され、様々な視覚的検出タスクのための様々なディープネットワークアーキテクチャが提案されている。
提案するフレームワークは、視覚的検出シナリオにおけるコンテキスト学習と利用のための包括的で適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-08T02:54:09Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - Towards Accurate Localization by Instance Search [2.0539994999823334]
自己評価学習フレームワークが提案され、インスタンス検索によって返されるランクリストの精度の高いオブジェクトローカライゼーションを実現する。
提案フレームワークは,クエリと対応するトップランク検索結果から,ターゲットインスタンスを徐々にマイニングする。
インスタンス検索におけるローカライゼーションの実行に加えて、数発のオブジェクト検出の問題は、同じフレームワークの下でも対処される。
論文 参考訳(メタデータ) (2021-07-11T10:03:31Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。