論文の概要: Multimodal Query-guided Object Localization
- arxiv url: http://arxiv.org/abs/2212.00749v2
- Date: Wed, 24 Jul 2024 14:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 20:09:44.807763
- Title: Multimodal Query-guided Object Localization
- Title(参考訳): マルチモーダルクエリ誘導オブジェクトローカライゼーション
- Authors: Aditay Tripathi, Rajath R Dani, Anand Mishra, Anirban Chakraborty,
- Abstract要約: 本稿では,複数モーダルなクエリ誘導オブジェクトローカライズ手法を提案する。
特に、手書きのスケッチとオブジェクトの記述という、2つのモダリティからのクエリを使用します。
提案手法は,提案するエリア提案ネットワークを誘導し,オブジェクト提案を生成する。
- 参考スコア(独自算出の注目度): 5.424592317916519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider a scenario in one-shot query-guided object localization where neither an image of the object nor the object category name is available as a query. In such a scenario, a hand-drawn sketch of the object could be a choice for a query. However, hand-drawn crude sketches alone, when used as queries, might be ambiguous for object localization, e.g., a sketch of a laptop could be confused for a sofa. On the other hand, a linguistic definition of the category, e.g., a small portable computer small enough to use in your lap" along with the sketch query, gives better visual and semantic cues for object localization. In this work, we present a multimodal query-guided object localization approach under the challenging open-set setting. In particular, we use queries from two modalities, namely, hand-drawn sketch and description of the object (also known as gloss), to perform object localization. Multimodal query-guided object localization is a challenging task, especially when a large domain gap exists between the queries and the natural images, as well as due to the challenge of combining the complementary and minimal information present across the queries. For example, hand-drawn crude sketches contain abstract shape information of an object, while the text descriptions often capture partial semantic information about a given object category. To address the aforementioned challenges, we present a novel cross-modal attention scheme that guides the region proposal network to generate object proposals relevant to the input queries and a novel orthogonal projection-based proposal scoring technique that scores each proposal with respect to the queries, thereby yielding the final localization results. ...
- Abstract(参考訳): オブジェクトのイメージもオブジェクトのカテゴリ名もクエリとして利用できない、ワンショットのクエリ誘導オブジェクトローカライゼーションのシナリオを考えてみましょう。
このようなシナリオでは、オブジェクトの手書きのスケッチがクエリの選択になる可能性がある。
しかし、手描きの粗雑なスケッチだけでは、クエリーとして使うと、オブジェクトのローカライゼーションには曖昧である可能性がある。
一方、このカテゴリの言語的定義である「例えば、小さめのポータブルコンピュータ」は、スケッチクエリとともに、オブジェクトのローカライゼーションにより良い視覚的および意味的な手がかりを提供する。
本研究では,複数モーダルなクエリ誘導オブジェクトローカライズ手法を提案する。
特に、オブジェクトのローカライゼーションを行うために、手書きのスケッチとオブジェクトの記述(グロスとしても知られる)という2つのモードからのクエリを使用します。
マルチモーダルなクエリ誘導オブジェクトローカライゼーションは、特にクエリと自然画像の間に大きなドメインギャップが存在する場合や、クエリ全体に存在する補完的情報と最小限の情報を組み合わせることによる課題である。
例えば、手描きの粗スケッチにはオブジェクトの抽象的な形状情報が含まれており、テキスト記述は、与えられたオブジェクトカテゴリに関する部分的な意味情報をキャプチャすることが多い。
上記の課題に対処するために、入力クエリに関連するオブジェクト提案を生成するために領域提案ネットワークを誘導する新しいクロスモーダルアテンションスキームと、クエリに対して各提案をスコアリングし、最終的なローカライズ結果を得る新しい直交プロジェクションベースの提案スコアリング技術を提案する。
はぁ...。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Chat-3D v2: Bridging 3D Scene and Large Language Models with Object
Identifiers [62.232809030044116]
会話中にオブジェクトを自由に参照するためにオブジェクト識別子を導入する。
本稿では,属性認識トークンと関係認識トークンを各オブジェクトに対して学習する2段階アライメント手法を提案する。
ScanQA、ScanRefer、Nr3D/Sr3Dといった従来のデータセットで行った実験は、提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open
Environments [170.43912741137655]
我々はReasoning Intention-Oriented Objects (RIO)と呼ばれる包括的なデータセットを構築する。
RIOは、様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されている。
オープン環境で意図指向オブジェクトを推論する既存モデルの能力を評価する。
論文 参考訳(メタデータ) (2023-10-26T10:15:21Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Query-guided Attention in Vision Transformers for Localizing Objects
Using a Single Sketch [17.63475613154152]
オブジェクトの粗雑な手書きスケッチが与えられた場合、目標は、ターゲット画像上の同じオブジェクトのすべてのインスタンスをローカライズすることである。
この問題は、手描きスケッチの抽象的な性質、スケッチのスタイルや質のバリエーション、スケッチと自然画像の間に存在する大きな領域ギャップなどによって証明される。
本稿では,画像エンコーダの各ブロックにクロスアテンションを用いて,問合せ条件付き画像特徴を学習するスケッチ誘導型視覚トランスフォーマエンコーダを提案する。
論文 参考訳(メタデータ) (2023-03-15T17:26:17Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - FindIt: Generalized Localization with Natural Language Queries [43.07139534653485]
FindItは、さまざまな視覚的グラウンドとローカライゼーションタスクを統合する、シンプルで汎用的なフレームワークである。
我々のアーキテクチャの鍵は、異なるローカライゼーション要求を統一する効率的なマルチスケール融合モジュールである。
エンドツーエンドのトレーニング可能なフレームワークは、幅広い参照表現、ローカライゼーション、検出クエリに柔軟かつ正確に対応します。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Object Priors for Classifying and Localizing Unseen Actions [45.91275361696107]
本稿では,局所人物と物体検出器をその空間的関係とともに符号化する3つの空間的対象先行法を提案する。
上述の3つのセマンティックオブジェクトプリエントを導入し、単語の埋め込みを通じてセマンティックマッチングを拡張する。
ビデオ埋め込みは、空間オブジェクトと意味オブジェクトをプリエントする。
論文 参考訳(メタデータ) (2021-04-10T08:56:58Z) - Prototypical Region Proposal Networks for Few-Shot Localization and
Classification [1.5100087942838936]
分割と分類をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発する。
本手法は,複数のオブジェクトクラスを含む自然シーンを用いた画像データセットの精度向上を実証した。
論文 参考訳(メタデータ) (2021-04-08T04:03:30Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Sketch-Guided Object Localization in Natural Images [16.982683600384277]
スケッチクエリにより,物体のすべてのインスタンスを自然な画像にローカライズする新たな問題(トレーニング中は見えなかったり見えなかったり)を導入する。
本稿では,スケッチクエリに関連するオブジェクト提案を生成するために,地域提案ネットワーク(RPN)をガイドする新しいクロスモーダルアテンションスキームを提案する。
我々の手法は1つのスケッチクエリで有効である。
論文 参考訳(メタデータ) (2020-08-14T19:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。