論文の概要: Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual
Grounding
- arxiv url: http://arxiv.org/abs/2003.08717v3
- Date: Wed, 26 May 2021 12:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:31:37.593355
- Title: Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual
Grounding
- Title(参考訳): 自動運転車にコマンドを与える:ビジュアルグラウンドのためのマルチモーダル推論
- Authors: Thierry Deruyttere, Guillem Collell, Marie-Francine Moens
- Abstract要約: 本稿では,ビジュアルグラウンド(VG)タスクのための空間記憶モジュールと空間推論器を提案する。
このタスクの目標は、与えられたテキストクエリに基づいて、画像中の特定のオブジェクトを見つけることである。
本研究は,地域提案ネットワーク(RPN)の領域を多段階推論モデルに統合することに焦点を当てる。
- 参考スコア(独自算出の注目度): 19.48363193759392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a new spatial memory module and a spatial reasoner for the Visual
Grounding (VG) task. The goal of this task is to find a certain object in an
image based on a given textual query. Our work focuses on integrating the
regions of a Region Proposal Network (RPN) into a new multi-step reasoning
model which we have named a Multimodal Spatial Region Reasoner (MSRR). The
introduced model uses the object regions from an RPN as initialization of a 2D
spatial memory and then implements a multi-step reasoning process scoring each
region according to the query, hence why we call it a multimodal reasoner. We
evaluate this new model on challenging datasets and our experiments show that
our model that jointly reasons over the object regions of the image and words
of the query largely improves accuracy compared to current state-of-the-art
models.
- Abstract(参考訳): 本稿では,ビジュアルグラウンド(VG)タスクのための空間記憶モジュールと空間推論器を提案する。
このタスクの目標は、与えられたテキストクエリに基づいて画像中の特定のオブジェクトを見つけることである。
本研究は,地域提案ネットワーク(RPN)の領域を多段階推論モデルに統合することに焦点を当て,MSRR(Multimodal Spatial Region Reasoner)と名付けた。
提案モデルでは,RPNのオブジェクト領域を2次元空間メモリの初期化として使用し,クエリに応じて各領域をスコアリングする多段階推論プロセスを実装した。
我々は,この新モデルを挑戦的データセット上で評価し,我々の実験により,画像のオブジェクト領域とクエリの単語を共同で原因付けるモデルが,現在の最先端モデルと比較して精度を大幅に向上することを示した。
関連論文リスト
- ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Learning Discriminative Features for Crowd Counting [1.3597551064547502]
群集カウントのための学習識別機能フレームワークを提案する。
このフレームワークは、マスク付き特徴予測モジュールと、教師付き画素レベルのコントラスト学習モジュールとから構成される。
提案したモジュールは、クラウドカウントやオブジェクト検出など、様々なコンピュータビジョンタスクにおいて有用である。
論文 参考訳(メタデータ) (2023-11-08T07:54:20Z) - Dense Video Object Captioning from Disjoint Supervision [74.29564964727813]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。
我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative
Location Mapping [5.9669075749248774]
マルチオブジェクトトラッキングの問題は、公安、輸送、自動運転車、ロボティクス、人工知能を含む他の領域で広く利用されている、基本的なコンピュータビジョン研究の焦点である。
本稿では、オブジェクト textbfRelative Location Mapping (RLM) モデルと textbfTarget Region Density (TRD) モデルを含む、上記の問題に対する新しいマルチオブジェクトトラッカーを設計する。
新しいトラッカーは、オブジェクト間の位置関係の違いに敏感である。
物体の密度に応じてリアルタイムで異なる領域に低スコア検出フレームを導入することができる
論文 参考訳(メタデータ) (2022-10-19T11:37:14Z) - Deep Generative Framework for Interactive 3D Terrain Authoring and
Manipulation [4.202216894379241]
本稿では,VAEと生成条件GANモデルを組み合わせた新しいランドスケープオーサリングフレームワークを提案する。
我々のフレームワークは実世界の地形データセットから潜在空間を学習することで既存の手法の限界を克服しようとする例に基づく手法である。
我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。
論文 参考訳(メタデータ) (2022-01-07T08:58:01Z) - Scale-Localized Abstract Reasoning [79.00011351374869]
本稿では,インテリジェンステストとしてよく用いられる抽象的関係推論タスクについて考察する。
いくつかのパターンは空間的有理性を持っているが、他のパターンは意味論に過ぎないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、全てのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-20T10:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。