論文の概要: Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual
Grounding
- arxiv url: http://arxiv.org/abs/2003.08717v3
- Date: Wed, 26 May 2021 12:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:31:37.593355
- Title: Giving Commands to a Self-driving Car: A Multimodal Reasoner for Visual
Grounding
- Title(参考訳): 自動運転車にコマンドを与える:ビジュアルグラウンドのためのマルチモーダル推論
- Authors: Thierry Deruyttere, Guillem Collell, Marie-Francine Moens
- Abstract要約: 本稿では,ビジュアルグラウンド(VG)タスクのための空間記憶モジュールと空間推論器を提案する。
このタスクの目標は、与えられたテキストクエリに基づいて、画像中の特定のオブジェクトを見つけることである。
本研究は,地域提案ネットワーク(RPN)の領域を多段階推論モデルに統合することに焦点を当てる。
- 参考スコア(独自算出の注目度): 19.48363193759392
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a new spatial memory module and a spatial reasoner for the Visual
Grounding (VG) task. The goal of this task is to find a certain object in an
image based on a given textual query. Our work focuses on integrating the
regions of a Region Proposal Network (RPN) into a new multi-step reasoning
model which we have named a Multimodal Spatial Region Reasoner (MSRR). The
introduced model uses the object regions from an RPN as initialization of a 2D
spatial memory and then implements a multi-step reasoning process scoring each
region according to the query, hence why we call it a multimodal reasoner. We
evaluate this new model on challenging datasets and our experiments show that
our model that jointly reasons over the object regions of the image and words
of the query largely improves accuracy compared to current state-of-the-art
models.
- Abstract(参考訳): 本稿では,ビジュアルグラウンド(VG)タスクのための空間記憶モジュールと空間推論器を提案する。
このタスクの目標は、与えられたテキストクエリに基づいて画像中の特定のオブジェクトを見つけることである。
本研究は,地域提案ネットワーク(RPN)の領域を多段階推論モデルに統合することに焦点を当て,MSRR(Multimodal Spatial Region Reasoner)と名付けた。
提案モデルでは,RPNのオブジェクト領域を2次元空間メモリの初期化として使用し,クエリに応じて各領域をスコアリングする多段階推論プロセスを実装した。
我々は,この新モデルを挑戦的データセット上で評価し,我々の実験により,画像のオブジェクト領域とクエリの単語を共同で原因付けるモデルが,現在の最先端モデルと比較して精度を大幅に向上することを示した。
関連論文リスト
- ReMI: A Dataset for Reasoning with Multiple Images [41.954830849939526]
ReMIは、大規模言語モデルが複数の画像で推論できる能力を評価するために設計されたデータセットである。
このデータセットは、数学、物理学、論理学、コード、表/チャート理解、空間的および時間的推論といった様々な推論領域にまたがる様々なタスクを含んでいる。
我々は,最先端のLDMのベンチマークを行い,その性能と人間レベルの習熟度の間に大きなギャップがあることを発見した。
論文 参考訳(メタデータ) (2024-06-13T14:37:04Z) - DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution [54.05367433562495]
領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
そこで我々はDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、高精度な領域レベルの参照を追求する。
論文 参考訳(メタデータ) (2024-05-25T05:44:55Z) - Few-shot Object Localization [37.347898735345574]
本稿では,Few-Shot Object Localization (FSOL) という新しいタスクを定義する。
限られたサンプルで正確な位置決めを実現することを目的としている。
本課題は、少数のラベル付きサポートサンプルを利用して、対応する画像内のオブジェクトの位置情報をクエリすることで、一般化されたオブジェクトのローカライゼーションを実現する。
実験の結果,FSOLタスクにおけるアプローチの大幅な性能向上が示され,さらなる研究のための効率的なベンチマークが確立された。
論文 参考訳(メタデータ) (2024-03-19T05:50:48Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - RLM-Tracking: Online Multi-Pedestrian Tracking Supported by Relative
Location Mapping [5.9669075749248774]
マルチオブジェクトトラッキングの問題は、公安、輸送、自動運転車、ロボティクス、人工知能を含む他の領域で広く利用されている、基本的なコンピュータビジョン研究の焦点である。
本稿では、オブジェクト textbfRelative Location Mapping (RLM) モデルと textbfTarget Region Density (TRD) モデルを含む、上記の問題に対する新しいマルチオブジェクトトラッカーを設計する。
新しいトラッカーは、オブジェクト間の位置関係の違いに敏感である。
物体の密度に応じてリアルタイムで異なる領域に低スコア検出フレームを導入することができる
論文 参考訳(メタデータ) (2022-10-19T11:37:14Z) - Scale-Localized Abstract Reasoning [79.00011351374869]
本稿では,インテリジェンステストとしてよく用いられる抽象的関係推論タスクについて考察する。
いくつかのパターンは空間的有理性を持っているが、他のパターンは意味論に過ぎないため、各クエリを複数の解像度で処理するマルチスケールアーキテクチャを提案する。
異なる解法によって実際に異なるルールが解かれることを示し、組み合わせたマルチスケールアプローチは、全てのベンチマークにおいて、このタスクにおける既存の技術の状態を5~54%上回っていることを示す。
論文 参考訳(メタデータ) (2020-09-20T10:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。