論文の概要: SIRI: Spatial Relation Induced Network For Spatial Description
Resolution
- arxiv url: http://arxiv.org/abs/2010.14301v1
- Date: Tue, 27 Oct 2020 14:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 12:25:32.534800
- Title: SIRI: Spatial Relation Induced Network For Spatial Description
Resolution
- Title(参考訳): SIRI:空間記述解決のための空間関係誘導ネットワーク
- Authors: Peiyao Wang, Weixin Luo, Yanyu Xu, Haojie Li, Shugong Xu, Jianyu Yang,
Shenghua Gao
- Abstract要約: 言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
- 参考スコア(独自算出の注目度): 64.38872296406211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial Description Resolution, as a language-guided localization task, is
proposed for target location in a panoramic street view, given corresponding
language descriptions. Explicitly characterizing an object-level relationship
while distilling spatial relationships are currently absent but crucial to this
task. Mimicking humans, who sequentially traverse spatial relationship words
and objects with a first-person view to locate their target, we propose a novel
spatial relationship induced (SIRI) network. Specifically, visual features are
firstly correlated at an implicit object-level in a projected latent space;
then they are distilled by each spatial relationship word, resulting in each
differently activated feature representing each spatial relationship. Further,
we introduce global position priors to fix the absence of positional
information, which may result in global positional reasoning ambiguities. Both
the linguistic and visual features are concatenated to finalize the target
localization. Experimental results on the Touchdown show that our method is
around 24\% better than the state-of-the-art method in terms of accuracy,
measured by an 80-pixel radius. Our method also generalizes well on our
proposed extended dataset collected using the same settings as Touchdown.
- Abstract(参考訳): パノラマストリートビューにおいて,対応言語記述を与えられた対象位置に対して,言語誘導型局所化タスクとして空間的記述解決を提案する。
空間関係を蒸留しながら、オブジェクトレベルの関係を明示的に特徴付けることは、現在欠落しているが、このタスクには不可欠である。
本研究は,人間を模倣し,一対一の視点で空間関係の単語と対象を逐次横断し,その対象を同定する新しい空間関係誘導ネットワークを提案する。
具体的には、視覚的特徴は、投影された潜在空間内の暗黙的対象レベルでまず相関し、次いで各空間関係語によって蒸留され、それぞれの空間関係を表す異なる活性化された特徴となる。
さらに、位置情報の欠如を解消するために、グローバルな位置推定を先取りし、グローバルな位置推論の曖昧さをもたらす可能性がある。
言語的特徴と視覚的特徴の両方が連結され、ターゲットのローカライゼーションが確定する。
タッチダウン実験の結果,80ピクセルの半径で測定した精度では,最先端法よりも24\%高い値を示した。
提案手法は,タッチダウンと同じ設定で収集した拡張データセットの一般化も行う。
関連論文リスト
- CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition [5.083140094792973]
SpaCoNetは、セマンティックセグメンテーションによって導かれるオブジェクトの空間的関係と共起を同時にモデル化する。
広範に利用されている3つのシーンデータセットの実験結果から,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2023-05-22T03:04:22Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。