論文の概要: Closing the Loop: Graph Networks to Unify Semantic Objects and Visual
Features for Multi-object Scenes
- arxiv url: http://arxiv.org/abs/2209.11894v1
- Date: Sat, 24 Sep 2022 00:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:27:02.719774
- Title: Closing the Loop: Graph Networks to Unify Semantic Objects and Visual
Features for Multi-object Scenes
- Title(参考訳): ループを閉じる:多目的シーンのためのセマンティックオブジェクトと視覚機能を統合するグラフネットワーク
- Authors: Jonathan J.Y. Kim, Martin Urschler, Patricia J. Riddle, J\"org S.
Wicker
- Abstract要約: ループクロージャ検出(LCD)は、以前に訪れた場所を認識する際に、ドリフトを最小限に抑えるために必要である。
Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。
本稿では,セマンティックオブジェクトと視覚的特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。
- 参考スコア(独自算出の注目度): 2.236663830879273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In Simultaneous Localization and Mapping (SLAM), Loop Closure Detection (LCD)
is essential to minimize drift when recognizing previously visited places.
Visual Bag-of-Words (vBoW) has been an LCD algorithm of choice for many
state-of-the-art SLAM systems. It uses a set of visual features to provide
robust place recognition but fails to perceive the semantics or spatial
relationship between feature points. Previous work has mainly focused on
addressing these issues by combining vBoW with semantic and spatial information
from objects in the scene. However, they are unable to exploit spatial
information of local visual features and lack a structure that unifies semantic
objects and visual features, therefore limiting the symbiosis between the two
components. This paper proposes SymbioLCD2, which creates a unified graph
structure to integrate semantic objects and visual features symbiotically. Our
novel graph-based LCD system utilizes the unified graph structure by applying a
Weisfeiler-Lehman graph kernel with temporal constraints to robustly predict
loop closure candidates. Evaluation of the proposed system shows that having a
unified graph structure incorporating semantic objects and visual features
improves LCD prediction accuracy, illustrating that the proposed graph
structure provides a strong symbiosis between these two complementary
components. It also outperforms other Machine Learning algorithms - such as
SVM, Decision Tree, Random Forest, Neural Network and GNN based Graph Matching
Networks. Furthermore, it has shown good performance in detecting loop closure
candidates earlier than state-of-the-art SLAM systems, demonstrating that
extended semantic and spatial awareness from the unified graph structure
significantly impacts LCD performance.
- Abstract(参考訳): 同時局所化マッピング(SLAM)では、以前に訪れた場所を認識する際のドリフトを最小限にするために、ループクロージャ検出(LCD)が不可欠である。
Visual Bag-of-Words (vBoW)は、多くの最先端SLAMシステムで選択されたLCDアルゴリズムである。
視覚的な特徴セットを使用して堅牢な場所認識を提供するが、特徴点間の意味や空間的関係を認識できない。
これまでの研究は主に、vBoWとシーン内のオブジェクトのセマンティック情報と空間情報を組み合わせることで、これらの問題に対処することに集中してきた。
しかし、局所的な視覚特徴の空間情報を利用することができず、セマンティックオブジェクトと視覚特徴を統一する構造が欠如しており、2つのコンポーネント間の共生が制限されている。
本稿では,セマンティックオブジェクトと視覚特徴を共生的に統合する統合グラフ構造を構築するSymbioLCD2を提案する。
Wesfeiler-Lehmanグラフカーネルを時間制約で適用し,ループクロージャ候補を頑健に予測することで,グラフ構造を統一化する。
提案システムの評価では,意味オブジェクトと視覚特徴を一体化したグラフ構造を持つことでLCD予測精度が向上し,このグラフ構造がこれら2つの相補的コンポーネントの間に強い共生をもたらすことを示す。
また、SVM、決定木、ランダムフォレスト、ニューラルネットワーク、GNNベースのグラフマッチングネットワークなど、他の機械学習アルゴリズムよりも優れています。
さらに、最先端SLAMシステムよりも早くループ閉鎖候補を検出することに優れた性能を示し、統一グラフ構造からのセマンティックな認識と空間的認識がLCDの性能に大きな影響を及ぼすことを示した。
関連論文リスト
- DynamicGlue: Epipolar and Time-Informed Data Association in Dynamic Environments using Graph Neural Networks [13.42760841894735]
本稿では,困難条件下で頑健なマッチングを実現するために,グラフニューラルネットワークに基づくスパース特徴マッチングネットワークを提案する。
我々は、キーポイント表現を最先端の機能マッチングネットワークとして強化するために、グラフエッジ上での注目集約という同様の手法を用いる。
動作対象のキーポイントを排除したネットワークの性能は,最新の特徴マッチングネットワークと比較して,一連の実験により向上した。
論文 参考訳(メタデータ) (2024-03-17T23:23:40Z) - Dynamic Graph Representation with Knowledge-aware Attention for
Histopathology Whole Slide Image Analysis [11.353826466710398]
本稿では,知識グラフ構造の形式としてWSIを概念化する新しい動的グラフ表現アルゴリズムを提案する。
具体的には、インスタンス間の頭と尾の関係に基づいて、隣人や方向のエッジの埋め込みを動的に構築する。
我々のエンドツーエンドグラフ表現学習アプローチは、TCGAベンチマーク3つのデータセットと社内テストセットにおける最先端のWSI分析手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T14:58:51Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Template based Graph Neural Network with Optimal Transport Distances [11.56532171513328]
現在のグラフニューラルネットワーク(GNN)アーキテクチャは、2つの重要なコンポーネントに依存している。
本稿では,学習可能なグラフテンプレートとの距離をグラフ表現のコアに配置する新しい視点を提案する。
この距離埋め込みは、Fused Gromov-Wasserstein (FGW) 距離という最適な輸送距離によって構築される。
論文 参考訳(メタデータ) (2022-05-31T12:24:01Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - SymbioLCD: Ensemble-Based Loop Closure Detection using CNN-Extracted
Objects and Visual Bag-of-Words [2.924868086534434]
ループクロージャ検出は、その局在のドリフトを最小化するSLAMの重要なツールである。
多くの最先端ループクロージャ検出アルゴリズムは、ビジュアルバグ・オブ・ワード(vBoW)を使用している。
我々は,CNN抽出オブジェクトとvBoW特徴の両方を利用した新しいアンサンブルベースのLCDであるSymbioLCDを提案する。
論文 参考訳(メタデータ) (2021-10-21T21:34:57Z) - Incremental Abstraction in Distributed Probabilistic SLAM Graphs [23.441820909790497]
シーングラフは、コンパクトでセマンティックにリッチな方法でシーンのキーコンポーネントを表す。
シーングラフを段階的に構築するための分散グラフベースのSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-13T18:16:36Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Spatial Context with Graph Neural Network for Multi-Person Pose
Grouping [71.59494156155309]
イメージベース多人数ポーズ推定のためのボトムアップ手法は,キーポイント検出とグループ化の2段階からなる。
本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。
学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。
論文 参考訳(メタデータ) (2021-04-06T09:21:14Z) - Learning Physical Graph Representations from Visual Scenes [56.7938395379406]
物理シーングラフ(PSG)はシーンを階層的なグラフとして表現し、ノードは異なるスケールのオブジェクト部品に直感的に対応し、部品間の物理的接続にエッジを持つ。
PSGNetは、低レベルの画像情報と高レベルの画像情報を組み合わせたリカレントフィードバック接続、空間的に均一な特徴マップをオブジェクト中心のグラフ構造に変換するグラフプーリングとベクトル化操作を含む、標準的なCNNを拡張している。
我々は,PSGNetがシーンセグメンテーションタスクにおいて,他の自己教師付きシーン表現アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。