論文の概要: SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs
- arxiv url: http://arxiv.org/abs/2404.00469v3
- Date: Fri, 12 Jul 2024 09:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:47:43.121506
- Title: SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs
- Title(参考訳): SceneGraphLoc: 3D Scene Graph上でのクロスモーダル粗なビジュアルローカライゼーション
- Authors: Yang Miao, Francis Engelmann, Olga Vysotska, Federico Tombari, Marc Pollefeys, Dániel Béla Baráth,
- Abstract要約: SceneGraphLocはシーングラフ内の各ノード(つまりオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習する。
画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 81.2396059480232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel problem, i.e., the localization of an input image within a multi-modal reference map represented by a database of 3D scene graphs. These graphs comprise multiple modalities, including object-level point clouds, images, attributes, and relationships between objects, offering a lightweight and efficient alternative to conventional methods that rely on extensive image databases. Given the available modalities, the proposed method SceneGraphLoc learns a fixed-sized embedding for each node (i.e., representing an object instance) in the scene graph, enabling effective matching with the objects visible in the input query image. This strategy significantly outperforms other cross-modal methods, even without incorporating images into the map embeddings. When images are leveraged, SceneGraphLoc achieves performance close to that of state-of-the-art techniques depending on large image databases, while requiring three orders-of-magnitude less storage and operating orders-of-magnitude faster. The code will be made public.
- Abstract(参考訳): 本稿では,3次元シーングラフのデータベースで表されるマルチモーダル参照マップ内の入力画像の局所化という,新たな問題を紹介する。
これらのグラフは、オブジェクトレベルの点雲、画像、属性、オブジェクト間の関係を含む複数のモードから構成されており、広範囲な画像データベースに依存する従来の方法に対する軽量で効率的な代替手段を提供する。
提案手法であるSceneGraphLocは、利用可能なモダリティを考慮し、シーングラフ内の各ノード(すなわちオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習し、入力されたクエリ画像に表示されるオブジェクトとの効果的なマッチングを可能にする。
この戦略は、地図埋め込みにイメージを組み込むことなく、他のクロスモーダル手法よりも大幅に優れている。
画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成すると同時に、3つの命令の保存を減らし、命令の処理を高速化する。
コードは公開されます。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。
未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。
MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文 参考訳(メタデータ) (2024-10-15T02:04:05Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Learning Object Placement via Dual-path Graph Completion [28.346027247882354]
オブジェクト配置は、適切な位置とサイズで背景画像の上に前景オブジェクトを配置することを目的としている。
本研究では,オブジェクト配置をグラフ補完問題として扱い,新しいグラフ補完モジュール(GCM)を提案する。
前景オブジェクトは、このグラフの合理的な場所に挿入されるべき特別なノードとしてエンコードされる。
論文 参考訳(メタデータ) (2022-07-23T08:39:39Z) - A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval [4.159666152160874]
シーングラフの提示は画像テキストマッチングの課題に適した方法である。
本稿では,最先端の手法を強化するローカル・グローバル・シーングラフマッチング(LGSGM)モデルを提案する。
Flickr30kデータセットのリコールを10%以上増やすことで,レベルの組み合わせによる改善により,ベースライン手法の性能を向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T10:33:14Z) - Multi-Modal Retrieval using Graph Neural Networks [1.8911962184174562]
我々は、同じ高次元空間に埋め込まれた共同ビジョンと概念を学ぶ。
視覚と概念の関係をグラフ構造としてモデル化する。
また、選択的近傍接続に基づく新しい推論時間制御も導入する。
論文 参考訳(メタデータ) (2020-10-04T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。