論文の概要: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments
- arxiv url: http://arxiv.org/abs/2403.09412v1
- Date: Thu, 14 Mar 2024 14:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:17:36.912524
- Title: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments
- Title(参考訳): OpenGraph: 大規模屋外環境におけるオープン語彙階層型3Dグラフ表現
- Authors: Yinan Deng, Jiahui Wang, Jingyu Zhao, Xinyu Tian, Guangyan Chen, Yi Yang, Yufeng Yue,
- Abstract要約: 大規模屋外環境のためのオープン語彙階層グラフ構造の表現であるOpenGraphを提案する。
OpenGraphは2Dファウンデーションモデルを使用して、画像からインスタンスとキャプションを抽出し、テキスト推論を強化する機能を備えたキャプションをエンコードする。
最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。
- 参考スコア(独自算出の注目度): 22.49556356611447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environment maps endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including multimodal retrieval and open-set classes. However, existing open-vocabulary maps are constrained to closed indoor scenarios and VLM features, thereby diminishing their usability and inference capabilities. Moreover, the absence of topological relationships further complicates the accurate querying of specific instances. In this work, we propose OpenGraph, a representation of open-vocabulary hierarchical graph structure designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images using 2D foundation models, encoding the captions with features to enhance textual reasoning. Subsequently, 3D incremental panoramic mapping with feature embedding is achieved by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from real public dataset SemanticKITTI demonstrate that, even without fine-tuning the models, OpenGraph exhibits the ability to generalize to novel semantic classes and achieve the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
- Abstract(参考訳): 高度なセマンティクスを具備した環境マップは、ロボットと人間のシームレスな相互作用を促進するために重要なものであり、様々なタスクを効果的に実行することができる。
オープン語彙マップは、Visual-Language Model (VLM) を利用しており、マルチモーダル検索やオープンセットクラスを含む固有の利点を持っている。
しかし、既存のオープン語彙マップは、閉じた屋内シナリオやVLMの特徴に制約されており、それによって使用性と推論能力が低下する。
さらに、トポロジカルな関係がないことは、特定のインスタンスの正確なクエリをさらに複雑にする。
本研究では,大規模屋外環境向けに設計されたオープン語彙階層グラフ構造の表現であるOpenGraphを提案する。
OpenGraphは最初、2Dファウンデーションモデルを使用して視覚画像からインスタンスとキャプションを抽出し、テキスト推論を強化する機能を備えたキャプションをエンコードする。
その後、3Dインクリメンタルなパノラママッピングと機能埋め込みは、画像をLiDARポイントクラウドに投影することで実現される。
最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。
実際の公開データセットSemanticKITTIによる検証結果は、モデルを微調整することなく、OpenGraphが新しいセマンティッククラスに一般化し、最も高いセグメンテーションとクエリ精度を達成する能力を示す。
OpenGraphのソースコードはhttps://github.com/BIT-DYN/OpenGraphで公開されている。
関連論文リスト
- OpenGraph: Towards Open Graph Foundation Models [22.929100194849113]
本研究では,多種多様なグラフデータに存在する複雑なトポロジ的パターンを理解するための一般グラフ基盤モデルを構築した。
本稿では,グラフモデルに統一的なグラフトークン化手法を提案する。
また,グローバルなトポロジ的コンテキスト内のノード依存性を効果的にキャプチャするスケーラブルなグラフ変換器を開発した。
論文 参考訳(メタデータ) (2024-03-02T08:05:03Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with
Queryable Objects and Open-Set Relationships [16.643252717745348]
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
論文 参考訳(メタデータ) (2024-02-19T16:15:03Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - HUGE: Huge Unsupervised Graph Embeddings with TPUs [6.108914274067702]
グラフ埋め込み(Graph Embedding)は、グラフ内のノードを連続的に表現するプロセスである。
高帯域幅メモリを利用した高性能グラフ埋め込みアーキテクチャを提案する。
実・合成大規模データセット上での埋め込み空間の品質を検証する。
論文 参考訳(メタデータ) (2023-07-26T20:29:15Z) - You Only Transfer What You Share: Intersection-Induced Graph Transfer
Learning for Link Prediction [79.15394378571132]
従来見過ごされていた現象を調査し、多くの場合、元のグラフに対して密に連結された補グラフを見つけることができる。
より密度の高いグラフは、選択的で有意義な知識を伝達するための自然なブリッジを提供する元のグラフとノードを共有することができる。
この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。
論文 参考訳(メタデータ) (2023-02-27T22:56:06Z) - GRATIS: Deep Learning Graph Representation with Task-specific Topology
and Multi-dimensional Edge Features [27.84193444151138]
第1次汎用グラフ表現学習フレームワーク(GRATIS)を提案する。
任意の入力からタスク固有のトポロジーとタスク固有の多次元エッジ特徴を持つ強力なグラフ表現を生成することができる。
私たちのフレームワークは効率的で堅牢で柔軟性があり、異なるバックボーンとグラフニューラルネットワーク(GNN)を組み合わせたプラグイン・アンド・プレイモジュールです。
論文 参考訳(メタデータ) (2022-11-19T18:42:55Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。