論文の概要: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments
- arxiv url: http://arxiv.org/abs/2403.09412v2
- Date: Thu, 28 Mar 2024 14:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:33:12.799540
- Title: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments
- Title(参考訳): OpenGraph: 大規模屋外環境におけるオープン語彙階層型3Dグラフ表現
- Authors: Yinan Deng, Jiahui Wang, Jingyu Zhao, Xinyu Tian, Guangyan Chen, Yi Yang, Yufeng Yue,
- Abstract要約: 大規模屋外環境を対象とした最初のオープン語彙階層グラフ表現であるOpenGraphを提案する。
OpenGraphは、画像からインスタンスとキャプションを抽出し、それらをエンコードすることでテキスト推論を強化する。
イメージをLiDARポイントクラウドに投影することで,機能埋め込みによる3Dインクリメンタルなオブジェクト中心マッピングを実現している。
- 参考スコア(独自算出の注目度): 22.49556356611447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environment representations endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including zero-shot learning and support for open-set classes. However, existing open-vocabulary maps are primarily designed for small-scale environments, such as desktops or rooms, and are typically geared towards limited-area tasks involving robotic indoor navigation or in-place manipulation. They face challenges in direct generalization to outdoor environments characterized by numerous objects and complex tasks, owing to limitations in both understanding level and map structure. In this work, we propose OpenGraph, the first open-vocabulary hierarchical graph representation designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images, enhancing textual reasoning by encoding them. Subsequently, it achieves 3D incremental object-centric mapping with feature embedding by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from public dataset SemanticKITTI demonstrate that OpenGraph achieves the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
- Abstract(参考訳): 高度なセマンティクスを具備した環境表現は、ロボットと人間のシームレスな相互作用を促進するために重要であり、様々なタスクを効果的に実行することができる。
オープンボキャブラリマップはVisual-Language Model (VLM)を利用しており、ゼロショット学習やオープンセットクラスのサポートなど、固有のアドバンテージを持っている。
しかしながら、既存のオープン語彙マップは、主にデスクトップや部屋などの小規模環境向けに設計されており、通常、ロボット室内ナビゲーションや屋内操作を含む限られた領域のタスクを対象としている。
彼らは、理解レベルと地図構造の両方の制限により、多くの対象と複雑なタスクによって特徴づけられる屋外環境への直接的一般化の課題に直面している。
本研究では,大規模屋外環境向けに設計された最初のオープン語彙階層グラフであるOpenGraphを提案する。
OpenGraphは最初、画像からインスタンスとキャプションを抽出し、それらをエンコードすることでテキスト推論を強化する。
その後、LiDARポイントクラウドに画像を投影することで、機能埋め込みによる3Dインクリメンタルなオブジェクト中心マッピングを実現している。
最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。
公開データセットのSemanticKITTIによる検証結果は、OpenGraphが最も高いセグメンテーションとクエリの精度を達成したことを示している。
OpenGraphのソースコードはhttps://github.com/BIT-DYN/OpenGraphで公開されている。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - OpenGraph: Towards Open Graph Foundation Models [20.401374302429627]
グラフニューラルネットワーク(GNN)は、構造情報を符号化するための有望な技術として登場した。
主な課題は、異なる性質を持つグラフデータを一般化することの難しさである。
この課題に対処するために,OpenGraphと呼ばれる新しいグラフ基盤モデルを提案する。
論文 参考訳(メタデータ) (2024-03-02T08:05:03Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - One for All: Towards Training One Graph Model for All Classification Tasks [61.656962278497225]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。
上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。
OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文 参考訳(メタデータ) (2023-09-29T21:15:26Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - You Only Transfer What You Share: Intersection-Induced Graph Transfer
Learning for Link Prediction [79.15394378571132]
従来見過ごされていた現象を調査し、多くの場合、元のグラフに対して密に連結された補グラフを見つけることができる。
より密度の高いグラフは、選択的で有意義な知識を伝達するための自然なブリッジを提供する元のグラフとノードを共有することができる。
この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。
論文 参考訳(メタデータ) (2023-02-27T22:56:06Z) - GRATIS: Deep Learning Graph Representation with Task-specific Topology
and Multi-dimensional Edge Features [27.84193444151138]
第1次汎用グラフ表現学習フレームワーク(GRATIS)を提案する。
任意の入力からタスク固有のトポロジーとタスク固有の多次元エッジ特徴を持つ強力なグラフ表現を生成することができる。
私たちのフレームワークは効率的で堅牢で柔軟性があり、異なるバックボーンとグラフニューラルネットワーク(GNN)を組み合わせたプラグイン・アンド・プレイモジュールです。
論文 参考訳(メタデータ) (2022-11-19T18:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。