Fugu-MT 論文翻訳(概要): OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments

論文の概要: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments

arxiv url: http://arxiv.org/abs/2403.09412v1
Date: Thu, 14 Mar 2024 14:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 20:17:36.912524
Title: OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments
Title（参考訳）: OpenGraph: 大規模屋外環境におけるオープン語彙階層型3Dグラフ表現
Authors: Yinan Deng, Jiahui Wang, Jingyu Zhao, Xinyu Tian, Guangyan Chen, Yi Yang, Yufeng Yue,
Abstract要約: 大規模屋外環境のためのオープン語彙階層グラフ構造の表現であるOpenGraphを提案する。 OpenGraphは2Dファウンデーションモデルを使用して、画像からインスタンスとキャプションを抽出し、テキスト推論を強化する機能を備えたキャプションをエンコードする。最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。
参考スコア（独自算出の注目度）: 22.49556356611447
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Environment maps endowed with sophisticated semantics are pivotal for facilitating seamless interaction between robots and humans, enabling them to effectively carry out various tasks. Open-vocabulary maps, powered by Visual-Language models (VLMs), possess inherent advantages, including multimodal retrieval and open-set classes. However, existing open-vocabulary maps are constrained to closed indoor scenarios and VLM features, thereby diminishing their usability and inference capabilities. Moreover, the absence of topological relationships further complicates the accurate querying of specific instances. In this work, we propose OpenGraph, a representation of open-vocabulary hierarchical graph structure designed for large-scale outdoor environments. OpenGraph initially extracts instances and their captions from visual images using 2D foundation models, encoding the captions with features to enhance textual reasoning. Subsequently, 3D incremental panoramic mapping with feature embedding is achieved by projecting images onto LiDAR point clouds. Finally, the environment is segmented based on lane graph connectivity to construct a hierarchical graph. Validation results from real public dataset SemanticKITTI demonstrate that, even without fine-tuning the models, OpenGraph exhibits the ability to generalize to novel semantic classes and achieve the highest segmentation and query accuracy. The source code of OpenGraph is publicly available at https://github.com/BIT-DYN/OpenGraph.
Abstract（参考訳）: 高度なセマンティクスを具備した環境マップは、ロボットと人間のシームレスな相互作用を促進するために重要なものであり、様々なタスクを効果的に実行することができる。オープン語彙マップは、Visual-Language Model (VLM) を利用しており、マルチモーダル検索やオープンセットクラスを含む固有の利点を持っている。しかし、既存のオープン語彙マップは、閉じた屋内シナリオやVLMの特徴に制約されており、それによって使用性と推論能力が低下する。さらに、トポロジカルな関係がないことは、特定のインスタンスの正確なクエリをさらに複雑にする。本研究では,大規模屋外環境向けに設計されたオープン語彙階層グラフ構造の表現であるOpenGraphを提案する。 OpenGraphは最初、2Dファウンデーションモデルを使用して視覚画像からインスタンスとキャプションを抽出し、テキスト推論を強化する機能を備えたキャプションをエンコードする。その後、3Dインクリメンタルなパノラママッピングと機能埋め込みは、画像をLiDARポイントクラウドに投影することで実現される。最後に、環境をレーングラフ接続に基づいてセグメント化して階層グラフを構築する。実際の公開データセットSemanticKITTIによる検証結果は、モデルを微調整することなく、OpenGraphが新しいセマンティッククラスに一般化し、最も高いセグメンテーションとクエリ精度を達成する能力を示す。 OpenGraphのソースコードはhttps://github.com/BIT-DYN/OpenGraphで公開されている。

関連論文リスト

KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文参考訳（メタデータ） (2025-10-01T15:53:27Z)
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。 Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文参考訳（メタデータ） (2025-05-22T05:15:27Z)
LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文参考訳（メタデータ） (2025-03-05T09:45:22Z)
Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
タスクツリーを用いたグラフのクロスタスク一般化のための新しい手法を提案する。本稿では,グラフニューラルネットワーク(GNN)を多種多様なタスクツリー上で事前学習することにより,伝達可能な知識を誘導することを示す。これにより、最小限の微調整で下流タスクに効率的に適応できる。
論文参考訳（メタデータ） (2024-12-21T02:07:43Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。 Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文参考訳（メタデータ） (2024-10-09T17:56:15Z)
OpenGraph: Towards Open Graph Foundation Models [20.401374302429627]
グラフニューラルネットワーク(GNN)は、構造情報を符号化するための有望な技術として登場した。主な課題は、異なる性質を持つグラフデータを一般化することの難しさである。この課題に対処するために,OpenGraphと呼ばれる新しいグラフ基盤モデルを提案する。
論文参考訳（メタデータ） (2024-03-02T08:05:03Z)
G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。 G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文参考訳（メタデータ） (2024-02-12T13:13:04Z)
GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文参考訳（メタデータ） (2023-10-19T06:17:46Z)
One for All: Towards Training One Graph Model for All Classification Tasks [61.656962278497225]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。 OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文参考訳（メタデータ） (2023-09-29T21:15:26Z)
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。 2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文参考訳（メタデータ） (2023-09-28T17:53:38Z)
You Only Transfer What You Share: Intersection-Induced Graph Transfer Learning for Link Prediction [79.15394378571132]
従来見過ごされていた現象を調査し、多くの場合、元のグラフに対して密に連結された補グラフを見つけることができる。より密度の高いグラフは、選択的で有意義な知識を伝達するための自然なブリッジを提供する元のグラフとノードを共有することができる。この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。
論文参考訳（メタデータ） (2023-02-27T22:56:06Z)
GRATIS: Deep Learning Graph Representation with Task-specific Topology and Multi-dimensional Edge Features [27.84193444151138]
第1次汎用グラフ表現学習フレームワーク(GRATIS)を提案する。任意の入力からタスク固有のトポロジーとタスク固有の多次元エッジ特徴を持つ強力なグラフ表現を生成することができる。私たちのフレームワークは効率的で堅牢で柔軟性があり、異なるバックボーンとグラフニューラルネットワーク(GNN)を組み合わせたプラグイン・アンド・プレイモジュールです。
論文参考訳（メタデータ） (2022-11-19T18:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。