論文の概要: UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
- arxiv url: http://arxiv.org/abs/2503.10630v2
- Date: Sun, 16 Mar 2025 15:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:19.204707
- Title: UniGoal: Towards Universal Zero-shot Goal-oriented Navigation
- Title(参考訳): UniGoal: ユニバーサルゼロショットゴール指向ナビゲーションを目指す
- Authors: Hang Yin, Xiuwei Xu, Lingqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu,
- Abstract要約: 汎用的なゼロショットゴール指向ナビゲーションのための一般的なフレームワークを提案する。
本稿では,オブジェクトカテゴリ,インスタンスイメージ,テキスト記述など,異なる目標を統一する一様グラフ表現を提案する。
我々のUniGoalは、3つの研究されたナビゲーションタスクに対して1つのモデルで最先端のゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 68.45058159533376
- License:
- Abstract: In this paper, we propose a general framework for universal zero-shot goal-oriented navigation. Existing zero-shot methods build inference framework upon large language models (LLM) for specific tasks, which differs a lot in overall pipeline and fails to generalize across different types of goal. Towards the aim of universal zero-shot navigation, we propose a uniform graph representation to unify different goals, including object category, instance image and text description. We also convert the observation of agent into an online maintained scene graph. With this consistent scene and goal representation, we preserve most structural information compared with pure text and are able to leverage LLM for explicit graph-based reasoning. Specifically, we conduct graph matching between the scene graph and goal graph at each time instant and propose different strategies to generate long-term goal of exploration according to different matching states. The agent first iteratively searches subgraph of goal when zero-matched. With partial matching, the agent then utilizes coordinate projection and anchor pair alignment to infer the goal location. Finally scene graph correction and goal verification are applied for perfect matching. We also present a blacklist mechanism to enable robust switch between stages. Extensive experiments on several benchmarks show that our UniGoal achieves state-of-the-art zero-shot performance on three studied navigation tasks with a single model, even outperforming task-specific zero-shot methods and supervised universal methods.
- Abstract(参考訳): 本稿では,汎用的なゼロショットゴール指向ナビゲーションのための一般的なフレームワークを提案する。
既存のゼロショットメソッドは、特定のタスクに対して大きな言語モデル(LLM)に基づいて推論フレームワークを構築する。
汎用的なゼロショットナビゲーションを目指して,オブジェクトカテゴリ,インスタンスイメージ,テキスト記述など,さまざまな目標を統一する一様グラフ表現を提案する。
また,エージェントの観察をオンラインのシーングラフに変換する。
この一貫したシーンとゴール表現により、純粋なテキストと比較してほとんどの構造情報を保存し、明示的なグラフベースの推論にLLMを活用することができる。
具体的には,シーングラフとゴールグラフ間のグラフマッチングを瞬時に実施し,マッチング状態に応じて長期的な探索目標を生成するための異なる戦略を提案する。
エージェントはまず、ゼロマッチング時にゴールのサブグラフを反復的に検索する。
部分マッチングでは、エージェントは座標投影とアンカーペアアライメントを利用して目標位置を推測する。
最後に、シーングラフの補正とゴール検証を完全マッチングに適用する。
また、ステージ間の堅牢な切り替えを可能にするブラックリスト機構を提案する。
いくつかのベンチマークにおいて、我々のUniGoalは、単一のモデルによる3つの研究されたナビゲーションタスクに対して、タスク固有のゼロショットメソッドや教師付きユニバーサルメソッドよりも優れた、最先端のゼロショット性能を実現していることを示す。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - ZeroReg: Zero-Shot Point Cloud Registration with Foundation Models [77.84408427496025]
最先端の3Dポイントクラウド登録方法は、トレーニングのためにラベル付き3Dデータセットに依存している。
我々は2次元基礎モデルを用いて3次元対応を予測するゼロショット登録手法であるZeroRegを紹介する。
論文 参考訳(メタデータ) (2023-12-05T11:33:16Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z) - GoRela: Go Relative for Viewpoint-Invariant Motion Forecasting [121.42898228997538]
精度や一般化を犠牲にすることなく、全てのエージェントとマップに対して効率的な共有符号化を提案する。
不均一空間グラフにおけるエージェントとマップ要素間の幾何学的関係を表現するために、ペアワイズ相対的な位置符号化を利用する。
我々のデコーダは視点非依存であり、レーングラフ上でエージェント目標を予測し、多様かつコンテキスト対応のマルチモーダル予測を可能にする。
論文 参考訳(メタデータ) (2022-11-04T16:10:50Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。