Fugu-MT 論文翻訳(概要): Virtual Guidance as a Mid-level Representation for Navigation with Augmented Reality

論文の概要: Virtual Guidance as a Mid-level Representation for Navigation with Augmented Reality

arxiv url: http://arxiv.org/abs/2303.02731v3
Date: Fri, 14 Mar 2025 07:17:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:28.774458
Title: Virtual Guidance as a Mid-level Representation for Navigation with Augmented Reality
Title（参考訳）: 拡張現実を用いたナビゲーションの中間レベル表現としての仮想誘導
Authors: Hsuan-Kung Yang, Tsung-Chih Chiang, Jou-Min Liu, Ting-Ru Liu, Chun-Wei Huang, Tsu-Ching Hsiao, Chun-Yi Lee,
Abstract要約: 視覚的でない命令信号を視覚的に表現する「仮想誘導」技術を紹介する。これらの視覚的手がかりは、エージェントのカメラビューにオーバーレイされ、分かりやすいナビゲーション誘導信号として機能する。
参考スコア（独自算出の注目度）: 7.873411316161205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the context of autonomous navigation, effectively conveying abstract navigational cues to agents in dynamic environments presents significant challenges, particularly when navigation information is derived from diverse modalities such as both vision and high-level language descriptions. To address this issue, we introduce a novel technique termed `Virtual Guidance,' which is designed to visually represent non-visual instructional signals. These visual cues are overlaid onto the agent's camera view and served as comprehensible navigational guidance signals. To validate the concept of virtual guidance, we propose a sim-to-real framework that enables the transfer of the trained policy from simulated environments to real world, ensuring the adaptability of virtual guidance in practical scenarios. We evaluate and compare the proposed method against a non-visual guidance baseline through detailed experiments in simulation. The experimental results demonstrate that the proposed virtual guidance approach outperforms the baseline methods across multiple scenarios and offers clear evidence of its effectiveness in autonomous navigation tasks.
Abstract（参考訳）: 自律ナビゲーションの文脈では、動的環境のエージェントに抽象的なナビゲーションキューを効果的に伝達することは、特にナビゲーション情報が視覚と高水準言語記述のような多様なモダリティから導出される場合、重大な課題を示す。この問題に対処するために,視覚的でない指示信号を視覚的に表現する「仮想誘導」という新しい手法を導入する。これらの視覚的手がかりは、エージェントのカメラビューにオーバーレイされ、分かりやすいナビゲーション誘導信号として機能する。仮想ガイダンスの概念を検証するために,シミュレーション環境から実世界へのトレーニング済みポリシーの移動を可能にするシミュレート・トゥ・リアル・フレームワークを提案し,現実シナリオにおける仮想ガイダンスの適応性を確保する。シミュレーションの詳細な実験により,提案手法を非視覚誘導ベースラインと比較した。実験の結果,提案手法は複数のシナリオにまたがるベースライン手法よりも優れており,自律的なナビゲーションタスクにおけるその効果の明確な証拠が得られた。

関連論文リスト

GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。 GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文参考訳（メタデータ） (2025-08-13T07:05:17Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。可逆性のスコアを計算し、セマンティックマップに組み込む。障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文参考訳（メタデータ） (2024-08-01T07:27:54Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
Robust Navigation with Cross-Modal Fusion and Knowledge Transfer [16.529923581195753]
移動ロボットの一般化に関する問題点を考察する。一般化のためのクロスモーダル融合法と知識伝達フレームワークを提案する。教師の行動と表現を模倣することにより、学生はノイズの多いマルチモーダル入力から特徴を調整できる。
論文参考訳（メタデータ） (2023-09-23T05:16:35Z)
Visual Forecasting as a Mid-level Representation for Avoidance [8.712750753534532]
動的物体を持つ環境におけるナビゲーションの課題は、自律エージェントの研究において依然として中心的な課題である。予測手法は約束を守るが、正確な状態情報に依存しているため、実際の実装では実用的ではない。本研究では,視覚的予測を革新的な代替手段として提示する。
論文参考訳（メタデータ） (2023-09-17T13:32:03Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文参考訳（メタデータ） (2022-12-02T01:10:47Z)
Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文参考訳（メタデータ） (2022-02-02T15:00:44Z)
ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文参考訳（メタデータ） (2020-12-17T18:22:32Z)
Unsupervised Domain Adaptation for Visual Navigation [115.85181329193092]
視覚ナビゲーションのための教師なし領域適応手法を提案する。本手法では,対象領域の画像をソース領域に変換し,ナビゲーションポリシで学習した表現と一致するようにする。
論文参考訳（メタデータ） (2020-10-27T18:22:43Z)
On Embodied Visual Navigation in Real Environments Through Habitat [20.630139085937586]
ディープラーニングに基づくビジュアルナビゲーションモデルは、大量の視覚的観察に基づいてトレーニングされた場合、効果的なポリシーを学ぶことができる。この制限に対処するため、仮想環境における視覚ナビゲーションポリシーを効率的に訓練するためのシミュレーションプラットフォームがいくつか提案されている。本研究では,実世界の航法ピソードを走らせることなく,実世界の観測における航法方針の訓練と評価を効果的に行うことができることを示す。
論文参考訳（メタデータ） (2020-10-26T09:19:07Z)
Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。 RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文参考訳（メタデータ） (2020-07-27T17:46:59Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。