Fugu-MT 論文翻訳(概要): Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation

論文の概要: Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation

arxiv url: http://arxiv.org/abs/2605.27582v1
Date: Tue, 26 May 2026 18:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.467373
Title: Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation
Title（参考訳）: Uni-LaViRA:Unified Embodied Navigationのための言語ビジョンロボットアクション翻訳
Authors: Hongyu Ding, Sizhuo Zhang, Ziming Xu, Jinwen Guo, Hongxiu Liu, Xingzhi Cheng, Zixuan Chen, Haifei Qi, Duo Wang, Hao Xu, Jieqi Shi, Yifan Zhang, Jing Huo, Jian Cheng, Yang Gao, Jiebo Luo,
Abstract要約: 身体的なナビゲーションでは、エージェントが言語や視覚的な観察を、実際に見たことのない環境を通して実際のロボットを駆動する空間的な行動の流れにマッピングする必要がある。統合エージェントアーキテクチャであるUni-LaViRAを4つのタスクファミリと4つの異種実ロボットに拡張する。
参考スコア（独自算出の注目度）: 60.07205156194741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied navigation requires an agent to map language and visual observations to a stream of spatial actions that drive a real robot through environments it has never seen. The dominant approach has been to scale vision-language-action (VLA) foundation models on ever-larger collections of robot trajectories. This paper argues that, for navigation specifically, generality can be obtained structurally, not only through data scale. The underlying decision structure of navigation reduces to a single Language-Vision-Robot Actions Translation. The language action emits semantic-level directional command and the vision action emits a pixel-level visual target. Both outputs lie inside the natural output manifold of pretrained multimodal large language models (MLLMs), so the task can be reasoned about by an agent rather than learned from robot data. Therefore, we present Uni-LaViRA, a unified agentic architecture that extends the same insight to four task families (VLN-CE, ObjectNav, EQA, and Aerial-VLN) and to four heterogeneous real robots (Wheeled, Quadruped, Humanoid robot, and a self-built UAV) in a zero-shot manner. Two agent-loop mechanisms make this unification practical. TODO List Memory (TDM) rewrites a structured checklist of pending sub-goals at every step, reciting the unfinished items back into the agent's most recent attention window. Second Chance Backtrack (SCB) rolls the robot back to the pre-error state and conditions the agent's next plan on the failed sub-trajectory, turning single-pass navigation into a self-correcting process. With zero training effort, Uni-LaViRA reaches 60.7% SR on VLN-CE R2R, 51.3% on VLN-CE RxR, 77.7% on HM3D-v2, 60.0% on HM3D-OVON, 54.7% on MP3D-EQA, and 40.0% on OpenUAV, matching or even surpassing recent training navigation foundation models that consume millions of samples and thousands of GPU-hours.
Abstract（参考訳）: 身体的なナビゲーションでは、エージェントが言語や視覚的な観察を、実際に見たことのない環境を通して実際のロボットを駆動する空間的な行動の流れにマッピングする必要がある。主要なアプローチは、ロボット軌道のより広いコレクションに視覚-言語-アクション(VLA)基盤モデルを拡大することである。本稿では,特にナビゲーションにおいて,データスケールだけでなく,構造的に一般性を得ることができることを論じる。ナビゲーションの基本的な決定構造は、単一のLanguage-Vision-Robot Actions Translationに還元される。言語アクションはセマンティックレベル指向コマンドを出力し、ビジョンアクションはピクセルレベル視覚目標を出力する。どちらの出力も、事前訓練されたマルチモーダル大言語モデル(MLLM)の自然出力多様体内にあるため、ロボットデータから学ぶのではなく、エージェントによってそのタスクを推論することができる。したがって、Uni-LaViRAは、4つのタスクファミリ(VLN-CE、ObjectNav、EQA、Aerial-VLN)と4つの異種現実ロボット(Wheeled、Quadruped、Humanoid、自作UAV)に同じ知見をゼロショットで拡張する統合エージェントアーキテクチャである。 2つのエージェントループ機構は、この統一を実践する。 TODO List Memory (TDM)は、各ステップで保留中のサブゴールの構造化チェックリストを書き換え、未完成のアイテムをエージェントの最新の注意ウィンドウにリサイティングする。 Second Chance Backtrack (SCB)は、ロボットをプリエラー状態に戻し、エージェントの次の計画が失敗したサブトラックに設定され、シングルパスナビゲーションを自己修正プロセスに変換する。 VLN-CE R2Rで60.7%、VLN-CE RxRで51.3%、HM3D-v2で77.7%、HM3D-OVONで60.0%、MP3D-EQAで54.7%、OpenUAVで40.0%に到達し、数百万のサンプルと数千のGPU時間を消費する最近のトレーニングナビゲーション基盤モデルをマッチングまたは超えた。

関連論文リスト

AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation [78.80536515102305]
VLN(Vision-and-Language Navigation)は、エージェントが視覚環境内の自身の動きに言語命令を接地する必要がある。本稿では,ナビゲーションモデルに自己認識推論機構を備えた新しいフレームワークであるAwareVLNを提案する。提案手法は,(1)空間的およびタスク指向の自己認識を促進する構造的推論モジュール,(2)効果的な学習のための進歩分担付き自動データエンジンの2つの重要な革新を特徴とする。
論文参考訳（メタデータ） (2026-05-21T17:58:26Z)
Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models [2.5338045371474816]
VLA(Vision-Language-Action)モデルは、単一のアーキテクチャにおける知覚、言語、運動制御を組み合わせたモデルである。 394,000回以上のロールアウトエピソードにまたがる80M--7Bパラメータに,アクティベーションインジェクション,スパースオートエンコーダ,線形プローブを適用した。
論文参考訳（メタデータ） (2026-03-19T17:59:55Z)
ImagiNav: Scalable Embodied Navigation via Generative Visual Prediction and Inverse Dynamics [13.382453086651019]
Vision-Language Navigationは、高価なエンボディメント固有のロボットデータに基づいて訓練されたエンドツーエンドのポリシーに依存している。ロボットの動作から視覚計画を切り離す新しいモジュラーパラダイムであるImagiNavを提案する。 ImagiNavは、ロボットのデモを必要とせずに、ロボットナビゲーションへの強力なゼロショット転送をデモする。
論文参考訳（メタデータ） (2026-03-14T08:34:02Z)
DreamToNav: Generalizable Navigation for Robots via Generative Video Planning [1.964570633684439]
私たちはDreamToNavを紹介します。DreamToNavは、生成ビデオモデルを使用して、直感的で人力によるループ制御を可能にする、新しい自律型ロボットフレームワークです。室内ナビゲーション作業において,車輪付き移動ロボットと四足歩行ロボットの両方に対するアプローチを評価する。 DreamToNavは76.7%の成功率で、最終目標誤差は0.05-0.10m以内、軌道追跡誤差は0.15m以下である。
論文参考訳（メタデータ） (2026-03-06T11:57:10Z)
AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文参考訳（メタデータ） (2026-02-10T11:08:07Z)
OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
NaVILA: Legged Robot Vision-Language-Action Model for Navigation [60.00462044102051]
人間の言語命令を低レベルの脚関節動作に翻訳するのは簡単ではない。そこで我々は,VLA(Vision-Language-Action Model)とロコモーションスキルを一体化した2レベルフレームワークであるNaVILAを提案する。 NaVILAは既存のベンチマークのアプローチを大幅に改善している。
論文参考訳（メタデータ） (2024-12-05T18:58:17Z)
Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation Using Vision Language Models [8.668211481067457]
Co-NavGPTは、ビジョン言語モデル(VLM)をグローバルプランナーとして統合する新しいフレームワークである。 Co-NavGPTは、多様な視点を持つ複数のロボットのサブマップを統一されたグローバルマップに集約する。 VLMはこの情報を使って、ロボット全体のフロンティアを割り当て、協調的で効率的な探索を容易にする。
論文参考訳（メタデータ） (2023-10-11T23:17:43Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。 VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文参考訳（メタデータ） (2020-11-07T16:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。