Fugu-MT 論文翻訳(概要): Towards Learning a Generalist Model for Embodied Navigation

論文の概要: Towards Learning a Generalist Model for Embodied Navigation

arxiv url: http://arxiv.org/abs/2312.02010v2
Date: Wed, 6 Dec 2023 08:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 11:48:45.420771
Title: Towards Learning a Generalist Model for Embodied Navigation
Title（参考訳）: 身体的ナビゲーションのためのジェネリストモデル学習に向けて
Authors: Duo Zheng, Shijia Huang, Lin Zhao, Yiwu Zhong, Liwei Wang
Abstract要約: そこで本研究では,NaviLLM を具体化するための最初のジェネラリストモデルを提案する。スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。
参考スコア（独自算出の注目度）: 26.624271483950928
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building a generalist agent that can interact with the world is the intriguing target of AI systems, thus spurring the research for embodied navigation, where an agent is required to navigate according to instructions or respond to queries. Despite the major progress attained, previous works primarily focus on task-specific agents and lack generalizability to unseen scenarios. Recently, LLMs have presented remarkable capabilities across various fields, and provided a promising opportunity for embodied navigation. Drawing on this, we propose the first generalist model for embodied navigation, NaviLLM. It adapts LLMs to embodied navigation by introducing schema-based instruction. The schema-based instruction flexibly casts various tasks into generation problems, thereby unifying a wide range of tasks. This approach allows us to integrate diverse data sources from various datasets into the training, equipping NaviLLM with a wide range of capabilities required by embodied navigation. We conduct extensive experiments to evaluate the performance and generalizability of our model. The experimental results demonstrate that our unified model achieves state-of-the-art performance on CVDN, SOON, and ScanQA. Specifically, it surpasses the previous stats-of-the-art method by a significant margin of 29% in goal progress on CVDN. Moreover, our model also demonstrates strong generalizability and presents impressive results on unseen tasks, e.g., embodied question answering and 3D captioning.
Abstract（参考訳）: 世界と対話できる汎用エージェントの構築は、AIシステムの興味深いターゲットであり、エージェントが指示に従ってナビゲートしたり、クエリに応答する必要のある、実施されたナビゲーションの研究を促進する。達成された大きな進歩にもかかわらず、以前の作業は主にタスク固有のエージェントに焦点が当てられ、見当たらないシナリオの一般化が欠如していた。近年、LSMは様々な分野において顕著な能力を示しており、航法を具現化するための有望な機会を提供している。そこで本研究では,NaviLLMを具体化したナビゲーションモデルを提案する。スキーマベースの命令を導入することで、LCMをナビゲーションの具体化に適応する。スキーマベースの命令は、様々なタスクを柔軟に生成問題にキャストし、幅広いタスクを統一する。このアプローチにより、さまざまなデータセットからさまざまなデータソースをトレーニングに統合でき、具体化されたナビゲーションに必要な幅広い機能にnavillmを組み合わせることができます。我々は,モデルの性能と一般化性を評価するため,広範囲な実験を行った。実験により, CVDN, SOON, ScanQA上での最先端性能が得られた。具体的には、CVDNにおける目標進捗の29%のかなりのマージンで、従来の最先端の手法を上回っている。さらに,本モデルは,質問応答や3次元キャプションなどの非認識タスクにおいて,強い一般化可能性を示し,印象的な結果を示す。

関連論文リスト

NaviMaster: Learning a Unified Policy for GUI and Embodied Navigation Tasks [26.685539474718055]
NaviMasterは、GUIナビゲーションと組み込みナビゲーションをシームレスに単一のフレームワークに統合できる最初の統合エージェントである。 NaviMasterは,GUIナビゲーション,空間空き時間予測,具体化ナビゲーションにおいて,最先端のエージェントよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T04:28:18Z)
Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文参考訳（メタデータ） (2025-06-11T17:23:41Z)
FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [13.969116430006215]
視覚・言語ナビゲーション(VLN)の革新的階層的アプローチであるFlexVLNを提案する。教師付き学習ベースのインストラクションフォロワのナビゲーション能力とLLM Plannerの堅牢な一般化能力を統合する。一般化能力を評価するために,REVERIE,SOON,CVDN-targetをドメイン外のデータセットとみなす。
論文参考訳（メタデータ） (2025-03-18T06:58:41Z)
Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks [24.690910258151693]
既存のボディードナビゲーションのモデルは、現実の世界で実践的なジェネラリストとして機能するには足りていない。多様な具体的ナビゲーションタスクを統合するために設計された,ビデオベースの視覚言語アクションモデルであるUni-NaVidを提案する。 Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクの入力および出力データ構成によってこれを達成している。
論文参考訳（メタデータ） (2024-12-09T05:55:55Z)
Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文参考訳（メタデータ） (2023-07-28T16:03:28Z)
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。 NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文参考訳（メタデータ） (2023-05-26T14:41:06Z)
Masked Path Modeling for Vision-and-Language Navigation [41.7517631477082]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)エージェントは、自然言語の指示に従うことで現実世界の環境をナビゲートするように訓練されている。以前のアプローチでは、トレーニング中に追加の監督を導入することでこの問題に対処しようと試みていた。本稿では,下流ナビゲーションタスクに自己コンパイルデータを用いてエージェントを事前訓練する,マスク付きパスモデリング(MPM)手法を提案する。
論文参考訳（メタデータ） (2023-05-23T17:20:20Z)
ENTL: Embodied Navigation Trajectory Learner [37.43079415330256]
エンボディナビゲーションのための長いシーケンス表現を抽出する手法を提案する。我々は,現在の行動に則った将来の状態のベクトル量子化予測を用いてモデルを訓練する。提案手法の重要な特徴は、モデルが明示的な報酬信号なしで事前訓練されることである。
論文参考訳（メタデータ） (2023-04-05T17:58:33Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
Towards Versatile Embodied Navigation [120.73460380993305]
ウィーンは多機能なエンボディナビゲーションエージェントであり、同時に4つのナビゲーションタスクを1つのモデルで実行することを学ぶ。視覚的なナビゲーションタスクを個別に学習するのに対し、エージェントは複雑さを減らして同等またはそれ以上の性能を達成することを実証的に実証した。
論文参考訳（メタデータ） (2022-10-30T11:53:49Z)
Zero Experience Required: Plug & Play Modular Transfer Learning for Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文参考訳（メタデータ） (2022-02-05T00:07:21Z)
Curriculum Learning for Vision-and-Language Navigation [16.695511663714214]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示で室内環境をナビゲートするタスクである。従来の研究はサンプルの難易度分布を無視しており、エージェントの性能を低下させる可能性があると論じている。本稿では,人間の事前知識とエージェント学習の進捗をバランスさせる,VLNタスクのためのカリキュラムベースの新しいトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2021-11-14T03:02:07Z)
Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2021-07-19T15:56:01Z)
Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文参考訳（メタデータ） (2020-07-21T14:17:36Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。