論文の概要: Vision-and-Language Navigation Generative Pretrained Transformer
- arxiv url: http://arxiv.org/abs/2405.16994v1
- Date: Mon, 27 May 2024 09:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:11:45.348032
- Title: Vision-and-Language Navigation Generative Pretrained Transformer
- Title(参考訳): ビジョン・アンド・ランゲージナビゲーションによる事前学習型変圧器
- Authors: Wen Hanlin,
- Abstract要約: VLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)
トランスフォーマーデコーダモデル(GPT2)を採用してトラジェクトリシーケンスの依存関係をモデル化し、歴史的エンコーディングモジュールの必要性を回避している。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the Vision-and-Language Navigation (VLN) field, agents are tasked with navigating real-world scenes guided by linguistic instructions. Enabling the agent to adhere to instructions throughout the process of navigation represents a significant challenge within the domain of VLN. To address this challenge, common approaches often rely on encoders to explicitly record past locations and actions, increasing model complexity and resource consumption. Our proposal, the Vision-and-Language Navigation Generative Pretrained Transformer (VLN-GPT), adopts a transformer decoder model (GPT2) to model trajectory sequence dependencies, bypassing the need for historical encoding modules. This method allows for direct historical information access through trajectory sequence, enhancing efficiency. Furthermore, our model separates the training process into offline pre-training with imitation learning and online fine-tuning with reinforcement learning. This distinction allows for more focused training objectives and improved performance. Performance assessments on the VLN dataset reveal that VLN-GPT surpasses complex state-of-the-art encoder-based models.
- Abstract(参考訳): Vision-and-Language Navigation (VLN) の分野では、エージェントは言語命令で案内された現実世界のシーンをナビゲートする。
エージェントをナビゲーションのプロセスを通して指示に従うように設定することは、VLNのドメイン内で重要な課題である。
この課題に対処するために、一般的なアプローチは、しばしばエンコーダに頼って、過去の位置とアクションを明示的に記録し、モデルの複雑さとリソース消費を増加させる。
我々の提案であるVLN-GPT(Vision-and-Language Navigation Generative Pretrained Transformer)は、トランスフォーマーデコーダモデル(GPT2)を採用し、過去の符号化モジュールの必要性を回避している。
この方法では、トラジェクトリシーケンスを介して直接履歴情報にアクセスでき、効率が向上する。
さらに,本モデルでは,トレーニングプロセスを模倣学習によるオフライン事前学習と強化学習によるオンライン微調整に分離する。
この区別により、より集中的なトレーニング目標とパフォーマンスの向上が可能になる。
VLNデータセットのパフォーマンス評価は、VLN-GPTが複雑な最先端エンコーダベースモデルを上回ることを示している。
関連論文リスト
- AIGeN: An Adversarial Approach for Instruction Generation in VLN [35.932836008492174]
本稿では,GAN(Generative Adrial Networks)にインスパイアされた新しいアーキテクチャであるAIGeNを提案する。
本研究では,Habitat-Matterport 3Dデータセット(HM3D)上でAIGeNを用いた217K軌道の合成命令を生成し,市販VLN法の性能向上を示す。
論文 参考訳(メタデータ) (2024-04-15T18:00:30Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Continual Vision-and-Language Navigation [18.20829279972436]
VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。
既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、大きな制限をもたらす。
本稿では,連続的な学習プロセスを通じて訓練されたエージェントを評価するために,CVLN(Continuous Vision-and-Language Navigation)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:15:36Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language
Navigation [59.3649071376364]
既存のVLN法の性能は、ナビゲーション環境の多様性の不足と限られたトレーニングデータによって制限される。
VLN-Videoは、米国内の複数の都市において、自動生成ナビゲーション命令で動画を駆動する際の多様な屋外環境を利用する。
VLN-Videoは従来の最先端モデルのタスク完了率2.1%を大きく上回っている。
論文 参考訳(メタデータ) (2024-02-05T22:20:19Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For
Vision-and-Language Navigation [6.11362142120604]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、重要な、しかし困難なクロスモーダル・ナビゲーションタスクである。
VLNの性能を高める強力な手法の1つは、データ拡張のための擬似命令を提供する独立話者モデルを使用することである。
本稿では,ネットワークのコアとしてトランスフォーマーを用いるPASTSモデルを提案する。
論文 参考訳(メタデータ) (2023-05-19T02:25:56Z) - Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient
Autonomous Navigation [15.501449762687148]
本稿ではゴール誘導ナビゲーションのためのゴール誘導トランスフォーマー対応強化学習(GTRL)手法を提案する。
本手法は,DRL学習プロセスのデータ効率を大幅に向上させる,主にゴール関連機能に焦点を当てたシーン表現の動機付けである。
データ効率, 性能, 堅牢性, および sim-to-real 一般化の観点から, シミュレーションと実世界の実験結果の両方が, 我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-01-01T07:14:30Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。