論文の概要: Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation
- arxiv url: http://arxiv.org/abs/2409.05583v1
- Date: Mon, 9 Sep 2024 13:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:39:56.584719
- Title: Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation
- Title(参考訳): 視覚・言語ナビゲーションインストラクション生成のための空間認識型話者
- Authors: Muraleekrishna Gopinathan, Martin Masek, Jumana Abu-Khalaf, David Suter,
- Abstract要約: SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。
提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
- 参考スコア(独自算出の注目度): 8.931633531104021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied AI aims to develop robots that can \textit{understand} and execute human language instructions, as well as communicate in natural languages. On this front, we study the task of generating highly detailed navigational instructions for the embodied robots to follow. Although recent studies have demonstrated significant leaps in the generation of step-by-step instructions from sequences of images, the generated instructions lack variety in terms of their referral to objects and landmarks. Existing speaker models learn strategies to evade the evaluation metrics and obtain higher scores even for low-quality sentences. In this work, we propose SAS (Spatially-Aware Speaker), an instruction generator or \textit{Speaker} model that utilises both structural and semantic knowledge of the environment to produce richer instructions. For training, we employ a reward learning method in an adversarial setting to avoid systematic bias introduced by language evaluation metrics. Empirically, our method outperforms existing instruction generation models, evaluated using standard metrics. Our code is available at \url{https://github.com/gmuraleekrishna/SAS}.
- Abstract(参考訳): Embodied AIは、自然言語でコミュニケーションするだけでなく、textit{understand}を指定して、人間の言語命令を実行するロボットの開発を目指している。
そこで本研究では,ロボットが従うべき高精度なナビゲーション命令を生成するタスクについて検討する。
近年の研究では、画像列からのステップバイステップインストラクションの生成において大きな飛躍が見られたが、生成したインストラクションは、オブジェクトやランドマークへの参照という点では、多様性に欠けていた。
既存の話者モデルは、評価指標を回避し、低品質の文に対しても高いスコアを得る戦略を学ぶ。
本研究では,環境の構造的知識と意味的知識を利用してよりリッチな命令を生成する命令生成システムであるSAS(Spatially-Aware Speaker)を提案する。
学習には,言語評価指標が導入した体系的バイアスを回避するために,相手設定で報酬学習手法を用いる。
実験により,本手法は既存の命令生成モデルよりも優れ,標準指標を用いて評価する。
私たちのコードは \url{https://github.com/gmuraleekrishna/SAS} で利用可能です。
関連論文リスト
- Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Accessible Instruction-Following Agent [0.0]
UVLNは、言語間視覚言語ナビゲーションのための新しい機械翻訳命令拡張フレームワークである。
我々は、標準VLNトレーニング目標を言語間エンコーダを介して多言語設定に拡張する。
Room Across Roomデータセットによる実験は、我々のアプローチの有効性を証明する。
論文 参考訳(メタデータ) (2023-05-08T23:57:26Z) - Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。
提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。
本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:19:33Z) - Lana: A Language-Capable Navigator for Instruction Following and
Generation [70.76686546473994]
LANAは言語対応のナビゲーションエージェントで、人書きのナビゲーションコマンドを実行し、人へのルート記述を提供することができる。
我々は、最近の高度なタスク固有解と比較して、LANAが命令追従と経路記述の両方においてより良い性能を発揮することを実証的に検証した。
加えて、言語生成能力が与えられたLANAは、人間の行動を説明し、人間のウェイフィンディングを支援することができる。
論文 参考訳(メタデータ) (2023-03-15T07:21:28Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation [45.99831101677059]
追従者からのフィードバックを受けて常に更新されるtextscfoam, textscFollower-textscaware speaker textscModelを提案する。
両レベル最適化フレームワークを用いて話者を最適化し、ラベル付きデータ上で追従者を評価することにより、学習信号を得る。
論文 参考訳(メタデータ) (2022-06-09T06:11:07Z) - Counterfactual Cycle-Consistent Learning for Instruction Following and
Generation in Vision-Language Navigation [172.15808300686584]
本稿では,2つのタスクを同時に学習し,それぞれのトレーニングを促進するために本質的な相関性を利用するアプローチについて述べる。
提案手法は,様々な追従モデルの性能を改善し,正確なナビゲーション命令を生成する。
論文 参考訳(メタデータ) (2022-03-30T18:15:26Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - On the Evaluation of Vision-and-Language Navigation Instructions [76.92085026018427]
自動的に生成されたナビゲーション命令を利用することで、視覚・言語ナビゲーションのウェイフィングエージェントを強化することができる。
既存の命令生成装置は包括的に評価されていない。
BLEU、ROUGE、METEORおよびCIDErは接地ナビゲーションの指示を評価するために有効ではないです。
論文 参考訳(メタデータ) (2021-01-26T01:03:49Z) - The Turking Test: Can Language Models Understand Instructions? [45.266428794559495]
本稿では,様々な複雑さの自然言語命令に従うモデルの能力を検証したチューリングテストを提案する。
優れた評価手法にもかかわらず、大きな事前訓練された言語モデルが全てのタスクで不十分に機能することを観察する。
論文 参考訳(メタデータ) (2020-10-22T18:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。