Fugu-MT 論文翻訳(概要): Translating Natural Language Instructions for Behavioral Robot Navigation with a Multi-Head Attention Mechanism

論文の概要: Translating Natural Language Instructions for Behavioral Robot Navigation with a Multi-Head Attention Mechanism

arxiv url: http://arxiv.org/abs/2006.00697v3
Date: Sun, 7 Jun 2020 23:00:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-26 05:46:24.481983
Title: Translating Natural Language Instructions for Behavioral Robot Navigation with a Multi-Head Attention Mechanism
Title（参考訳）: 多頭部注意機構を用いた行動ロボットナビゲーションのための自然言語命令の翻訳
Authors: Patricio Cerda-Mardini, Vladimir Araujo, Alvaro Soto
Abstract要約: 本稿では,自然言語を屋内ロボットナビゲーションのための高レベル行動言語に変換するニューラルネットワークモデルにおけるブレンディング層としてのマルチヘッドアテンション機構を提案する。その結果,これまで見つからなかった環境における命令の翻訳では,性能が著しく向上した。
参考スコア（独自算出の注目度）: 4.151276634378521
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a multi-head attention mechanism as a blending layer in a neural network model that translates natural language to a high level behavioral language for indoor robot navigation. We follow the framework established by (Zang et al., 2018a) that proposes the use of a navigation graph as a knowledge base for the task. Our results show significant performance gains when translating instructions on previously unseen environments, therefore, improving the generalization capabilities of the model.
Abstract（参考訳）: 本稿では,自然言語を屋内ロボットナビゲーションのための高レベル行動言語に変換するニューラルネットワークモデルにおけるブレンディング層としてのマルチヘッドアテンション機構を提案する。我々は,ナビゲーショングラフをタスクの知識基盤として用いることを提案する(Zang et al., 2018a)。その結果,既定環境における命令の翻訳性能が大幅に向上し,モデルの一般化能力が向上した。

関連論文リスト

OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-20T16:05:18Z)
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts [54.11162991206203]
本稿では,多様なナビゲーションタスクを統一的で汎用的なフレームワークに統合する。本稿では,エージェントによる意思決定の推論を効果的に行うことのできる,新しい状態適応型エキスパート混合モデルを提案する。
論文参考訳（メタデータ） (2024-12-07T06:12:53Z)
Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation [8.931633531104021]
SAS(Spatially-Aware Speaker)は、環境の構造的知識と意味的知識の両方を用いてよりリッチな命令を生成する命令生成装置である。提案手法は,既存の命令生成モデルより優れ,標準指標を用いて評価する。
論文参考訳（メタデータ） (2024-09-09T13:12:11Z)
Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文参考訳（メタデータ） (2024-05-27T11:02:21Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
Picking the Underused Heads: A Network Pruning Perspective of Attention Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文参考訳（メタデータ） (2023-12-15T05:27:24Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP [27.51318030253248]
我々は、画像条件付きテキスト生成の基礎となる神経機構の研究を可能にするために、一方向因果追跡ツールをBLIPに適用した。我々はBLIP因果追跡ツールをオープンソースとしてリリースし、視覚言語による機械的解釈のさらなる実験を可能にする。
論文参考訳（メタデータ） (2023-08-27T18:46:47Z)
Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文参考訳（メタデータ） (2023-02-24T17:29:31Z)
Learning Flexible Translation between Robot Actions and Language Descriptions [16.538887534958555]
本稿では,ロボット動作と言語記述とのフレキシブルな変換のためのペアゲートオートエンコーダ(PGAE)を提案する。我々は、各アクションを、翻訳方向に関する信号を含む適切な記述とペアリングすることで、エンド・ツー・エンドでモデルを訓練する。事前訓練された言語モデルを言語エンコーダとして使用するオプションにより、我々のモデルは目に見えない自然言語入力を認識することができる。
論文参考訳（メタデータ） (2022-07-15T12:37:05Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Reshaping Robot Trajectories Using Natural Language Commands: A Study of Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文参考訳（メタデータ） (2022-03-25T01:36:56Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。