論文の概要: MLANet: Multi-Level Attention Network with Sub-instruction for
Continuous Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2303.01396v1
- Date: Thu, 2 Mar 2023 16:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:25:04.201552
- Title: MLANet: Multi-Level Attention Network with Sub-instruction for
Continuous Vision-and-Language Navigation
- Title(参考訳): mlanet: 連続視覚言語ナビゲーションのためのサブインストラクションを備えたマルチレベルアテンションネットワーク
- Authors: Zongtao He, Liuyi Wang, Shu Li, Qingqing Yan, Chengju Liu and Qijun
Chen
- Abstract要約: Vision-and-Language Navigation (VLN) は、言語と視覚の監督を通じてのみ見えない環境でナビゲートするためのインテリジェントエージェントを開発することを目的としている。
最近提案された連続的な設定(連続VLN)では、エージェントは自由な3D空間で動作しなければなりません。
連続VLNの性能向上のために、我々はマルチレベル命令理解手順を設計し、新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。
- 参考スコア(独自算出の注目度): 6.478089983471946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) aims to develop intelligent agents to
navigate in unseen environments only through language and vision supervision.
In the recently proposed continuous settings (continuous VLN), the agent must
act in a free 3D space and faces tougher challenges like real-time execution,
complex instruction understanding, and long action sequence prediction. For a
better performance in continuous VLN, we design a multi-level instruction
understanding procedure and propose a novel model, Multi-Level Attention
Network (MLANet). The first step of MLANet is to generate sub-instructions
efficiently. We design a Fast Sub-instruction Algorithm (FSA) to segment the
raw instruction into sub-instructions and generate a new sub-instruction
dataset named ``FSASub". FSA is annotation-free and faster than the current
method by 70 times, thus fitting the real-time requirement in continuous VLN.
To solve the complex instruction understanding problem, MLANet needs a global
perception of the instruction and observations. We propose a Multi-Level
Attention (MLA) module to fuse vision, low-level semantics, and high-level
semantics, which produce features containing a dynamic and global comprehension
of the task. MLA also mitigates the adverse effects of noise words, thus
ensuring a robust understanding of the instruction. To correctly predict
actions in long trajectories, MLANet needs to focus on what sub-instruction is
being executed every step. We propose a Peak Attention Loss (PAL) to improve
the flexible and adaptive selection of the current sub-instruction. PAL
benefits the navigation agent by concentrating its attention on the local
information, thus helping the agent predict the most appropriate actions. We
train and test MLANet in the standard benchmark. Experiment results show MLANet
outperforms baselines by a significant margin.
- Abstract(参考訳): vision-and-language navigation (vln) は、言語と視覚の監督を通してのみ見えない環境をナビゲートするインテリジェントエージェントを開発することを目的としている。
最近提案されたcontinuous settings(continuous vln)では、エージェントはフリーな3d空間で動作しなければならず、リアルタイム実行、複雑な命令理解、長いアクションシーケンス予測といった難しい課題に直面している。
連続VLNの性能向上のために,マルチレベル命令理解手順を設計し,新しいモデルであるマルチレベル注意ネットワーク(MLANet)を提案する。
MLANetの最初のステップは、効率的にサブ命令を生成することである。
本研究では,素命令をサブインストラクションに分割する高速サブインストラクションアルゴリズム (FSA) を設計し,新たなサブインストラクションデータセットである ``FSASub を生成する。
FSAは、現在のメソッドよりも70倍高速でアノテーションのないため、連続VLNのリアルタイム要求に適合する。
複雑な命令理解問題を解決するために、MLANetは命令と観察のグローバルな認識を必要とする。
本研究では,タスクの動的かつ大域的な理解を含む機能を生成するマルチレベルアテンション(mla)モジュールを提案する。
MLAはまた、ノイズワードの悪影響を軽減し、命令の堅牢な理解を確保する。
長い軌道でアクションを正確に予測するには、MLANetはステップ毎にサブ命令が実行されることに集中する必要がある。
本稿では,現在のサブ命令の柔軟かつ適応的な選択を改善するために,ピーク注意損失(PAL)を提案する。
PALは、ナビゲーションエージェントがローカル情報に注意を集中することにより、最も適切な行動を予測するのに役立つ。
標準ベンチマークでMLANetをトレーニングし、テストします。
実験の結果、MLANetはベースラインをかなり上回ります。
関連論文リスト
- Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。
本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文 参考訳(メタデータ) (2024-11-23T05:03:32Z) - Neurosymbolic AI for Enhancing Instructability in Generative AI [7.4348066967005275]
生成AIは、テキスト、画像、音楽間でコンテンツ生成を変換し、プロンプトを通じて指示に従う能力を示した。
本稿では,ニューロシンボリックAIがLarge Language Models(LLMs)のインストラクタビリティを高めるためのより良い経路を提供する理由を考察する。
ニューロシンボリックアプローチによってタスク実行の信頼性とコンテキスト認識が向上し,LLMが動的に解釈し,より広い範囲の教育コンテキストに対応し,より精度と柔軟性が向上することを示す。
論文 参考訳(メタデータ) (2024-07-26T13:15:50Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - ULN: Towards Underspecified Vision-and-Language Navigation [77.81257404252132]
Underspecificified Vision-and-Language Navigation (ULN)は、視覚・言語ナビゲーション(VLN)のための新しい設定である
本稿では,分類モジュール,ナビゲーションエージェント,エクスプロイテーション・ツー・エクスプロレーション(E2E)モジュールで構成されるVLNフレームワークを提案する。
我々のフレームワークはより堅牢で、ULNのベースラインを全レベルの相対的な成功率で10%上回る。
論文 参考訳(メタデータ) (2022-10-18T17:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。