論文の概要: FILM: Following Instructions in Language with Modular Methods
- arxiv url: http://arxiv.org/abs/2110.07342v1
- Date: Tue, 12 Oct 2021 16:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 12:32:10.942683
- Title: FILM: Following Instructions in Language with Modular Methods
- Title(参考訳): FILM: モジュール型メソッドによる言語命令に従う
- Authors: So Yeon Min, Devendra Singh Chaplot, Pradeep Ravikumar, Yonatan Bisk,
Ruslan Salakhutdinov
- Abstract要約: 近年のインボディード・インストラクションの手法は、模倣学習を用いてエンド・ツー・エンドで訓練されている。
本稿では,シーンのセマンティックマップを構築し,セマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
以上の結果から,空間記憶の明示と意味探索の方針が,状態追跡とガイダンスのためのより強固で汎用的な表現を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 109.73082108379936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent methods for embodied instruction following are typically trained
end-to-end using imitation learning. This requires the use of expert
trajectories and low-level language instructions. Such approaches assume
learned hidden states will simultaneously integrate semantics from the language
and vision to perform state tracking, spatial memory, exploration, and
long-term planning. In contrast, we propose a modular method with structured
representations that (1) builds a semantic map of the scene, and (2) performs
exploration with a semantic search policy, to achieve the natural language
goal. Our modular method achieves SOTA performance (24.46%) with a substantial
(8.17 % absolute) gap from previous work while using less data by eschewing
both expert trajectories and low-level instructions. Leveraging low-level
language, however, can further increase our performance (26.49%). Our findings
suggest that an explicit spatial memory and a semantic search policy can
provide a stronger and more general representation for state-tracking and
guidance, even in the absence of expert trajectories or low-level instructions.
- Abstract(参考訳): 最近のインボディード・インストラクションの手法は、一般的に模倣学習を用いてエンドツーエンドに訓練されている。
これは専門家の軌跡と低レベルの言語命令を使う必要がある。
このようなアプローチは、学習された隠れた状態が言語とビジョンからのセマンティクスを同時に統合し、状態追跡、空間記憶、探索、長期計画を実行すると仮定する。
これとは対照的に,(1)シーンのセマンティックマップを構築し,(2)自然言語の目的を達成するためにセマンティック検索ポリシーを用いて探索を行う構造化表現を用いたモジュラー手法を提案する。
提案手法は,従来手法と同等な(8.17 %)ギャップを持つsota性能 (24.46%) を実現するとともに,熟練した軌跡と低レベルの命令の両方をエスキューすることで少ないデータを使用する。
しかし、低レベル言語を活用することで、パフォーマンスがさらに向上します(26.49%)。
本研究は, 空間記憶と意味探索によって, 専門家の軌跡や低レベルの指示がなくても, より強く, より汎用的な状態追跡とガイダンスの表現が可能であることを示唆する。
関連論文リスト
- Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z) - Multi-View Learning for Vision-and-Language Navigation [163.20410080001324]
EveryOne(LEO)から学ぶことは、視覚環境でのナビゲーションを学ぶためのトレーニングパラダイムです。
命令間でパラメータを共有することで、限られたトレーニングデータからより効果的に学習する。
最近のRoom-to-Room(R2R)ベンチマークデータセットでは、LEOはgreedyエージェントよりも16%改善(絶対)されている。
論文 参考訳(メタデータ) (2020-03-02T13:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。