論文の概要: VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.13839v1
- Date: Mon, 26 Oct 2020 18:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 17:53:28.093367
- Title: VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning
- Title(参考訳): VisualHints:マルチモーダル強化学習のためのビジュアル言語環境
- Authors: Thomas Carta, Subhajit Chaudhury, Kartik Talamadupula and Michiaki
Tatsubori
- Abstract要約: テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
- 参考スコア(独自算出の注目度): 14.553086325168803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VisualHints, a novel environment for multimodal reinforcement
learning (RL) involving text-based interactions along with visual hints
(obtained from the environment). Real-life problems often demand that agents
interact with the environment using both natural language information and
visual perception towards solving a goal. However, most traditional RL
environments either solve pure vision-based tasks like Atari games or
video-based robotic manipulation; or entirely use natural language as a mode of
interaction, like Text-based games and dialog systems. In this work, we aim to
bridge this gap and unify these two approaches in a single environment for
multimodal RL. We introduce an extension of the TextWorld cooking environment
with the addition of visual clues interspersed throughout the environment. The
goal is to force an RL agent to use both text and visual features to predict
natural language action commands for solving the final task of cooking a meal.
We enable variations and difficulties in our environment to emulate various
interactive real-world scenarios. We present a baseline multimodal agent for
solving such problems using CNN-based feature extraction from visual hints and
LSTMs for textual feature extraction. We believe that our proposed
visual-lingual environment will facilitate novel problem settings for the RL
community.
- Abstract(参考訳): テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
現実の問題はしばしば、エージェントが自然言語情報と視覚的な知覚の両方を使って、目標の解決に向けて環境と対話することを要求する。
しかし、従来のRL環境は、Atariゲームのような純粋な視覚ベースのタスクやビデオベースのロボット操作、あるいはテキストベースのゲームやダイアログシステムのようなインタラクションのモードとして自然言語を完全に使用する。
本研究では,このギャップを埋め,この2つのアプローチを単一環境に統一し,マルチモーダルRLを実現することを目的とする。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
実世界の様々なシナリオをエミュレートするために,環境の変化と難易度を実現する。
CNNに基づく視覚的ヒントからの特徴抽出とテキスト特徴抽出のためのLSTMを用いて,このような問題を解決するためのベースラインマルチモーダルエージェントを提案する。
提案する視覚言語環境は,RLコミュニティの新たな問題設定を促進するだろう。
関連論文リスト
- Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - LARP: Language-Agent Role Play for Open-World Games [19.80040627487576]
Language Agent for Role-Playing (LARP)は、メモリ処理と意思決定アシスタントを含む認知アーキテクチャである。
このフレームワークは、ユーザとエージェント間のインタラクションを洗練し、ユニークなバックグラウンドとパーソナリティで事前に定義する。
エンターテイメント、教育、様々なシミュレーションシナリオなど、さまざまな分野における言語モデルの多彩な利用を強調している。
論文 参考訳(メタデータ) (2023-12-24T10:08:59Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - ScriptWorld: Text Based Environment For Learning Procedural Knowledge [2.0491741153610334]
ScriptWorldは、現実世界の日々の雑用についてエージェントに教えるテキストベースの環境である。
10日間の活動にゲーム環境を提供し,提案環境の詳細な分析を行う。
RLエージェントの事前学習言語モデルから得られた特徴を利用する。
論文 参考訳(メタデータ) (2023-07-08T05:43:03Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Zero-Shot Compositional Policy Learning via Language Grounding [13.45138913186308]
人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。
本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。
現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
論文 参考訳(メタデータ) (2020-04-15T16:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。