論文の概要: Language-Guided World Models: A Model-Based Approach to AI Control
- arxiv url: http://arxiv.org/abs/2402.01695v1
- Date: Wed, 24 Jan 2024 03:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:39:01.954615
- Title: Language-Guided World Models: A Model-Based Approach to AI Control
- Title(参考訳): 言語誘導世界モデル:AI制御に対するモデルベースアプローチ
- Authors: Alex Zhang, Khanh Nguyen, Jens Tuyls, Albert Lin, Karthik Narasimhan
- Abstract要約: 我々はLWM(Language-Guided World Models)を開発した。
LWMはエージェント通信効率を高め、簡潔な言語フィードバックで複数のタスクの動作を同時に変更できる。
これらのモデルがエージェントの解釈可能性と安全性を高めるシナリオをシミュレートし、実行前に人間との計画の生成と議論を可能にする。
- 参考スコア(独自算出の注目度): 34.23337513309096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Installing probabilistic world models into artificial agents opens an
efficient channel for humans to communicate with and control these agents. In
addition to updating agent policies, humans can modify their internal world
models in order to influence their decisions. The challenge, however, is that
currently existing world models are difficult for humans to adapt because they
lack a natural communication interface. Aimed at addressing this shortcoming,
we develop Language-Guided World Models (LWMs), which can capture environment
dynamics by reading language descriptions. These models enhance agent
communication efficiency, allowing humans to simultaneously alter their
behavior on multiple tasks with concise language feedback. They also enable
agents to self-learn from texts originally written to instruct humans. To
facilitate the development of LWMs, we design a challenging benchmark based on
the game of MESSENGER (Hanjie et al., 2021), requiring compositional
generalization to new language descriptions and environment dynamics. Our
experiments reveal that the current state-of-the-art Transformer architecture
performs poorly on this benchmark, motivating us to design a more robust
architecture. To showcase the practicality of our proposed LWMs, we simulate a
scenario where these models augment the interpretability and safety of an agent
by enabling it to generate and discuss plans with a human before execution. By
effectively incorporating language feedback on the plan, the models boost the
agent performance in the real environment by up to three times without
collecting any interactive experiences in this environment.
- Abstract(参考訳): 確率論的世界モデルを人工エージェントにインストールすることは、人間がこれらのエージェントと通信し制御するための効率的なチャネルを開く。
エージェントポリシーの更新に加えて、人間は意思決定に影響を与えるために内部世界モデルを変更することができる。
しかし、現在存在する世界モデルは、自然なコミュニケーションインターフェースが欠如しているため、人間が適応することが困難である。
この欠点に対処するために,言語記述を読み取ることで環境動態を捉えるLWM(Language-Guided World Models)を開発した。
これらのモデルはエージェントのコミュニケーション効率を高め、人間が簡潔な言語フィードバックで複数のタスクの動作を同時に変えることができる。
また、エージェントは元々人間に指示するために書かれたテキストから自己学習することができる。
LWMの開発を容易にするため,MESSENGER (Hanjie et al., 2021) のゲームに基づいて,新しい言語記述や環境力学への合成一般化を必要とする,挑戦的なベンチマークを設計する。
我々の実験によると、現在の最先端のTransformerアーキテクチャは、このベンチマークでは性能が悪く、より堅牢なアーキテクチャを設計する動機となっている。
提案するLWMの実用性を示すために,提案モデルがエージェントの解釈可能性と安全性を高めるシナリオをシミュレートし,実行前に人間との計画の生成と議論を可能にする。
計画に言語フィードバックを効果的に組み込むことにより、この環境でインタラクティブな体験を収集することなく、実環境におけるエージェントのパフォーマンスを最大3倍向上させる。
関連論文リスト
- Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - Explanation, Debate, Align: A Weak-to-Strong Framework for Language Model Generalization [0.6629765271909505]
本稿では,言語モデルにおける弱強一般化によるモデルアライメントの新たなアプローチを提案する。
このファシリテーションに基づくアプローチは、モデルの性能を高めるだけでなく、モデルアライメントの性質に関する洞察も提供することを示唆している。
論文 参考訳(メタデータ) (2024-09-11T15:16:25Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Evaluating the Efficacy of AI Techniques in Textual Anonymization: A Comparative Study [5.962542204378336]
本研究では、条件付きランダムフィールド(CRF)、Long Short-Term Memory(LSTM)、Embedddings from Language Models(ELMo)、Transformersアーキテクチャに焦点を当てたテキスト匿名化手法に焦点を当てた。
CRF, LSTM, ELMoは, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-09T11:29:25Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。