論文の概要: Language Decision Transformers with Exponential Tilt for Interactive
Text Environments
- arxiv url: http://arxiv.org/abs/2302.05507v2
- Date: Fri, 17 Nov 2023 19:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:22:51.845062
- Title: Language Decision Transformers with Exponential Tilt for Interactive
Text Environments
- Title(参考訳): 対話型テキスト環境のための指数型言語決定変換器
- Authors: Nicolas Gontier, Pau Rodriguez, Issam Laradji, David Vazquez,
Christopher Pal
- Abstract要約: 言語決定変換器(Language Decision Transformer、LDT)は、変換言語モデルと決定変換器(DT)に基づくフレームワークである。
LDTはDTを3つの要素で拡張する: 1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴー(すべての将来報酬の仮定)よりも優れた結果をもたらす新しいゴール条件付け手法。
実験の結果,Enchanter など,最も難易度の高いJericho ゲームにおいて,様々な種類のエージェントの中で LDT が最も高いスコアを達成していることがわかった。
- 参考スコア(独自算出の注目度): 6.33348621916518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based game environments are challenging because agents must deal with
long sequences of text, execute compositional actions using text and learn from
sparse rewards. We address these challenges by proposing Language Decision
Transformers (LDTs), a framework that is based on transformer language models
and decision transformers (DTs). Our LDTs extend DTs with 3 components: (1)
exponential tilt to guide the agent towards high obtainable goals, (2) novel
goal conditioning methods yielding better results than the traditional
return-to-go (sum of all future rewards), and (3) a model of future
observations that improves agent performance. LDTs are the first to address
offline RL with DTs on these challenging games. Our experiments show that LDTs
achieve the highest scores among many different types of agents on some of the
most challenging Jericho games, such as Enchanter.
- Abstract(参考訳): エージェントはテキストの長いシーケンスを処理し、テキストを使って構成アクションを実行し、スパース報酬から学ぶ必要があるため、テキストベースのゲーム環境は困難である。
本稿では,変換言語モデルと決定変換器(DT)に基づくフレームワークであるLanguage Decision Transformer (LDT)を提案することで,これらの課題に対処する。
LDTはDTを3つの要素で拡張する: 1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴーよりも優れた結果をもたらす新しいゴール条件付け手法、(3) エージェント性能を向上させる将来の観測モデル。
LDTは、これらの挑戦的なゲームでDTを使って、オフラインのRLに最初に対処する。
実験の結果,Enchanter など,最も難易度の高いJericho ゲームにおいて,様々なエージェントの中から LDT が最も高いスコアを得られることがわかった。
関連論文リスト
- Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Language Guided Exploration for RL Agents in Text Environments [15.256908785183617]
LLM(Large Language Models)は、世界知識の豊富な言語モデルであり、RLエージェントが素早く学習し、分散シフトに適応するのに役立つ。
我々は、事前訓練された言語モデルを用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。
我々は,難易度の高いテキスト環境であるScienceWorldにおいて,LGEがバニラRLエージェントを著しく上回り,Behaviour CloningやText Decision Transformerなどの高度な手法を上回ります。
論文 参考訳(メタデータ) (2024-03-05T17:26:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Boosting Transformers for Job Expression Extraction and Classification
in a Low-Resource Setting [12.489741131691737]
本稿では,スペイン語テキストにおけるジョブ表現の抽出と分類に取り組むためのアプローチを提案する。
言語の専門家でもドメインの専門家でもないので、多言語XLM-Rトランスモデルを実験する。
XLM-Rモデルと比較して,これらの手法を最大5.3F1点まで改善した。
論文 参考訳(メタデータ) (2021-09-17T15:21:02Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。