論文の概要: Long-Context Language Decision Transformers and Exponential Tilt for
Interactive Text Environments
- arxiv url: http://arxiv.org/abs/2302.05507v1
- Date: Fri, 10 Feb 2023 20:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:05:07.618742
- Title: Long-Context Language Decision Transformers and Exponential Tilt for
Interactive Text Environments
- Title(参考訳): 対話型テキスト環境における長文言語決定変換器と指数関数
- Authors: Nicolas Gontier, Pau Rodriguez, Issam Laradji, David Vazquez,
Christopher Pal
- Abstract要約: Long-Context Language Decision Transformer (LLDT)は、長い変換言語モデルと決定変換(DT)に基づくフレームワークである。
LLDTはDTを3成分で拡張する:(1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴーよりもはるかに優れた結果をもたらす新しいゴール条件付け法(全ての将来の報酬の仮定)。
LLDTは,Enchanterなど,最も難易度の高いJerrichoゲームにおいて,多種多様なエージェントの中で最高のスコアを達成している。
- 参考スコア(独自算出の注目度): 4.349838917565204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based game environments are challenging because agents must deal with
long sequences of text, execute compositional actions using text and learn from
sparse rewards. We address these challenges by proposing Long-Context Language
Decision Transformers (LLDTs), a framework that is based on long transformer
language models and decision transformers (DTs). LLDTs extend DTs with 3
components: (1) exponential tilt to guide the agent towards high obtainable
goals, (2) novel goal conditioning methods yielding significantly better
results than the traditional return-to-go (sum of all future rewards), and (3)
a model of future observations. Our ablation results show that predicting
future observations improves agent performance. To the best of our knowledge,
LLDTs are the first to address offline RL with DTs on these challenging games.
Our experiments show that LLDTs achieve the highest scores among many different
types of agents on some of the most challenging Jericho games, such as
Enchanter.
- Abstract(参考訳): エージェントはテキストの長いシーケンスを処理し、テキストを使って構成アクションを実行し、スパース報酬から学ぶ必要があるため、テキストベースのゲーム環境は困難である。
我々は,long-context language decision transformers (lldts) と decision transformers (dts) に基づくフレームワークを提案することで,これらの課題に対処する。
LLDTはDTを3成分で拡張する: 1) エージェントを高い目標に向けて誘導するための指数的傾き、(2) 従来のリターン・ツー・ゴーよりもはるかに優れた結果をもたらす新しいゴール条件付け法、(3) 将来の観測モデル。
アブレーションの結果,今後の予測がエージェント性能の向上に寄与することが示された。
私たちの知る限りでは、これらの挑戦的なゲームでオフラインrlに対処するのはlldtsが初めてです。
LLDTは,Enchanterなど,最も難易度の高いJerrichoゲームにおいて,多種多様なエージェントの中で最高のスコアを達成している。
関連論文リスト
- Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Language Guided Exploration for RL Agents in Text Environments [15.256908785183617]
LLM(Large Language Models)は、世界知識の豊富な言語モデルであり、RLエージェントが素早く学習し、分散シフトに適応するのに役立つ。
我々は、事前訓練された言語モデルを用いて、RLエージェント(EXPLORER)に決定レベルのガイダンスを提供するLanguage Guided Exploration(LGE)フレームワークを紹介する。
我々は,難易度の高いテキスト環境であるScienceWorldにおいて,LGEがバニラRLエージェントを著しく上回り,Behaviour CloningやText Decision Transformerなどの高度な手法を上回ります。
論文 参考訳(メタデータ) (2024-03-05T17:26:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Prompting Decision Transformer for Few-Shot Policy Generalization [98.0914217850999]
本稿では,オフラインRLにおける少数ショット適応を実現するために,Prompt-based Decision Transformer (Prompt-DT)を提案する。
Prompt-DTは、目に見えないターゲットタスクを微調整することなく、強力な数発の学習者である。
論文 参考訳(メタデータ) (2022-06-27T17:59:17Z) - Boosting Transformers for Job Expression Extraction and Classification
in a Low-Resource Setting [12.489741131691737]
本稿では,スペイン語テキストにおけるジョブ表現の抽出と分類に取り組むためのアプローチを提案する。
言語の専門家でもドメインの専門家でもないので、多言語XLM-Rトランスモデルを実験する。
XLM-Rモデルと比較して,これらの手法を最大5.3F1点まで改善した。
論文 参考訳(メタデータ) (2021-09-17T15:21:02Z) - Episodic Transformer for Vision-and-Language Navigation [142.6236659368177]
本稿では,長時間のサブタスク処理と複雑なヒューマンインストラクションの理解という2つの課題に取り組むことに焦点を当てる。
エピソード変換器(E.T.)を提案する。
言語入力と視覚観察と行動の全エピソード履歴を符号化するマルチモーダルトランスフォーマーである。
我々のアプローチは、挑戦的なALFREDベンチマークに新たな技術状況を設定し、見つからないテストの分割で38.4%と8.5%のタスク成功率を達成した。
論文 参考訳(メタデータ) (2021-05-13T17:51:46Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。