論文の概要: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text
Games
- arxiv url: http://arxiv.org/abs/2312.04657v1
- Date: Thu, 7 Dec 2023 19:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:06:23.080231
- Title: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text
Games
- Title(参考訳): 自己教師付き行動クローントランスフォーマーはテキストゲームのためのパスクローラである
- Authors: Ruoyao Wang, Peter Jansen
- Abstract要約: 仮想環境におけるマルチステップ推論のためのベンチマークとして,テキストゲームのための自己教師型行動クローニングトランスフォーマーを提案する。
本手法は,ゲーム内の報酬につながる軌道を探索することで,トレーニングデータを自動生成する。
提案手法は,3つのベンチマークテキストゲームにおいて,教師付きシステムの約90%のパフォーマンスを達成し,一貫した一般化可能なトレーニングデータを明らかにする。
- 参考スコア(独自算出の注目度): 2.2722155331290517
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we introduce a self-supervised behavior cloning transformer for
text games, which are challenging benchmarks for multi-step reasoning in
virtual environments. Traditionally, Behavior Cloning Transformers excel in
such tasks but rely on supervised training data. Our approach auto-generates
training data by exploring trajectories (defined by common macro-action
sequences) that lead to reward within the games, while determining the
generality and utility of these trajectories by rapidly training small models
then evaluating their performance on unseen development games. Through
empirical analysis, we show our method consistently uncovers generalizable
training data, achieving about 90\% performance of supervised systems across
three benchmark text games.
- Abstract(参考訳): 本稿では,仮想環境におけるマルチステップ推論のベンチマークに挑戦する,テキストゲーム用自己教師付き行動クローニングトランスフォーマを提案する。
伝統的に、Behavior Cloning Transformerはそのようなタスクをエクササイズするが、教師付きトレーニングデータに依存している。
本手法は,ゲーム内における報酬につながる軌道(共通マクロ・アクション・シーケンスによって定義される)を探索することで,トレーニングデータを自動生成すると同時に,これらの軌道の汎用性と有用性を決定する。
経験的分析により,本手法は一般化可能なトレーニングデータを明らかにし,3つのベンチマークテキストゲームで約90%の教師付きシステムの性能を実現する。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - TrajGen: Generating Realistic and Diverse Trajectories with Reactive and
Feasible Agent Behaviors for Autonomous Driving [19.06020265777298]
既存のシミュレーターは、背景車両のシステムに基づく行動モデルに依存しており、現実のシナリオにおける複雑なインタラクティブな振る舞いを捉えることはできない。
そこで我々は,人間の実演からより現実的な行動を直接捉えることができる2段階の軌道生成フレームワークであるTrajGenを提案する。
また,データ駆動型シミュレータI-Simを開発した。
論文 参考訳(メタデータ) (2022-03-31T04:48:29Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - How Well Self-Supervised Pre-Training Performs with Streaming Data? [73.5362286533602]
ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。
ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。
ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
論文 参考訳(メタデータ) (2021-04-25T06:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。