論文の概要: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text
Games
- arxiv url: http://arxiv.org/abs/2312.04657v1
- Date: Thu, 7 Dec 2023 19:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 17:06:23.080231
- Title: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text
Games
- Title(参考訳): 自己教師付き行動クローントランスフォーマーはテキストゲームのためのパスクローラである
- Authors: Ruoyao Wang, Peter Jansen
- Abstract要約: 仮想環境におけるマルチステップ推論のためのベンチマークとして,テキストゲームのための自己教師型行動クローニングトランスフォーマーを提案する。
本手法は,ゲーム内の報酬につながる軌道を探索することで,トレーニングデータを自動生成する。
提案手法は,3つのベンチマークテキストゲームにおいて,教師付きシステムの約90%のパフォーマンスを達成し,一貫した一般化可能なトレーニングデータを明らかにする。
- 参考スコア(独自算出の注目度): 2.2722155331290517
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this work, we introduce a self-supervised behavior cloning transformer for
text games, which are challenging benchmarks for multi-step reasoning in
virtual environments. Traditionally, Behavior Cloning Transformers excel in
such tasks but rely on supervised training data. Our approach auto-generates
training data by exploring trajectories (defined by common macro-action
sequences) that lead to reward within the games, while determining the
generality and utility of these trajectories by rapidly training small models
then evaluating their performance on unseen development games. Through
empirical analysis, we show our method consistently uncovers generalizable
training data, achieving about 90\% performance of supervised systems across
three benchmark text games.
- Abstract(参考訳): 本稿では,仮想環境におけるマルチステップ推論のベンチマークに挑戦する,テキストゲーム用自己教師付き行動クローニングトランスフォーマを提案する。
伝統的に、Behavior Cloning Transformerはそのようなタスクをエクササイズするが、教師付きトレーニングデータに依存している。
本手法は,ゲーム内における報酬につながる軌道(共通マクロ・アクション・シーケンスによって定義される)を探索することで,トレーニングデータを自動生成すると同時に,これらの軌道の汎用性と有用性を決定する。
経験的分析により,本手法は一般化可能なトレーニングデータを明らかにし,3つのベンチマークテキストゲームで約90%の教師付きシステムの性能を実現する。
関連論文リスト
- Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文 参考訳(メタデータ) (2024-09-30T17:39:41Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。
全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-06-16T17:24:20Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。