Fugu-MT 論文翻訳(概要): Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text Games

論文の概要: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text Games

arxiv url: http://arxiv.org/abs/2312.04657v1
Date: Thu, 7 Dec 2023 19:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 17:06:23.080231
Title: Self-Supervised Behavior Cloned Transformers are Path Crawlers for Text Games
Title（参考訳）: 自己教師付き行動クローントランスフォーマーはテキストゲームのためのパスクローラである
Authors: Ruoyao Wang, Peter Jansen
Abstract要約: 仮想環境におけるマルチステップ推論のためのベンチマークとして,テキストゲームのための自己教師型行動クローニングトランスフォーマーを提案する。本手法は,ゲーム内の報酬につながる軌道を探索することで,トレーニングデータを自動生成する。提案手法は,3つのベンチマークテキストゲームにおいて,教師付きシステムの約90%のパフォーマンスを達成し,一貫した一般化可能なトレーニングデータを明らかにする。
参考スコア（独自算出の注目度）: 2.2722155331290517
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this work, we introduce a self-supervised behavior cloning transformer for text games, which are challenging benchmarks for multi-step reasoning in virtual environments. Traditionally, Behavior Cloning Transformers excel in such tasks but rely on supervised training data. Our approach auto-generates training data by exploring trajectories (defined by common macro-action sequences) that lead to reward within the games, while determining the generality and utility of these trajectories by rapidly training small models then evaluating their performance on unseen development games. Through empirical analysis, we show our method consistently uncovers generalizable training data, achieving about 90\% performance of supervised systems across three benchmark text games.
Abstract（参考訳）: 本稿では,仮想環境におけるマルチステップ推論のベンチマークに挑戦する,テキストゲーム用自己教師付き行動クローニングトランスフォーマを提案する。伝統的に、Behavior Cloning Transformerはそのようなタスクをエクササイズするが、教師付きトレーニングデータに依存している。本手法は,ゲーム内における報酬につながる軌道(共通マクロ・アクション・シーケンスによって定義される)を探索することで,トレーニングデータを自動生成すると同時に,これらの軌道の汎用性と有用性を決定する。経験的分析により,本手法は一般化可能なトレーニングデータを明らかにし,3つのベンチマークテキストゲームで約90%の教師付きシステムの性能を実現する。

関連論文リスト

Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets [0.0]
自己教師付き学習は、大規模未ラベルデータを活用する強力なアプローチとして登場し、モデルパフォーマンスを改善している。本研究では,マスクの確率を徐々に増加させ,マスク付きパッチと非マスク型パッチの両方を組み込むために損失関数を改良する2つの事前学習フェーズを提案する。我々は,50万行のラベル付きテキスト行のデータセットを事前学習用として,さらに4つの異なる大きさの注釈付きデータセットを微調整用として,広範囲な実験を行った。
論文参考訳（メタデータ） (2025-03-28T15:16:48Z)
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers [41.069074375686164]
本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。 52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。 HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
論文参考訳（メタデータ） (2024-09-30T17:39:41Z)
Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文参考訳（メタデータ） (2024-06-21T13:48:37Z)
Self-supervised Pretraining and Finetuning for Monocular Depth and Visual Odometry [7.067145619709089]
我々は,我々の自己教師型モデルが「鐘と笛なしで」最先端のパフォーマンスに到達できることを実証した。全てのデータセットに対して,本手法は,特に深度予測タスクにおいて,最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-06-16T17:24:20Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文参考訳（メタデータ） (2022-05-30T16:55:38Z)
ProFormer: Learning Data-efficient Representations of Body Movement with Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文参考訳（メタデータ） (2022-02-23T11:11:54Z)
Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文参考訳（メタデータ） (2021-12-30T16:07:59Z)
Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文参考訳（メタデータ） (2021-06-21T07:40:34Z)
How Well Self-Supervised Pre-Training Performs with Streaming Data? [73.5362286533602]
ストリーミング形式でデータが収集される現実のシナリオでは、ジョイントトレーニングスキームは通常、ストレージ重大で時間を要する。ストリーミングデータでどのように連続的な自己監督プリトレーニングが実行されるかは不明です。ストリーミングデータ内の分散シフトが軽度である場合,逐次自己教師付き学習は共同学習とほぼ同等の性能を示す。
論文参考訳（メタデータ） (2021-04-25T06:56:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。