論文の概要: Rotation, Translation, and Cropping for Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2001.09908v3
- Date: Fri, 12 Jun 2020 03:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 07:22:07.851387
- Title: Rotation, Translation, and Cropping for Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化のための回転, 翻訳, クロップ
- Authors: Chang Ye, Ahmed Khalifa, Philip Bontrager, Julian Togelius
- Abstract要約: 本稿では、一般化の欠如は入力表現によるものであるという仮説を推し進める。
我々は,2次元アーケードゲームにおいて,作物を収穫し,翻訳し,回転させた観察により,目に見えないレベルでの一般化が期待できることを示した。
- 参考スコア(独自算出の注目度): 7.229831492891629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has shown impressive performance on domains
with visual inputs, in particular various games. However, the agent is usually
trained on a fixed environment, e.g. a fixed number of levels. A growing mass
of evidence suggests that these trained models fail to generalize to even
slight variations of the environments they were trained on. This paper advances
the hypothesis that the lack of generalization is partly due to the input
representation, and explores how rotation, cropping and translation could
increase generality. We show that a cropped, translated and rotated observation
can get better generalization on unseen levels of two-dimensional arcade games
from the GVGAI framework. The generality of the agents is evaluated on both
human-designed and procedurally generated levels.
- Abstract(参考訳): deep reinforcement learning (drl)は、視覚入力を持つドメイン、特に様々なゲームで印象的なパフォーマンスを示している。
しかしながら、エージェントは通常、固定された環境(例えば一定の数のレベル)で訓練される。
ますます多くの証拠が、これらの訓練されたモデルは、訓練された環境のわずかなバリエーションにまで一般化できないことを示唆している。
本稿では, 一般化の欠如は入力表現によるものであるという仮説を推し進め, 回転, 収穫, 翻訳がいかに一般性を高めるかを探る。
我々は,GVGAIフレームワークから,未知の2次元アーケードゲームにおいて,トリミング,翻訳,回転による観察により,より一般化できることを示す。
エージェントの汎用性は、人間が設計したレベルと手続き的に生成したレベルの両方で評価される。
関連論文リスト
- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [127.47044960572659]
ファウンデーションモデルでは、教師付き微調整(SFT)と強化学習(RL)がポストトレーニング技術として広く使われている。
本稿では,一般化と記憶におけるSFTとRLの違いについて検討する。
RLは、特に結果に基づく報酬で訓練された場合、ルールベースのテキストと視覚的バリエーションの両方で一般化されることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:44Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Generalization Analogies: A Testbed for Generalizing AI Oversight to
Hard-To-Measure Domains [0.0]
報酬モデルは、デフォルトでは命令フォローを評価することを学ばない。
報酬モデルの内部表現を解釈する技術は、標準的な微調整よりも優れた一般化を実現する。
我々は15の最も困難な分布シフトをジェネラライゼーションアナログIESベンチマークに統合する。
論文 参考訳(メタデータ) (2023-11-13T20:07:36Z) - Invariance is Key to Generalization: Examining the Role of
Representation in Sim-to-Real Transfer for Visual Navigation [35.01394611106655]
一般化の鍵は、すべてのタスク関連情報をキャプチャするのに十分なリッチな表現である。
このような視覚ナビゲーションの表現を実験的に研究する。
我々の表現は、トレーニングドメインとテストドメイン間のA距離を減少させる。
論文 参考訳(メタデータ) (2023-10-23T15:15:19Z) - When Neural Networks Fail to Generalize? A Model Sensitivity Perspective [82.36758565781153]
ドメイン一般化 (Domain Generalization, DG) は、異なる分布の下で見えないドメインでうまく機能するようにモデルを訓練することを目的としている。
本稿では,より現実的で,より困難なシナリオである単一領域一般化(Single-DG)について考察する。
我々は「モデル感度」と命名する一般化と強く相関するモデルの性質を経験的に確認する。
本稿では、高感度の周波数をターゲットとした拡張画像を生成するために、スペクトル逆データ拡張(SADA)の新たな戦略を提案する。
論文 参考訳(メタデータ) (2022-12-01T20:15:15Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Compositional generalization in semantic parsing with pretrained
transformers [13.198689566654108]
我々は,非英語コーパスやプログラミング言語コーパスにのみ事前訓練された言語モデルが,アウト・オブ・ディストリビューションの一般化を著しく改善することを示した。
また, より大規模なモデルではスクラッチからのトレーニングが困難であり, 収束までのトレーニングでは, 一般化精度が低いことを示す。
論文 参考訳(メタデータ) (2021-09-30T13:06:29Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。