論文の概要: Exchangeable Input Representations for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.09022v1
- Date: Thu, 19 Mar 2020 21:18:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 03:30:10.869034
- Title: Exchangeable Input Representations for Reinforcement Learning
- Title(参考訳): 強化学習のための交換可能な入力表現
- Authors: John Mern and Dorsa Sadigh and Mykel J. Kochenderfer
- Abstract要約: 本研究は、ニューラルネットワーク入力を効率的な表現空間に投影するための注意に基づく手法を提案する。
提案した表現は、$m$オブジェクトの入力に対して$m!$の要素である入力空間が得られることを示す。
- 参考スコア(独自算出の注目度): 48.696389129611056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Poor sample efficiency is a major limitation of deep reinforcement learning
in many domains. This work presents an attention-based method to project neural
network inputs into an efficient representation space that is invariant under
changes to input ordering. We show that our proposed representation results in
an input space that is a factor of $m!$ smaller for inputs of $m$ objects. We
also show that our method is able to represent inputs over variable numbers of
objects. Our experiments demonstrate improvements in sample efficiency for
policy gradient methods on a variety of tasks. We show that our representation
allows us to solve problems that are otherwise intractable when using na\"ive
approaches.
- Abstract(参考訳): 低いサンプル効率は多くの領域において深層強化学習の大きな限界である。
この研究は、ニューラルネットワークの入力を入力順序の変更の下で不変な効率的な表現空間に投影する注意に基づく手法を提案する。
提案した表現が$mの係数である入力空間となることを示す。
$m$オブジェクトの入力に対して$ small。
また,本手法はオブジェクトの変数数に対して入力を表現可能であることを示す。
本実験は,様々なタスクにおけるポリシー勾配法におけるサンプル効率の改善を示す。
私たちの表現は、na\" のアプローチを使うとき、そうでなければ難解な問題を解決できることを示している。
関連論文リスト
- Cross-Domain Policy Adaptation by Capturing Representation Mismatch [53.087413751430255]
強化学習(RL)において、動的に異なる領域に移行できる効果的な政策を学ぶことが不可欠である。
本稿では、ソースドメインとターゲットドメインとの間に動的ミスマッチが存在する場合の動的適応設定について考察する。
対象領域でのみ表現学習を行い、ソース領域からの遷移における表現偏差を測定する。
論文 参考訳(メタデータ) (2024-05-24T09:06:12Z) - Enhancing Representation Learning on High-Dimensional, Small-Size
Tabular Data: A Divide and Conquer Method with Ensembled VAEs [7.923088041693465]
特徴空間の部分集合の後方部分集合を学習するための軽量なVAEのアンサンブルを, 新規な分割コンカレントアプローチで結合後部分集合に集約する。
このアプローチは推論時に部分的な機能に対して堅牢であることを示し、ほとんどの機能が欠落していても、パフォーマンスの劣化がほとんどないことを示します。
論文 参考訳(メタデータ) (2023-06-27T17:55:31Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。
本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。
トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-17T12:30:38Z) - Improving Transformation Invariance in Contrastive Representation
Learning [31.223892428863238]
本稿では、新しい正規化器を用いて変換下で表現がどのように変化するかを制御するコントラスト学習のための学習目標を提案する。
第二に、元の入力の複数の変換からのエンコーディングを結合した機能平均化アプローチを導入することにより、テスト時間表現の生成方法を変更することを提案する。
第三に、複数の下流タスクを持つ微分可能生成プロセスの文脈において、私たちのアイデアを探求するために、新しいSpirographデータセットを導入します。
論文 参考訳(メタデータ) (2020-10-19T13:49:29Z) - Focus-and-Expand: Training Guidance Through Gradual Manipulation of
Input Features [11.200634125590069]
本稿では,ニューラル・アンド・エパンド(fax)ネットワークのトレーニングプロセスを導く方法を提案する。
このプロセスは様々な入力特徴の考慮を促す。
我々は,様々なコンピュータビジョンタスクにおける状態拡張手法を実現する。
論文 参考訳(メタデータ) (2020-07-15T14:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。