論文の概要: Representation Learning for Context-Dependent Decision-Making
- arxiv url: http://arxiv.org/abs/2205.05820v1
- Date: Thu, 12 May 2022 01:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 01:32:54.563766
- Title: Representation Learning for Context-Dependent Decision-Making
- Title(参考訳): 文脈依存意思決定のための表現学習
- Authors: Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio
Pasqualetti
- Abstract要約: 文脈変化を伴う逐次意思決定シナリオにおける表現学習について検討する。
本稿では,文脈依存表現の学習と伝達が可能なオンラインアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 22.16801879707937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are capable of adjusting to changing environments flexibly and
quickly. Empirical evidence has revealed that representation learning plays a
crucial role in endowing humans with such a capability. Inspired by this
observation, we study representation learning in the sequential decision-making
scenario with contextual changes. We propose an online algorithm that is able
to learn and transfer context-dependent representations and show that it
significantly outperforms the existing ones that do not learn representations
adaptively. As a case study, we apply our algorithm to the Wisconsin Card
Sorting Task, a well-established test for the mental flexibility of humans in
sequential decision-making. By comparing our algorithm with the standard
Q-learning and Deep-Q learning algorithms, we demonstrate the benefits of
adaptive representation learning.
- Abstract(参考訳): 人間は環境の変化に柔軟かつ迅速に適応することができる。
実証的な証拠は、表現学習が人間にそのような能力を与える上で重要な役割を担っていることを明らかにしている。
本研究は,文脈変化を伴う逐次意思決定シナリオにおける表現学習について考察する。
本研究では,文脈依存表現を学習し,伝達することが可能なオンラインアルゴリズムを提案する。
ケーススタディとして、我々のアルゴリズムを、シーケンシャルな意思決定における人間の精神的柔軟性の確立されたテストであるウィスコンシンカードソーティングタスクに適用する。
本アルゴリズムと標準Q-ラーニングアルゴリズムとDeep-Qラーニングアルゴリズムを比較し,適応表現学習の利点を実証する。
関連論文リスト
- Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は従来の15タイルパズルをグリッドサイズと観測空間で拡張したベンチマークである。
SPGymは、潜在環境の動的性とアルゴリズム的問題を固定しつつ、表現学習課題のスケーリングを可能にする。
モデルフリーとモデルベース両方のRLアルゴリズムを用いた実験では,表現課題がスケールするにつれて,SPGymはエージェントの能力に基づいて効果的にエージェントを識別できることが示されている。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - A Quantitative Approach to Predicting Representational Learning and
Performance in Neural Networks [5.544128024203989]
ニューラルネットワークの主な特性は、タスクを解決するために入力情報の表現と操作を学ぶ方法である。
本稿では,学習した表現を分析し,予測するための擬似カーネルツールを提案する。
論文 参考訳(メタデータ) (2023-07-14T18:39:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Non-Stationary Representation Learning in Sequential Linear Bandits [22.16801879707937]
非定常環境におけるマルチタスク意思決定のための表現学習について検討する。
本研究では,非定常表現を適応的に学習し,伝達することにより,効率的な意思決定を容易にするオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:13:03Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。