論文の概要: Learning Algorithms for Intelligent Agents and Mechanisms
- arxiv url: http://arxiv.org/abs/2210.02654v1
- Date: Thu, 6 Oct 2022 03:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 15:32:21.019930
- Title: Learning Algorithms for Intelligent Agents and Mechanisms
- Title(参考訳): インテリジェントエージェントとメカニズムのための学習アルゴリズム
- Authors: Jad Rahme
- Abstract要約: 本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズ的視点を用いてRLの一般化問題に取り組み、環境の不完全な知識が完全に観測されたマルコフ決定過程(MDP)を部分的に観測されたMDP(POMD)に変換することを効果的に示している。
- 参考スコア(独自算出の注目度): 4.251500966181852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, we research learning algorithms for optimal decision making
in two different contexts, Reinforcement Learning in Part I and Auction Design
in Part II.
Reinforcement learning (RL) is an area of machine learning that is concerned
with how an agent should act in an environment in order to maximize its
cumulative reward over time. In Chapter 2, inspired by statistical physics, we
develop a novel approach to Reinforcement Learning (RL) that not only learns
optimal policies with enhanced desirable properties but also sheds new light on
maximum entropy RL. In Chapter 3, we tackle the generalization problem in RL
using a Bayesian perspective. We show that imperfect knowledge of the
environments dynamics effectively turn a fully-observed Markov Decision Process
(MDP) into a Partially Observed MDP (POMDP) that we call the Epistemic POMDP.
Informed by this observation, we develop a new policy learning algorithm LEEP
which has improved generalization properties.
Designing an incentive compatible, individually rational auction that
maximizes revenue is a challenging and intractable problem. Recently, deep
learning based approaches have been proposed to learn optimal auctions from
data. While successful, this approach suffers from a few limitations, including
sample inefficiency, lack of generalization to new auctions, and training
difficulties. In Chapter 4, we construct a symmetry preserving neural network
architecture, EquivariantNet, suitable for anonymous auctions. EquivariantNet
is not only more sample efficient but is also able to learn auction rules that
generalize well to other settings. In Chapter 5, we propose a novel formulation
of the auction learning problem as a two player game. The resulting learning
algorithm, ALGNet, is easier to train, more reliable and better suited for non
stationary settings.
- Abstract(参考訳): 本稿では,2つの異なる文脈における最適意思決定のための学習アルゴリズム,パート1における強化学習,パート2におけるオークションデザインについて検討する。
強化学習(Reinforcement Learning, RL)は、エージェントが時間とともに累積的な報酬を最大化する環境の中でどのように振る舞うべきかに関する機械学習の分野である。
第2章では統計物理学に触発された強化学習(Reinforcement Learning, RL)の新たなアプローチを開発し, 最適化された望ましい特性を持つ最適ポリシを学習するだけでなく, 最大エントロピーRLに新たな光を照射する。
第3章では、ベイズの視点から RL の一般化問題に取り組む。
環境の非完全な知識は、完全に観測されたマルコフ決定過程(MDP)を部分的に観察されたMDP(POMDP)に効果的に変換し、それをエピステミックPOMDPと呼ぶ。
そこで,本研究では一般化特性を改善した新しいポリシー学習アルゴリズムleepを開発した。
収益を最大化するインセンティブ互換で個別に合理的なオークションを設計することは、挑戦的で難解な問題である。
近年,データから最適オークションを学ぶためのディープラーニング手法が提案されている。
このアプローチは成功したが、サンプルの非効率性、新しいオークションへの一般化の欠如、トレーニングの困難など、いくつかの制限に苦しめられている。
第4章では匿名オークションに適した対称性保存型ニューラルネットワークアーキテクチャであるEquivariantNetを構築した。
equivariantnetはもっとサンプル効率が良いだけでなく、他の設定にうまく一般化したオークションルールも学習できる。
第5章では,二者ゲームとしてオークション学習問題の新規な定式化を提案する。
結果として得られた学習アルゴリズムalgnetは、トレーニングが簡単で、信頼性が高く、非定常設定に適している。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - An Invitation to Deep Reinforcement Learning [24.807012576054504]
ターゲット目標を最大化するためにディープニューラルネットワークをトレーニングすることが、マシンラーニングの成功の標準的なレシピになっています。
共通目的として、連合(IoU)、二言語評価(BLEU)スコア、報酬は教師付き学習では最適化できない。
強化学習(Reinforcement Learning, RL)は、未分化の目的を最大化するために、ディープニューラルネットワークを最適化するための有望な代替手段として登場した。
論文 参考訳(メタデータ) (2023-12-13T18:57:23Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning [3.194414753332705]
学習不能な動作はRLアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクやドメインで再利用することができる。
論文 参考訳(メタデータ) (2022-11-28T17:45:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。