論文の概要: Reinforcement Learning with Feedback Graphs
- arxiv url: http://arxiv.org/abs/2005.03789v1
- Date: Thu, 7 May 2020 22:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 22:21:35.379070
- Title: Reinforcement Learning with Feedback Graphs
- Title(参考訳): フィードバックグラフを用いた強化学習
- Authors: Christoph Dann, Yishay Mansour, Mehryar Mohri, Ayush Sekhari, Karthik
Sridharan
- Abstract要約: エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
- 参考スコア(独自算出の注目度): 69.1524391595912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study episodic reinforcement learning in Markov decision processes when
the agent receives additional feedback per step in the form of several
transition observations. Such additional observations are available in a range
of tasks through extended sensors or prior knowledge about the environment
(e.g., when certain actions yield similar outcome). We formalize this setting
using a feedback graph over state-action pairs and show that model-based
algorithms can leverage the additional feedback for more sample-efficient
learning. We give a regret bound that, ignoring logarithmic factors and
lower-order terms, depends only on the size of the maximum acyclic subgraph of
the feedback graph, in contrast with a polynomial dependency on the number of
states and actions in the absence of a feedback graph. Finally, we highlight
challenges when leveraging a small dominating set of the feedback graph as
compared to the bandit setting and propose a new algorithm that can use
knowledge of such a dominating set for more sample-efficient learning of a
near-optimal policy.
- Abstract(参考訳): マルコフ決定過程において,エージェントがいくつかの遷移観察の形でステップごとに追加フィードバックを受けるとき,エピソディック強化学習について検討する。
このような追加観測は、拡張センサーや環境に関する事前知識(例えば、ある行動が同様の結果をもたらす場合)を通じて、様々なタスクで利用可能である。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
対数係数や下位項を無視することは、フィードバックグラフの最大非巡回部分グラフのサイズにのみ依存し、フィードバックグラフが存在しない状態の数や動作に対する多項式依存とは対照的である。
最後に,フィードバックグラフの小さな支配集合をバンディット設定に比較して活用する際の課題を強調し,そのような支配集合の知識を用いて,ほぼ最適ポリシーのよりサンプル効率の良い学習を行う新しいアルゴリズムを提案する。
関連論文リスト
- GPS: Graph Contrastive Learning via Multi-scale Augmented Views from
Adversarial Pooling [23.450755275125577]
自己教師付きグラフ表現学習は、バイオインフォマティクスやソーシャルネットワークなど、様々な分野において、最近かなりの可能性を秘めている。
本稿では,これらの問題に対処するための新しいアプローチとして Graph Pooling ContraSt (GPS) を提案する。
グラフプーリングは、冗長性の除去によってグラフを適応的に粗いものにすることができることから、グラフプーリングを再考し、それを活用して、マルチスケールのポジティブビューを自動的に生成する。
論文 参考訳(メタデータ) (2024-01-29T10:00:53Z) - Spectral Augmentations for Graph Contrastive Learning [50.149996923976836]
コントラスト学習は、監督の有無にかかわらず、表現を学習するための第一の方法として現れてきた。
近年の研究では、グラフ表現学習における事前学習の有用性が示されている。
本稿では,グラフの対照的な目的に対する拡張を構築する際に,候補のバンクを提供するためのグラフ変換操作を提案する。
論文 参考訳(メタデータ) (2023-02-06T16:26:29Z) - Coarse-to-Fine Contrastive Learning on Graphs [38.41992365090377]
ノード表現を自己管理的に学習するために、さまざまなグラフ拡張戦略が採用されている。
我々は,異なるノード間の識別情報を確実に維持するために,自己評価パラダイムを導入する。
各種ベンチマークデータセットの実験結果から,提案アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2022-12-13T08:17:20Z) - Joint graph learning from Gaussian observations in the presence of
hidden nodes [26.133725549667734]
本稿では,隠れ変数の存在を考慮した共同グラフ学習法を提案する。
従来の考察から得られた構造を利用して凸最適化問題を提案する。
提案したアルゴリズムを異なるベースラインで比較し、合成グラフと実世界のグラフ上での性能を評価する。
論文 参考訳(メタデータ) (2022-12-04T13:03:41Z) - Label-invariant Augmentation for Semi-Supervised Graph Classification [32.591130704357184]
近年,コンピュータビジョン領域では,コントラッシブネスに基づく拡張が新たなクライマックスを引き起こしている。
画像とは異なり、グラフの性質を変えることなく合理的な拡張を設計することはより困難である。
この課題に対処するために,グラフ構造化データに対するラベル不変拡張を提案する。
論文 参考訳(メタデータ) (2022-05-19T18:44:02Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Graphing else matters: exploiting aspect opinions and ratings in
explainable graph-based recommendations [66.83527496838937]
本稿では,テキストレビューで表現された評価情報とアスペクトベースの意見を組み合わせたグラフから抽出した埋め込みを活用することを提案する。
次に、AmazonとYelpの6つのドメインのレビューから生成されたグラフに対して、最先端のグラフ埋め込み技術を適用して評価する。
提案手法は,推奨項目について利用者が提示したアスペクトベースの意見を活用した説明を提供することの利点がある。
論文 参考訳(メタデータ) (2021-07-07T13:57:28Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。