論文の概要: Graph Feedback via Reduction to Regression
- arxiv url: http://arxiv.org/abs/2302.08631v1
- Date: Fri, 17 Feb 2023 00:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:14:15.169027
- Title: Graph Feedback via Reduction to Regression
- Title(参考訳): 回帰への還元によるグラフフィードバック
- Authors: Paul Mineiro
- Abstract要約: 本稿では,回帰への還元に基づくグラフフィードバックを用いて,文脈的帯域幅に対するアプローチを提示し,解析する。
結果として得られるアルゴリズムは実用的であり、既知のミニマックスレートを達成する。
- 参考スコア(独自算出の注目度): 9.289846887298854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When feedback is partial, leveraging all available information is critical to
minimizing data requirements. Graph feedback, which interpolates between the
supervised and bandit regimes, has been extensively studied; but the mature
theory is grounded in impractical algorithms. We present and analyze an
approach to contextual bandits with graph feedback based upon reduction to
regression. The resulting algorithms are practical and achieve known minimax
rates.
- Abstract(参考訳): フィードバックが部分的であれば、すべての利用可能な情報を活用することが、データ要件の最小化に不可欠である。
教師とバンディットの関係を補間するグラフフィードバックは広く研究されてきたが、成熟した理論は非実用的アルゴリズムに基づいている。
本稿では,回帰削減に基づくグラフフィードバックを用いたコンテキストバンディットのアプローチを提示,分析する。
得られたアルゴリズムは実用的で、既知のミニマックスレートを達成する。
関連論文リスト
- Mode Estimation with Partial Feedback [20.426429576184145]
弱教師付き・能動的学習の中核的な側面を簡単な問題で定式化する。
エントロピー符号化が部分フィードバックから最適な情報取得を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-20T15:24:21Z) - Efficient Contextual Bandits with Uninformed Feedback Graphs [48.77120088347271]
フィードバックグラフを持つバンディットは、完全な情報と古典的なバンディットの問題を補間する強力なオンライン学習モデルである。
ここでは,2乗損失ではなくログ損失を用いてグラフを学習し,良好な後悔の保証を得ることが重要であることを示す。
論文 参考訳(メタデータ) (2024-02-12T23:50:47Z) - Improved Algorithms for Bandit with Graph Feedback via Regret
Decomposition [2.3034251503343466]
グラフフィードバックによるバンディットの問題は、マルチアームバンディット(MAB)問題と専門家のアドバイスによる学習の両方を一般化する。
本稿では,フィードバックグラフの分割に基づく新しいアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T13:07:42Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z) - Addressing Class Imbalance in Scene Graph Parsing by Learning to
Contrast and Score [65.18522219013786]
シーングラフ解析は、画像シーン内のオブジェクトを検出し、それらの関係を認識することを目的としている。
最近の手法は、いくつかの人気のあるベンチマークで高い平均スコアを達成しているが、稀な関係を検出するには失敗している。
本稿では,クラス不均衡問題を解決するために,分類とランキングの新たな統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T13:57:59Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z) - Reinforcement Learning with Feedback Graphs [69.1524391595912]
エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
論文 参考訳(メタデータ) (2020-05-07T22:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。