Fugu-MT 論文翻訳(概要): Bandits with Partially Observable Confounded Data

論文の概要: Bandits with Partially Observable Confounded Data

arxiv url: http://arxiv.org/abs/2006.06731v2
Date: Tue, 10 Aug 2021 12:16:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 09:17:32.279244
Title: Bandits with Partially Observable Confounded Data
Title（参考訳）: 部分可観測データ付きバンディット
Authors: Guy Tennenholtz, Uri Shalit, Shie Mannor, Yonathan Efroni
Abstract要約: この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
参考スコア（独自算出の注目度）: 74.04376842070624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study linear contextual bandits with access to a large, confounded, offline dataset that was sampled from some fixed policy. We show that this problem is closely related to a variant of the bandit problem with side information. We construct a linear bandit algorithm that takes advantage of the projected information, and prove regret bounds. Our results demonstrate the ability to take advantage of confounded offline data. Particularly, we prove regret bounds that improve current bounds by a factor related to the visible dimensionality of the contexts in the data. Our results indicate that confounded offline data can significantly improve online learning algorithms. Finally, we demonstrate various characteristics of our approach through synthetic simulations.
Abstract（参考訳）: 固定されたポリシーからサンプリングした大規模なオフラインデータセットにアクセス可能な線形コンテキスト帯域について検討した。この問題はサイド情報を含むバンディット問題の変種と密接に関連していることを示す。我々は,投影された情報を利用した線形バンディットアルゴリズムを構築し,後悔の限界を証明する。以上の結果から, オフラインデータの収集が可能であることを示す。特に,データ中の文脈の可視的次元性に関連する要因によって,現在の境界を改善する後悔の限界を証明できる。この結果から,オンライン学習アルゴリズムの精度は向上した。最後に,本手法の様々な特性を合成シミュレーションにより示す。

関連論文リスト

Offline Clustering of Linear Bandits: Unlocking the Power of Clusters in Data-Limited Environments [39.92799383936439]
オフラインデータセットを使用してクラスタプロパティを学習し、複数のユーザ間の意思決定を改善する方法について検討する。 Off-ClusBandの主な課題は、ユーザのデータ不足だ。任意の量のユーザデータに対して良好に動作するOff-C$2$LUBと、制限されたデータにバイアスがかかるOff-CLUBの2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-25T08:43:40Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文参考訳（メタデータ） (2024-05-14T09:12:30Z)
Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文参考訳（メタデータ） (2024-03-19T18:57:53Z)
Transfer Learning with Partially Observable Offline Data via Causal Bounds [8.981637739384674]
本稿では,部分的に観測可能なコンテキスト帯の移動学習について検討する。エージェントは不完全な情報と隠れた共同設立者への限られたアクセスで操作する。本稿では,未知分布の関数的制約を線形制約に識別する効率的な手法を提案する。この手法は推定誤差を考慮し、強い収束特性を示し、堅牢で信頼性の高い因果境界を保証する。
論文参考訳（メタデータ） (2023-08-07T13:24:50Z)
Bridging Imitation and Online Reinforcement Learning: An Optimistic Tale [27.02990488317357]
不完全な専門家によるオフラインのデモンストレーションデータセットを前提として、MDPのオンライン学習パフォーマンスをブートストラップする上で、それを活用するための最善の方法は何か? Informed Posterior Sampling-based RL (iPSRL)アルゴリズムを最初に提案する。このアルゴリズムは非現実的であるため、オンラインRLのためのRSVIアルゴリズムと模倣学習を組み合わせたiRLSVIアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-20T18:16:25Z)
Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文参考訳（メタデータ） (2023-02-06T17:30:22Z)
Artificial Replay: A Meta-Algorithm for Harnessing Historical Data in Bandits [34.42192958753171]
任意のベースバンドアルゴリズムに履歴データを組み込むメタアルゴリズムであるArtificial-Replayを提案する。我々は,Artificial-Replayが履歴データのごく一部しか使用していないことを示す。
論文参考訳（メタデータ） (2022-09-30T18:03:31Z)
Shuffled linear regression through graduated convex relaxation [12.614901374282868]
シャッフル線形回帰問題は、入力と出力の対応が不明なデータセットにおける線形関係を復元することを目的としている。この問題は、調査データを含む広範囲のアプリケーションで発生する。後最大化目的関数に基づく線形回帰をシャッフルする新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:33:48Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。