論文の概要: Refereed Learning
- arxiv url: http://arxiv.org/abs/2510.05440v1
- Date: Mon, 06 Oct 2025 23:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.016773
- Title: Refereed Learning
- Title(参考訳): 振り返り学習
- Authors: Ran Canetti, Ephraim Linder, Connor Wagaman,
- Abstract要約: 提案手法では,精度のレベルが同等のコストで得られるものよりもはるかに高い参照学習プロトコルを示す。
for all $varepsilon>0$ and ambient dimension $d$, our learner makes only one query to the ground truth function。
学習者は,まず,効率よくサンプリングできない分布から,プローバーを用いて,学習者がサンプルを採取できる技術を開発した。
- 参考スコア(独自算出の注目度): 4.024083217094761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate an investigation of learning tasks in a setting where the learner is given access to two competing provers, only one of which is honest. Specifically, we consider the power of such learners in assessing purported properties of opaque models. Following prior work that considers the power of competing provers in different settings, we call this setting refereed learning. After formulating a general definition of refereed learning tasks, we show refereed learning protocols that obtain a level of accuracy that far exceeds what is obtainable at comparable cost without provers, or even with a single prover. We concentrate on the task of choosing the better one out of two black-box models, with respect to some ground truth. While we consider a range of parameters, perhaps our most notable result is in the high-precision range: For all $\varepsilon>0$ and ambient dimension $d$, our learner makes only one query to the ground truth function, communicates only $(1+\frac{1}{\varepsilon^2})\cdot\text{poly}(d)$ bits with the provers, and outputs a model whose loss is within a multiplicative factor of $(1+\varepsilon)$ of the best model's loss. Obtaining comparable loss with a single prover would require the learner to access the ground truth at almost all of the points in the domain. To obtain this bound, we develop a technique that allows the learner to sample, using the provers, from a distribution that is not efficiently samplable to begin with. We find this technique to be of independent interest. We also present lower bounds that demonstrate the optimality of our protocols in a number of respects, including prover complexity, number of samples, and need for query access.
- Abstract(参考訳): 学習者が2人のプローバーにアクセスできるような環境での学習課題の調査を開始するが、そのうちの1つは正直である。
具体的には,不透明モデルの純度評価における学習者の力について考察する。
異なる設定で競合するプロの力を考慮した先行研究に続いて、我々はこの設定を学習参照と呼ぶ。
参照学習タスクの一般的な定義を定式化した後、プローバーなしで、あるいは1つの証明者でも、同等のコストで得られるものよりもはるかに高い精度の参照学習プロトコルを示す。
我々は、2つのブラックボックスモデルの中からより良いモデルを選ぶタスクに集中する。
すべての$\varepsilon>0$および周囲次元$d$に対して、学習者は基底真理関数へのクエリを1つだけ作成し、$(1+\frac{1}{\varepsilon^2})\cdot\text{poly}(d)$bitsとプローバーを通信し、損失が1+\varepsilon)$の乗算係数内にあるモデルを出力する。
ひとつの証明器で同等の損失を得るためには、学習者がドメインのほぼすべての点において、基礎的な真実にアクセスする必要がある。
そこで本研究では,まず,学習者が効率よくサンプリングできない分布から,プロバーを用いてサンプルを採取する手法を開発した。
私たちはこのテクニックが独立した関心事であることに気付きます。
また,証明複雑性,サンプル数,クエリアクセスの必要性など,プロトコルの最適性を示す下位境界も提示する。
関連論文リスト
- Inverse Entropic Optimal Transport Solves Semi-supervised Learning via Data Likelihood Maximization [65.8915778873691]
条件分布は機械学習の中心的な問題です
ペアデータとペアデータの両方を統合する新しいパラダイムを提案する。
提案手法は任意の誤差で理論上真の条件分布を復元可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:12:59Z) - Smoothed Analysis for Learning Concepts with Low Intrinsic Dimension [17.485243410774814]
教師付き学習の伝統的なモデルでは、学習者の目標は、あるクラスから最も適した概念の競争的($epsilon$以内)な仮説を出力することである。
学習者が最高の無知としか競合しないスムーズな分析フレームワークを導入する。
時間内に$k$-halfspacesの交点を前向きに学習する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-07-01T04:58:36Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - A Few Expert Queries Suffices for Sample-Efficient RL with Resets and
Linear Value Approximation [16.29514743112387]
最適値関数のみを線形化可能な設定において、サンプル効率のよい強化学習(RL)について検討する。
専門的なクエリと探索をブレンドするための統計的・計算学的に効率的なアルゴリズム(Delphi)を提案する。
Delphi には $tildemathcalO(d)$ エキスパートクエリと $texttpoly(d,|mathcalA|,1/varepsilon)$ 探索サンプルの量が必要です。
論文 参考訳(メタデータ) (2022-07-18T01:39:13Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Active Learning for Contextual Search with Binary Feedbacks [2.6424064030995957]
第一価格オークションなどの応用によって動機付けられた文脈探索における学習問題について検討する。
本稿では,三分探索手法とマージンに基づく能動学習手法を併用した三分探索手法を提案する。
論文 参考訳(メタデータ) (2021-10-03T19:05:29Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。