論文の概要: Active Learning by Query by Committee with Robust Divergences
- arxiv url: http://arxiv.org/abs/2211.10013v1
- Date: Fri, 18 Nov 2022 03:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:16:41.815866
- Title: Active Learning by Query by Committee with Robust Divergences
- Title(参考訳): ロバストダイバージェンス委員会によるクエリによるアクティブラーニング
- Authors: Hideitsu Hino and Shinto Eguchi
- Abstract要約: 能動学習では、次に測定対象を取得関数で選択し、順次測定を行う。
従来の方法では、委員会の不一致はクルバック-リーブラー分岐によって定量化される。
影響関数を導出することにより,従来の手法よりも,$beta$-divergence と$gamma$-power divergence を用いた手法がより堅牢であることを示す。
- 参考スコア(独自算出の注目度): 3.6042575355093907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning is a widely used methodology for various problems with high
measurement costs. In active learning, the next object to be measured is
selected by an acquisition function, and measurements are performed
sequentially. The query by committee is a well-known acquisition function. In
conventional methods, committee disagreement is quantified by the
Kullback--Leibler divergence. In this paper, the measure of disagreement is
defined by the Bregman divergence, which includes the Kullback--Leibler
divergence as an instance, and the dual $\gamma$-power divergence. As a
particular class of the Bregman divergence, the $\beta$-divergence is
considered. By deriving the influence function, we show that the proposed
method using $\beta$-divergence and dual $\gamma$-power divergence are more
robust than the conventional method in which the measure of disagreement is
defined by the Kullback--Leibler divergence. Experimental results show that the
proposed method performs as well as or better than the conventional method.
- Abstract(参考訳): 能動学習は測定コストの高い様々な問題に対して広く用いられている方法論である。
アクティブラーニングでは、取得機能により測定対象の次のオブジェクトを選択し、順次測定を行う。
委員会によるクエリはよく知られた買収機能である。
従来の手法では、委員会の不一致はkullback-leiblerの発散によって定量化される。本論文では、不一致の尺度は、kullback-leiblerの発散を例に含むbregmanの発散と、2つの$\gamma$-powerの発散によって定義される。
ブレグマン分岐の特定のクラスとして、$\beta$-divergenceが考慮される。
影響関数を導出することにより,提案手法である$\beta$-divergence と dual $\gamma$-power divergence は,kullback-leibler divergence によって不一致の測度が定義される従来の方法よりも頑健であることを示す。
実験の結果,提案手法は従来手法と同等以上の性能を示した。
関連論文リスト
- Exploration by Running Away from the Past [5.062282108230929]
我々は、州占領対策のシャノンエントロピーを最大化する問題として探索を考えている。
これは、エージェントの過去の振舞いと現在の振舞いを表す分布間の相違の列を最大化する。
本研究では,過去の経験から積極的に距離を置くことによってエージェントの探索を促すことで,迷路を効果的に探索し,ロボット操作や移動作業における幅広い行動を明らかにすることを実証する。
論文 参考訳(メタデータ) (2024-11-21T12:51:09Z) - Robust Semi-supervised Learning via $f$-Divergence and $α$-Rényi Divergence [2.9965913883475137]
本稿では,セミ教師付き学習における自己学習に適した経験的リスク関数と正規化手法について検討する。
分岐に根ざした理論的基礎、すなわち$f$-divergences と $alpha$-R'enyi divergence に着想を得て、経験的リスク関数と正規化技法の理解を深めるための貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-01T11:16:02Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Neural Bregman Divergences for Distance Learning [60.375385370556145]
本稿では,入力凸ニューラルネットワークを用いて任意のブレグマン分岐を微分可能な方法で学習するための新しいアプローチを提案する。
提案手法は,新しいタスクと以前に研究されたタスクのセットにおいて,より忠実に相違点を学習することを示す。
我々のテストはさらに、既知の非対称なタスクにまで拡張するが、Bregmanでないタスクでは、不特定性にもかかわらず、我々のメソッドは競争的に機能する。
論文 参考訳(メタデータ) (2022-06-09T20:53:15Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - DiffPrune: Neural Network Pruning with Deterministic Approximate Binary
Gates and $L_0$ Regularization [0.0]
現代のニューラルネットワークアーキテクチャは通常、数百万のパラメータを持ち、有効性を著しく損なうことなく、大幅に刈り取ることができる。
この作品の貢献は2つある。
1つ目は、任意の実数値確率変数の決定論的かつ微分可能変換によって多変量ベルヌーイ確率変数を近似する方法である。
2つ目は、決定論的あるいは乗法的に計算され、正確なゼロ値を取る近似二進ゲートを持つ要素的パラメータによるモデル選択の方法である。
論文 参考訳(メタデータ) (2020-12-07T13:08:56Z) - Amortized Variational Deep Q Network [28.12600565839504]
本稿では,ディープQネットワークにおける動作値関数の後方分布を近似する補正型変分推論フレームワークを提案する。
このアモータイズされたフレームワークは,既存の最先端手法よりも学習パラメータがかなり少ないことを示す。
論文 参考訳(メタデータ) (2020-11-03T13:48:18Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。