論文の概要: Online MAP Inference and Learning for Nonsymmetric Determinantal Point
Processes
- arxiv url: http://arxiv.org/abs/2111.14674v1
- Date: Mon, 29 Nov 2021 16:37:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 15:02:31.944166
- Title: Online MAP Inference and Learning for Nonsymmetric Determinantal Point
Processes
- Title(参考訳): 非対称決定点過程に対するオンラインMAP推論と学習
- Authors: Aravind Reddy, Ryan A. Rossi, Zhao Song, Anup Rao, Tung Mai, Nedim
Lipka, Gang Wu, Eunyee Koh, Nesreen Ahmed
- Abstract要約: 非対称決定点過程に対するオンラインおよびストリーミングMAP推論および学習問題を紹介する。
オンライン設定には、任意の時点において有効なソリューションを維持するための追加の要件がある。
これらの新しい問題を解決するため、理論的保証付きアルゴリズムを提案し、実世界のデータセットで評価し、最先端のオフラインアルゴリズムに匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 32.40729352841553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the online and streaming MAP inference and
learning problems for Non-symmetric Determinantal Point Processes (NDPPs) where
data points arrive in an arbitrary order and the algorithms are constrained to
use a single-pass over the data as well as sub-linear memory. The online
setting has an additional requirement of maintaining a valid solution at any
point in time. For solving these new problems, we propose algorithms with
theoretical guarantees, evaluate them on several real-world datasets, and show
that they give comparable performance to state-of-the-art offline algorithms
that store the entire data in memory and take multiple passes over it.
- Abstract(参考訳): 本稿では,データポイントが任意の順序で到着する非対称行列点プロセス (ndpps) に対するオンラインおよびストリーミングマップの推論と学習の問題について紹介する。
オンライン設定には、任意の時点で有効なソリューションを維持するという追加の要件がある。
これらの新しい問題を解決するために、理論的保証のあるアルゴリズムを提案し、いくつかの実世界のデータセットでそれらを評価し、それらが、全データをメモリに格納し、複数のパスを取る最先端のオフラインアルゴリズムに匹敵するパフォーマンスを提供することを示す。
関連論文リスト
- A General Online Algorithm for Optimizing Complex Performance Metrics [5.726378955570775]
我々は,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを導入,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
論文 参考訳(メタデータ) (2024-06-20T21:24:47Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - One-Pass Learning via Bridging Orthogonal Gradient Descent and Recursive
Least-Squares [8.443742714362521]
我々は,従来のデータポイントの予測にほとんど変化しない方向にパラメータを変更しながら,すべての新しいデータポイントに完全に適合するワンパス学習アルゴリズムを開発した。
我々のアルゴリズムは、インクリメンタル・プリンシパル・コンポーネント分析(IPCA)を用いてストリーミングデータの構造を利用して、メモリを効率的に利用する。
本実験では,提案手法の有効性をベースラインと比較した。
論文 参考訳(メタデータ) (2022-07-28T02:01:31Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Non-Episodic Learning for Online LQR of Unknown Linear Gaussian System [0.0]
単一の軌道からシステムに関する知識を得るオンライン非分離アルゴリズムを提案する。
識別と制御のほぼ確実に収束する割合を特徴付け、探索と搾取の間の最適なトレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-03-24T15:51:28Z) - Determinantal Point Processes in Randomized Numerical Linear Algebra [80.27102478796613]
数値線形代数(RandNLA)は、科学計算、データサイエンス、機械学習などで発生する行列問題に対する改良されたアルゴリズムを開発するためにランダム性を使用する。
最近の研究により、DPPとRandNLAの間の深い実りある関係が明らかになり、新たな保証とアルゴリズムの改善につながった。
論文 参考訳(メタデータ) (2020-05-07T00:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。