論文の概要: Online Convex Optimization Perspective for Learning from Dynamically
Revealed Preferences
- arxiv url: http://arxiv.org/abs/2008.10460v3
- Date: Fri, 4 Jun 2021 13:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 12:34:41.671777
- Title: Online Convex Optimization Perspective for Learning from Dynamically
Revealed Preferences
- Title(参考訳): オンライン凸最適化による動的選好からの学習
- Authors: Violet Xinying Chen, Fatma K{\i}l{\i}n\c{c}-Karzan
- Abstract要約: オンライン学習の課題を、明らかにした嗜好から検討する。
学習者は、変化する環境において、エージェントのユーティリティ最大化動作を観察して、非戦略エージェントのプライベートユーティリティ機能を学びたい。
我々は,学習者がエージェントの行動の流れをオンライン形式で観察し,損失関数に関連付けられた後悔によって学習性能を測定するオンライン逆最適化装置を採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online learning (OL) from revealed preferences: a
learner wishes to learn a non-strategic agent's private utility function
through observing the agent's utility-maximizing actions in a changing
environment. We adopt an online inverse optimization setup, where the learner
observes a stream of agent's actions in an online fashion and the learning
performance is measured by regret associated with a loss function. We first
characterize a special but broad class of agent's utility functions, then
utilize this structure in designing a new convex loss function. We establish
that the regret with respect to our new loss function also bounds the regret
with respect to all other usual loss functions in the literature. This allows
us to design a flexible OL framework that enables a unified treatment of loss
functions and supports a variety of online convex optimization algorithms. We
demonstrate with theoretical and empirical evidence that our framework based on
the new loss function (in particular online Mirror Descent) has significant
advantages in terms of regret performance and solution time over other OL
algorithms from the literature and bypasses the previous technical assumptions
as well.
- Abstract(参考訳): 学習者は、変化する環境におけるエージェントの効用最大化行動を観察することで、非戦略エージェントのプライベートユーティリティ機能を学びたいと考えています。
我々は,学習者がエージェントの行動の流れをオンライン形式で観察し,損失関数に関連付けられた後悔によって学習性能を測定するオンライン逆最適化装置を採用する。
まず,特殊だが幅広いエージェントの効用関数を特徴付けるとともに,この構造を利用して新しい凸損失関数を設計する。
新たな損失関数に対する後悔は、文献における他のすべての通常の損失関数に対する後悔にも結びつくことが判明した。
これにより、損失関数の統一処理を可能にし、様々なオンライン凸最適化アルゴリズムをサポートするフレキシブルなOLフレームワークを設計できる。
新しい損失関数(特にオンラインミラー降下)に基づくフレームワークが、文献から得られる他のolアルゴリズムよりも後悔のパフォーマンスと解法時間において大きなアドバンテージを持つことを理論的および実証的に証明し、以前の技術的仮定を回避した。
関連論文リスト
- LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Fast and Efficient Local Search for Genetic Programming Based Loss
Function Learning [12.581217671500887]
本稿では,タスクとモデルに依存しない損失関数学習のためのメタラーニングフレームワークを提案する。
その結果, 学習した損失関数は, 収束性, サンプル効率, グラフ化, コンピュータビジョン, 自然言語処理問題に対する推論性能の向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-03-01T02:20:04Z) - GIF: A General Graph Unlearning Strategy via Influence Function [63.52038638220563]
Graph Influence Function (GIF)は、削除されたデータにおける$epsilon$-massの摂動に応答してパラメータの変化を効率的に正確に推定できる、モデルに依存しない未学習の手法である。
我々は,4つの代表的GNNモデルと3つのベンチマークデータセットについて広範な実験を行い,未学習の有効性,モデルの有用性,未学習効率の観点からGIFの優位性を正当化する。
論文 参考訳(メタデータ) (2023-04-06T03:02:54Z) - Online Loss Function Learning [13.744076477599707]
ロス関数学習は、機械学習モデルの損失関数を設計するタスクを自動化することを目的としている。
基本モデルパラメータへの更新毎に,損失関数をオンラインに適応的に更新する新しい損失関数学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-30T19:22:46Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Contextual Inverse Optimization: Offline and Online Learning [3.6739949215165164]
オフラインとオンラインのコンテキスト最適化の問題について,フィードバック情報を用いて検討する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
論文 参考訳(メタデータ) (2021-06-26T13:09:52Z) - Visualizing the Loss Landscape of Actor Critic Methods with Applications
in Inventory Optimization [0.0]
最適化の重要な部分であるアクター損失関数の特徴を示す。
我々は,サプライチェーンの運用において非常に困難な問題である多店舗動的在庫管理にアプローチを適用し,最適政策に関連する損失関数の形状を探索する。
論文 参考訳(メタデータ) (2020-09-04T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。