論文の概要: Adversarial Counterfactual Environment Model Learning
- arxiv url: http://arxiv.org/abs/2206.04890v2
- Date: Mon, 9 Oct 2023 02:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:38:52.577375
- Title: Adversarial Counterfactual Environment Model Learning
- Title(参考訳): 対人対実環境モデル学習
- Authors: Xiong-Hui Chen, Yang Yu, Zheng-Mao Zhu, Zhihua Yu, Zhenjun Chen,
Chenghe Wang, Yinan Wu, Hongqiu Wu, Rong-Jun Qin, Ruijin Ding, Fangsheng
Huang
- Abstract要約: 本稿では,特定のターゲットポリシーによってクエリされた対物データセットに一般化するためのモデル学習において,対物的リスク最小化(CQRM)を導入する。
政策学習において,対象の方針は多様かつ未知であるため,敵の方針に照らされた対実データに基づいて学習する敵のCQRM目標を提案する。
合成タスクにGALILEOを適用し,実世界の応用について検討する。
- 参考スコア(独自算出の注目度): 14.47625059952581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good model for action-effect prediction, named environment model, is
important to achieve sample-efficient decision-making policy learning in many
domains like robot control, recommender systems, and patients' treatment
selection. We can take unlimited trials with such a model to identify the
appropriate actions so that the costs of queries in the real world can be
saved. It requires the model to handle unseen data correctly, also called
counterfactual data. However, standard data fitting techniques do not
automatically achieve such generalization ability and commonly result in
unreliable models. In this work, we introduce counterfactual-query risk
minimization (CQRM) in model learning for generalizing to a counterfactual
dataset queried by a specific target policy. Since the target policies can be
various and unknown in policy learning, we propose an adversarial CQRM
objective in which the model learns on counterfactual data queried by
adversarial policies, and finally derive a tractable solution GALILEO. We also
discover that adversarial CQRM is closely related to the adversarial model
learning, explaining the effectiveness of the latter. We apply GALILEO in
synthetic tasks and a real-world application. The results show that GALILEO
makes accurate predictions on counterfactual data and thus significantly
improves policies in real-world testing.
- Abstract(参考訳): ロボット制御,レコメンダシステム,患者の治療選択など,多くの領域でサンプル効率の高い意思決定政策学習を実現するためには,行動効果予測のよいモデルである環境モデルが重要である。
このようなモデルで無制限の試行を行い、適切なアクションを特定することで、現実世界のクエリのコストを節約することができる。
モデルは、不正なデータを正しく処理する必要がある。
しかし、標準データフィッティング技術はそのような一般化能力を自動的に達成せず、一般的に信頼できないモデルとなる。
そこで本研究では,特定の対象とするポリシーで問合せされたデータ集合に一般化するモデル学習において,cqrm(counterfactual-query risk minimization)を導入する。
政策学習において,対象方針は多様かつ未知であるため,敵対的政策によってクエリーされた反現実的データに基づいて学習し,最終的にトラクタブルな解GALILEOを導出するCQRM目標を提案する。
また,逆CQRMは,逆モデル学習と密接に関連しており,後者の有効性が説明できる。
我々はgalileoを合成タスクと実世界のアプリケーションに適用する。
その結果、ガリレオは偽データを正確に予測し、実世界テストのポリシーを大幅に改善した。
関連論文リスト
- Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - SCME: A Self-Contrastive Method for Data-free and Query-Limited Model
Extraction Attack [18.998300969035885]
モデル抽出は、代替モデル上で逆例を生成することによって、ターゲットモデルを騙す。
本稿では,偽データの合成におけるクラス間およびクラス内多様性を考慮した,SCME という新しいデータフリーモデル抽出手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T10:41:45Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Suppressing Poisoning Attacks on Federated Learning for Medical Imaging [4.433842217026879]
本稿では, ビザンチン障害に対する耐性を有する分散型外乱抑制法(DOS)を提案する。
提案手法は,異なるクライアントのローカルパラメータ更新間の距離を計算し,各クライアントに対してアウトラヤスコアを求める。
得られたアウトリーチスコアはソフトマックス関数を用いて正規化重みに変換され、局所パラメータの重み付け平均がグローバルモデル更新に使用される。
論文 参考訳(メタデータ) (2022-07-15T00:43:34Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。