論文の概要: Rejoinder: New Objectives for Policy Learning
- arxiv url: http://arxiv.org/abs/2012.03130v1
- Date: Sat, 5 Dec 2020 22:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:09:57.816652
- Title: Rejoinder: New Objectives for Policy Learning
- Title(参考訳): Rejoinder: 政策学習の新しい目標
- Authors: Nathan Kallus
- Abstract要約: アメリカ統計学会ジャーナルに掲載される「最適リターゲティングによる効率的な政策学習」の議論の場を提供する。
オリバー・デュークス(Oliver Dukes)とスティン・ヴァンスティーラント(Stijn Vansteelandt)、シジア・リー(Sijia Li)、シウディ・リー(Xiudi Li)、アレックス・ルエトケアンド(Alex Luedtkeand)、ムクサン・リアン(Muxuan Liang)、ヨンク・ジャオ(Yingqi Zhao)。
- 参考スコア(独自算出の注目度): 73.15119871364834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I provide a rejoinder for discussion of "More Efficient Policy Learning via
Optimal Retargeting" to appear in the Journal of the American Statistical
Association with discussion by Oliver Dukes and Stijn Vansteelandt; Sijia Li,
Xiudi Li, and Alex Luedtkeand; and Muxuan Liang and Yingqi Zhao.
- Abstract(参考訳): 私は、oliver dukes と stijn vansteelandt と sijia li, xiudi li, alex luedtkeand と muxuan liang and yingqi zhao の議論とともに、journal of the american statistical association に掲載する「最適再ターゲティングによるより効率的な政策学習」に関する議論の場を提供する。
関連論文リスト
- Link-Context Learning for Multimodal LLMs [40.923816691928536]
リンクコンテキスト学習(LCL)はMLLMの学習能力を高めるために「原因と効果からの推論」を強調する。
LCLは、アナログだけでなく、データポイント間の因果関係も識別するようモデルに導出する。
本手法の評価を容易にするため,ISEKAIデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-15T17:33:24Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [64.56000929489355]
LLM-Recと呼ばれる提案手法は,4つの異なるプロンプト戦略を包含する。
実験により, 追加入力テキストを組み込むことで, 推薦性能が向上することが示された。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - A Survey on In-context Learning [56.40261564926631]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - Discussion of Kallus (2020) and Mo, Qi, and Liu (2020): New Objectives
for Policy Learning [2.578242050187029]
フレームワーク内で作業する場合、バリュー関数を考慮に入れることが重要です。
分散ロバストなポリシを学習する際のデータ活用のための,より効率的なアプローチについて述べる。
論文 参考訳(メタデータ) (2020-10-09T21:05:01Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。