論文の概要: Rejoinder: New Objectives for Policy Learning
- arxiv url: http://arxiv.org/abs/2012.03130v1
- Date: Sat, 5 Dec 2020 22:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:09:57.816652
- Title: Rejoinder: New Objectives for Policy Learning
- Title(参考訳): Rejoinder: 政策学習の新しい目標
- Authors: Nathan Kallus
- Abstract要約: アメリカ統計学会ジャーナルに掲載される「最適リターゲティングによる効率的な政策学習」の議論の場を提供する。
オリバー・デュークス(Oliver Dukes)とスティン・ヴァンスティーラント(Stijn Vansteelandt)、シジア・リー(Sijia Li)、シウディ・リー(Xiudi Li)、アレックス・ルエトケアンド(Alex Luedtkeand)、ムクサン・リアン(Muxuan Liang)、ヨンク・ジャオ(Yingqi Zhao)。
- 参考スコア(独自算出の注目度): 73.15119871364834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I provide a rejoinder for discussion of "More Efficient Policy Learning via
Optimal Retargeting" to appear in the Journal of the American Statistical
Association with discussion by Oliver Dukes and Stijn Vansteelandt; Sijia Li,
Xiudi Li, and Alex Luedtkeand; and Muxuan Liang and Yingqi Zhao.
- Abstract(参考訳): 私は、oliver dukes と stijn vansteelandt と sijia li, xiudi li, alex luedtkeand と muxuan liang and yingqi zhao の議論とともに、journal of the american statistical association に掲載する「最適再ターゲティングによるより効率的な政策学習」に関する議論の場を提供する。
関連論文リスト
- HistoLens: An LLM-Powered Framework for Multi-Layered Analysis of Historical Texts -- A Case Application of Yantie Lun [0.43512163406552007]
HistoLensは、Large Language Models (LLMs)に基づく歴史的テキストのための多層解析フレームワークである。
HistoLensは、名前付きエンティティ認識、知識グラフの構築、地理情報可視化など、NLP技術を統合している。
本稿は,多次元・視覚的・定量的手法を用いて,ヒストレンスが「ヤンティー・ルン」の西漢文化を探索する方法について述べる。
論文 参考訳(メタデータ) (2024-11-15T06:21:13Z) - Real-Time Personalization for LLM-based Recommendation with Customized In-Context Learning [57.28766250993726]
この研究は、モデル更新なしに動的なユーザ関心に適応することを検討する。
既存のLarge Language Model (LLM)ベースのレコメンダは、レコメンデーションチューニング中にコンテキスト内学習能力を失うことが多い。
本稿では,レコメンデーション固有のインコンテキスト学習をリアルタイムレコメンデーションにカスタマイズするRecICLを提案する。
論文 参考訳(メタデータ) (2024-10-30T15:48:36Z) - GermanPartiesQA: Benchmarking Commercial Large Language Models for Political Bias and Sycophancy [20.06753067241866]
我々は,OpenAI, Anthropic, Cohereの6つのLDMのアライメントをドイツ政党の立場と比較した。
我々は、主要なドイツの国会議員のベンチマークデータと社会デマグラフィーデータを用いて、迅速な実験を行う。
論文 参考訳(メタデータ) (2024-07-25T13:04:25Z) - XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models [33.04648289133944]
LLM(Large Language Models)研究の主な課題は、解釈可能性の重要性である。
AIやビジネスセクターからの関心が増すことで、私たちはLLMにおける透明性の必要性を強調します。
本稿では,機能的進歩と同等に解釈可能性を評価するバランスの取れたアプローチを提唱する。
論文 参考訳(メタデータ) (2024-07-21T19:23:45Z) - Benchmarking Chinese Commonsense Reasoning of LLMs: From Chinese-Specifics to Reasoning-Memorization Correlations [34.07537926291133]
CHARMは、中国語で大規模言語モデル(LLM)の常識推論能力を評価するための、網羅的で詳細なベンチマークである。
我々はCHARMで7つの英語と12の中国語のLLMを評価した。
一部のLLMは中国の常識を覚えることに苦労し、推論能力に影響を及ぼす一方、同様のパフォーマンスにもかかわらず推論の違いを示す。
論文 参考訳(メタデータ) (2024-03-21T03:52:01Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - A Survey on In-context Learning [77.78614055956365]
In-context Learning (ICL) は自然言語処理(NLP)の新しいパラダイムとして登場した。
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
次に、トレーニング戦略、迅速なデザイン戦略、関連する分析を含む高度なテクニックを組織化し、議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - Discussion of Kallus (2020) and Mo, Qi, and Liu (2020): New Objectives
for Policy Learning [2.578242050187029]
フレームワーク内で作業する場合、バリュー関数を考慮に入れることが重要です。
分散ロバストなポリシを学習する際のデータ活用のための,より効率的なアプローチについて述べる。
論文 参考訳(メタデータ) (2020-10-09T21:05:01Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。