論文の概要: Data-Driven Knowledge Transfer in Batch $Q^*$ Learning
- arxiv url: http://arxiv.org/abs/2404.15209v1
- Date: Mon, 1 Apr 2024 02:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-28 11:06:36.865572
- Title: Data-Driven Knowledge Transfer in Batch $Q^*$ Learning
- Title(参考訳): Batch $Q^*$ Learningにおけるデータ駆動型知識伝達
- Authors: Elynn Chen, Xi Chen, Wenbo Jing,
- Abstract要約: バッチ定常環境に集中して動的意思決定における知識伝達について検討する。
本稿では,一般関数近似を用いたTransferred Fitted $Q$-Iterationアルゴリズムのフレームワークを提案する。
Q*$関数の最終学習誤差は、単一のタスクレートから大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 5.6665432569907646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In data-driven decision-making in marketing, healthcare, and education, it is desirable to utilize a large amount of data from existing ventures to navigate high-dimensional feature spaces and address data scarcity in new ventures. We explore knowledge transfer in dynamic decision-making by concentrating on batch stationary environments and formally defining task discrepancies through the lens of Markov decision processes (MDPs). We propose a framework of Transferred Fitted $Q$-Iteration algorithm with general function approximation, enabling the direct estimation of the optimal action-state function $Q^*$ using both target and source data. We establish the relationship between statistical performance and MDP task discrepancy under sieve approximation, shedding light on the impact of source and target sample sizes and task discrepancy on the effectiveness of knowledge transfer. We show that the final learning error of the $Q^*$ function is significantly improved from the single task rate both theoretically and empirically.
- Abstract(参考訳): マーケティング、医療、教育におけるデータ駆動型意思決定においては、既存のベンチャーから大量のデータを活用して、高次元の特徴空間をナビゲートし、新しいベンチャーにおけるデータの不足に対処することが望ましい。
バッチ定常環境に集中し,マルコフ決定プロセス(MDP)のレンズによるタスクの相違を正式に定義することにより,動的意思決定における知識伝達について検討する。
本稿では,汎用関数近似を用いたTransferred Fitted $Q$-Iterationアルゴリズムのフレームワークを提案し,ターゲットデータとソースデータの両方を用いて最適な動作状態関数$Q^*$の直接推定を可能にする。
本研究は,情報伝達の有効性に関する統計性能とMDPタスクの不一致の関係を,情報源および対象サンプルサイズの影響を隠蔽し,タスク不一致が情報伝達に与える影響について検討する。
Q^*$関数の最終学習誤差は、理論的にも経験的にも単一のタスクレートから著しく改善されていることを示す。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Knowledge Transfer across Multiple Principal Component Analysis Studies [8.602833477729899]
本稿では,複数音源成分分析(PCA)研究から有用な情報を抽出する2段階移動学習アルゴリズムを提案する。
最初のステップでは、複数の研究にまたがる共有部分空間情報をGrassmannian barycenterと呼ばれる提案手法で統合する。
第1段階から得られた共有部分空間の推定器を利用して、対象のプライベート部分空間を推定する。
論文 参考訳(メタデータ) (2024-03-12T09:15:12Z) - Curriculum Modeling the Dependence among Targets with Multi-task
Learning for Financial Marketing [26.80709680959278]
本稿では,複数順序依存型タスク学習のための事前情報統合モデル(textbfPIMM)を提案する。
PIMは、トレーニング中に下流タスクに転送するソフトサンプリング戦略により、真のラベル情報または先行タスク予測をランダムに選択する。
公開データセットと製品データセットのオフライン実験結果は、PIMMが最先端のベースラインを上回っていることを確認する。
論文 参考訳(メタデータ) (2023-04-25T07:55:16Z) - Model-based Constrained MDP for Budget Allocation in Sequential
Incentive Marketing [28.395877073390434]
逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、売上を伸ばすための重要なアプローチである。
予算制約下でのリターンを最大化するインセンティブを効果的に割り当てる方法については、文献ではあまり研究されていない。
本稿では,2項探索とモデルベース計画を組み合わせた効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:10:45Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Practical Transferability Estimation for Image Classification Tasks [20.07223947190349]
大きな課題は、クロスドメインのクロスタスク設定で転送可能性の推定を堅牢にする方法だ。
最近提案されたOTCEスコアは、ドメイン差とタスク差を考慮してこの問題を解決する。
本稿では,タスク差分推定のロバスト性を大幅に向上させる,JC-NCEスコアと呼ばれる実用的な転送可能性指標を提案する。
論文 参考訳(メタデータ) (2021-06-19T11:59:11Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。