論文の概要: Guided Learning: Lubricating End-to-End Modeling for Multi-stage Decision-making
- arxiv url: http://arxiv.org/abs/2411.10496v1
- Date: Fri, 15 Nov 2024 06:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:25.570437
- Title: Guided Learning: Lubricating End-to-End Modeling for Multi-stage Decision-making
- Title(参考訳): ガイド付き学習:多段階意思決定のためのエンドツーエンドモデリングの潤滑
- Authors: Jian Guo, Saizhuo Wang, Yiyan Qi,
- Abstract要約: 多段階意思決定におけるエンド・ツー・エンド・ラーニングを強化するためのガイドド・ラーニングを提案する。
本稿では,中間的ニューラルネットワーク層を段階的な目標に向けてトレーニングする関数である「ガイド」の概念を紹介する。
明示的な監督ラベルを欠いた意思決定シナリオに対しては、全決定の報酬'を定量化するユーティリティ関数を組み込む。
- 参考スコア(独自算出の注目度): 7.106919452604968
- License:
- Abstract: Multi-stage decision-making is crucial in various real-world artificial intelligence applications, including recommendation systems, autonomous driving, and quantitative investment systems. In quantitative investment, for example, the process typically involves several sequential stages such as factor mining, alpha prediction, portfolio optimization, and sometimes order execution. While state-of-the-art end-to-end modeling aims to unify these stages into a single global framework, it faces significant challenges: (1) training such a unified neural network consisting of multiple stages between initial inputs and final outputs often leads to suboptimal solutions, or even collapse, and (2) many decision-making scenarios are not easily reducible to standard prediction problems. To overcome these challenges, we propose Guided Learning, a novel methodological framework designed to enhance end-to-end learning in multi-stage decision-making. We introduce the concept of a ``guide'', a function that induces the training of intermediate neural network layers towards some phased goals, directing gradients away from suboptimal collapse. For decision scenarios lacking explicit supervisory labels, we incorporate a utility function that quantifies the ``reward'' of the throughout decision. Additionally, we explore the connections between Guided Learning and classic machine learning paradigms such as supervised, unsupervised, semi-supervised, multi-task, and reinforcement learning. Experiments on quantitative investment strategy building demonstrate that guided learning significantly outperforms both traditional stage-wise approaches and existing end-to-end methods.
- Abstract(参考訳): マルチステージ意思決定は、レコメンデーションシステム、自律運転、量的投資システムなど、さまざまな現実の人工知能アプリケーションにおいて不可欠である。
例えば、量的投資では、このプロセスは典型的には、ファクタマイニング、アルファ予測、ポートフォリオ最適化、時には順序実行など、いくつかの逐次的な段階を含む。
最先端のエンドツーエンドモデリングは、これらのステージを単一のグローバルフレームワークに統合することを目的としているが、(1)初期入力と最終出力の間の複数のステージからなる統合ニューラルネットワークのトレーニングは、しばしば最適化されたソリューションにつながるか、あるいは崩壊に至る。
これらの課題を克服するために,多段階意思決定におけるエンドツーエンド学習の促進を目的とした新しい方法論フレームワークであるガイドドラーニングを提案する。
我々は、中間的ニューラルネットワーク層をいくつかの段階的な目標に向けてトレーニングし、最適下崩壊から勾配を遠ざける関数である‘guide’の概念を導入する。
明示的な監督ラベルを欠いた意思決定シナリオに対しては、全決定の `reward'' を定量化するユーティリティ関数を組み込む。
さらに、ガイド学習と教師なし、教師なし、半教師付き、マルチタスク、強化学習といった古典的な機械学習パラダイムとの関係についても検討する。
定量的投資戦略構築の実験は、ガイド付き学習が伝統的な段階的なアプローチと既存のエンドツーエンドの手法の両方を著しく上回っていることを示す。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Building Decision Making Models Through Language Model Regime [17.61892714225144]
大規模言語モデル(LLM)の一般化機能を活用した意思決定問題に対する新しいアプローチを提案する。
LLMは、様々な言語タスクを一般化し、意思決定モデルをトレーニングするための新しい戦略を刺激し、驚くべき成功を収めた。
広告や検索最適化などのeコマース分野の実験では、LTUアプローチが従来の教師付き学習体制より優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-12T12:04:14Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - FiLM-Ensemble: Probabilistic Deep Learning via Feature-wise Linear
Modulation [69.34011200590817]
本稿では,特徴量線形変調の概念に基づく暗黙のアンサンブル手法であるFiLM-Ensembleを紹介する。
単一ディープネットワークのネットワークアクティベーションをFiLMで変調することにより、高多様性のモデルアンサンブルを得る。
我々は、FiLM-Ensembleが他の暗黙のアンサンブル法よりも優れており、ネットワークの明示的なアンサンブルの上限に非常に近いことを示す。
論文 参考訳(メタデータ) (2022-05-31T18:33:15Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - A Practical Guide to Multi-Objective Reinforcement Learning and Planning [24.81310809455139]
本論文は, 困難な問題に対する多対象的手法の適用の指針となる。
望ましい解の性質に影響を与える可能性のある因子を識別する。
これは、これらが多目的意思決定システムの設計にどのように影響するかを例示する。
論文 参考訳(メタデータ) (2021-03-17T11:07:28Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Deep Model-Based Reinforcement Learning for High-Dimensional Problems, a
Survey [1.2031796234206134]
モデルに基づく強化学習は、環境サンプルの必要性を減らすために、環境力学の明示的なモデルを生成する。
深層モデルに基づく手法の課題は、低いサンプルの複雑さを維持しながら高い予測力を達成することである。
本稿では, 与えられた遷移を明示的に計画すること, 学習した遷移を明示的に計画すること, 計画と遷移の両方をエンドツーエンドで学習することの3つのアプローチに基づく分類法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。