論文の概要: Self-supervised Pretraining for Decision Foundation Model: Formulation,
Pipeline and Challenges
- arxiv url: http://arxiv.org/abs/2401.00031v1
- Date: Fri, 29 Dec 2023 08:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 19:18:47.190986
- Title: Self-supervised Pretraining for Decision Foundation Model: Formulation,
Pipeline and Challenges
- Title(参考訳): 意思決定基盤モデルのための自己指導型事前学習: 定式化, パイプライン, 課題
- Authors: Xiaoqian Liu, Jianbin Jiao, Junge Zhang
- Abstract要約: 我々は、大規模な自己指導型事前学習から得られる知識を下流の意思決定問題に統合することを主張する。
本稿では,データ収集,事前学習,意思決定事前学習,下流推論のための適応戦略に関する最近の研究を提案する。
- 参考スコア(独自算出の注目度): 30.1491352758166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision-making is a dynamic process requiring perception, memory, and
reasoning to make choices and find optimal policies. Traditional approaches to
decision-making suffer from sample efficiency and generalization, while
large-scale self-supervised pretraining has enabled fast adaptation with
fine-tuning or few-shot learning in language and vision. We thus argue to
integrate knowledge acquired from generic large-scale self-supervised
pretraining into downstream decision-making problems. We propose
Pretrain-Then-Adapt pipeline and survey recent work on data collection,
pretraining objectives and adaptation strategies for decision-making
pretraining and downstream inference. Finally, we identify critical challenges
and future directions for developing decision foundation model with the help of
generic and flexible self-supervised pretraining.
- Abstract(参考訳): 意思決定(Decision-making)は、選択と最適なポリシーを見つけるために知覚、記憶、推論を必要とする動的なプロセスである。
意思決定の伝統的なアプローチはサンプルの効率と一般化に苦しむ一方で、大規模な自己教師付き事前学習は言語やビジョンにおける微調整や少数ショット学習による迅速な適応を可能にしている。
そこで我々は,大規模な自己指導型事前学習から得られる知識を下流の意思決定問題に統合する。
本稿では,事前学習と下流推定のためのデータ収集,事前学習目標,適応戦略に関する最近の研究について述べる。
最後に,総合的かつ柔軟な自己指導型事前学習の助けを借りて,意思決定基盤モデル開発における重要な課題と今後の方向性を明らかにする。
関連論文リスト
- Confidence-Aware Deep Learning for Load Plan Adjustments in the Parcel Service Industry [13.121155604809372]
本研究では,大規模輸送物流企業におけるインバウンド負荷計画調整を自動化するためのディープラーニングに基づくアプローチを開発する。
これは、不確実性が増大する中で、効率よくレジリエントなEコマース事業計画のための重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T15:13:13Z) - Guided Learning: Lubricating End-to-End Modeling for Multi-stage Decision-making [7.106919452604968]
多段階意思決定におけるエンド・ツー・エンド・ラーニングを強化するためのガイドド・ラーニングを提案する。
本稿では,中間的ニューラルネットワーク層を段階的な目標に向けてトレーニングする関数である「ガイド」の概念を紹介する。
明示的な監督ラベルを欠いた意思決定シナリオに対しては、全決定の報酬'を定量化するユーティリティ関数を組み込む。
論文 参考訳(メタデータ) (2024-11-15T06:54:25Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Decision-Focused Forecasting: Decision Losses for Multistage Optimisation [0.0]
本稿では,予測の時間的時間的決定効果を考慮した多層モデルである決定中心予測を提案する。
本モデルでは,予測による状態パスを考慮した調整を行った。
エネルギー貯蔵調停タスクへのモデルの適用を実証し,本モデルが既存手法より優れていることを報告する。
論文 参考訳(メタデータ) (2024-05-23T15:48:46Z) - On Predictive planning and counterfactual learning in active inference [0.20482269513546453]
本稿では,「計画」と「経験から学ぶ」に基づくアクティブ推論における2つの意思決定手法について検討する。
これらの戦略間のデータ-複雑さのトレードオフをナビゲートする混合モデルを導入する。
提案手法を,エージェントの適応性を必要とするグリッドワールドシナリオで評価する。
論文 参考訳(メタデータ) (2024-03-19T04:02:31Z) - Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and
Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。
本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T01:32:06Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。