Fugu-MT 論文翻訳(概要): Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges

論文の概要: Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges

arxiv url: http://arxiv.org/abs/2401.00031v1
Date: Fri, 29 Dec 2023 08:18:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 19:18:47.190986
Title: Self-supervised Pretraining for Decision Foundation Model: Formulation, Pipeline and Challenges
Title（参考訳）: 意思決定基盤モデルのための自己指導型事前学習: 定式化, パイプライン, 課題
Authors: Xiaoqian Liu, Jianbin Jiao, Junge Zhang
Abstract要約: 我々は、大規模な自己指導型事前学習から得られる知識を下流の意思決定問題に統合することを主張する。本稿では,データ収集,事前学習,意思決定事前学習,下流推論のための適応戦略に関する最近の研究を提案する。
参考スコア（独自算出の注目度）: 30.1491352758166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decision-making is a dynamic process requiring perception, memory, and reasoning to make choices and find optimal policies. Traditional approaches to decision-making suffer from sample efficiency and generalization, while large-scale self-supervised pretraining has enabled fast adaptation with fine-tuning or few-shot learning in language and vision. We thus argue to integrate knowledge acquired from generic large-scale self-supervised pretraining into downstream decision-making problems. We propose Pretrain-Then-Adapt pipeline and survey recent work on data collection, pretraining objectives and adaptation strategies for decision-making pretraining and downstream inference. Finally, we identify critical challenges and future directions for developing decision foundation model with the help of generic and flexible self-supervised pretraining.
Abstract（参考訳）: 意思決定(Decision-making)は、選択と最適なポリシーを見つけるために知覚、記憶、推論を必要とする動的なプロセスである。意思決定の伝統的なアプローチはサンプルの効率と一般化に苦しむ一方で、大規模な自己教師付き事前学習は言語やビジョンにおける微調整や少数ショット学習による迅速な適応を可能にしている。そこで我々は,大規模な自己指導型事前学習から得られる知識を下流の意思決定問題に統合する。本稿では,事前学習と下流推定のためのデータ収集,事前学習目標,適応戦略に関する最近の研究について述べる。最後に,総合的かつ柔軟な自己指導型事前学習の助けを借りて,意思決定基盤モデル開発における重要な課題と今後の方向性を明らかにする。

関連論文リスト

EvoLM: In Search of Lost Language Model Training Dynamics [97.69616550374579]
EvoLMは、事前トレーニング、継続事前トレーニング、教師付き微調整、強化学習を含む、LMのトレーニングダイナミクスの体系的かつ透過的な分析を可能にするモデルスイートである。 1Bおよび4Bパラメータを持つ100以上のLMをスクラッチからトレーニングすることにより、上流(言語モデリング)と下流(確率解決)の両方の推論能力を評価する。
論文参考訳（メタデータ） (2025-06-19T04:58:47Z)
Online Decision-Focused Learning [63.83903681295497]
意思決定中心学習(DFL)は、意思決定タスクで出力が使用される予測モデルを訓練するパラダイムとして、ますます人気が高まっている。対象関数が時間とともに進化しない動的環境におけるDFLについて検討する。決定空間が単純空間であるときと一般有界凸ポリトープであるときの両方において、期待される動的後悔の限界を確立する。
論文参考訳（メタデータ） (2025-05-19T10:40:30Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
RLER-TTE: An Efficient and Effective Framework for En Route Travel Time Estimation with Reinforcement Learning [5.4674463400564886]
En Route Travel Time Estimationは、走行経路から運転パターンを学習し、迅速かつ正確なリアルタイム予測を実現することを目的としている。既存の手法は、実世界の交通システムの複雑さとダイナミズムを無視し、結果としてリアルタイムシナリオにおける効率と正確性に大きなギャップが生じる。本稿では,ER-TTEの経路実装を再定義し,高効率かつ効率的な予測を行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-26T11:49:34Z)
Confidence-Aware Deep Learning for Load Plan Adjustments in the Parcel Service Industry [13.121155604809372]
本研究では,大規模輸送物流企業におけるインバウンド負荷計画調整を自動化するためのディープラーニングに基づくアプローチを開発する。これは、不確実性が増大する中で、効率よくレジリエントなEコマース事業計画のための重要な課題に対処する。
論文参考訳（メタデータ） (2024-11-26T15:13:13Z)
Guided Learning: Lubricating End-to-End Modeling for Multi-stage Decision-making [7.106919452604968]
多段階意思決定におけるエンド・ツー・エンド・ラーニングを強化するためのガイドド・ラーニングを提案する。本稿では,中間的ニューラルネットワーク層を段階的な目標に向けてトレーニングする関数である「ガイド」の概念を紹介する。明示的な監督ラベルを欠いた意思決定シナリオに対しては、全決定の報酬'を定量化するユーティリティ関数を組み込む。
論文参考訳（メタデータ） (2024-11-15T06:54:25Z)
Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2024-11-02T07:38:02Z)
Decision-Focused Forecasting: Decision Losses for Multistage Optimisation [0.0]
本稿では,予測の時間的時間的決定効果を考慮した多層モデルである決定中心予測を提案する。本モデルでは,予測による状態パスを考慮した調整を行った。エネルギー貯蔵調停タスクへのモデルの適用を実証し,本モデルが既存手法より優れていることを報告する。
論文参考訳（メタデータ） (2024-05-23T15:48:46Z)
On Predictive planning and counterfactual learning in active inference [0.20482269513546453]
本稿では,「計画」と「経験から学ぶ」に基づくアクティブ推論における2つの意思決定手法について検討する。これらの戦略間のデータ-複雑さのトレードオフをナビゲートする混合モデルを導入する。提案手法を,エージェントの適応性を必要とするグリッドワールドシナリオで評価する。
論文参考訳（メタデータ） (2024-03-19T04:02:31Z)
Predict-Then-Optimize by Proxy: Learning Joint Models of Prediction and Optimization [59.386153202037086]
Predict-Then-フレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。このアプローチは非効率であり、最適化ステップを通じてバックプロパゲーションのための手作りの、問題固有のルールを必要とする。本稿では,予測モデルを用いて観測可能な特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2023-11-22T01:32:06Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Unified Instance and Knowledge Alignment Pretraining for Aspect-based Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文参考訳（メタデータ） (2021-10-26T04:03:45Z)
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。 2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文参考訳（メタデータ） (2021-06-06T23:53:31Z)
Inverse Active Sensing: Modeling and Understanding Timely Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文参考訳（メタデータ） (2020-06-25T02:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。