論文の概要: Gradient Optimization for Single-State RMDPs
- arxiv url: http://arxiv.org/abs/2209.12295v1
- Date: Sun, 25 Sep 2022 18:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:00:26.744224
- Title: Gradient Optimization for Single-State RMDPs
- Title(参考訳): 単一状態RMDPの勾配最適化
- Authors: Keith Badger
- Abstract要約: 自律運転、ロボット部品の制御、医療診断といった現代の問題は、分析的に解決することがますます困難になっている。
データ駆動型ソリューションは、人によって理解される以上の複雑さの次元に問題があるという強力な選択肢です。
残念ながら、データ駆動モデルは最悪のシナリオでどのように機能するかに不確実性を伴うことが多い。
自律運転や医療などの分野では、これらの障害の結果は破滅的なものになる可能性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As modern problems such as autonomous driving, control of robotic components,
and medical diagnostics have become increasingly difficult to solve
analytically, data-driven decision-making has seen a large gain in interest.
Where there are problems with more dimensions of complexity than can be
understood by people, data-driven solutions are a strong option. Many of these
methods belong to a subdivision of machine learning known as reinforcement
learning. Unfortunately, data-driven models often come with uncertainty in how
they will perform in the worst of scenarios. Since the solutions are not
derived analytically many times, these models will fail unpredictably. In
fields such as autonomous driving and medicine, the consequences of these
failures could be catastrophic.
Various methods are being explored to resolve this issue and one of them is
known as adversarial learning. It pits two models against each other by having
one model optimize its goals as the opposite of the other model's goals. This
type of training has the potential to find models which perform reliably in
complex and high stakes settings, although it is not certain when this type of
training will work. The goal is to gain insight about when these types of
models will reach stable solutions.
- Abstract(参考訳): 自律運転、ロボット部品の制御、医療診断といった現代の問題の分析がますます困難になっているため、データ駆動型意思決定は大きな関心を集めている。
人々が理解できるよりも複雑な次元の問題がある場合、データ駆動ソリューションは強力な選択肢です。
これらの手法の多くは強化学習として知られる機械学習のサブディビジョンに属する。
残念ながら、データ駆動モデルは最悪のシナリオでどのように機能するかに不確実性を伴うことが多い。
解は解析的に何度も導出されないので、これらのモデルは予測不能に失敗する。
自動運転や医療といった分野では、これらの失敗の結果は破滅的になる可能性がある。
この問題を解決するために様々な方法が研究されており、そのうちの1つは逆学習として知られている。
1つのモデルが他のモデルの目標の反対として目標を最適化することで、2つのモデルが互いに対立する。
このタイプのトレーニングは、このタイプのトレーニングがいつ動作するかは定かではないが、複雑で高利害な設定で確実に機能するモデルを見つける可能性がある。
目標は、これらのタイプのモデルが安定したソリューションにいつ到達するかを知ることです。
関連論文リスト
- What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Multi-teacher knowledge distillation as an effective method for
compressing ensembles of neural networks [0.0]
大規模深層モデルは非常に成功したが、膨大な計算複雑性と巨大なストレージ要件により、リアルタイムアプリケーションでは実装が困難である。
単一モデルの重み空間に全アンサンブルモデルを圧縮できる改良された知識蒸留フレームワークを提案する。
知識蒸留は,1つの学生モデルで複数の教師の知識を集約し,同じ計算量で,標準手法で訓練したモデルと比較して,優れた性能のモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T17:40:36Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Winning solutions and post-challenge analyses of the ChaLearn AutoDL
challenge 2019 [112.36155380260655]
本稿では,ChaLearnのAutoDLチャレンジシリーズの結果と今後の課題について述べる。
その結果,一般的なニューラルネットワーク探索(NAS)は実用的ではなかったものの,DL手法が支配的であったことが示唆された。
メタラーナー"、"データインジェクタ"、"モデルセレクタ"、"モデル/ラーナー"、"評価器"を特徴とする、ハイレベルなモジュール化組織が登場した。
論文 参考訳(メタデータ) (2022-01-11T06:21:18Z) - High-Accuracy Model-Based Reinforcement Learning, a Survey [2.0196229393131726]
深層強化学習は、ゲームプレイとロボティクスにおいて顕著な成功を収めている。
環境サンプルの数を減らすため、モデルに基づく強化学習は環境力学の明示的なモデルを生成する。
これらの手法のいくつかは、低いサンプルの複雑さで高い精度を達成することに成功した。
論文 参考訳(メタデータ) (2021-07-17T14:01:05Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - A Simple and Interpretable Predictive Model for Healthcare [0.0]
ディープラーニングモデルは、現在、病気予測のための最先端のソリューションの大半を支配しています。
トレーニング可能なパラメータが数百万に分散したこれらのディープラーニングモデルは、トレーニングとデプロイに大量の計算とデータを必要とします。
EHRデータに適用するための,より単純かつ解釈可能な非深層学習モデルを開発した。
論文 参考訳(メタデータ) (2020-07-27T08:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。