論文の概要: On the Importance of Exploration for Real Life Learned Algorithms
- arxiv url: http://arxiv.org/abs/2304.10860v1
- Date: Fri, 21 Apr 2023 10:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 15:13:41.909610
- Title: On the Importance of Exploration for Real Life Learned Algorithms
- Title(参考訳): 実生活学習アルゴリズムにおける探索の重要性について
- Authors: Steffen Gracla, Carsten Bockelmann, Armin Dekorsy
- Abstract要約: スマートサンプリングは,サンプル取得コストを削減し,学習コストを低減し,学習アルゴリズムが予期せぬ事象に適応できるようにする。
本稿では,3つのDQN(Deep Q-Networks:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:DQN:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks:ディープQN:ディープQ-Networks:ディープQ-Networks:ディープQ-Networks
- 参考スコア(独自算出の注目度): 8.508198765617195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of data driven learning algorithms scales significantly with the
quality of data available. One of the most straight-forward ways to generate
good data is to sample or explore the data source intelligently. Smart sampling
can reduce the cost of gaining samples, reduce computation cost in learning,
and enable the learning algorithm to adapt to unforeseen events. In this paper,
we teach three Deep Q-Networks (DQN) with different exploration strategies to
solve a problem of puncturing ongoing transmissions for URLLC messages. We
demonstrate the efficiency of two adaptive exploration candidates,
variance-based and Maximum Entropy-based exploration, compared to the standard,
simple epsilon-greedy exploration approach.
- Abstract(参考訳): データ駆動学習アルゴリズムの品質は、データの品質とともに大幅にスケールする。
よいデータを生成する最も直接的な方法の1つは、データソースをインテリジェントにサンプリングまたは探索することです。
スマートサンプリングは、サンプル取得のコストを削減し、学習の計算コストを削減し、予期せぬイベントに学習アルゴリズムを適応させることができる。
本稿では,異なる探索戦略を持つ3つの深層q-networks (dqn) を用いて,urllc メッセージの送信を継続する問題を解く。
偏差に基づく探索と最大エントロピーに基づく探索の2つの適応探索の効率を,標準的なエプシロングレーディ探索法と比較した。
関連論文リスト
- Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Avoid Wasted Annotation Costs in Open-set Active Learning with Pre-trained Vision-Language Model [3.647905567437244]
アクティブラーニング(AL)は、高情報データを選択的に収集することでモデル性能を向上させることを目的としている。
実際のシナリオでは、ラベルなしデータは配布外サンプル(OOD)を含んでいて、無駄なアノテーションコストにつながる可能性がある。
OODサンプルを必要とせずにコスト損失を最小限に抑える新しい選択戦略であるCLIPNALを提案する。
論文 参考訳(メタデータ) (2024-08-09T07:54:57Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Self-supervised similarity models based on well-logging data [1.0723143072368782]
油田の異なる問題に対する解に適した普遍的なデータ表現を提供する手法を提案する。
当社のアプローチは,間隔の連続的なログデータに対する自己管理手法に依拠している。
変動型オートエンコーダを用いることで、最も信頼性が高く正確なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-09-26T06:24:08Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Adaptive Learning for Discovery [18.754931451237375]
我々は、ASD(Adaptive Smpling for Discovery)と呼ばれる逐次的な意思決定問題を研究する。
ASDアルゴリズムは、応答の総和を最大化するために、ポイントにゴールを適応的にラベル付けする。
この問題は、例えば、機械学習モデルの助けを借りた薬物発見など、現実世界の発見問題に広く応用されている。
論文 参考訳(メタデータ) (2022-05-30T03:30:45Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。