論文の概要: A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark
- arxiv url: http://arxiv.org/abs/2110.06742v4
- Date: Tue, 21 May 2024 11:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 19:47:36.646770
- Title: A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark
- Title(参考訳): 多目的強化学習ベンチマークとしての深海宝問題
- Authors: Amber Cassimon, Reinout Eyckerman, Siegfried Mercelis, Steven Latré, Peter Hellinckx,
- Abstract要約: 著者らは、元のDST問題は極めて基本的な問題であり、実用的多目的最適化の問題を常に表しているわけではないことを示した。
理論を実践に近づけるために、著者らはDST問題の代替的で改良されたバージョンを提案する。
- 参考スコア(独自算出の注目度): 0.77836452350156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, the authors investigate the Deep Sea Treasure (DST) problem as proposed by Vamplew et al. Through a number of proofs, the authors show the original DST problem to be quite basic, and not always representative of practical Multi-Objective Optimization problems. In an attempt to bring theory closer to practice, the authors propose an alternative, improved version of the DST problem, and prove that some of the properties that simplify the original DST problem no longer hold. The authors also provide a reference implementation and perform a comparison between their implementation, and other existing open-source implementations of the problem. Finally, the authors also provide a complete Pareto-front for their new DST problem.
- Abstract(参考訳): 本稿では,Vamplewらによって提案された深海宝(DST)問題について,多くの証明を通じて,著者らによるDST問題は非常に基本的な問題であり,実用的多目的最適化問題を常に表しているわけではないことを示す。
理論を実践に近づけるために、著者らはDST問題の代替として改良されたバージョンを提案し、元のDST問題を単純化するいくつかの性質がもはや成り立たないことを証明した。
著者らはまた、リファレンス実装を提供し、それらの実装と既存のオープンソース実装との比較を行う。
最後に、著者らは新しいDST問題に対して完全なPareto-frontを提供する。
関連論文リスト
- Boosting of Thoughts: Trial-and-Error Problem Solving with Large
Language Models [48.43678591317425]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。
我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文 参考訳(メタデータ) (2024-02-17T00:13:36Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Solving the Traveling Salesperson Problem with Precedence Constraints by
Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。
これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) (2022-07-04T14:31:47Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z) - On the Use of Quality Diversity Algorithms for The Traveling Thief
Problem [11.590506672325668]
現実世界の最適化では、いくつかのサブプロブレムが相互作用し、主要な問題を形成するのが一般的である。
本稿では,旅行セールスパーソン問題(TSP)とクナップサック問題(KP)の相互依存性を品質多様性(QD)アプローチを用いて検討する。
論文 参考訳(メタデータ) (2021-12-16T05:08:39Z) - Solving the Travelling Thief Problem based on Item Selection Weight and
Reverse Order Allocation [8.620967398331265]
旅行泥棒問題(TTP)は多くの学者を引き付ける挑戦的な最適化問題です。
本論文では,TTPを理論的および実証的に検討する。
提案した選択項目と逆順序のソート項目の定式化によって算出されたスコア値に基づくアルゴリズムを提案し,この問題を解く。
論文 参考訳(メタデータ) (2020-12-16T12:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。