Fugu-MT 論文翻訳(概要): A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark

論文の概要: A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark

arxiv url: http://arxiv.org/abs/2110.06742v4
Date: Tue, 21 May 2024 11:30:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-22 19:47:36.646770
Title: A Review of the Deep Sea Treasure problem as a Multi-Objective Reinforcement Learning Benchmark
Title（参考訳）: 多目的強化学習ベンチマークとしての深海宝問題
Authors: Amber Cassimon, Reinout Eyckerman, Siegfried Mercelis, Steven Latré, Peter Hellinckx,
Abstract要約: 著者らは、元のDST問題は極めて基本的な問題であり、実用的多目的最適化の問題を常に表しているわけではないことを示した。理論を実践に近づけるために、著者らはDST問題の代替的で改良されたバージョンを提案する。
参考スコア（独自算出の注目度）: 0.77836452350156
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, the authors investigate the Deep Sea Treasure (DST) problem as proposed by Vamplew et al. Through a number of proofs, the authors show the original DST problem to be quite basic, and not always representative of practical Multi-Objective Optimization problems. In an attempt to bring theory closer to practice, the authors propose an alternative, improved version of the DST problem, and prove that some of the properties that simplify the original DST problem no longer hold. The authors also provide a reference implementation and perform a comparison between their implementation, and other existing open-source implementations of the problem. Finally, the authors also provide a complete Pareto-front for their new DST problem.
Abstract（参考訳）: 本稿では,Vamplewらによって提案された深海宝(DST)問題について,多くの証明を通じて,著者らによるDST問題は非常に基本的な問題であり,実用的多目的最適化問題を常に表しているわけではないことを示す。理論を実践に近づけるために、著者らはDST問題の代替として改良されたバージョンを提案し、元のDST問題を単純化するいくつかの性質がもはや成り立たないことを証明した。著者らはまた、リファレンス実装を提供し、それらの実装と既存のオープンソース実装との比較を行う。最後に、著者らは新しいDST問題に対して完全なPareto-frontを提供する。

関連論文リスト

Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation [30.99444221104659]
最新のMMDiT(Multimodal Diffusion Transformer)は,入力テキストプロンプトに類似した意味や外観の複数の主題が含まれている場合,対象の曖昧さや混合に悩まされている。この問題の原因となる3つの曖昧さは、ブロック間曖昧性、テキスト曖昧性、セマンティック曖昧性である。そこで本研究では,初期段階におけるテスト時間最適化により,不明瞭な潜伏状態の修復を提案する。
論文参考訳（メタデータ） (2024-11-27T12:47:06Z)
Boosting of Thoughts: Trial-and-Error Problem Solving with Large Language Models [48.43678591317425]
Boosting of Thoughts (BoT)は、大規模言語モデルによる問題解決のための自動プロンプトフレームワークである。我々は,BoTが他の先進的なプロンプト手法よりも高い,あるいは同等の問題解決率を達成することを示す。
論文参考訳（メタデータ） (2024-02-17T00:13:36Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。 TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文参考訳（メタデータ） (2023-06-06T09:35:29Z)
RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。 RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-19T08:02:52Z)
Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文参考訳（メタデータ） (2022-07-04T14:31:47Z)
A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking [78.2700757742992]
タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。最近の最先端のDST実装は、モデルの堅牢性を改善するために様々なサービスのスキーマに依存している。本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。
論文参考訳（メタデータ） (2022-07-02T13:27:59Z)
Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。 TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文参考訳（メタデータ） (2022-02-07T11:18:04Z)
On the Use of Quality Diversity Algorithms for The Traveling Thief Problem [11.590506672325668]
現実世界の最適化では、いくつかのサブプロブレムが相互作用し、主要な問題を形成するのが一般的である。本稿では,旅行セールスパーソン問題(TSP)とクナップサック問題(KP)の相互依存性を品質多様性(QD)アプローチを用いて検討する。
論文参考訳（メタデータ） (2021-12-16T05:08:39Z)
Solving the Travelling Thief Problem based on Item Selection Weight and Reverse Order Allocation [8.620967398331265]
旅行泥棒問題(TTP)は多くの学者を引き付ける挑戦的な最適化問題です。本論文では,TTPを理論的および実証的に検討する。提案した選択項目と逆順序のソート項目の定式化によって算出されたスコア値に基づくアルゴリズムを提案し,この問題を解く。
論文参考訳（メタデータ） (2020-12-16T12:06:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。