Fugu-MT 論文翻訳(概要): On the Unreasonable Efficiency of State Space Clustering in Personalization Tasks

論文の概要: On the Unreasonable Efficiency of State Space Clustering in Personalization Tasks

arxiv url: http://arxiv.org/abs/2112.13141v1
Date: Fri, 24 Dec 2021 21:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-28 15:12:41.335961
Title: On the Unreasonable Efficiency of State Space Clustering in Personalization Tasks
Title（参考訳）: パーソナライズタスクにおける状態空間クラスタリングの無理な効率性について
Authors: Anton Dereventsov, Ranga Raju Vatsavai, Clayton Webster
Abstract要約: 複雑な報酬信号を用いてパーソナライズタスクを解くための強化学習(RL)手法を検討する。我々のアプローチは、単純な$k$-meansアルゴリズムを用いて状態空間クラスタリングに基づいている。
参考スコア（独自算出の注目度）: 1.495380389108477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this effort we consider a reinforcement learning (RL) technique for solving personalization tasks with complex reward signals. In particular, our approach is based on state space clustering with the use of a simplistic $k$-means algorithm as well as conventional choices of the network architectures and optimization algorithms. Numerical examples demonstrate the efficiency of different RL procedures and are used to illustrate that this technique accelerates the agent's ability to learn and does not restrict the agent's performance.
Abstract（参考訳）: 本研究では,複雑な報酬信号を用いてパーソナライズタスクを解決するための強化学習(rl)手法を検討する。特に,ネットワークアーキテクチャや最適化アルゴリズムの従来の選択に加えて,単純な$k$-meansアルゴリズムを用いた状態空間クラスタリングを基本としたアプローチである。数値例は異なるrl手順の効率を示し、この手法がエージェントの学習能力を加速し、エージェントの性能を制限しないことを示すために用いられる。

関連論文リスト

Accelerating Spectral Clustering under Fairness Constraints [56.865810822418744]
本研究では,Fair SC問題を凸関数(DC)フレームワークの差内にキャストすることで,フェアスペクトルクラスタリング(Fair SC)のための新しい効率的な手法を提案する。本研究では,各サブプロブレムを効率よく解き,計算効率が先行処理よりも高いことを示す。
論文参考訳（メタデータ） (2025-06-09T18:46:27Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文参考訳（メタデータ） (2024-10-21T07:33:42Z)
Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T14:59:18Z)
Boosting Fairness and Robustness in Over-the-Air Federated Learning [3.2088888904556123]
オーバー・ザ・エア・コンピューティングは5G以上の通信戦略である。 minmax最適化による公平性とロバスト性の提供を目的としたOver-the-Airフェデレーション学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-07T12:03:04Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Stabilizing Q-learning with Linear Architectures for Provably Efficient Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文参考訳（メタデータ） (2022-06-01T23:26:51Z)
A Heuristically Assisted Deep Reinforcement Learning Approach for Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文参考訳（メタデータ） (2021-05-14T10:04:17Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文参考訳（メタデータ） (2020-11-09T10:57:21Z)
Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文参考訳（メタデータ） (2020-08-24T13:23:02Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。