Fugu-MT 論文翻訳(概要): Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

論文の概要: Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2404.00686v1
Date: Sun, 31 Mar 2024 13:41:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:20:51.080071
Title: Utilizing Maximum Mean Discrepancy Barycenter for Propagating the Uncertainty of Value Functions in Reinforcement Learning
Title（参考訳）: 強化学習における価値関数の不確かさの促進を目的とした最大平均差バリーセンタの利用
Authors: Srinjoy Roy, Swagatam Das,
Abstract要約: 本稿では,不確実性伝播に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。深層ネットワークをMDD-QLに組み込んでMDDQ-Network(MMD-QN)を作成します。 Atariゲームに挑戦する実験の結果、MDD-QNはベンチマークの深いRLアルゴリズムと比較してよく機能していることが示された。
参考スコア（独自算出の注目度）: 16.75089998678061
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accounting for the uncertainty of value functions boosts exploration in Reinforcement Learning (RL). Our work introduces Maximum Mean Discrepancy Q-Learning (MMD-QL) to improve Wasserstein Q-Learning (WQL) for uncertainty propagation during Temporal Difference (TD) updates. MMD-QL uses the MMD barycenter for this purpose, as MMD provides a tighter estimate of closeness between probability measures than the Wasserstein distance. Firstly, we establish that MMD-QL is Probably Approximately Correct in MDP (PAC-MDP) under the average loss metric. Concerning the accumulated rewards, experiments on tabular environments show that MMD-QL outperforms WQL and other algorithms. Secondly, we incorporate deep networks into MMD-QL to create MMD Q-Network (MMD-QN). Making reasonable assumptions, we analyze the convergence rates of MMD-QN using function approximation. Empirical results on challenging Atari games demonstrate that MMD-QN performs well compared to benchmark deep RL algorithms, highlighting its effectiveness in handling large state-action spaces.
Abstract（参考訳）: 価値関数の不確実性の会計は、強化学習(RL)における探索を促進する。本研究は,時間差(TD)更新時の不確実性伝搬に対するワッサースタインQラーニング(WQL)を改善するために,最大平均離散Qラーニング(MMD-QL)を提案する。 MMD-QLはこの目的のためにMDDバリーセンタを使用し、MDDはワッサーシュタイン距離よりも確率測度間の密接度を厳密に見積もっている。まず, MMD-QL が平均損失量で MDP (PAC-MDP) のほぼ正当であることが確認された。累積報酬に関して、表環境の実験では、MDD-QLがWQLやその他のアルゴリズムより優れていることが示されている。次に、深層ネットワークをMDD-QLに組み込んで、MDD Q-Network(MMD-QN)を作成する。妥当な仮定を仮定し,関数近似を用いてMDD-QNの収束速度を解析する。 Atariゲームにおける実験的な結果から,MDD-QNはベンチマークの深いRLアルゴリズムと比較して高い性能を示し,大きな状態対応空間を扱う上での有効性を強調した。

関連論文リスト

Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
MMD-Newton Method for Multi-objective Optimization [3.8926796690238694]
連続多目的最適化問題(MOP)の解法としてMDDを提案する。我々は,MMDをベースとした新しい手法であるNewton(MMDN)を考案した。広範に使用されている11のベンチマーク問題に対して,ハイブリッドアルゴリズムを実証的に検証した。
論文参考訳（メタデータ） (2025-05-20T16:56:50Z)
Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。 Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文参考訳（メタデータ） (2025-03-24T08:46:52Z)
Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文参考訳（メタデータ） (2025-02-20T10:25:13Z)
Computational-Statistical Trade-off in Kernel Two-Sample Testing with Random Fourier Features [3.744589644319257]
MMD(Maximum Mean Discrepancy)テストは、複雑で高次元のデータを扱う効果的なツールとして登場した。 MMD試験と同じ出力保証を準4次時間で達成できるかどうかは不明だ。準4次時間内にMDD試験と同じミニマックス分離率が得られることを示す。
論文参考訳（メタデータ） (2024-07-12T04:08:01Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
A Concentration Inequality for Maximum Mean Discrepancy (MMD)-based Statistics and Its Application in Generative Models [4.757470449749877]
最大平均離散性(MMD)に基づく推定器群に対する一様濃度不等式を提案する。我々の不等式はMDDに基づく生成モデルの理論的解析における効率的なツールとして機能する。
論文参考訳（メタデータ） (2024-05-22T22:41:56Z)
On Practical Robust Reinforcement Learning: Practical Uncertainty Set and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T08:52:09Z)
Differentially Private Deep Q-Learning for Pattern Privacy Preservation in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文参考訳（メタデータ） (2023-02-09T12:50:18Z)
MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent Reinforcement Learning [63.46052494151171]
テキストマルチエージェント代替Q-ラーニング(MA2QL)を提案し、エージェントが順番にQ-ラーニングによってQ-関数を更新する。各エージェントが各ターンで$varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2022-09-17T04:54:32Z)
Maximum Mean Discrepancy on Exponential Windows for Online Change Detection [3.1631981412766335]
MMDEW (Maximum Mean Discrepancy on Exponential Windows) と呼ばれる新しい変更検出アルゴリズムを提案する。 MMDEWは、MDDの利点と指数窓に基づく効率的な計算を組み合わせる。 MMDEWは多対数実行時と対数メモリの複雑さを満足しており、ベンチマークデータストリーム上でのテクニックの状態を実証的に上回ることを示す。
論文参考訳（メタデータ） (2022-05-25T12:02:59Z)
Collaborative Intelligent Reflecting Surface Networks with Multi-Agent Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文参考訳（メタデータ） (2022-03-26T20:37:14Z)
Multi-document Summarization with Maximal Marginal Relevance-guided Reinforcement Learning [54.446686397551275]
RL-MMRは、古典的MDSで使用される高度な神経SDS法と統計測度を統一する。 RL-MMRは、より少ない有望な候補にMMRガイダンスを投入し、探索空間を抑え、より良い表現学習をもたらす。
論文参考訳（メタデータ） (2020-09-30T21:50:46Z)
Single-partition adaptive Q-learning [0.0]
SPAQL(Single-Partition Adaptive Q-learning)は、モデルなしのエピソード強化学習のためのアルゴリズムである。多数のタイムステップを持つエピソードのテストでは、適応型Qラーニング(AQL)とは異なり、SPAQLにはスケーリングに問題はないことが示されている。 SPAQLはAQLよりも高いサンプリング効率を持つため、効率的なモデルフリーなRLメソッドの分野に関連性がある、と我々は主張する。
論文参考訳（メタデータ） (2020-07-14T00:03:25Z)
A Kernel-Based Approach to Non-Stationary Reinforcement Learning in Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文参考訳（メタデータ） (2020-07-09T21:37:13Z)
Deep Reinforcement Learning with Weighted Q-Learning [43.823659028488876]
Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。 Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
論文参考訳（メタデータ） (2020-03-20T13:57:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。