Fugu-MT 論文翻訳(概要): Responsible AI (RAI) Games and Ensembles

論文の概要: Responsible AI (RAI) Games and Ensembles

arxiv url: http://arxiv.org/abs/2310.18832v1
Date: Sat, 28 Oct 2023 22:17:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:20:54.927708
Title: Responsible AI (RAI) Games and Ensembles
Title（参考訳）: 責任あるAI(RAI)ゲームとアンサンブル
Authors: Yash Gupta, Runtian Zhai, Arun Suggala, Pradeep Ravikumar
Abstract要約: 本稿では,Responsible AI(RAI)ゲーム(Responsible AI)と呼ばれる問題を研究するための一般的なフレームワークを提供する。 a)ゲームプレイベースアルゴリズムと(b)ステージワイズ推定アルゴリズムの2つのクラスを提供する。我々は、いくつかのRAI問題、特にサブポピュレーションシフトに関して、我々の技術の適用性と競争性能を実証的に実証した。
参考スコア（独自算出の注目度）: 30.110052769733247
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Several recent works have studied the societal effects of AI; these include issues such as fairness, robustness, and safety. In many of these objectives, a learner seeks to minimize its worst-case loss over a set of predefined distributions (known as uncertainty sets), with usual examples being perturbed versions of the empirical distribution. In other words, aforementioned problems can be written as min-max problems over these uncertainty sets. In this work, we provide a general framework for studying these problems, which we refer to as Responsible AI (RAI) games. We provide two classes of algorithms for solving these games: (a) game-play based algorithms, and (b) greedy stagewise estimation algorithms. The former class is motivated by online learning and game theory, whereas the latter class is motivated by the classical statistical literature on boosting, and regression. We empirically demonstrate the applicability and competitive performance of our techniques for solving several RAI problems, particularly around subpopulation shift.
Abstract（参考訳）: 近年の研究では、公正性、堅牢性、安全性といった問題を含む、AIの社会的影響について研究されている。これらの目的の多くにおいて、学習者は、あらかじめ定義された分布(不確実性集合と呼ばれる)の集合に対して最悪のケース損失を最小限に抑えようとする。言い換えれば、上記の問題はこれらの不確実性集合に対する min-max 問題として記述することができる。本研究は,Responsible AI(RAI)ゲームと呼ばれる,これらの問題を研究するための一般的なフレームワークを提供する。これらのゲームを解くためのアルゴリズムのクラスを2つ提供します。 (a)ゲームプレイに基づくアルゴリズム、及び (b)グリーディ段階推定アルゴリズム。前者はオンライン学習とゲーム理論に動機付けられ、後者はブースティングと回帰に関する古典的統計文学に動機づけられている。我々は,いくつかのrai問題,特にサブポピュレーションシフト問題に対する手法の適用可能性と競争力を実証的に示す。

関連論文リスト

Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文参考訳（メタデータ） (2024-05-03T12:21:43Z)
Hardness of Independent Learning and Sparse Equilibrium Computation in Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文参考訳（メタデータ） (2023-03-22T03:28:12Z)
Impartial Games: A Challenge for Reinforcement Learning [0.0]
我々は,AlphaZeroスタイルの強化学習アルゴリズムが,公平なゲームに適用した場合,重要かつ基本的な課題に直面することを示す。その結果,AlphaZeroスタイルのエージェントはチャンピオンレベルのプレーを達成できるが,ボードサイズが大きくなるにつれて学習の進歩は著しく低下することがわかった。これらの結果は、AlphaZeroスタイルのアルゴリズムの攻撃に対する脆弱性に関するより広範な懸念と一致している。
論文参考訳（メタデータ） (2022-05-25T14:02:02Z)
No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文参考訳（メタデータ） (2022-01-30T06:10:04Z)
Revisiting Game Representations: The Hidden Costs of Efficiency in Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文参考訳（メタデータ） (2021-12-20T22:34:19Z)
Hierarchical Bayesian Bandits [51.67132887113412]
このクラスでは,任意の問題に適用可能な自然階層型トンプソンサンプリングアルゴリズム (hierTS) を解析する。私たちの後悔の限界は、タスクが順次あるいは並列に解決された場合を含む、そのような問題の多くの事例に当てはまる。実験により、階層構造はタスク間の知識共有に役立つことが示された。
論文参考訳（メタデータ） (2021-11-12T20:33:09Z)
Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文参考訳（メタデータ） (2021-10-29T13:30:42Z)
Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文参考訳（メタデータ） (2021-02-12T15:53:48Z)
Adversaries in Online Learning Revisited: with applications in Robust Optimization and Adversarial training [55.30970087795483]
オンライン学習における「敵対的」の概念を再考し、堅牢な最適化と敵対的なトレーニング問題を解決することに動機づけられます。我々は,想像遊びを用いた多種多様な問題クラスに対する一般的なアプローチを確立する。
論文参考訳（メタデータ） (2021-01-27T14:23:06Z)
Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文参考訳（メタデータ） (2020-12-10T18:30:21Z)
Algorithms in Multi-Agent Systems: A Holistic Perspective from Reinforcement Learning and Game Theory [2.5147566619221515]
近年では深い強化学習が顕著な成果を上げている。最近の研究は、シングルエージェントのシナリオを越えて学習を検討し、マルチエージェントのシナリオを検討しています。従来のゲーム理論アルゴリズムは、現代的なアルゴリズムと組み合わせた明るいアプリケーションの約束を示し、計算能力を高める。
論文参考訳（メタデータ） (2020-01-17T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。