Fugu-MT 論文翻訳(概要): Deviation Ratings: A General, Clone-Invariant Rating Method

論文の概要: Deviation Ratings: A General, Clone-Invariant Rating Method

arxiv url: http://arxiv.org/abs/2502.11645v1
Date: Mon, 17 Feb 2025 10:39:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.21108
Title: Deviation Ratings: A General, Clone-Invariant Rating Method
Title（参考訳）: 偏差レーティング:一般的なクローン不変レーティング方法
Authors: Luke Marris, Siqi Liu, Ian Gemp, Georgios Piliouras, Marc Lanctot,
Abstract要約: この研究は、粗相関平衡に基づく偏差レーティングと呼ばれる、最初のN-プレイヤーの一般サムクローン不変レーティングを導入する。 LLMの評価を含むいくつかの領域で評価されている。
参考スコア（独自算出の注目度）: 39.480611712794094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many real-world multi-agent or multi-task evaluation scenarios can be naturally modelled as normal-form games due to inherent strategic (adversarial, cooperative, and mixed motive) interactions. These strategic interactions may be agentic (e.g. players trying to win), fundamental (e.g. cost vs quality), or complementary (e.g. niche finding and specialization). In such a formulation, it is the strategies (actions, policies, agents, models, tasks, prompts, etc.) that are rated. However, the rating problem is complicated by redundancy and complexity of N-player strategic interactions. Repeated or similar strategies can distort ratings for those that counter or complement them. Previous work proposed ``clone invariant'' ratings to handle such redundancies, but this was limited to two-player zero-sum (i.e. strictly competitive) interactions. This work introduces the first N-player general-sum clone invariant rating, called deviation ratings, based on coarse correlated equilibria. The rating is explored on several domains including LLMs evaluation.
Abstract（参考訳）: 多くの実世界のマルチエージェントまたはマルチタスク評価シナリオは、本質的に戦略的(対外的、協調的、混合動機)相互作用のため、自然に正規形式ゲームとしてモデル化することができる。これらの戦略的相互作用は、エージェント的(例えば勝とうとするプレイヤー)、基本(例えばコスト対品質)、補完的(例えばニッチの発見と特殊化)である。このような定式化において、評価される戦略(アクション、ポリシー、エージェント、モデル、タスク、プロンプトなど)である。しかし、評価問題はNプレイヤーの戦略的相互作用の冗長性と複雑さによって複雑である。繰り返し、あるいは同様の戦略は、それらに対抗する、あるいは補完する人たちの格付けを歪めてしまう可能性がある。以前の研究はそのような冗長性を扱うために ``clone invariant'' の評価を提案したが、これは2つのプレイヤーゼロサム相互作用(すなわち厳密な競争力を持つ)に限られていた。この研究は、粗相関平衡に基づく偏差レーティングと呼ばれる、最初のN-プレイヤーの一般サムクローン不変レーティングを導入する。 LLMの評価を含むいくつかの領域で評価されている。

関連論文リスト

Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文参考訳（メタデータ） (2024-06-16T15:24:50Z)
Paths to Equilibrium in Games [6.812247730094933]
我々は、強化学習におけるポリシー更新に触発されたペアワイズ制約を満たす戦略の列について研究する。我々の分析は、戦略的な更新を劣化させる報酬が、満足のいく道に沿って均衡に進むための鍵である、という直感的な洞察を明らかにした。
論文参考訳（メタデータ） (2024-03-26T19:58:39Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
Strategic Apple Tasting [35.25249063553063]
ハイテイク領域におけるアルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。我々は、この設定をリンゴ味のフィードバックによるオンライン学習問題として定式化する。我々の目標は、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。
論文参考訳（メタデータ） (2023-06-09T20:46:31Z)
On the Complexity of Multi-Agent Decision Making: From Learning in Games to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文参考訳（メタデータ） (2023-05-01T06:46:22Z)
Opponent Modeling in Multiplayer Imperfect-Information Games [1.024113475677323]
マルチプレイヤー不完全情報ゲームにおける対戦相手モデルへのアプローチを提案する。我々は,3人プレイヤのクーンポーカーにおいて,種々の実敵と正確なナッシュ均衡戦略に対する実験を行う。我々のアルゴリズムは、正確なナッシュ均衡戦略を含む全てのエージェントを著しく上回る。
論文参考訳（メタデータ） (2022-12-12T16:48:53Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
No Agreement Without Loss: Learning and Social Choice in Peer Review [0.0]
それぞれのレビュアーが、機能セットからレコメンデーションへの独自のマッピングを持っていると仮定してもよいでしょう。これは、共振バイアス(commensuration bias)として知られる任意の要素を導入する。 Noothigattu, Shah and Procaccia は、ある種の損失関数を最小化することによってレビュアーのマッピングを集約することを提案した。
論文参考訳（メタデータ） (2022-11-03T21:03:23Z)
Game Theoretic Rating in N-player general-sum games with Equilibria [26.166859475522106]
そこで我々は,N-playerに適した新しいアルゴリズムを提案する。これにより、平衡のような確立された解の概念を利用でき、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
論文参考訳（メタデータ） (2022-10-05T12:33:03Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Provably Efficient Offline Multi-agent Reinforcement Learning via Strategy-wise Bonus [48.34563955829649]
本稿では,共同戦略の信頼区間を構築する戦略的な集中原理を提案する。 2人のプレイヤーによるゼロサムマルコフゲームの場合、戦略的なボーナスの凸性を利用して効率的なアルゴリズムを提案する。すべてのアルゴリズムは、指定済みの戦略クラスである$Pi$を入力として取り、最良の戦略に近い戦略を$Pi$で出力することができる。
論文参考訳（メタデータ） (2022-06-01T00:18:15Z)
On the Impossibility of Convergence of Mixed Strategies with No Regret Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文参考訳（メタデータ） (2020-12-03T18:02:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。