Fugu-MT 論文翻訳(概要): A Comparison of Self-Play Algorithms Under a Generalized Framework

論文の概要: A Comparison of Self-Play Algorithms Under a Generalized Framework

arxiv url: http://arxiv.org/abs/2006.04471v1
Date: Mon, 8 Jun 2020 11:02:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 02:19:08.602489
Title: A Comparison of Self-Play Algorithms Under a Generalized Framework
Title（参考訳）: 一般化フレームワークによるセルフプレイアルゴリズムの比較
Authors: Daniel Hernandez, Kevin Denamganai, Sam Devlin, Spyridon Samothrakis, James Alfred Walker
Abstract要約: マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
参考スコア（独自算出の注目度）: 4.339542790745868
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Throughout scientific history, overarching theoretical frameworks have allowed researchers to grow beyond personal intuitions and culturally biased theories. They allow to verify and replicate existing findings, and to link is connected results. The notion of self-play, albeit often cited in multiagent Reinforcement Learning, has never been grounded in a formal model. We present a formalized framework, with clearly defined assumptions, which encapsulates the meaning of self-play as abstracted from various existing self-play algorithms. This framework is framed as an approximation to a theoretical solution concept for multiagent training. On a simple environment, we qualitatively measure how well a subset of the captured self-play methods approximate this solution when paired with the famous PPO algorithm. We also provide insights on interpreting quantitative metrics of performance for self-play training. Our results indicate that, throughout training, various self-play definitions exhibit cyclic policy evolutions.
Abstract（参考訳）: 科学史を通じて、包括的な理論の枠組みにより、研究者は個人的な直観や文化的に偏った理論を越えて成長することができた。既存の発見を検証し、複製し、接続された結果をリンクすることができる。マルチエージェント強化学習でしばしば引用される自己遊びの概念は、形式的モデルに基づかない。我々は,既存の様々な自己遊びアルゴリズムから抽象化された自己遊びの意味をカプセル化した,明確な仮定を持つ形式化されたフレームワークを提案する。このフレームワークは、マルチエージェントトレーニングのための理論解の概念の近似として構成されている。簡単な環境では、キャプチャーされた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを定性的に測定する。また、セルフプレイトレーニングのパフォーマンスの定量的指標の解釈に関する洞察も提供する。以上の結果から, 学習を通じて, 様々なセルフプレイ定義が周期的な政策進化を示すことが示唆された。

関連論文リスト

Generalising from Self-Produced Data: Model Training Beyond Human Constraints [0.0]
本稿では,AIモデルが新たな知識を自律的に生成し,検証する新しい枠組みを提案する。このアプローチの中心は、人間のベンチマークを必要とせずに学習をガイドする、無制限で使い捨ての数値報酬である。
論文参考訳（メタデータ） (2025-04-07T03:48:02Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
How to Probe: Simple Yet Effective Techniques for Improving Post-hoc Explanations [69.72654127617058]
ポストホック重要属性法は、ディープニューラルネットワーク(DNN)を"説明"するための一般的なツールであるこの研究において、我々はこの概念に挑戦する経験的証拠を提示する。トレーニング済みモデルの分類レイヤのトレーニング詳細が重要な役割を果たすことを示す。
論文参考訳（メタデータ） (2025-03-01T22:25:11Z)
Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。提案アルゴリズムは,ベイズ理論をモデルとした。本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文参考訳（メタデータ） (2025-02-17T15:08:50Z)
A Survey on Self-play Methods in Reinforcement Learning [30.17222344626277]
エージェントとコピーや過去のバージョンとの相互作用を特徴とするセルフプレイは、近年、強化学習において注目されている。本稿では,マルチエージェント強化学習フレームワークやゲーム理論の基本概念を含む,自己プレイの予備的概念を明らかにする。統合されたフレームワークを提供し、このフレームワーク内で既存のセルフプレイアルゴリズムを分類する。
論文参考訳（メタデータ） (2024-08-02T07:47:51Z)
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文参考訳（メタデータ） (2024-06-04T07:22:12Z)
A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。自己教師型学習のための生成潜在変数モデルを提案する。対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文参考訳（メタデータ） (2024-02-02T13:31:17Z)
Bridging State and History Representations: Understanding Self-Predictive RL [24.772140132462468]
マルコフ決定過程(MDPs)と部分的に観測可能なマルコフ決定過程(POMDPs)のすべての強化学習(RL)手法の中核に表現がある状態と歴史を抽象化するこれらの明らかに異なる方法やフレームワークの多くは、実際、自己予測的抽象化の共通概念に基づいています。我々は、自己予測表現の学習において、停止段階技術のような広く採用されている目的と最適化に関する理論的洞察を提供する。
論文参考訳（メタデータ） (2024-01-17T00:47:43Z)
Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文参考訳（メタデータ） (2023-12-18T23:31:01Z)
Semi-supervised learning made simple with self-supervised clustering [65.98152950607707]
自己教師付き学習モデルは、人間のアノテーションを必要とせずにリッチな視覚表現を学習することが示されている。本稿では,クラスタリングに基づく自己教師付き手法を半教師付き学習者へと変換する,概念的に単純だが経験的に強力な手法を提案する。
論文参考訳（メタデータ） (2023-06-13T01:09:18Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文参考訳（メタデータ） (2021-02-02T14:30:41Z)
Instance-Based Learning of Span Representations: A Case Study through Named Entity Recognition [48.06319154279427]
本研究では,スパン間の類似性を学習するインスタンスベースの学習手法を提案する。本手法では,性能を犠牲にすることなく高い解釈性を持つモデルを構築することができる。
論文参考訳（メタデータ） (2020-04-29T23:32:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。