論文の概要: Untangling Braids with Multi-agent Q-Learning
- arxiv url: http://arxiv.org/abs/2109.14502v1
- Date: Wed, 29 Sep 2021 15:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 14:56:42.466864
- Title: Untangling Braids with Multi-agent Q-Learning
- Title(参考訳): マルチエージェントQ-Learningを用いたアンタングリングブレイド
- Authors: Abdullah Khan, Alexei Vernitski, Alexei Lisitsa
- Abstract要約: 我々は強化学習を用いて、ろうそくを解き放つ問題に対処する。
競合する2人のプレーヤーは、編み物を絞め、アンタングルすることを学びます。
我々はOpenAI Gym環境とブレイドアンハングリング問題をインターフェースする。
- 参考スコア(独自算出の注目度): 4.38301148531795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We use reinforcement learning to tackle the problem of untangling braids. We
experiment with braids with 2 and 3 strands. Two competing players learn to
tangle and untangle a braid. We interface the braid untangling problem with the
OpenAI Gym environment, a widely used way of connecting agents to reinforcement
learning problems. The results provide evidence that the more we train the
system, the better the untangling player gets at untangling braids. At the same
time, our tangling player produces good examples of tangled braids.
- Abstract(参考訳): 我々は強化学習を用いて、ろうそくを解き放つ問題に対処する。
2本と3本鎖の編み込み実験を行った。
2人の競合するプレーヤーがブレイドを絡めて絡むことを学びます。
我々は、エージェントを強化学習問題に接続する方法として広く使われているOpenAI Gym環境と組み合わさっている。
その結果、システムを訓練すればするほど、おびただしいプレイヤーが身動きが取れなくなるという証拠が得られます。
同時に、我々のタングリングプレーヤーは、絡み合った編み物のよい例を生み出します。
関連論文リスト
- Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Adversarial Training via Adaptive Knowledge Amalgamation of an Ensemble of Teachers [0.0]
Adversarial Training (AT)は、強力なディープニューラルネットワーク(DNN)を敵の攻撃に対して訓練する一般的な方法である。
本稿では,教師のアンサンブル(AT-aka)のアダプティブ・ナレッジ・アマルガメーションによる対人訓練について紹介する。
特に,教師のアンサンブルへの入力として多種多様な対人サンプルを生成し,これらの教師の対物関係を適応化し,汎用的なローバストな生徒を訓練する。
論文 参考訳(メタデータ) (2024-05-22T03:47:55Z) - Machine learning discovers invariants of braids and flat braids [2.4063592468412267]
機械学習を用いて、ブレイド(またはフラットブレイド)の例を自明または非自明と分類する。
我々は、フラットブレイドの完全な不変量を含む、新しい便利なブレイド不変量を求める。
論文 参考訳(メタデータ) (2023-07-22T23:18:19Z) - Online Learning in Stackelberg Games with an Omniscient Follower [83.42564921330896]
オンライン学習の課題を2人のプレイヤーによる分散協調型Stackelbergゲームで検討する。
各ラウンドで、まずリーダーが行動を起こし、次にリーダーの動きを観察した後に行動を起こすフォロワーが続く。
報酬構造によっては、全能なフォロワーの存在が、サンプルの複雑さを大きく変える可能性があることを示す。
論文 参考訳(メタデータ) (2023-01-27T03:35:10Z) - Autonomously Untangling Long Cables [79.09016120505088]
ケーブルは多くの設定でユビキタスですが、セルフオクルージョンや結び目が多いです。
本稿では,二足歩行ロボットを用いて,最大3mのケーブルを自律的にアンハングリングすることに焦点を当てた。
我々は,この作業に特化した長尺ケーブルと新しい顎を効率的に切り離す新しい動作プリミティブを開発した。
論文 参考訳(メタデータ) (2022-07-16T02:35:09Z) - An application of neural networks to a problem in knot theory and group
theory (untangling braids) [2.4063592468412267]
我々は、強化学習の枠組みとしてフィードフォワードニューラルネットワークを使用して、エージェントを訓練し、最小数の動作でレイドマイスターの動きを解き放つために、レイドマイスターの動きを選択する。
論文 参考訳(メタデータ) (2022-06-10T23:04:48Z) - Compatibility of Braiding and Fusion on Wire Networks [0.0]
グラフ上での粒子の交換、あるいはより具体的には量子ワイヤのネットワーク上での粒子の交換は、フォールトトレラントな量子計算を行う手段として提案されている。
通常の平面正則解だけでなく、より一般的なブレイド作用も見出す。
我々はこれをAbelian、Fibonacci、Ising fusion Ruleで説明する。
論文 参考訳(メタデータ) (2022-02-16T17:28:06Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Learning to Unknot [0.0]
結び目理論の研究に自然言語処理を導入する。
与えられた結び目が無節かどうかを判定するUNKNOT問題について検討する。
ブレイド関係はマルコフ運動の1つよりもカンノットを単純化するのに有用である。
論文 参考訳(メタデータ) (2020-10-28T18:00:05Z) - Online Learning in Unknown Markov Games [55.07327246187741]
未知のマルコフゲームでオンライン学習を学ぶ。
後方視における最良の反応に対するサブ線形後悔の達成は統計的に困難であることを示す。
サブ線形$tildemathcalO(K2/3)$ regretを$K$のエピソード後に達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:52:15Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。