Fugu-MT 論文翻訳(概要): Strategy Extraction in Single-Agent Games

論文の概要: Strategy Extraction in Single-Agent Games

arxiv url: http://arxiv.org/abs/2305.12623v1
Date: Mon, 22 May 2023 01:28:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-23 19:05:11.686679
Title: Strategy Extraction in Single-Agent Games
Title（参考訳）: シングルエージェントゲームにおける戦略抽出
Authors: Archana Vadakattu, Michelle Blom, Adrian R. Pearce
Abstract要約: 本研究では,行動戦略を用いた知識伝達を,人間の認知能力に左右される伝達可能な知識の形式として提案する。提案手法は,Pacman, Bank Heist, Dungeon-crawling(ダンジョンクローリングゲーム)の3つの環境において有効な戦略を同定できることを示す。
参考スコア（独自算出の注目度）: 0.19336815376402716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ability to continuously learn and adapt to new situations is one where humans are far superior compared to AI agents. We propose an approach to knowledge transfer using behavioural strategies as a form of transferable knowledge influenced by the human cognitive ability to develop strategies. A strategy is defined as a partial sequence of events - where an event is both the result of an agent's action and changes in state - to reach some predefined event of interest. This information acts as guidance or a partial solution that an agent can generalise and use to make predictions about how to handle unknown observed phenomena. As a first step toward this goal, we develop a method for extracting strategies from an agent's existing knowledge that can be applied in multiple contexts. Our method combines observed event frequency information with local sequence alignment techniques to find patterns of significance that form a strategy. We show that our method can identify plausible strategies in three environments: Pacman, Bank Heist and a dungeon-crawling video game. Our evaluation serves as a promising first step toward extracting knowledge for generalisation and, ultimately, transfer learning.
Abstract（参考訳）: 新しい状況に継続的に学習し適応する能力は、aiエージェントよりも人間がはるかに優れている能力です。本研究では,行動戦略を用いた知識伝達を,人間の認知能力に左右される伝達可能な知識の形式として提案する。イベントはエージェントのアクションの結果と状態の変化の両方であり、事前に定義されたイベントに到達するための、イベントの部分的なシーケンスとして定義される。この情報は、エージェントが一般化し、未知の現象を扱う方法を予測するために使用できるガイダンスまたは部分解として機能する。この目標に向けた第一歩として,複数の文脈に適用可能なエージェントの既存の知識から戦略を抽出する手法を開発した。本手法は,観測された事象頻度情報と局所配列アライメント手法を組み合わせることで,戦略を形成する重要なパターンを見つける。提案手法は,pacman,bank heist,dungeon-crawlingゲームという3つの環境において,妥当な戦略を識別できることを示す。我々の評価は、一般化のための知識を抽出し、究極的には、伝達学習への第一歩となる。

関連論文リスト

Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)
Experience-driven discovery of planning strategies [0.9821874476902969]
メタ認知的強化学習によって新たな計画戦略が発見されることを示す。人間のデータに合わせると、これらのモデルは人間よりも遅い発見率を示し、改善の余地を残している。
論文参考訳（メタデータ） (2024-12-04T08:20:03Z)
Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。 STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。 2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文参考訳（メタデータ） (2024-09-28T14:30:17Z)
AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文参考訳（メタデータ） (2024-03-19T15:41:39Z)
Learnability Gaps of Strategic Classification [68.726857356532]
我々は,戦略的分類と標準学習の間にある学習可能性のギャップという,根本的な問題に対処することに注力する。ほぼ厳密なサンプルの複雑さと後悔の限界を提供し、以前の結果よりも大幅に改善します。この設定における我々のアルゴリズムは、独立して興味を持ち、マルチラベル学習のような他の問題にも適用できる。
論文参考訳（メタデータ） (2024-02-29T16:09:19Z)
Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文参考訳（メタデータ） (2024-02-04T13:02:27Z)
Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文参考訳（メタデータ） (2023-05-30T16:09:19Z)
Explaining Agent's Decision-making in a Hierarchical Reinforcement Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文参考訳（メタデータ） (2022-12-14T01:18:45Z)
A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文参考訳（メタデータ） (2022-08-17T21:58:19Z)
Learning Meta Representations for Agents in Multi-Agent Reinforcement Learning [12.170248966278281]
多エージェント強化学習では、エージェントが1つのマルコフゲーム(MG)で学習する振る舞いは、通常、与えられたエージェント番号に制限される。本研究は,人口変動型MGを対象とするエージェントの創出に焦点をあてる。一元的なポリシーを学ぶ代わりに、各エージェントは、様々なゲームにまたがる効果的な戦略を構成するポリシーセットを学ぶ。
論文参考訳（メタデータ） (2021-08-30T04:30:53Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文参考訳（メタデータ） (2020-04-08T14:11:05Z)
Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文参考訳（メタデータ） (2020-02-24T20:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。