論文の概要: Using Graph-Aware Reinforcement Learning to Identify Winning Strategies
in Diplomacy Games (Student Abstract)
- arxiv url: http://arxiv.org/abs/2112.15331v1
- Date: Fri, 31 Dec 2021 07:38:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 21:35:29.358076
- Title: Using Graph-Aware Reinforcement Learning to Identify Winning Strategies
in Diplomacy Games (Student Abstract)
- Title(参考訳): グラフアウェア強化学習を用いた外交ゲームにおける勝利戦略の同定(学生抽象)
- Authors: Hansin Ahuja, Lynnette Hui Xian Ng, Kokil Jaidka
- Abstract要約: 本稿では,オンライン政治戦略ゲームにおける多人数談話における複雑な社会現象の検出とモデル化の目標指向モデルへのアプローチを提案する。
まず,言語的特徴として社会言語的振る舞いを符号化し,次に強化学習を用いてプレイヤーに与えられる利点を推定する2段階のアプローチを開発した。
我々のグラフ認識アプローチは、コンテキストに依存しないセットアップに比べて堅牢なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 9.34612743192798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This abstract proposes an approach towards goal-oriented modeling of the
detection and modeling complex social phenomena in multiparty discourse in an
online political strategy game. We developed a two-tier approach that first
encodes sociolinguistic behavior as linguistic features then use reinforcement
learning to estimate the advantage afforded to any player. In the first tier,
sociolinguistic behavior, such as Friendship and Reasoning, that speakers use
to influence others are encoded as linguistic features to identify the
persuasive strategies applied by each player in simultaneous two-party
dialogues. In the second tier, a reinforcement learning approach is used to
estimate a graph-aware reward function to quantify the advantage afforded to
each player based on their standing in this multiparty setup. We apply this
technique to the game Diplomacy, using a dataset comprising of over 15,000
messages exchanged between 78 users. Our graph-aware approach shows robust
performance compared to a context-agnostic setup.
- Abstract(参考訳): 本稿では,オンライン政治戦略ゲームにおける多人数談話における複雑な社会現象の検出とモデル化の目標指向モデルへのアプローチを提案する。
まず,社会言語学的行動を言語的特徴としてエンコードし,強化学習を用いてプレイヤーに与える利点を推定する2層アプローチを開発した。
第1段階において、他者に影響を与えるために話者が使用する社会言語的行動は、同時二者対話において各プレイヤーが適用する説得的戦略を特定するために言語的特徴として符号化される。
第2層では、強化学習手法を用いて、グラフ認識報酬関数を推定し、この多人数構成において、各プレイヤーに与えられる利点を定量化する。
78人のユーザ間で15,000以上のメッセージを交換するデータセットを用いて,この手法をゲーム外交に適用する。
我々のグラフ認識アプローチは、コンテキストに依存しないセットアップに比べて堅牢なパフォーマンスを示している。
関連論文リスト
- Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - player2vec: A Language Modeling Approach to Understand Player Behavior in Games [2.2216044069240657]
過去の行動ログから潜在ユーザ表現を学習する手法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。
本稿では,長距離トランスフォーマーモデルをプレイヤーの行動データに拡張することで,この制限を克服する新しい手法を提案する。
ゲームにおける行動追跡の具体性について議論し,文中の単語に類似した方法でゲーム内イベントを視聴することで,前処理とトークン化のアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:29:47Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Werewolf Among Us: A Multimodal Dataset for Modeling Persuasion
Behaviors in Social Deduction Games [45.55448048482881]
本稿では,説得行動のモデル化のための最初のマルチモーダルデータセットを提案する。
データセットには199の対話文とビデオ,26,647の発話レベルアノテーションの説得戦略,ゲームレベルアノテーションの推論ゲーム結果が含まれている。
論文 参考訳(メタデータ) (2022-12-16T04:52:53Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Incorporating Pragmatic Reasoning Communication into Emergent Language [38.134221799334426]
我々は、言語コミュニケーションのダイナミクスを、かなり異なるインテリジェンスとインテリジェンスレベルに沿って研究する。
本稿では,短期的相互推論に基づく実用主義と長期言語創発主義を組み合わせた計算モデルを提案する。
我々の結果は、より自然で正確で、堅牢で、きめ細かな、簡潔な発話を実現するための道を開くことの重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2020-06-07T10:31:06Z) - Predicting Strategic Behavior from Free Text [38.506665373140876]
我々は,ゲームとしてモデル化された経済状況下でのメッセージと行動の関連性について検討する。
本研究では,個人が提供した自由テキストに基づくワンショットゲームにおいて,個人の行動予測に関する研究を紹介する。
これらの属性に基づいたワンショットゲームにおいて,これらの個人が行う行動を予測するために,トランスダクティブ・ラーニング(transductive learning)を採用している。
論文 参考訳(メタデータ) (2020-04-06T20:05:30Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。