Fugu-MT 論文翻訳(概要): States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers

論文の概要: States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers

arxiv url: http://arxiv.org/abs/2402.01704v2
Date: Tue, 6 Feb 2024 08:53:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 18:49:57.985259
Title: States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers
Title（参考訳）: 戦略としての文字列としてのステート:ゲーム理論による言語モデルの操り方
Authors: Ian Gemp, Yoram Bachrach, Marc Lanctot, Roma Patel, Vibhavari Dasagi, Luke Marris, Georgios Piliouras, Siqi Liu, Karl Tuyls
Abstract要約: 言語相互作用に関連するプレイヤー、戦略、ペイオフの適切なモデルにより、既存のゲーム理論アルゴリズムは言語空間における戦略的解決策を提供することができる。本稿では,対話からゲーム理論への結合の可能性と,既存の平衡探索アルゴリズムの一般化について述べる。
参考スコア（独自算出の注目度）: 44.64118885012762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Game theory is the study of mathematical models of strategic interactions among rational agents. Language is a key medium of interaction for humans, though it has historically proven difficult to model dialogue and its strategic motivations mathematically. A suitable model of the players, strategies, and payoffs associated with linguistic interactions (i.e., a binding to the conventional symbolic logic of game theory) would enable existing game-theoretic algorithms to provide strategic solutions in the space of language. In other words, a binding could provide a route to computing stable, rational conversational strategies in dialogue. Large language models (LLMs) have arguably reached a point where their generative capabilities can enable realistic, human-like simulations of natural dialogue. By prompting them in various ways, we can steer their responses towards different output utterances. Leveraging the expressivity of natural language, LLMs can also help us quickly generate new dialogue scenarios, which are grounded in real world applications. In this work, we present one possible binding from dialogue to game theory as well as generalizations of existing equilibrium finding algorithms to this setting. In addition, by exploiting LLMs generation capabilities along with our proposed binding, we can synthesize a large repository of formally-defined games in which one can study and test game-theoretic solution concepts. We also demonstrate how one can combine LLM-driven game generation, game-theoretic solvers, and imitation learning to construct a process for improving the strategic capabilities of LLMs.
Abstract（参考訳）: ゲーム理論は、合理的エージェント間の戦略的相互作用の数学的モデルの研究である。言語は人間にとって重要な対話手段であるが、歴史的に対話とその戦略的動機を数学的にモデル化することは困難である。言語相互作用に関連するプレイヤー、戦略、報酬の適切なモデル(つまり、ゲーム理論の従来の象徴論理への結合)は、既存のゲーム理論アルゴリズムが言語空間における戦略的な解決策を提供することができる。言い換えれば、バインディングは対話における安定した合理的な会話戦略を計算するための経路を提供することができる。大規模言語モデル(llm)は、その生成能力が自然対話の現実的な人間のようなシミュレーションを可能にする点に到達している。様々な方法でそれらを促すことで、異なる出力発話に対して反応を制御できる。自然言語の表現力を活用することで、llmは現実世界のアプリケーションで基盤となる新しい対話シナリオを迅速に生成する上でも役立ちます。本研究では,対話からゲーム理論への結合の可能性と,既存の平衡探索アルゴリズムの一般化について述べる。さらに,提案するバインディングとともにllms生成機能を活用することで,ゲーム理論的なソリューション概念を学習し,テスト可能な,公式なゲームリポジトリを合成することができる。また, LLM によるゲーム生成, ゲーム理論解法, 模倣学習を組み合わせて, LLM の戦略能力向上のプロセスを構築する方法を示す。

関連論文リスト

Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization [13.496120603859701]
大規模言語モデル(LLM)ベースのエージェントは、最近、様々な領域で顕著な進歩を見せている。これらのエージェントを、戦略的意思決定と自由形式の言語相互作用の両方を必要とするWerewolfのような社会的推論ゲームに適用することは、依然として簡単ではない。本稿では,まず自由形式のテキストを離散的な潜在空間にマッピングすることで,これらの課題に対処する反復的フレームワークであるLatent Space Policy Optimization (LSPO)を提案する。
論文参考訳（メタデータ） (2025-02-07T06:19:55Z)
Verbalized Bayesian Persuasion [54.55974023595722]
情報設計(ID)は、送信者が受信者の最適な振る舞いにどのように影響し、特定の目的を達成するかを探索する。本研究は,従来のBPを人間の対話を含む現実のゲームに拡張した,ベイズ説得(BP)における言語化フレームワークを提案する。勧告書,法廷相互作用,法執行機関などの対話シナリオにおける数値実験により,従来のBPの理論的結果の再現と効果的な説得戦略の発見が可能であることを確認した。
論文参考訳（メタデータ） (2025-02-03T18:20:10Z)
Autoformalization of Game Descriptions using Large Language Models [3.5083201638203154]
ゲーム理論シナリオの自動形式化のためのフレームワークを提案する。これは、自然言語の記述を形式的解法に適した形式論理表現に変換する。 GPT-4oと自然言語問題記述のデータセットを用いたフレームワークの評価を行った。
論文参考訳（メタデータ） (2024-09-18T20:18:53Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。 Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文参考訳（メタデータ） (2023-11-06T16:03:46Z)
Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models [105.39236338147715]
この論文は人気のある言語ゲーム『Who is Spy』にインスパイアされている。本研究は,LEMの表現と変形能力を評価するためのDEEPを開発する。次に、インタラクティブなマルチエージェントフレームワークであるSpyGameを紹介します。
論文参考訳（メタデータ） (2023-10-31T14:37:42Z)
Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf [19.39740531672788]
通信ゲームにおいて,大規模言語モデルに係わるチューニング不要なフレームワークを提案する。代表的で広く研究されているコミュニケーションゲームWerewolf'の実証的研究は、我々のフレームワークがLLMのパラメータを調整せずにWerewolfゲームを効果的にプレイできることを実証している。
論文参考訳（メタデータ） (2023-09-09T01:56:40Z)
Strategic Reasoning with Language Models [35.63300060111918]
戦略的推論は、エージェントが様々な状況において他のエージェントと協力し、コミュニケーションし、競合することを可能にする。既存の戦略ゲームに対するアプローチは、広範なトレーニングに依存しており、再訓練なしに新しいシナリオやゲームに一般化しない戦略を生み出している。本稿では,AIエージェントの戦略的推論を可能にするために,事前訓練された大規模言語モデルと数発の連鎖例を用いたアプローチを提案する。
論文参考訳（メタデータ） (2023-05-30T16:09:19Z)
Inner Monologue: Embodied Reasoning through Planning with Language Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文参考訳（メタデータ） (2022-07-12T15:20:48Z)
Emergent Communication of Generalizations [13.14792537601313]
共有された視覚的コンテキストにおける1つのオブジェクトのコミュニケーションは、過度に適合する傾向があり、具体的な参照を超えて、言語が役に立つことを奨励しない、と我々は主張する。抽象的な視覚概念を表すオブジェクトの集合上での通信一般化を必要とするゲームを提案する。これらのゲームは学習言語の体系性と解釈可能性を大幅に向上させる。
論文参考訳（メタデータ） (2021-06-04T19:02:18Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)
I love your chain mail! Making knights smile in a fantasy game world: Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文参考訳（メタデータ） (2020-02-07T16:22:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。