論文の概要: States as Strings as Strategies: Steering Language Models with
Game-Theoretic Solvers
- arxiv url: http://arxiv.org/abs/2402.01704v2
- Date: Tue, 6 Feb 2024 08:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 18:49:57.985259
- Title: States as Strings as Strategies: Steering Language Models with
Game-Theoretic Solvers
- Title(参考訳): 戦略としての文字列としてのステート:ゲーム理論による言語モデルの操り方
- Authors: Ian Gemp, Yoram Bachrach, Marc Lanctot, Roma Patel, Vibhavari Dasagi,
Luke Marris, Georgios Piliouras, Siqi Liu, Karl Tuyls
- Abstract要約: 言語相互作用に関連するプレイヤー、戦略、ペイオフの適切なモデルにより、既存のゲーム理論アルゴリズムは言語空間における戦略的解決策を提供することができる。
本稿では,対話からゲーム理論への結合の可能性と,既存の平衡探索アルゴリズムの一般化について述べる。
- 参考スコア(独自算出の注目度): 44.64118885012762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Game theory is the study of mathematical models of strategic interactions
among rational agents. Language is a key medium of interaction for humans,
though it has historically proven difficult to model dialogue and its strategic
motivations mathematically. A suitable model of the players, strategies, and
payoffs associated with linguistic interactions (i.e., a binding to the
conventional symbolic logic of game theory) would enable existing
game-theoretic algorithms to provide strategic solutions in the space of
language. In other words, a binding could provide a route to computing stable,
rational conversational strategies in dialogue. Large language models (LLMs)
have arguably reached a point where their generative capabilities can enable
realistic, human-like simulations of natural dialogue. By prompting them in
various ways, we can steer their responses towards different output utterances.
Leveraging the expressivity of natural language, LLMs can also help us quickly
generate new dialogue scenarios, which are grounded in real world applications.
In this work, we present one possible binding from dialogue to game theory as
well as generalizations of existing equilibrium finding algorithms to this
setting. In addition, by exploiting LLMs generation capabilities along with our
proposed binding, we can synthesize a large repository of formally-defined
games in which one can study and test game-theoretic solution concepts. We also
demonstrate how one can combine LLM-driven game generation, game-theoretic
solvers, and imitation learning to construct a process for improving the
strategic capabilities of LLMs.
- Abstract(参考訳): ゲーム理論は、合理的エージェント間の戦略的相互作用の数学的モデルの研究である。
言語は人間にとって重要な対話手段であるが、歴史的に対話とその戦略的動機を数学的にモデル化することは困難である。
言語相互作用に関連するプレイヤー、戦略、報酬の適切なモデル(つまり、ゲーム理論の従来の象徴論理への結合)は、既存のゲーム理論アルゴリズムが言語空間における戦略的な解決策を提供することができる。
言い換えれば、バインディングは対話における安定した合理的な会話戦略を計算するための経路を提供することができる。
大規模言語モデル(llm)は、その生成能力が自然対話の現実的な人間のようなシミュレーションを可能にする点に到達している。
様々な方法でそれらを促すことで、異なる出力発話に対して反応を制御できる。
自然言語の表現力を活用することで、llmは現実世界のアプリケーションで基盤となる新しい対話シナリオを迅速に生成する上でも役立ちます。
本研究では,対話からゲーム理論への結合の可能性と,既存の平衡探索アルゴリズムの一般化について述べる。
さらに,提案するバインディングとともにllms生成機能を活用することで,ゲーム理論的なソリューション概念を学習し,テスト可能な,公式なゲームリポジトリを合成することができる。
また, LLM によるゲーム生成, ゲーム理論解法, 模倣学習を組み合わせて, LLM の戦略能力向上のプロセスを構築する方法を示す。
関連論文リスト
- Verbalized Bayesian Persuasion [54.55974023595722]
情報設計(ID)は、送信者が受信者の最適な振る舞いにどのように影響し、特定の目的を達成するかを探索する。
本研究は,従来のBPを人間の対話を含む現実のゲームに拡張した,ベイズ説得(BP)における言語化フレームワークを提案する。
勧告書,法廷相互作用,法執行機関などの対話シナリオにおける数値実験により,従来のBPの理論的結果の再現と効果的な説得戦略の発見が可能であることを確認した。
論文 参考訳(メタデータ) (2025-02-03T18:20:10Z) - Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game [32.791648070823776]
Werewolfは、言語理解をテストするソーシャル推論ゲームである。
マルチエージェントKahneman & Tversky's Optimization (MaKTO) を開発した。
MaKTOは様々なモデルの平均勝利率を61%達成している。
論文 参考訳(メタデータ) (2025-01-24T04:09:03Z) - Mastering Board Games by External and Internal Planning with Language Models [30.782334791241556]
検索ベースプランニングにより,複数のボードゲームにおいてLLMのプレイ能力を大幅に向上させることができることを示す。
外部探索において、モデルはモンテカルロ木探索のロールアウトと外部エンジンへの呼び出しなしに評価をガイドし、内部探索では、モデルが潜在的将来性の線形化木を直接コンテキスト内で生成する。
どちらも、関連するドメイン知識に基づいて事前訓練された言語モデルを構築し、これらのゲーム間の遷移と価値関数をキャプチャする。
論文 参考訳(メタデータ) (2024-12-02T18:56:51Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf [19.39740531672788]
通信ゲームにおいて,大規模言語モデルに係わるチューニング不要なフレームワークを提案する。
代表的で広く研究されているコミュニケーションゲームWerewolf'の実証的研究は、我々のフレームワークがLLMのパラメータを調整せずにWerewolfゲームを効果的にプレイできることを実証している。
論文 参考訳(メタデータ) (2023-09-09T01:56:40Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Emergent Communication of Generalizations [13.14792537601313]
共有された視覚的コンテキストにおける1つのオブジェクトのコミュニケーションは、過度に適合する傾向があり、具体的な参照を超えて、言語が役に立つことを奨励しない、と我々は主張する。
抽象的な視覚概念を表すオブジェクトの集合上での通信一般化を必要とするゲームを提案する。
これらのゲームは学習言語の体系性と解釈可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-04T19:02:18Z) - I love your chain mail! Making knights smile in a fantasy game world:
Open-domain goal-oriented dialogue agents [69.68400056148336]
我々は、模倣学習したチトチャットモデルに対して強化学習を施した目標指向モデルを訓練する。
両モデルが逆モデルベースラインより優れており,目標を達成するために対話相手と自然に会話できることを示す。
論文 参考訳(メタデータ) (2020-02-07T16:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。