論文の概要: The Effect of State Representation on LLM Agent Behavior in Dynamic Routing Games
- arxiv url: http://arxiv.org/abs/2506.15624v1
- Date: Wed, 18 Jun 2025 16:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.746069
- Title: The Effect of State Representation on LLM Agent Behavior in Dynamic Routing Games
- Title(参考訳): 動的ルーティングゲームにおける状態表現がLLMエージェントの挙動に及ぼす影響
- Authors: Lyle Goodyear, Rachel Guo, Ramesh Johari,
- Abstract要約: 大規模言語モデル(LLM)は動的設定における意思決定者としての約束を示すが、そのステートレスな性質は、歴史を自然言語で表現する必要がある。
繰り返しマルチエージェントゲームにおいてLLMエージェントを誘導する自然言語「状態」表現を体系的に構築するための統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.267574471145215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown promise as decision-makers in dynamic settings, but their stateless nature necessitates creating a natural language representation of history. We present a unifying framework for systematically constructing natural language "state" representations for prompting LLM agents in repeated multi-agent games. Previous work on games with LLM agents has taken an ad hoc approach to encoding game history, which not only obscures the impact of state representation on agents' behavior, but also limits comparability between studies. Our framework addresses these gaps by characterizing methods of state representation along three axes: action informativeness (i.e., the extent to which the state representation captures actions played); reward informativeness (i.e., the extent to which the state representation describes rewards obtained); and prompting style (or natural language compression, i.e., the extent to which the full text history is summarized). We apply this framework to a dynamic selfish routing game, chosen because it admits a simple equilibrium both in theory and in human subject experiments \cite{rapoport_choice_2009}. Despite the game's relative simplicity, we find that there are key dependencies of LLM agent behavior on the natural language state representation. In particular, we observe that representations which provide agents with (1) summarized, rather than complete, natural language representations of past history; (2) information about regrets, rather than raw payoffs; and (3) limited information about others' actions lead to behavior that more closely matches game theoretic equilibrium predictions, and with more stable game play by the agents. By contrast, other representations can exhibit either large deviations from equilibrium, higher variation in dynamic game play over time, or both.
- Abstract(参考訳): 大規模言語モデル(LLM)は動的設定における意思決定者としての約束を示すが、そのステートレスな性質は、歴史を自然言語で表現する必要がある。
繰り返しマルチエージェントゲームにおいてLLMエージェントを誘導する自然言語「状態」表現を体系的に構築するための統一フレームワークを提案する。
LLMエージェントを用いたゲームにおけるこれまでの研究は、エージェントの行動に対する状態表現の影響を隠蔽するだけでなく、研究間の互換性を制限しているゲーム履歴を符号化するアドホックなアプローチを取ってきた。
私たちのフレームワークは,3つの軸に沿った状態表現の手法を特徴付けることで,これらのギャップに対処する。行動情報性(すなわち,状態表現が実行されたアクションをキャプチャする程度),報奨情報性(すなわち,状態表現が得られる報酬を表現する程度),スタイルの促進(あるいは自然言語圧縮,すなわち,全テキスト履歴が要約される程度)である。
この枠組みを動的自己中心的ルーティングゲームに適用するが、これは理論と人体実験の両方において単純な平衡を持つためである。
ゲームが比較的単純であるにもかかわらず、LLMエージェントの動作には自然言語の状態表現に重要な依存があることが分かる。
特に,(1)過去の歴史の完全な自然言語表現ではなく,(1)エージェントに要約された表現,(2)生の支払いよりも後悔に関する情報,(3)他人の行動に関する情報がゲーム理論の平衡予測とより密に一致し,エージェントによるより安定したゲームプレイをもたらすことが観察された。
対照的に、他の表現は、平衡からの大きな偏差を示すか、時間とともに動的ゲームプレイのより高い変動を示すか、両方を示すことができる。
関連論文リスト
- Generative Agents for Multi-Agent Autoformalization of Interaction Scenarios [3.5083201638203154]
本稿では,GAMA(Generative Agents for Multi-Agent Autoformalization)フレームワークを紹介する。
GAMAは大規模言語モデル(LLM)を付加したエージェントを用いたシミュレーションにおける相互作用シナリオの形式化を自動化する
5つの2x2同時移動ゲームにおける110の自然言語記述の実験では、GAMAは100%構文的、76.5%の意味的正当性を達成している。
論文 参考訳(メタデータ) (2024-12-11T22:37:45Z) - CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds [74.02480671181685]
ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
論文 参考訳(メタデータ) (2024-12-07T12:09:35Z) - player2vec: A Language Modeling Approach to Understand Player Behavior in Games [2.2216044069240657]
過去の行動ログから潜在ユーザ表現を学習する手法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。
本稿では,長距離トランスフォーマーモデルをプレイヤーの行動データに拡張することで,この制限を克服する新しい手法を提案する。
ゲームにおける行動追跡の具体性について議論し,文中の単語に類似した方法でゲーム内イベントを視聴することで,前処理とトークン化のアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:29:47Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Generating Coherent Narratives by Learning Dynamic and Discrete Entity
States with a Contrastive Framework [68.1678127433077]
我々はトランスフォーマーモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。
2つのナラティブデータセットの実験により、我々のモデルは強いベースラインよりも一貫性があり多様なナラティブを生成できることが示された。
論文 参考訳(メタデータ) (2022-08-08T09:02:19Z) - Inherently Explainable Reinforcement Learning in Natural Language [14.117921448623342]
本稿では,本質的に説明可能な強化学習エージェントの開発に焦点をあてる。
この階層的説明可能な強化学習エージェントは、インタラクティブフィクション、テキストベースのゲーム環境で動作する。
私たちのエージェントは、説明責任を第一級市民として扱うように設計されています。
論文 参考訳(メタデータ) (2021-12-16T14:24:35Z) - Pre-trained Language Models as Prior Knowledge for Playing Text-based
Games [2.423547527175808]
本稿では,LMフレームワークを用いたシンプルなRLを提案することにより,エージェントの意味的理解を改善する。
我々は,この人気ゲームであるZolk1において,我々のモデルがどのように既存のエージェントよりも優れているかを実証するために,我々のフレームワークの詳細な研究を行う。
提案手法は,テキストゲームの他のセットにおける最先端モデルに対して,コンパレントに機能する。
論文 参考訳(メタデータ) (2021-07-18T10:28:48Z) - SOCCER: An Information-Sparse Discourse State Tracking Collection in the
Sports Commentary Domain [7.119677737397071]
自然言語理解の追求において、物語全体の状態変化を追跡することに対する長年の関心が高まってきた。
本稿では,これらの特性を示す,シンプルで完全に観測可能なシステムに転換することを提案する。
そこで本研究では,異なるタイムスタンプでのゲーム解説文を前提として,ゲーム内イベントの発生を認識させるタスクの定式化を提案する。
論文 参考訳(メタデータ) (2021-06-03T16:21:13Z) - Learning Chess Blindfolded: Evaluating Language Models on State Tracking [69.3794549747725]
私たちはチェスのゲームのための言語モデリングのタスクを検討します。
自然言語とは異なり、チェス表記法は単純で制約のある決定論的領域を記述する。
トランスフォーマー言語モデルでは,移動シーケンスのみを訓練することで,ピースの追跡や法的動作の予測を高精度に行うことができる。
論文 参考訳(メタデータ) (2021-02-26T01:16:23Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。