Fugu-MT 論文翻訳(概要): One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents

論文の概要: One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents

arxiv url: http://arxiv.org/abs/2605.23652v1
Date: Fri, 22 May 2026 14:04:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.380258
Title: One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents
Title（参考訳）: Infinite NPCs: スケーラブルゲームエージェントのためのPersona-Traceable Shared RL Policies
Authors: Yoosung Hong,
Abstract要約: ライフシミュレーションゲームは、異なる個性に一貫して振る舞う何百から何千もの非プレイヤーキャラクター(NPC)を必要とする。既存のメソッドは、ペルソナ一貫性、制御性、リアルタイム推論などの制約で失敗する。フリーフォームペルソナ記述の凍結埋め込みを前提とした1つの強化学習政策であるPersona Conditioned Shared Policyを紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: On a 300-persona life-simulation benchmark, pcsp achieves compositional zero-shot persona identification up to 17x above chance, Spearman rho approx 0.73 semantic-behavioral alignment, and 22x faster inference than an LLM-as-policy baseline. Life simulation games require hundreds to thousands of non-player characters (NPCs) that behave consistently with distinct personalities while remaining controllable through designer-authored natural language. Existing methods fail on constraints like persona consistency, controllability, or real-time inference. We introduce pcsp (Persona Conditioned Shared Policy), a single reinforcement learning policy conditioned on frozen LLM embeddings of free-form persona descriptions. pcsp combines once-per-NPC persona encoding, low-rank persona projection, neural persona conditioning, and a PPO + InfoNCE consistency + KL diversity training objective. Across three experimental settings, ablations show that the InfoNCE trajectory-consistency objective is load bearing: removing it collapses zero-shot persona identification to chance. External validation on Melting Pot 2.4.0 substrates confirms that our method produces persona-conditioned behavioral divergence in multi-agent strategic environments. We distinguish two senses of held-out evaluation: compositional zero-shot and vocabulary-expansion held-out. Finally, a UE5 deployment reproduces the in-engine persona-conditioning ablation at 64 agents with a low failure rate, showing that the sub-frame inference profile survives in a commercial game engine. These results prove that shared RL policies can support scalable, real-time, persona-conditioned NPC control.
Abstract（参考訳）: 300対1のライフシミュレーションベンチマークでは、pcspは最大17倍の確率で合成ゼロショットのペルソナ識別、Spearman rho approx 0.73のセマンティックビヘイビアアライメント、LLM-as-policyベースラインよりも22倍高速な推論を実現している。ライフシミュレーションゲームは数百から数千の非プレイヤーキャラクタ(NPC)が必要であり、デザイナーが指定した自然言語を通じて制御可能でありながら、異なる個性に一貫して振る舞う。既存のメソッドは、ペルソナ一貫性、制御性、リアルタイム推論などの制約で失敗する。 pcsp(Persona Conditioned Shared Policy)は,フリーフォームペルソナ記述の凍結LDM埋め込みを前提とした1つの強化学習政策である。 pcspは、PPO + InfoNCE整合性+KL多様性訓練目標と、一度のNPCペルソナエンコーディング、低ランクペルソナプロジェクション、ニューラルペルソナコンディショニングを組み合わせている。 3つの実験的な設定の中で、InfoNCEトラジェクトリ一貫性の目的が負荷ベアリングであることを示す。また,Melting Pot 2.4.0基板の外部検証により,マルチエージェント戦略環境におけるペルソナ条件下での挙動のばらつきが確認できた。構成ゼロショットと語彙拡大ホールドアウトの2つの感覚を区別する。最後に、UE5デプロイメントは、64エージェントでエンジン内ペルソナ条件のアブレーションを低故障率で再現し、サブフレーム推論プロファイルが商用ゲームエンジンで存続することを示す。これらの結果は、共有RLポリシーがスケーラブルでリアルタイムな、ペルソナ条件のNPC制御をサポートすることを証明している。

関連論文リスト

Facet-Level Persona Control by Trait-Activated Routing with Contrastive SAE for Role-Playing LLMs [6.715533531385597]
Role-Playing Agents (RPAs) におけるパーソナリティコントロールは、トレーニング不要の手法によって一般的に達成される。本稿では,Big Five 30-facetモデルに適合する顔レベルの人格制御ベクトルを学習するSparse AutoEncoderフレームワークを提案する。
論文参考訳（メタデータ） (2026-02-22T12:39:02Z)
Learning Controllable and Diverse Player Behaviors in Multi-Agent Environments [0.0]
本稿では,人間のゲームプレイデータに頼らずに,制御可能かつ多様なプレイヤ動作を可能にする強化学習フレームワークを提案する。我々はN次元連続空間におけるプレイヤーの行動を定義し、実際の人間のスタイルを表すサブセットを含む領域からターゲットの行動ベクトルを均一にサンプリングする。単一のPPOベースのマルチエージェントポリシーは、再トレーニングすることなく、新しいまたは見えないプレイスタイルを再現することができる。
論文参考訳（メタデータ） (2025-12-11T17:26:24Z)
Two-Faced Social Agents: Context Collapse in Role-Conditioned Large Language Models [0.0]
GPT-5は完全な数学の文脈崩壊を示し、最適応答に対する特異な同一性を採用した。クロード・ソネット4.5はSATアイテムに限定的ではあるが測定可能な役割特異的なバリエーションを保持していた。全てのモデルは、異なる役割条件の感情的嗜好を示し、認知的制約が緩和されたときに社会影響の変動が再燃することを示した。
論文参考訳（メタデータ） (2025-11-19T16:04:49Z)
CSP4SDG: Constraint and Information-Theory Based Role Identification in Social Deduction Games with LLM-Enhanced Inference [3.1263038719799745]
Avalon、Mafia、Werewolfといったソーシャル・ドダクション・ゲーム(SDG)では、プレイヤーは自身のアイデンティティを隠蔽し、意図的に他人を誤解させる。我々は,ゲームプレイを客観的に分析する確率的制約満足度フレームワークであるCSP4SDGを紹介する。本研究は,情報理論を用いた確率論的推論がSDGのためのスケーラブルな代替あるいは補間重み付きニューラルネットワークであることを示す。
論文参考訳（メタデータ） (2025-11-09T01:20:18Z)
Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。 LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文参考訳（メタデータ） (2025-10-31T19:40:41Z)
Beyond Survival: Evaluating LLMs in Social Deduction Games with Human-Aligned Strategies [54.08697738311866]
Werewolfのようなソーシャル推論ゲームは、言語、推論、戦略を組み合わせている。我々は,100時間以上のビデオ,32.4M発声トークン,15の規則変種を含む高品質で人間認証されたWerewolfデータセットをキュレートした。本稿では,勝利派戦略を2段階の真理として活用する新たな戦略調整評価法を提案する。
論文参考訳（メタデータ） (2025-10-13T13:33:30Z)
Personalized Constitutionally-Aligned Agentic Superego: Secure AI Behavior Aligned to Diverse Human Values [0.6640968473398455]
スーパーエージェントがユーザー選択型「クリードコンスティチューション」を参考にAIプランニングを主導リアルタイムコンプライアンス執行機関は、これらの憲法に対する計画を検証する。システムは最大98.3%の有害スコアの減少とほぼ完全な拒絶率を達成する。
論文参考訳（メタデータ） (2025-06-08T20:31:26Z)
Inference-Time Policy Steering through Human Interactions [54.02655062969934]
推論中、人間はしばしばポリシー実行ループから取り除かれる。本稿では,人間のインタラクションを活用して生成するサンプリングプロセスにバイアスを与える推論時ポリシーステアリングフレームワークを提案する。提案手法は,アライメントと分布シフトの最良のトレードオフを実現する。
論文参考訳（メタデータ） (2024-11-25T18:03:50Z)
Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文参考訳（メタデータ） (2024-05-01T17:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。