論文の概要: Persona Vectors in Games: Measuring and Steering Strategies via Activation Vectors
- arxiv url: http://arxiv.org/abs/2603.21398v1
- Date: Sun, 22 Mar 2026 20:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.398554
- Title: Persona Vectors in Games: Measuring and Steering Strategies via Activation Vectors
- Title(参考訳): ゲームにおけるペルソナベクトル:アクティベーションベクトルによる測定とステアリング
- Authors: Johnathan Sun, Andrew Zhang,
- Abstract要約: 我々は、対照的なアクティベーション付加によって、他者の利他主義、許し、期待のためのペルソナベクトルを構築する。
アクティベーションステアリングは、定量的な戦略選択と自然言語の正当化の両方をシフトさせる。
以上の結果から,ペルソナベクトルは戦略的環境における高レベルの特性に対して,有望な機械的ハンドリングを提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.4293637634506404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous decision-makers in strategic settings, yet we have limited tools for understanding their high-level behavioral traits. We use activation steering methods in game-theoretic settings, constructing persona vectors for altruism, forgiveness, and expectations of others by contrastive activation addition. Evaluating on canonical games, we find that activation steering systematically shifts both quantitative strategic choices and natural-language justifications. However, we also observe that rhetoric and strategy can diverge under steering. In addition, vectors for self-behavior and expectations of others are partially distinct. Our results suggest that persona vectors offer a promising mechanistic handle on high-level traits in strategic environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、戦略的設定において自律的な意思決定者としてますます多くデプロイされていますが、そのハイレベルな行動特性を理解するためのツールは限られています。
ゲーム理論的な設定でアクティベーションステアリング手法を使用し、対照的なアクティベーション付加により、利他主義、許し、期待のためのペルソナベクトルを構築する。
標準的なゲームを評価すると、アクティベーションステアリングが定量的な戦略選択と自然言語の正当化の両方を体系的にシフトしていることが分かる。
しかし,レトリックやストラテジーは操舵下では多様化する可能性がある。
加えて、自己行動ベクトルと他者の期待ベクトルは部分的に異なる。
以上の結果から,ペルソナベクトルは戦略的環境における高レベルの特性に対して,有望な機械的ハンドリングを提供する可能性が示唆された。
関連論文リスト
- PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra [84.59328460968872]
大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。
ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。
PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
論文 参考訳(メタデータ) (2026-02-17T15:47:58Z) - Learning Controllable and Diverse Player Behaviors in Multi-Agent Environments [0.0]
本稿では,人間のゲームプレイデータに頼らずに,制御可能かつ多様なプレイヤ動作を可能にする強化学習フレームワークを提案する。
我々はN次元連続空間におけるプレイヤーの行動を定義し、実際の人間のスタイルを表すサブセットを含む領域からターゲットの行動ベクトルを均一にサンプリングする。
単一のPPOベースのマルチエージェントポリシーは、再トレーニングすることなく、新しいまたは見えないプレイスタイルを再現することができる。
論文 参考訳(メタデータ) (2025-12-11T17:26:24Z) - Anticipating Gaming to Incentivize Improvement: Guiding Agents in (Fair) Strategic Classification [6.660458629649826]
アルゴリズムを騙そうとする個人の選択(「改善」)について検討する。
それらのインタラクションをStackelbergのゲームとして定式化し、そこで企業は(フェア)分類器をデプロイし、個人は戦略的に応答する。
論文 参考訳(メタデータ) (2025-05-08T18:47:23Z) - AVA: Attentive VLM Agent for Mastering StarCraft II [56.07921367623274]
Intentive VLM Agent (AVA) は、人工エージェントの認識と人間のゲームプレイ体験を一致させるマルチモーダルのStarCraft IIエージェントである。
我々のエージェントは、ゲームプレイ中に人間の認知過程をより密にシミュレートするRGB視覚入力と自然言語観察を組み込むことにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-03-07T12:54:25Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
本稿では,AIエージェントが言語規則を生成可能なフレームワークであるPLLB(Language Bottleneck)について紹介する。
PLLBBは言語モデルによってガイドされる*ルール生成*ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ*アップデート*ステップとを代替する。
PLLBエージェントは、より解釈可能で一般化可能な振る舞いを学べるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - Extending Activation Steering to Broad Skills and Multiple Behaviours [5.40770929004319]
幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討した。
より広いスキルを操ることが、より狭いスキルを操ることと競争力があることが分かっています。
私たちは、ミオピックと富の探究を多かれ少なかれ行うようにモデルを操縦します。
論文 参考訳(メタデータ) (2024-03-09T02:30:04Z) - Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game [37.69298376616128]
我々は、柔軟な言語行動を生成し、強力な意思決定能力を有する戦略的言語エージェントを開発する。
言語行動の本質的バイアスを軽減するため,我々のエージェントはLLMを用いて推論を行い,多様な行動候補を生成する。
実験により,我々のエージェントは本態性バイアスを克服し,Werewolfゲームにおいて既存のLSMベースのエージェントより優れていることが示された。
論文 参考訳(メタデータ) (2023-10-29T09:02:57Z) - A Framework for Understanding and Visualizing Strategies of RL Agents [0.0]
本稿では,時間論理式を用いてエージェント戦略を特徴付ける逐次決定タスクの理解可能なモデル学習フレームワークを提案する。
我々は,手工芸の専門家政策と訓練された強化学習エージェントの痕跡を用いて,StarCraft II (SC2) の戦闘シナリオに関する枠組みを評価した。
論文 参考訳(メタデータ) (2022-08-17T21:58:19Z) - Who Leads and Who Follows in Strategic Classification? [82.44386576129295]
戦略分類における役割の順序は、決定者とエージェントが互いの行動に適応する相対周波数によって決定される。
更新頻度を自由に選択できる意思決定者は,いずれの順番でスタックルバーグ均衡に収束する学習力学を誘導できることを示す。
論文 参考訳(メタデータ) (2021-06-23T16:48:46Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。