Fugu-MT 論文翻訳(概要): Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents

論文の概要: Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents

arxiv url: http://arxiv.org/abs/2603.01438v1
Date: Mon, 02 Mar 2026 04:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.679011
Title: Enhancing Persona Following at Decoding Time via Dynamic Importance Estimation for Role-Playing Agents
Title（参考訳）: ロールプレイングエージェントの動的重要度推定による復号時間におけるペルソナ追従の促進
Authors: Yuxin Liu, Mingye Zhu, Siyuan Liu, Bo Hu, Lei Zhang,
Abstract要約: 社会学研究におけるロールプレイング言語エージェントの有用性は,大規模言語モデルの導入とともに増大している。社会シミュレーションにおけるリアリズムにおいては、ロールプレイング言語エージェントは、キャラクタープロファイルによって定義されたペルソナに従わなければならない。本稿では,文脈に依存したペルソナの重要度を動的に推定し,重み付けされた報酬誘導復号に組み込む新しい理論駆動手法を提案する。
参考スコア（独自算出の注目度）: 13.003892350610947
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The utility of Role-Playing Language Agents in sociological research is growing alongside the adoption of Large Language Models. For realism in social simulation, these agents must adhere to their personas defined by character profiles, yet existing strategies-static prompt engineering or costly fine-tuning-fail to adapt personas to dynamic scenarios. Psychological theories, such as the Cognitive-Affective Personality Systems, provide a crucial explanation for this failure: a persona's influence on behavior is not static but varies with the scenarios. This context-dependence highlights the critical need for adaptive persona management. To address this gap, we propose a novel, theory-driven method that dynamically estimates context-dependent persona importance and integrates it into weighted reward-guided decoding, enabling inference-time persona following. Specifically, we introduce the Persona Dynamic Decoding (PDD) framework, which consists of two key components: (1) Persona Importance Estimation (PIE) module, which dynamically quantifies the contextual importance of persona attributes without requiring ground-truth supervision; and (2) Persona-Guided Inference-Time Alignment (PIA) paradigm, which leverages these importance scores to construct weighted multi-objective rewards and modulate generation probabilities during inference. Extensive experiments show the effectiveness of our method in utterance consistency and behavioral fidelity.
Abstract（参考訳）: 社会学研究におけるロールプレイング言語エージェントの有用性は,大規模言語モデルの導入とともに増大している。社会シミュレーションにおける現実主義においては、これらのエージェントはキャラクタープロファイルによって定義されたペルソナに従わなければならないが、既存の戦略は静的なプロンプトエンジニアリングや、動的シナリオにペルソナを適用するためにコストのかかる微調整-フェイルである。認知・感情的パーソナリティシステム(英語版)のような心理学理論は、この失敗に決定的な説明を与える: 行動に対するペルソナの影響は静的ではなくシナリオによって異なる。このコンテキスト依存は、適応的なペルソナ管理に対する重要なニーズを強調します。このギャップに対処するために、動的に文脈依存のペルソナの重要度を推定し、それを重み付けされた報酬誘導デコーディングに統合し、推論時ペルソナの追従を可能にする理論駆動手法を提案する。具体的には,(1)PIE(Persona Importance Estimation)モジュールと(2)PA(Persona-Guided Inference-Time Alignment)パラダイムの2つの重要な要素からなり,その重要点を活用して,推論中に重み付けされた多目的報酬を構築し,生成確率を変調する。広汎な実験により,発話の整合性と行動の忠実度に対する本手法の有効性が示された。

関連論文リスト

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra [84.59328460968872]
大規模言語モデルにおけるパーソナリティ制御の現在の手法は、静的なプロンプトや高価な微調整に依存している。ペルソナ(PERSONA)は、人格ベクトルを直接操作することで、微調整レベルのパフォーマンスを実現する訓練不要のフレームワークである。 PersonalityBenchでは、この手法は平均スコア9.60を達成し、教師付き微調整上界9.61とほぼ一致している。
論文参考訳（メタデータ） (2026-02-17T15:47:58Z)
HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文参考訳（メタデータ） (2026-01-22T09:27:27Z)
Structured Personality Control and Adaptation for LLM Agents [11.050618253938126]
大規模言語モデル(LLM)は、ますますヒトとコンピュータの相互作用(HCI)を形作っているユング心理学的タイプを用いたLLMパーソナリティをモデル化する枠組みを提案する。この設計により、エージェントは対話要求に応じて動的に調整しながらニュアンス付き特性を維持することができる。
論文参考訳（メタデータ） (2026-01-15T03:15:24Z)
Profile-LLM: Dynamic Profile Optimization for Realistic Personality Expression in LLMs [11.672385046863655]
PersonaPulseは、状況対応ベンチマークをスコアリングツールとして統合しながら、ロールプレイプロンプトを反復的に強化するフレームワークである。定量的評価は、PersonaPulseが生成したプロンプトが先行作業のプロンプトより優れていることを示している。特定の性格特性に対しては、最適化過程を緩和することにより、人格評価の程度を部分的に制御することができる。
論文参考訳（メタデータ） (2025-11-25T02:31:40Z)
DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。 DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文参考訳（メタデータ） (2025-10-17T10:14:26Z)
DPRF: A Generalizable Dynamic Persona Refinement Framework for Optimizing Behavior Alignment Between Personalized LLM Role-Playing Agents and Humans [28.038221167188013]
言語モデルロールプレイングエージェント(LLM RPA)は、個人の行動のシミュレートを目的としている。 Dynamic Persona Refinement Framework (DPRF) は、LLM RPAの動作とターゲット個人とのアライメントを最適化することを目的としている。
論文参考訳（メタデータ） (2025-10-16T01:26:38Z)
The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文参考訳（メタデータ） (2025-09-03T21:27:10Z)
Exploring a Gamified Personality Assessment Method through Interaction with LLM Agents Embodying Different Personalities [45.56431615835303]
本研究では,個性表現の多元性に着目し,個性評価のための対話的アプローチについて検討する。マルチパーソナリティ表現(Multi-PR GPA)を用いたゲーミフィケーション・パーソナリティ・アセスメントの枠組みを提案する。
論文参考訳（メタデータ） (2025-07-05T11:17:20Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Improving Personality Consistency in Conversation by Persona Extending [22.124187337032946]
本稿では,Persona Retrieval Model(PRM)とPosterior-Scored Transformer(PS-Transformer)の2つのサブコンポーネントからなる新しい検索・予測パラダイムを提案する。提案モデルでは,自動測定と人的評価の両面で大幅に改善されている。
論文参考訳（メタデータ） (2022-08-23T09:00:58Z)
Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。動的パーソナライズされた価格設定などの問題の因果構造を形式化する。本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文参考訳（メタデータ） (2021-10-19T16:15:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。