論文の概要: Open Character Training: Shaping the Persona of AI Assistants through Constitutional AI
- arxiv url: http://arxiv.org/abs/2511.01689v1
- Date: Mon, 03 Nov 2025 15:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.316095
- Title: Open Character Training: Shaping the Persona of AI Assistants through Constitutional AI
- Title(参考訳): オープンキャラクタトレーニング - 構成AIによるAIアシスタントのペルソナ形成
- Authors: Sharan Maiya, Henning Bartsch, Nathan Lambert, Evan Hubinger,
- Abstract要約: 「AIアシスタント」ペルソナは表面的な行動と明白な価値観、信念、倫理の両方に影響を及ぼす。
キャラクタトレーニングは産業のポストトレーニングの重要な要素であるが、学術文献では事実上研究されていない。
我々は、コンスティチューショナルAIと新しいデータパイプラインを活用して、文字トレーニングの最初のオープン実装を紹介する。
- 参考スコア(独自算出の注目度): 4.153803842911732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The character of the "AI assistant" persona generated by modern chatbot large language models influences both surface-level behavior and apparent values, beliefs, and ethics. These all affect interaction quality, perceived intelligence, and alignment with both developer and user intentions. The shaping of this persona, known as character training, is a critical component of industry post-training, yet remains effectively unstudied in the academic literature. We introduce the first open implementation of character training, leveraging Constitutional AI and a new data pipeline using synthetic introspective data to shape the assistant persona in a more effective and controlled manner than alternatives such as constraining system prompts or activation steering. Specifically, we fine-tune three popular open-weights models using 11 example personas, such as humorous, deeply caring, or even malevolent. To track the effects of our approach, we introduce a method which analyzes revealed preferences, uncovering clear and holistic changes in character. We find these changes are more robust to adversarial prompting than the above two alternatives, while also leading to more coherent and realistic generations. Finally, we demonstrate this fine-tuning has little to no effect on general capabilities as measured by common benchmarks. We describe and open-source our full post-training method, the implementation of which can be found at https://github.com/maiush/OpenCharacterTraining.
- Abstract(参考訳): 現代のチャットボット大言語モデルが生み出す「AIアシスタント」の性格は、表面レベルの行動と明白な価値観、信念、倫理の両方に影響を及ぼす。
これらはすべて、インタラクションの品質、知覚的インテリジェンス、開発者とユーザの両方の意図との整合性に影響します。
キャラクタトレーニングとして知られるこのペルソナの形成は、産業のポストトレーニングの重要な要素であるが、学術文献では事実上研究されていない。
本稿では,制約システムプロンプトやアクティベーションステアリングなどの代替手段よりも,より効果的かつ制御された方法でアシスタントペルソナを形成するために,構成AIと合成イントロスペクティブデータを用いた新しいデータパイプラインを活用して,文字学習の最初のオープン実装を紹介する。
具体的には、ユーモラス、ディープケア、さらにはマニアントといった11のペルソナを使って、人気のある3つのオープンウェイトモデルを微調整する。
提案手法では,特徴の明確かつ包括的変化を解明し,嗜好を明らかにする手法を提案する。
これらの変化は、上記の2つの選択肢よりも、敵対的刺激に対してより堅牢であると同時に、一貫性と現実的な世代にもつながります。
最後に、この微調整は、一般的なベンチマークによって測定される一般的な能力にはほとんど、あるいは全く影響しないことを示した。
その実装はhttps://github.com/maiush/OpenCharacterTraining.comにある。
関連論文リスト
- HumAIne-Chatbot: Real-Time Personalized Conversational AI via Reinforcement Learning [0.4931504898146351]
textbfHumAIne-chatbotはAIによる会話エージェントで、新しいユーザプロファイリングフレームワークを通じて応答をパーソナライズする。
ライブインタラクションの間、オンライン強化学習エージェントは暗黙の信号を組み合わせることで、ユーザ毎のモデルを洗練する。
その結果、パーソナライズ機能を有効にすると、ユーザ満足度、パーソナライズ精度、タスク達成度が一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-09-04T15:16:38Z) - Traits Run Deep: Enhancing Personality Assessment via Psychology-Guided LLM Representations and Multimodal Apparent Behaviors [46.55948528317124]
我々はtextittextbfTraits Run Deep という新しいパーソナリティ評価フレームワークを提案する。
テキストテキストbf心理学的インフォームドプロンプトを使用して、高いレベルの人格関連セマンティック表現を導き出す。
textittextbfText-Centric Trait Fusion Networkは、リッチテキストセマンティクスをアンロックして、他のモダリティからの非同期信号の整合と統合を行う。
論文 参考訳(メタデータ) (2025-07-30T04:12:14Z) - CharacterBox: Evaluating the Role-Playing Capabilities of LLMs in Text-Based Virtual Worlds [74.02480671181685]
ロールプレイングは大規模言語モデル(LLM)の重要な機能である
現在の評価手法は, 実演に不可欠なニュアンス特性や動作を適切に把握するに足りていない。
本研究では,キャラクタボックスを提案する。キャラクタボックスは,キャラクタの微粒な挙動を再現するシミュレーションサンドボックスである。
論文 参考訳(メタデータ) (2024-12-07T12:09:35Z) - Learning the Generalizable Manipulation Skills on Soft-body Tasks via Guided Self-attention Behavior Cloning Policy [9.345203561496552]
GP2E行動クローニングポリシーは、ソフトボディタスクから汎用的な操作スキルを学ぶためのエージェントを誘導することができる。
本研究は,Embodied AIモデルの一般化能力を向上する手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-10-08T07:31:10Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。