論文の概要: Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing
- arxiv url: http://arxiv.org/abs/2405.07726v2
- Date: Wed, 16 Oct 2024 02:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:11.914346
- Title: Quantifying and Optimizing Global Faithfulness in Persona-driven Role-playing
- Title(参考訳): ペルソナによるロールプレイングにおけるグローバルな信条の定量化と最適化
- Authors: Letian Peng, Jingbo Shang,
- Abstract要約: ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
- 参考スコア(独自算出の注目度): 37.92922713921964
- License:
- Abstract: Persona-driven role-playing (PRP) aims to build AI characters that can respond to user queries by faithfully sticking with all persona statements. Unfortunately, existing faithfulness criteria for PRP are limited to coarse-grained LLM-based scoring without a clear definition or formulation. This paper presents a pioneering exploration to quantify PRP faithfulness as a fine-grained and explainable criterion, which also serves as a reliable reference for optimization. Our criterion first discriminates persona statements into active and passive constraints by identifying the query-statement relevance. Then, we incorporate all constraints following the principle that the AI character's response should be (a) entailed by active (relevant) constraints and (b) not contradicted by passive (irrelevant) constraints. We translate this principle mathematically into a novel Active-Passive-Constraint (APC) score, a constraint-wise sum of natural language inference (NLI) scores weighted by relevance scores. In practice, we build the APC scoring system by symbolically distilling small discriminators from GPT-4 for efficiency. We validate the quality of the APC score against human evaluation based on example personas with tens of statements, and the results show a high correlation. We further leverage it as a reward system in direct preference optimization (DPO) for better AI characters. Our experiments offer a fine-grained and explainable comparison between existing PRP techniques, revealing their advantages and limitations. We further find APC-based DPO to be one of the most competitive techniques for sticking with all constraints and can be well incorporated with other techniques. We then extend the scale of the experiments to real persons with hundreds of statements and reach a consistent conclusion.
- Abstract(参考訳): ペルソナ駆動型ロールプレイング(PRP)は、すべてのペルソナステートメントに忠実に固執することで、ユーザクエリに応答可能なAI文字を構築することを目的としている。
残念なことに、PRPの既存の忠実度基準は、明確な定義や定式化なしに粗粒度LLMベースのスコアに限られている。
本稿では,PRP忠実度を細粒度で説明可能な基準として定量化するための先駆的な探索について述べる。
我々の基準は、まず、クエリーステートメントの関連性を特定することによって、ペルソナステートメントをアクティブかつパッシブな制約に識別する。
そして、AIキャラクタの応答が望ましいという原則に従って、すべての制約を組み込む。
(a) 能動的な(関連する)制約と関係のある
(b)受動的(無関係)制約に矛盾しない。
我々はこの原理を数学的に、関連スコアで重み付けされた自然言語推論(NLI)の制約次和である、新しいアクティブ・パッシブ・制約スコア(APC)に変換する。
実例では, GPT-4 から小径の判別器を抽出し, 効率よく APC スコアリングシステムを構築する。
本研究では,APC スコアの品質を人体評価と比較し,数文の例に基づく評価を行い,高い相関性を示した。
さらに、より優れたAI文字に対して、直接選好最適化(DPO)の報奨システムとして活用する。
我々の実験は、既存のRPP技術とのきめ細やかで説明可能な比較を提供し、その利点と限界を明らかにします。
さらに、APCベースのDPOは、全ての制約に固執する最も競争力のある手法の1つであり、他の手法とうまく組み合わさることができると考えている。
次に、実験の規模を数百のステートメントを持つ現実の人に拡大し、一貫した結論に達します。
関連論文リスト
- Pareto Set Identification With Posterior Sampling [14.121842087273167]
本稿では,PSIを有意な相関性を有する線形変換系で検討する。
既存のオラクルベースのアルゴリズムの計算コストを負担することなく,構造と相関を同時に扱うPSIPSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T18:15:38Z) - Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation [20.663398371026194]
本稿では,広範囲な推定対象を含む非政治評価のためのフレームワークSTARを紹介する。
実験により,STAR内の推定器が既存手法より優れていることを示す。
最適なSTAR推定器は, 調査対象12例すべてにおいて, ベースラインを上回った。
論文 参考訳(メタデータ) (2024-10-03T03:19:43Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Probabilistic Offline Policy Ranking with Approximate Bayesian
Computation [4.919605764492689]
安全性と信頼性のために、現実のデプロイメントの前に、候補ポリシーをオフラインで比較し、ランク付けすることが不可欠です。
我々は、OPR問題に対処する枠組みである確率的オフライン政策ランキング(POPR)を提示する。
POPRは値推定に依存せず、導出された性能後部は、最悪の、最も良い、平均的なケースの候補を区別するために使用することができる。
論文 参考訳(メタデータ) (2023-12-17T05:22:44Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。