論文の概要: PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
- arxiv url: http://arxiv.org/abs/2409.06820v2
- Date: Fri, 17 Jan 2025 21:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:05.507269
- Title: PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
- Title(参考訳): PingPong: ユーザエミュレーションとマルチモデル評価を備えたロールプレイング言語モデルのベンチマーク
- Authors: Ilya Gusev,
- Abstract要約: 言語モデルのロールプレイング能力を評価するためのベンチマークを導入する。
このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価するいくつかの判断モデルという3つの主要コンポーネントから構成される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce a benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model that assumes a specific character role, an interrogator model that simulates user behavior, and several judge models that evaluate conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of the model capabilities in interactive scenarios.
- Abstract(参考訳): 言語モデルのロールプレイング能力を評価するためのベンチマークを導入する。
提案手法は,言語モデル自体を利用して,動的・マルチターン会話でユーザをエミュレートし,対話結果を評価する。
このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価するいくつかの判断モデルという3つの主要コンポーネントから構成される。
提案手法の有効性を検証するために, 自動評価と人間のアノテーションを比較し, 複数の基準にまたがって強い相関関係を示す実験を行った。
この作業は、インタラクティブなシナリオにおけるモデル機能の堅牢で動的な評価の基礎を提供する。
関連論文リスト
- DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。
DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。
これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文 参考訳(メタデータ) (2024-06-14T17:49:41Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation [20.171574438536673]
本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。
これらのタスクは、人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を提供する。
論文 参考訳(メタデータ) (2024-03-13T18:16:21Z) - Pseudointelligence: A Unifying Framework for Language Model Evaluation [14.95543156914676]
本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。
このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:48:05Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Towards the Scalable Evaluation of Cooperativeness in Language Models [1.7875811547963403]
我々は, PLMのマルチエージェント行動を理解し, 形成することを目的としている。
クラウドワーカーと言語モデルの両方で、特定の構造でシナリオを生成します。
インストラクションをチューニングしたモデルは、スケールアップ時に協調的と見なされるような振る舞いをする傾向にある。
論文 参考訳(メタデータ) (2023-03-16T15:34:23Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Sm{\aa}prat: DialoGPT for Natural Language Generation of Swedish
Dialogue by Transfer Learning [1.6111818380407035]
自然言語対話生成のための最先端のモデルは、英語で人間のような単行会話をシミュレートする際、印象的な性能を示した。
この研究は、経験的な研究により、そのようなモデルのスウェーデン語への変換学習の可能性について調査する。
論文 参考訳(メタデータ) (2021-10-12T18:46:43Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Prototype-to-Style: Dialogue Generation with Style-Aware Editing on
Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。
このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。
スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文 参考訳(メタデータ) (2020-04-05T14:36:15Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。