Fugu-MT 論文翻訳(概要): PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

論文の概要: PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation

arxiv url: http://arxiv.org/abs/2409.06820v1
Date: Tue, 10 Sep 2024 19:00:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 17:07:53.257629
Title: PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation
Title（参考訳）: PingPong: ユーザエミュレーションとマルチモデル評価を備えたロールプレイング言語モデルのベンチマーク
Authors: Ilya Gusev,
Abstract要約: 本稿では,言語モデルのロールプレイング能力を評価するための新しいベンチマークを提案する。このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価する判断モデルという3つの主要コンポーネントから構成される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel benchmark for evaluating the role-playing capabilities of language models. Our approach leverages language models themselves to emulate users in dynamic, multi-turn conversations and to assess the resulting dialogues. The framework consists of three main components: a player model assuming a specific character role, an interrogator model simulating user behavior, and a judge model evaluating conversation quality. We conducted experiments comparing automated evaluations with human annotations to validate our approach, demonstrating strong correlations across multiple criteria. This work provides a foundation for a robust and dynamic evaluation of model capabilities in interactive scenarios.
Abstract（参考訳）: 本稿では,言語モデルのロールプレイング能力を評価するための新しいベンチマークを提案する。提案手法は,言語モデル自体を利用して,動的・マルチターン会話でユーザをエミュレートし,対話結果を評価する。このフレームワークは、特定のキャラクターロールを仮定するプレイヤーモデル、ユーザの振る舞いをシミュレートするインタクタモデル、会話の品質を評価する判断モデルという3つの主要コンポーネントから構成される。提案手法の有効性を検証するために, 自動評価と人間のアノテーションを比較し, 複数の基準にまたがって強い相関関係を示す実験を行った。この研究は、インタラクティブなシナリオにおけるモデル機能の堅牢で動的な評価の基礎を提供する。

関連論文リスト

A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文参考訳（メタデータ） (2025-05-20T09:13:22Z)
DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。 DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳（メタデータ） (2024-06-14T17:49:41Z)
Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文参考訳（メタデータ） (2024-05-08T00:18:56Z)
Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation [20.171574438536673]
本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。これらのタスクは、人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を提供する。
論文参考訳（メタデータ） (2024-03-13T18:16:21Z)
Towards Personalized Evaluation of Large Language Models with An Anonymous Crowd-Sourcing Platform [64.76104135495576]
大規模言語モデルのための匿名クラウドソーシング評価プラットフォームであるBingJianを提案する。このプラットフォームを通じて、ユーザーは質問を提出し、パーソナライズされ、潜在的に幅広い機能でモデルをテストできる。
論文参考訳（メタデータ） (2024-03-13T07:31:20Z)
Pseudointelligence: A Unifying Framework for Language Model Evaluation [14.95543156914676]
本稿では,モデルと学習評価器の動的相互作用として,モデル評価キャストの複雑性理論フレームワークを提案する。このフレームワークは,言語モデル評価における2つのケーススタディを推論し,既存の評価手法を解析するために利用できることを示す。
論文参考訳（メタデータ） (2023-10-18T17:48:05Z)
UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。統一多シナリオ要約評価モデル(UMSE)を提案する。 UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文参考訳（メタデータ） (2023-05-26T12:54:44Z)
SimOAP: Improve Coherence and Consistency in Persona-based Dialogue Generation via Over-sampling and Post-evaluation [54.66399120084227]
大規模コーパスで訓練された言語モデルは、オープンドメイン対話において驚くほど流動的な結果を生み出すことができる。ペルソナに基づく対話生成タスクでは、一貫性と一貫性が言語モデルにとって大きな課題である。オーバーサンプリングとポスト評価という2段階のSimOAP戦略が提案されている。
論文参考訳（メタデータ） (2023-05-18T17:23:00Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Towards the Scalable Evaluation of Cooperativeness in Language Models [1.7875811547963403]
我々は, PLMのマルチエージェント行動を理解し, 形成することを目的としている。クラウドワーカーと言語モデルの両方で、特定の構造でシナリオを生成します。インストラクションをチューニングしたモデルは、スケールアップ時に協調的と見なされるような振る舞いをする傾向にある。
論文参考訳（メタデータ） (2023-03-16T15:34:23Z)
Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文参考訳（メタデータ） (2022-07-21T07:35:18Z)
GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。 GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文参考訳（メタデータ） (2022-06-22T18:19:32Z)
Sm{\aa}prat: DialoGPT for Natural Language Generation of Swedish Dialogue by Transfer Learning [1.6111818380407035]
自然言語対話生成のための最先端のモデルは、英語で人間のような単行会話をシミュレートする際、印象的な性能を示した。この研究は、経験的な研究により、そのようなモデルのスウェーデン語への変換学習の可能性について調査する。
論文参考訳（メタデータ） (2021-10-12T18:46:43Z)
Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文参考訳（メタデータ） (2021-06-16T18:13:55Z)
Prototype-to-Style: Dialogue Generation with Style-Aware Editing on Retrieval Memory [65.98002918470543]
文体対話生成の課題に対処する新しいプロトタイプ・ツー・スタイルのフレームワークを提案する。このフレームワークは、IR(Information Retrieval)システムを使用して、検索した応答から応答プロトタイプを抽出する。スタイリスティック応答生成器は、プロトタイプと所望の言語スタイルをモデル入力として、高品質でスタイリスティックな応答を得る。
論文参考訳（メタデータ） (2020-04-05T14:36:15Z)
XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文参考訳（メタデータ） (2020-03-17T07:52:08Z)
An Empirical Investigation of Pre-Trained Transformer Language Models for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文参考訳（メタデータ） (2020-03-09T15:20:21Z)
Learning to Compare for Better Training and Evaluation of Open Domain Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文参考訳（メタデータ） (2020-02-12T15:52:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。