論文の概要: Role-playing Prompt Framework: Generation and Evaluation
- arxiv url: http://arxiv.org/abs/2406.00627v4
- Date: Fri, 13 Dec 2024 06:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:43.219234
- Title: Role-playing Prompt Framework: Generation and Evaluation
- Title(参考訳): Role-playing Prompt Framework:生成と評価
- Authors: Xun Liu, Zhengwei Ni,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語生成、ユーザ命令の理解、人間に似た言語使用のエミュレートにおいて、優れた習熟度を示す。
本稿では、ロールプレイング対話データセットの生成にGPTの機能を活用するために設計されたプロンプトベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.2845546753303867
- License:
- Abstract: Large language models (LLMs) exhibit impressive proficiency in natural language generation, understanding user instructions, and emulating human-like language use, which has led to significant interest in their application to role-playing scenarios. However, the manual collection of role-specific script data and the evaluation of model performance are resource-intensive processes. This paper introduces a prompt-based framework designed to leverage GPT's capabilities for the generation of role-playing dialogue datasets and the evaluation of role-playing performance. To validate the effectiveness of the GPT-based generation and evaluation, we further incorporate the recall-oriented Rouge-L metric, providing an additional quantitative measure of performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語生成、ユーザ命令の理解、人間のような言語使用のエミュレートに優れた習熟度を示しており、ロールプレイングシナリオへの応用に大きな関心が寄せられている。
しかし、ロール固有のスクリプトデータの手作業による収集とモデル性能の評価は、リソース集約的なプロセスである。
本稿では、ロールプレイング対話データセットの生成とロールプレイング性能の評価にGPTの機能を活用するために設計されたプロンプトベースのフレームワークを提案する。
GPTに基づく生成と評価の有効性を検証するため、リコール指向のルージュ-Lメトリックを更に取り入れて、パフォーマンスのさらなる定量的指標を提供する。
関連論文リスト
- CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文 参考訳(メタデータ) (2025-02-13T08:55:24Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning [17.5855800570993]
ヒューマン・コンピュータ・インタラクション(HCI)分野におけるロールプレイング
大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、会話間のロール一貫性を維持するのに依然として苦労している。
境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。
論文 参考訳(メタデータ) (2024-09-23T05:12:13Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。