論文の概要: PIPPA: A Partially Synthetic Conversational Dataset
- arxiv url: http://arxiv.org/abs/2308.05884v1
- Date: Fri, 11 Aug 2023 00:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:24:00.622336
- Title: PIPPA: A Partially Synthetic Conversational Dataset
- Title(参考訳): PIPPA:部分合成会話データセット
- Authors: Tear Gosling, Alpin Dale, Yinhe Zheng
- Abstract要約: PIPPA(Personal Interaction Pairs between People and AI)という部分合成データセットを導入する。
PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。
データセットは、26,000の会話セッションに分散された100万以上の発話で構成されている。
- 参考スコア(独自算出の注目度): 13.393459829805144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the emergence of increasingly powerful large language models, there is a
burgeoning interest in leveraging these models for casual conversation and
role-play applications. However, existing conversational and role-playing
datasets often fail to capture the diverse and nuanced interactions typically
exhibited by real-world role-play participants. To address this limitation and
contribute to the rapidly growing field, we introduce a partially-synthetic
dataset named PIPPA (Personal Interaction Pairs between People and AI). PIPPA
is a result of a community-driven crowdsourcing effort involving a group of
role-play enthusiasts. The dataset comprises over 1 million utterances that are
distributed across 26,000 conversation sessions and provides a rich resource
for researchers and AI developers to explore and refine conversational AI
systems in the context of role-play scenarios.
- Abstract(参考訳): ますます強力な大規模言語モデルが登場し、カジュアルな会話やロールプレイアプリケーションでこれらのモデルを活用することへの関心が高まっている。
しかし、既存の会話やロールプレイングデータセットは、現実世界のロールプレイ参加者が通常示す多様でニュアンスなインタラクションをキャプチャできないことが多い。
この制限に対処し、急速に成長する分野に貢献するために、pippa(personal interaction pairs between people and ai)という部分合成データセットを導入する。
PIPPAは、ロールプレイ愛好家のグループを含むコミュニティ主導のクラウドソーシング活動の結果である。
このデータセットは、26,000の会話セッションに分散された100万以上の発話で構成されており、研究者やAI開発者がロールプレイシナリオの文脈で会話AIシステムを探索、洗練するための豊富なリソースを提供する。
関連論文リスト
- Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。
我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文 参考訳(メタデータ) (2024-08-17T14:47:05Z) - IDAT: A Multi-Modal Dataset and Toolkit for Building and Evaluating Interactive Task-Solving Agents [20.460482488872145]
本稿では,接地型自然言語命令の理解と実行が可能な対話型エージェントを開発する上での課題について述べる。
本研究では,Minecraftのような環境下で対話型接地言語命令を収集するためのスケーラブルなデータ収集ツールを提案する。
定性解析とエージェント性能比較のためのヒューマン・イン・ザ・ループ対話型評価プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-07-12T00:07:43Z) - Designing and Evaluating Dialogue LLMs for Co-Creative Improvised Theatre [48.19823828240628]
本研究では,Edinburgh Festival Fringeで1ヶ月のライブショーで展開されたLarge Language Models(LLMs)について紹介する。
オンザスポット多人数対話の技術的能力と制約について検討する。
我々のHuman-in-the-loop法は、文脈関連応答を生成する上で、これらのLCMの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-11T23:19:42Z) - Unveiling the Secrets of Engaging Conversations: Factors that Keep Users
Hooked on Role-Playing Dialog Agents [17.791787477586574]
ボットが果たす役割を具現化する程度は保持率に限られた影響を与え、各ターンの長さは保持率に大きく影響する。
本研究は,ロールプレイングモデルによるユーザエンゲージメントの重要な側面を明らかにし,ロールプレイング目的の大規模言語モデルの開発において,今後の改善に向けた貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-18T09:42:41Z) - Tachikuma: Understading Complex Interactions with Multi-Character and
Novel Objects by Large Language Models [67.20964015591262]
我々は,複数文字と新しいオブジェクトベースインタラクション推定タスクとサポートデータセットからなる,立久間というベンチマークを導入する。
このデータセットは、ゲームプレイ中のリアルタイム通信からログデータをキャプチャし、多様な、接地された複雑なインタラクションを提供して、さらなる探索を行う。
本稿では,対話理解の強化に有効であることを示すため,簡単なプロンプトベースラインを提案し,その性能評価を行う。
論文 参考訳(メタデータ) (2023-07-24T07:40:59Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - A Hierarchical Network for Abstractive Meeting Summarization with
Cross-Domain Pretraining [52.11221075687124]
本稿では,会議シナリオに適応する抽象的要約ネットワークを提案する。
提案手法は,長時間の会議記録に対応する階層構造と,話者間の差異を表現する役割ベクトルを設計する。
我々のモデルは、自動測定と人的評価の両方において、過去のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-04-04T21:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。