論文の概要: FinChat: Corpus and evaluation setup for Finnish chat conversations on
everyday topics
- arxiv url: http://arxiv.org/abs/2008.08315v1
- Date: Wed, 19 Aug 2020 07:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 11:40:49.277876
- Title: FinChat: Corpus and evaluation setup for Finnish chat conversations on
everyday topics
- Title(参考訳): FinChat: 日々の話題におけるフィンランド語チャットのコーパスと評価設定
- Authors: Katri Leino, Juho Leinonen, Mittul Singh, Sami Virpioja, Mikko Kurimo
- Abstract要約: フィンランドのチャットコーパス「FinChat」を公開している。
FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。
人間の評価では、チャットボットが生成した評価セットからの質問に対する応答は、主に非一貫性としてマークされる。
- 参考スコア(独自算出の注目度): 15.94497202872835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating open-domain chatbots requires large amounts of conversational data
and related benchmark tasks to evaluate them. Standardized evaluation tasks are
crucial for creating automatic evaluation metrics for model development;
otherwise, comparing the models would require resource-expensive human
evaluation. While chatbot challenges have recently managed to provide a
plethora of such resources for English, resources in other languages are not
yet available. In this work, we provide a starting point for Finnish
open-domain chatbot research. We describe our collection efforts to create the
Finnish chat conversation corpus FinChat, which is made available publicly.
FinChat includes unscripted conversations on seven topics from people of
different ages. Using this corpus, we also construct a retrieval-based
evaluation task for Finnish chatbot development. We observe that off-the-shelf
chatbot models trained on conversational corpora do not perform better than
chance at choosing the right answer based on automatic metrics, while humans
can do the same task almost perfectly. Similarly, in a human evaluation,
responses to questions from the evaluation set generated by the chatbots are
predominantly marked as incoherent. Thus, FinChat provides a challenging
evaluation set, meant to encourage chatbot development in Finnish.
- Abstract(参考訳): オープンドメインチャットボットを作成するには、大量の会話データと関連するベンチマークタスクが必要である。
標準化された評価タスクは、モデル開発のための自動評価メトリクスを作成するために不可欠である。
チャットボットの課題は最近、英語にこのようなリソースの多さを提供しているが、他の言語のリソースはまだ利用できない。
本研究では,フィンランドのオープンドメインチャットボット研究の出発点となる。
我々は,フィンランドのチャット会話コーパスであるfinchatを作成するための収集作業について述べる。
FinChatには、異なる年齢の人々の7つのトピックに関する説明されていない会話が含まれている。
このコーパスを用いて,フィンランドのチャットボット開発のための検索ベース評価タスクを構築する。
対話型コーパスでトレーニングされた既成のチャットボットモデルでは,自動測定値に基づいて適切な回答を選択するチャンスが得られず,人間がほぼ完全に同じタスクを実行できる。
同様に、人間による評価では、チャットボットによって生成された評価セットからの質問に対する応答は、主に非一貫性としてマークされる。
このようにFinChatは、フィンランドのチャットボット開発を促進するために、挑戦的な評価セットを提供する。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Measuring and Controlling Instruction (In)Stability in Language Model Dialogs [72.38330196290119]
System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-02-13T20:10:29Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Leveraging Large Language Models to Power Chatbots for Collecting User
Self-Reported Data [15.808841433843742]
大きな言語モデル(LLM)は、自然言語のプロンプトを受け入れてチャットボットを構築する新しい方法を提供する。
我々は,チャットボットが自然に会話し,データを確実に収集する上で,プロンプトの設計要因について検討する。
論文 参考訳(メタデータ) (2023-01-14T07:29:36Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency [28.255324166852535]
整合性評価のためのAIH(Addressing Inquiries about History)フレームワークを提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的な事実や意見を再宣言する。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
論文 参考訳(メタデータ) (2021-06-04T03:04:13Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - A Multilingual African Embedding for FAQ Chatbots [0.0]
英語、フランス語、アラビア語、チュニジア語、igbo、yorub'a、hausaは言語や方言として使われている。
本稿では,質問応答タスクのためのアフリカ方言に適した改良されたStarSpace埋め込みについて述べる。
論文 参考訳(メタデータ) (2021-03-16T16:36:40Z) - Spot The Bot: A Robust and Efficient Framework for the Evaluation of
Conversational Dialogue Systems [21.36935947626793]
emphSpot ボットは人間とボットの会話をボット間の会話に置き換える。
人間の判断は、それが人間であるかどうかに関わらず、会話において各実体に注釈を付けるだけである。
emphSurvival Analysisは、人間のような行動を最も長く維持できるボットを計測する。
論文 参考訳(メタデータ) (2020-10-05T16:37:52Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。