論文の概要: JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and
People-related Information Detection
- arxiv url: http://arxiv.org/abs/2103.11786v1
- Date: Sat, 6 Mar 2021 12:15:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 05:57:32.112738
- Title: JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and
People-related Information Detection
- Title(参考訳): JPS-daprinfo:日本語対話行為分析と人物関連情報検出のためのデータセット
- Authors: Changzeng Fu
- Abstract要約: テキスト分類のための音声日本語データセット(i-jas)のラベリング作業を行った。
本データセットは, 参加者の過去と未来を議論する, 双方向の日本語会話の50のインタビュー対話を含む。
データセットから,13のラベルを付した注釈文を作成した。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We conducted a labeling work on a spoken Japanese dataset (I-JAS) for the
text classification, which contains 50 interview dialogues of two-way Japanese
conversation that discuss the participants' past present and future. Each
dialogue is 30 minutes long. From this dataset, we selected the interview
dialogues of native Japanese speakers as the samples. Given the dataset, we
annotated sentences with 13 labels. The labeling work was conducted by native
Japanese speakers who have experiences with data annotation. The total amount
of the annotated samples is 20130.
- Abstract(参考訳): テキスト分類のための音声日本語データセット (i-jas) のラベリング作業を行い, 参加者の過去と未来を議論する双方向日本語会話の50のインタビュー対話を含む。
各会話の長さは30分である。
このデータセットから,日本語母語話者のインタビュー対話をサンプルとして選択した。
データセットから,13ラベルの注釈文を作成した。
ラベル付け作業は,データアノテーションの経験のある日本語話者によって行われた。
注釈付きサンプルの総量は20130。
関連論文リスト
- JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset [3.1311340484197814]
JMultiWOZは日本語初の大規模マルチドメインタスク指向対話データセットである。
我々は,最先端手法の対話状態追跡と応答生成能力について検討した。
論文 参考訳(メタデータ) (2024-03-26T02:01:18Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark [39.81588409521846]
我々は,オープンソースの英語対話評価データセット上に構築されたxDial-Evalを紹介する。
xDial-Evalには12のターンレベルと6のダイアログレベルの英語データセットが含まれており、それぞれ14930のアノテート・ターンと8691のアノテート・ダイアログで構成されている。
xDial-Evalでは、従来のBERTベースのメトリクスと最近導入された大規模言語モデルの包括的な分析を行う。
論文 参考訳(メタデータ) (2023-10-13T09:07:13Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。