Fugu-MT 論文翻訳(概要): JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and People-related Information Detection

論文の概要: JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and People-related Information Detection

arxiv url: http://arxiv.org/abs/2103.11786v1
Date: Sat, 6 Mar 2021 12:15:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-05 05:57:32.112738
Title: JPS-daprinfo: A Dataset for Japanese Dialog Act Analysis and People-related Information Detection
Title（参考訳）: JPS-daprinfo:日本語対話行為分析と人物関連情報検出のためのデータセット
Authors: Changzeng Fu
Abstract要約: テキスト分類のための音声日本語データセット(i-jas)のラベリング作業を行った。本データセットは, 参加者の過去と未来を議論する, 双方向の日本語会話の50のインタビュー対話を含む。データセットから,13のラベルを付した注釈文を作成した。
参考スコア（独自算出の注目度）: 0.76146285961466
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We conducted a labeling work on a spoken Japanese dataset (I-JAS) for the text classification, which contains 50 interview dialogues of two-way Japanese conversation that discuss the participants' past present and future. Each dialogue is 30 minutes long. From this dataset, we selected the interview dialogues of native Japanese speakers as the samples. Given the dataset, we annotated sentences with 13 labels. The labeling work was conducted by native Japanese speakers who have experiences with data annotation. The total amount of the annotated samples is 20130.
Abstract（参考訳）: テキスト分類のための音声日本語データセット (i-jas) のラベリング作業を行い, 参加者の過去と未来を議論する双方向日本語会話の50のインタビュー対話を含む。各会話の長さは30分である。このデータセットから,日本語母語話者のインタビュー対話をサンプルとして選択した。データセットから,13ラベルの注釈文を作成した。ラベル付け作業は,データアノテーションの経験のある日本語話者によって行われた。注釈付きサンプルの総量は20130。

関連論文リスト

Towards a Japanese Full-duplex Spoken Dialogue System [8.984488716637655]
近年,音声対話システムが注目されている。本稿では,日本語で利用可能なフルステージ音声対話モデルについて紹介する。本モデルは,日本語における大規模音声対話データに対する事前学習と,高品質なステレオ音声対話データによる微調整の2チャンネルプロセスを通じて訓練される。
論文参考訳（メタデータ） (2025-06-03T15:16:50Z)
JMultiWOZ: A Large-Scale Japanese Multi-Domain Task-Oriented Dialogue Dataset [3.1311340484197814]
JMultiWOZは日本語初の大規模マルチドメインタスク指向対話データセットである。我々は,最先端手法の対話状態追跡と応答生成能力について検討した。
論文参考訳（メタデータ） (2024-03-26T02:01:18Z)
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文参考訳（メタデータ） (2023-11-24T13:47:25Z)
xDial-Eval: A Multilingual Open-Domain Dialogue Evaluation Benchmark [39.81588409521846]
我々は,オープンソースの英語対話評価データセット上に構築されたxDial-Evalを紹介する。 xDial-Evalには12のターンレベルと6のダイアログレベルの英語データセットが含まれており、それぞれ14930のアノテート・ターンと8691のアノテート・ダイアログで構成されている。 xDial-Evalでは、従来のBERTベースのメトリクスと最近導入された大規模言語モデルの包括的な分析を行う。
論文参考訳（メタデータ） (2023-10-13T09:07:13Z)
MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文参考訳（メタデータ） (2023-05-19T00:14:10Z)
CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。 96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文参考訳（メタデータ） (2022-11-21T16:21:41Z)
Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。 MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文参考訳（メタデータ） (2022-03-31T07:01:06Z)
"How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文参考訳（メタデータ） (2021-09-28T04:51:04Z)
RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。 11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文参考訳（メタデータ） (2020-10-17T08:18:59Z)
Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。 Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文参考訳（メタデータ） (2020-09-28T12:49:07Z)
Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文参考訳（メタデータ） (2020-08-31T17:44:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。