論文の概要: Topic-Conversation Relevance (TCR) Dataset and Benchmarks
- arxiv url: http://arxiv.org/abs/2411.00038v2
- Date: Mon, 04 Nov 2024 03:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:34.838738
- Title: Topic-Conversation Relevance (TCR) Dataset and Benchmarks
- Title(参考訳): Topic-Conversation Relevance (TCR) データセットとベンチマーク
- Authors: Yaran Fan, Jamie Pool, Senja Filipi, Ross Cutler,
- Abstract要約: このデータセットには1500のユニークなミーティング、2200万ワードのテキストと15,000以上のミーティングトピックが含まれている。
各データソースに対して、GPT-4を用いてベンチマークを作成し、転写-位相関係を理解するためのモデル精度を評価する。
- 参考スコア(独自算出の注目度): 9.489839700079772
- License:
- Abstract: Workplace meetings are vital to organizational collaboration, yet a large percentage of meetings are rated as ineffective. To help improve meeting effectiveness by understanding if the conversation is on topic, we create a comprehensive Topic-Conversation Relevance (TCR) dataset that covers a variety of domains and meeting styles. The TCR dataset includes 1,500 unique meetings, 22 million words in transcripts, and over 15,000 meeting topics, sourced from both newly collected Speech Interruption Meeting (SIM) data and existing public datasets. Along with the text data, we also open source scripts to generate synthetic meetings or create augmented meetings from the TCR dataset to enhance data diversity. For each data source, benchmarks are created using GPT-4 to evaluate the model accuracy in understanding transcription-topic relevance.
- Abstract(参考訳): 職場でのミーティングは組織的なコラボレーションには不可欠ですが、ほとんどのミーティングは効果がないと評価されています。
会話が話題になっているかどうかを理解することで、ミーティングの有効性を向上させるために、さまざまなドメインやミーティングスタイルをカバーする包括的なトピック・会話関連(TCR)データセットを作成します。
TCRデータセットには,1500のユニークなミーティング,2200万ワードの書き起こし,新たに収集されたSpeech Interruption Meeting(SIM)データと既存の公開データセットから得られた15,000以上のミーティングトピックが含まれている。
また、テキストデータとともに、合成会議を生成するためのスクリプトをオープンソース化し、TCRデータセットから追加会議を作成し、データの多様性を高めます。
各データソースに対して、GPT-4を用いてベンチマークを作成し、転写-位相関係を理解するためのモデル精度を評価する。
関連論文リスト
- Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - VCSUM: A Versatile Chinese Meeting Summarization Dataset [25.695308276427166]
我々は,239のリアルタイムミーティングからなる,VCSumと呼ばれる汎用的な中国の会議要約データセットを紹介する。
トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供する。
分析の結果,VCSumの有効性とロバスト性が確認された。
論文 参考訳(メタデータ) (2023-05-09T09:07:15Z) - Overview of the ICASSP 2023 General Meeting Understanding and Generation
Challenge (MUG) [60.09540662936726]
MUGには、トピックセグメンテーション、トピックレベルおよびセッションレベルの抽出要約、トピックタイトル生成、キーフレーズ抽出、アクションアイテム検出の5つのトラックが含まれている。
MUGを容易にするために,大規模なミーティングデータセットであるAliMeeting4MUG Corpusを構築し,リリースする。
論文 参考訳(メタデータ) (2023-03-24T11:42:19Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Task2Dial: A Novel Task and Dataset for Commonsense enhanced Task-based
Dialogue Grounded in Documents [0.304585143845864]
本稿では,文書に埋もれたコモンセンス強化タスクベース対話に関する新しい課題を提案する。
Task2Dialデータセットは、文書ベースのタスクベースの対話の新しいデータセットである。
論文 参考訳(メタデータ) (2022-04-03T12:15:56Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Conversational Semantic Parsing [50.954321571100294]
共参照解決やコンテキスト転送といったセッションベースのプロパティは、パイプラインシステムで下流で処理される。
60kの発話からなる20kセッションからなる,セッションベースで構成型タスク指向構文解析データセットを新たにリリースする。
セッションベース解析のためのSeq2Seqモデルの新たなファミリーを提案し、ATIS, SNIPS, TOP, DSTC2における現在の最先端技術と同等の性能を実現する。
論文 参考訳(メタデータ) (2020-09-28T22:08:00Z) - A Hierarchical Network for Abstractive Meeting Summarization with
Cross-Domain Pretraining [52.11221075687124]
本稿では,会議シナリオに適応する抽象的要約ネットワークを提案する。
提案手法は,長時間の会議記録に対応する階層構造と,話者間の差異を表現する役割ベクトルを設計する。
我々のモデルは、自動測定と人的評価の両方において、過去のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-04-04T21:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。