論文の概要: MediaSum: A Large-scale Media Interview Dataset for Dialogue
Summarization
- arxiv url: http://arxiv.org/abs/2103.06410v2
- Date: Fri, 12 Mar 2021 01:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 11:01:27.856210
- Title: MediaSum: A Large-scale Media Interview Dataset for Dialogue
Summarization
- Title(参考訳): MediaSum:対話要約のための大規模メディアインタビューデータセット
- Authors: Chenguang Zhu, Yang Liu, Jie Mei, Michael Zeng
- Abstract要約: MediaSumは、463.6Kのテキストと抽象的な要約からなる大規模メディアインタビューデータセットである。
我々は、nprおよびcnnからインタビュー記録を収集し、概要とトピック記述を要約として採用する。
- 参考スコア(独自算出の注目度): 15.659166674845949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MediaSum, a large-scale media interview dataset consisting of 463.6K
transcripts with abstractive summaries. To create this dataset, we collect
interview transcripts from NPR and CNN and employ the overview and topic
descriptions as summaries. Compared with existing public corpora for dialogue
summarization, our dataset is an order of magnitude larger and contains complex
multi-party conversations from multiple domains. We conduct statistical
analysis to demonstrate the unique positional bias exhibited in the transcripts
of televised and radioed interviews. We also show that MediaSum can be used in
transfer learning to improve a model's performance on other dialogue
summarization tasks.
- Abstract(参考訳): MediaSumは463.6Kのトランスクリプトと抽象的な要約からなる大規模なメディアインタビューデータセットである。
このデータセットを作成するために,NPRとCNNからインタビュー書き起こしを収集し,概要とトピック記述を要約として利用する。
対話要約のための既存の公開コーパスと比較して、我々のデータセットは桁違いに大きく、複数のドメインからの複雑な多人数会話を含んでいる。
我々は,テレビインタビューやラジオインタビューの台本に現れるユニークな位置バイアスを統計的に分析する。
また,他の対話要約タスクにおけるモデルの性能向上のために,メディアサムが伝達学習に利用できることを示す。
関連論文リスト
- SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Hierarchical3D Adapters for Long Video-to-text Summarization [79.01926022762093]
マルチモーダル情報は、メモリ重大で完全に微調整されたテキスト要約方法よりも優れたパフォーマンスを提供する。
実験により, マルチモーダル情報は, よりメモリ量が多く, 完全に微調整されたテキスト要約法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-10-10T16:44:36Z) - Identifying Introductions in Podcast Episodes from Automatically
Generated Transcripts [0.0]
400以上のポッドキャストエピソードの完全な書き起こしのデータセットを新たに構築する。
これらの紹介には、エピソードのトピック、ホスト、ゲストに関する情報が含まれている。
我々は、事前訓練されたBERTと異なる拡張戦略に基づいて、3つのTransformerモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-14T00:34:51Z) - An Exploratory Study on Long Dialogue Summarization: What Works and
What's Next [33.1899354772074]
本稿では,長文入力問題に対処し,関連する情報を見つけるための3つの戦略を検証し,長文対話の要約について検討する。
QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。
論文 参考訳(メタデータ) (2021-09-10T01:38:26Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z) - Intweetive Text Summarization [1.1565654851982567]
本稿では,公開図形E-Reputationを扱うマイクロブログ会話の要約を自動生成する手法を提案する。
これらの要約はキーワードクエリやサンプルツイートを使用して生成され、Micro-Blogネットワーク全体の集中ビューを提供する。
論文 参考訳(メタデータ) (2020-01-16T08:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。