論文の概要: GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations
- arxiv url: http://arxiv.org/abs/2104.08578v1
- Date: Sat, 17 Apr 2021 15:42:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 09:18:40.553779
- Title: GupShup: An Annotated Corpus for Abstractive Summarization of
Open-Domain Code-Switched Conversations
- Title(参考訳): GupShup: オープンドメインコードスイッチド会話の抽象化要約のための注釈付きコーパス
- Authors: Laiba Mehnaz, Debanjan Mahata, Rakesh Gosangi, Uma Sushmitha Gunturi,
Riya Jain, Gauri Gupta, Amardeep Kumar, Isabelle Lee, Anish Acharya, Rajiv
Ratn Shah
- Abstract要約: ヒンズー語と英語の会話を要約し,最初の会話要約データセットを開発した。
GupShupはヒンディー語で6,831以上の会話と、ヒンディー語とヒンディー語で対応する人間の注釈付き要約を含んでいる。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
- 参考スコア(独自算出の注目度): 28.693328393260906
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Code-switching is the communication phenomenon where speakers switch between
different languages during a conversation. With the widespread adoption of
conversational agents and chat platforms, code-switching has become an integral
part of written conversations in many multi-lingual communities worldwide. This
makes it essential to develop techniques for summarizing and understanding
these conversations. Towards this objective, we introduce abstractive
summarization of Hindi-English code-switched conversations and develop the
first code-switched conversation summarization dataset - GupShup, which
contains over 6,831 conversations in Hindi-English and their corresponding
human-annotated summaries in English and Hindi-English. We present a detailed
account of the entire data collection and annotation processes. We analyze the
dataset using various code-switching statistics. We train state-of-the-art
abstractive summarization models and report their performances using both
automated metrics and human evaluation. Our results show that multi-lingual
mBART and multi-view seq2seq models obtain the best performances on the new
dataset
- Abstract(参考訳): コードスイッチングは、会話中に話者が異なる言語を切り替えるコミュニケーション現象である。
会話エージェントやチャットプラットフォームの普及により、コードスイッチングは世界中の多言語コミュニティで書かれた会話の不可欠な部分となっている。
これにより、これらの会話を要約し理解する技術を開発することが不可欠である。
そこで本研究では,ヒンディー語とヒンディー語で6,831以上の会話と,それに対応する英語とヒンディー語で記述された要約文を含む,ヒンディー語で書かれた会話要約データセットGupShupを開発した。
本稿では,データ収集とアノテーションプロセス全体の詳細な説明を行う。
様々なコード切り換え統計を用いてデータセットを分析する。
我々は,最先端の抽象要約モデルを訓練し,自動計測と人間評価の両方を用いてその性能を報告する。
以上の結果から,マルチ言語 mBART モデルとマルチビュー seq2seq モデルでは,新しいデータセット上で最高の性能が得られることがわかった。
関連論文リスト
- RetrieveGPT: Merging Prompts and Mathematical Models for Enhanced Code-Mixed Information Retrieval [0.0]
インドでは、ソーシャルメディアのユーザーはローマ文字を使ってコードミキシングされた会話をすることが多い。
本稿では,コードミキシングによる会話から関連情報を抽出することの課題に焦点をあてる。
我々は、コードミキシングされた会話から最も関連性の高い回答を自動的に識別するメカニズムを開発する。
論文 参考訳(メタデータ) (2024-11-07T14:41:01Z) - Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - $\mu$PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge [72.64847925450368]
言語間の要約は、異なる言語で入力文書が与えられた1つの言語で要約を生成することで構成される。
この研究は、中間計画段階を言語横断橋として利用する言語横断要約へのアプローチである$mu$PLANを提示する。
論文 参考訳(メタデータ) (2023-05-23T16:25:21Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。