論文の概要: I run as fast as a rabbit, can you? A Multilingual Simile Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2306.05672v2
- Date: Fri, 18 Oct 2024 09:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:41.119870
- Title: I run as fast as a rabbit, can you? A Multilingual Simile Dialogue Dataset
- Title(参考訳): ウサギと同じ速さで走れる? マルチリンガル・シビル・ダイアログ・データセット
- Authors: Longxuan Ma, Weinan Zhang, Shuhan Zhou, Churui Sun, Changxin Ke, Ting Liu,
- Abstract要約: シミュラ(simile)とは、2つの異なるもの(テノールと車両と呼ばれる)を共通の性質で比較する言語である。
現在のシミュレート研究は、通常、三重項(テノール、資産、車両)または一文のシミュレートに焦点を当てている。
複雑なシミュレート現象の研究を容易にするために, 新規で高品質なマルチリンガル・シミュレート・ダイアログ(MSD)データセットを提案する。
- 参考スコア(独自算出の注目度): 26.42431190718335
- License:
- Abstract: A simile is a figure of speech that compares two different things (called the tenor and the vehicle) via shared properties. The tenor and the vehicle are usually connected with comparator words such as "like" or "as". The simile phenomena are unique and complex in a real-life dialogue scene where the tenor and the vehicle can be verbal phrases or sentences, mentioned by different speakers, exist in different sentences, or occur in reversed order. However, the current simile research usually focuses on similes in a triplet tuple (tenor, property, vehicle) or a single sentence where the tenor and vehicle are usually entities or noun phrases, which could not reflect complex simile phenomena in real scenarios. In this paper, we propose a novel and high-quality multilingual simile dialogue (MSD) dataset to facilitate the study of complex simile phenomena. The MSD is the largest manually annotated simile data ($\sim$20K) and it contains both English and Chinese data. Meanwhile, the MSD data can also be used on dialogue tasks to test the ability of dialogue systems when using similes. We design 3 simile tasks (recognition, interpretation, and generation) and 2 dialogue tasks (retrieval and generation) with MSD. For each task, we provide experimental results from strong pre-trained or state-of-the-art models. The experiments demonstrate the challenge of MSD and we have released the data/code on GitHub.
- Abstract(参考訳): シミュラ(simile)とは、2つの異なるもの(テノールと車両と呼ばれる)を共通の性質で比較する言語である。
テナーと車両は通常、"like"や"as"のようなコンパレータ語で接続される。
実際の対話シーンでは、テナーと車両が、異なる話者によって言及される、異なる文に存在する、あるいは逆順に起こる、言葉のフレーズまたは文になり得る。
しかし、現在のシミュラ研究は、通常、三重項タプル(テノール、財産、車両)のシミュラや、テノールと車両が通常実体または名詞句であり、実際のシナリオにおける複雑なシミュラ現象を反映できない単一の文に焦点を当てている。
本稿では,複雑なシミュレート現象の研究を容易にするための,新規で高品質なマルチリンガル・シミュレート・ダイアログ(MSD)データセットを提案する。
MSDは、英語と中国語の両方のデータを含む、手動で注釈付けされた最小のデータ($20K)である。
一方、MSDデータは対話タスクでも使用することができ、シミュラを使用する際の対話システムの能力をテストすることができる。
我々は,MSDを用いた3つの簡単なタスク(認識,解釈,生成)と2つの対話タスク(検索と生成)を設計する。
各タスクに対して、強い事前訓練または最先端のモデルによる実験結果を提供する。
実験ではMSDの課題を実証し、GitHubでデータ/コードをリリースした。
関連論文リスト
- Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - A Match Made in Heaven: A Multi-task Framework for Hyperbole and
Metaphor Detection [27.85834441076481]
ハイパボラとメタファーは日々のコミュニケーションで一般的である。
メタファーやハイパーボアを自動的に検出するための既存のアプローチは、これらの言語現象を独立して研究してきた。
ハイパーボラとメタファを同時に検出するマルチタスク深層学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T14:17:59Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.81525961469494]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。
MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文 参考訳(メタデータ) (2022-02-28T09:40:46Z) - We've had this conversation before: A Novel Approach to Measuring Dialog
Similarity [9.218829323265371]
ダイアログ類似性のシナリオに対する編集距離距離の新たな適応法を提案する。
提案手法は,発話意味論,会話の流れ,参加者など,さまざまな会話の側面を考慮に入れている。
論文 参考訳(メタデータ) (2021-10-12T07:24:12Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z) - Writing Polishment with Simile: Task, Dataset and A Neural Approach [9.38000305423665]
我々は、機械が人間と同じようにシミュラでテキストを磨くことができるかどうかを調べるために、Simile (WPS) でポーランド語を書くための新しいタスクを提案する。
我々のモデルはまず、シミリの発生場所を特定し、次に位置固有のシミリを生成する。
また、コンテキスト付き500万マイルを含む大規模な中国シミールデータセットもリリースしています。
論文 参考訳(メタデータ) (2020-12-15T06:39:54Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。