論文の概要: Multilingual Coreference Resolution in Multiparty Dialogue
- arxiv url: http://arxiv.org/abs/2208.01307v2
- Date: Sun, 9 Jul 2023 02:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:23:45.274382
- Title: Multilingual Coreference Resolution in Multiparty Dialogue
- Title(参考訳): 多言語対話における多言語対応
- Authors: Boyuan Zheng, Patrick Xia, Mahsa Yarmohammadi, Benjamin Van Durme
- Abstract要約: そこで我々は,テレビの文字起こしに基づく大規模データセットであるMultilingual Multiparty Corefを構築した。
複数の言語でゴールド品質の字幕が利用できるため、他の言語で銀のコア参照解決データを作成するためにアノテーションを再利用することを提案する。
データ拡張とゼロショットの言語間設定を効果的にシミュレートするスクラッチからのトレーニングの両方に使用することに成功したのです。
- 参考スコア(独自算出の注目度): 29.92954906275944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multiparty dialogue datasets for entity coreference resolution are
nascent, and many challenges are still unaddressed. We create a large-scale
dataset, Multilingual Multiparty Coref (MMC), for this task based on TV
transcripts. Due to the availability of gold-quality subtitles in multiple
languages, we propose reusing the annotations to create silver coreference
resolution data in other languages (Chinese and Farsi) via annotation
projection. On the gold (English) data, off-the-shelf models perform relatively
poorly on MMC, suggesting that MMC has broader coverage of multiparty
coreference than prior datasets. On the silver data, we find success both using
it for data augmentation and training from scratch, which effectively simulates
the zero-shot cross-lingual setting.
- Abstract(参考訳): エンティティのコリファレンス解決のための既存のマルチパーティ対話データセットが誕生したばかりだが、多くの課題はまだ解決されていない。
そこで我々は,テレビの文字起こしに基づく大規模データセットMultilingual Multiparty Coref (MMC) を作成した。
複数の言語でゴールド品質の字幕が利用できるため、アノテーションを再利用して他の言語(中国語とFarsi)で銀のコア参照解決データを作成することを提案する。
金(英)データでは、市販のモデルはMCCでは比較的低性能であり、MCCは以前のデータセットよりも多人数のコア参照を幅広くカバーしていることを示している。
シルバーデータでは、データ拡張とゼロショットの言語間設定を効果的にシミュレートするスクラッチからのトレーニングの両方にそれを使うことに成功した。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - Towards Multilingual Automatic Dialogue Evaluation [9.264022699972621]
堅牢な多言語対話評価尺度の開発における主な制限要因は、多言語データの欠如である。
本稿では,強い多言語事前学習 LLM を活用し,機械翻訳を用いて既存の英会話データを増大させることにより,このデータ不足の回避策を提案する。
我々は,事前学習した多言語エンコーダモデルを翻訳データで微調整するという素質的なアプローチは,ソースデータのみを用いて多言語モデルを微調整する強力なベースラインを上回るには不十分であることを実証的に示す。
論文 参考訳(メタデータ) (2023-08-31T15:15:26Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。