論文の概要: Representativeness as a Forgotten Lesson for Multilingual and
Code-switched Data Collection and Preparation
- arxiv url: http://arxiv.org/abs/2310.20470v1
- Date: Tue, 31 Oct 2023 14:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:56:30.496905
- Title: Representativeness as a Forgotten Lesson for Multilingual and
Code-switched Data Collection and Preparation
- Title(参考訳): 多言語・コード交換データ収集・準備のための忘れられた教訓としての代表性
- Authors: A. Seza Do\u{g}ru\"oz, Sunayana Sitaram, Zheng-Xin Yong
- Abstract要約: コードスイッチング(CSW)は、場所や地域によって異なる言語ペア/タプルの間で一般的なプラクティスである。
我々は、既存のCSWデータセットに関する批判的な研究を通じて、この後退の背景にある理由を考察する。
- 参考スコア(独自算出の注目度): 17.377180687023824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multilingualism is widespread around the world and code-switching (CSW) is a
common practice among different language pairs/tuples across locations and
regions. However, there is still not much progress in building successful CSW
systems, despite the recent advances in Massive Multilingual Language Models
(MMLMs). We investigate the reasons behind this setback through a critical
study about the existing CSW data sets (68) across language pairs in terms of
the collection and preparation (e.g. transcription and annotation) stages. This
in-depth analysis reveals that \textbf{a)} most CSW data involves English
ignoring other language pairs/tuples \textbf{b)} there are flaws in terms of
representativeness in data collection and preparation stages due to ignoring
the location based, socio-demographic and register variation in CSW. In
addition, lack of clarity on the data selection and filtering stages shadow the
representativeness of CSW data sets. We conclude by providing a short
check-list to improve the representativeness for forthcoming studies involving
CSW data collection and preparation.
- Abstract(参考訳): 多言語主義は世界中に広まり、code-switching (csw) は場所や地域をまたがる異なる言語ペア/タプルの間で共通の実践である。
しかし、近年のMMLM(Massive Multilingual Language Models)の進歩にもかかわらず、成功したCSWシステムの構築には大きな進展はない。
本稿では,言語ペア間の既存のcswデータセット(68)について,収集・準備段階(例えば,転写・注釈段階)の観点で批判的研究を行い,その背景を考察した。
この詳細な分析により、ほとんどのCSWデータは、他の言語対/tuples \textbf{b)} を無視した英語を含んでいることが明らかになった。
さらに、データ選択とフィルタリングステージの明確さの欠如は、cswデータセットの代表性を影にしている。
最後に、cswデータ収集と準備に関する今後の研究の代表性を改善するための短いチェックリストを提供する。
関連論文リスト
- Grammatical Error Correction for Code-Switched Sentences by Learners of English [5.653145656597412]
CSWテキスト上で文法誤り訂正システムの利用を初めて検討する。
我々は、既存のGECコーパス内で異なるテキストのスパンを翻訳することで、合成されたCSW GECデータセットを生成する。
次に,CSW比,スイッチポイント係数,言語制約に基づいて,これらのスパンを選択する方法について検討する。
我々の最良のモデルは、モノリンガルデータセット上でのモデルの性能に影響を与えることなく、3つのCSWテストセットの平均1.57ドルF_0.5$を達成する。
論文 参考訳(メタデータ) (2024-04-18T20:05:30Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched Summarization [25.182666420286132]
自然に発生するCLSリソースの希少さを考えると、データセットの大部分は翻訳に頼らざるを得ない。
これにより、コードスイッチングのインスタンスを含む有機的辞書をキャプチャする自然発生のCLSペアを観測する能力を制限することができます。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - A Balanced Data Approach for Evaluating Cross-Lingual Transfer: Mapping
the Linguistic Blood Bank [13.630306305322094]
プレトレーニング言語の選択は,BERTモデルに対する下流言語間移動に影響を及ぼすことを示す。
本研究では,データサイズを削減し,ドナーとして下流のパフォーマンスを向上させる事前学習言語を分類するために,バランスの取れたデータ条件下でゼロショット性能を検査する。
論文 参考訳(メタデータ) (2022-05-09T07:32:50Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Improving Sign Language Translation with Monolingual Data by Sign
Back-Translation [105.83166521438463]
本稿では,手話テキストを手話訓練に組み込んだ手話逆翻訳(SignBT)手法を提案する。
テキストからグロスへの翻訳モデルを用いて、まずモノリンガルテキストをそのグロスシーケンスに逆変換する。
そして、推定グロス・トゥ・サインバンクから特徴レベルで部品をスプライシングしてペアサインシーケンスを生成する。
論文 参考訳(メタデータ) (2021-05-26T08:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。