論文の概要: Common Ground, Diverse Roots: The Difficulty of Classifying Common Examples in Spanish Varieties
- arxiv url: http://arxiv.org/abs/2412.11750v1
- Date: Mon, 16 Dec 2024 13:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:30.400059
- Title: Common Ground, Diverse Roots: The Difficulty of Classifying Common Examples in Spanish Varieties
- Title(参考訳): コモングラウンド, ディバースルート:スペイン品種の共通例分類の難しさ
- Authors: Javier A. Lopetegui, Arij Riabi, Djamé Seddah,
- Abstract要約: スペイン語のような言語では、多様体は著しく重複しうるが、多くの例はそれらの間に有効である。
トレーニングダイナミクスを使用して、既存のスペインデータセットの一般的な例やエラーを自動的に検出します。
本稿では,キューバおよびカリブ海のスペイン語品種のより正確な検出を容易にするために,共通例アノテーションを用いたキューバのスペイン語品種識別データセットを提案する。
- 参考スコア(独自算出の注目度): 5.091306993367262
- License:
- Abstract: Variations in languages across geographic regions or cultures are crucial to address to avoid biases in NLP systems designed for culturally sensitive tasks, such as hate speech detection or dialog with conversational agents. In languages such as Spanish, where varieties can significantly overlap, many examples can be valid across them, which we refer to as common examples. Ignoring these examples may cause misclassifications, reducing model accuracy and fairness. Therefore, accounting for these common examples is essential to improve the robustness and representativeness of NLP systems trained on such data. In this work, we address this problem in the context of Spanish varieties. We use training dynamics to automatically detect common examples or errors in existing Spanish datasets. We demonstrate the efficacy of using predicted label confidence for our Datamaps \cite{swayamdipta-etal-2020-dataset} implementation for the identification of hard-to-classify examples, especially common examples, enhancing model performance in variety identification tasks. Additionally, we introduce a Cuban Spanish Variety Identification dataset with common examples annotations developed to facilitate more accurate detection of Cuban and Caribbean Spanish varieties. To our knowledge, this is the first dataset focused on identifying the Cuban, or any other Caribbean, Spanish variety.
- Abstract(参考訳): 地理的地域や文化にまたがる言語の変化は、ヘイトスピーチの検出や会話エージェントとの対話といった文化的に敏感なタスクのために設計されたNLPシステムのバイアスを避けるために、対処することが不可欠である。
スペイン語のような言語では、多様体は著しく重複しうるが、多くの例はそれら全体で有効であり、一般的な例として言及する。
これらの例を無視すると、誤分類が発生し、モデルの精度と公平性が低下する可能性がある。
したがって、これらの共通例を考慮に入れることは、そのようなデータに基づいて訓練されたNLPシステムの堅牢性と代表性を向上させるために不可欠である。
本研究では,スペイン品種の文脈でこの問題に対処する。
トレーニングダイナミクスを使用して、既存のスペインデータセットの一般的な例やエラーを自動的に検出します。
我々は,データマップにおける予測ラベル信頼度を用いて,分類の難しい例,特に一般的な例を識別し,様々な識別タスクにおけるモデル性能を向上させる方法の有効性を実証する。
さらに,キューバおよびカリブ海のスペイン語品種のより正確な検出を容易にするために,共通例アノテーションを用いたキューバのスペイン語品種識別データセットを導入する。
私たちの知る限り、これはキューバ、または他のカリブ海、スペインの品種を特定することに焦点を当てた最初のデータセットです。
関連論文リスト
- Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models [18.03259038587496]
インコンテクスト学習は、インコンテクストの実例の順序に大きく影響される。
情報拡張・一貫性強化手法と呼ばれる教師なしの微調整手法を導入する。
提案手法は,文脈内サンプルの順序に対するCausalLMsの感度を低減し,堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2024-02-23T22:39:12Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Detecting ESG topics using domain-specific language models and data
augmentation approaches [3.3332986505989446]
金融分野における自然言語処理タスクは、適切にラベル付けされたデータのあいまいさのため、依然として困難なままである。
本稿では,これらの問題を緩和するための2つのアプローチについて検討する。
まず、ビジネスおよび財務ニュースから大量のドメイン内データを用いて、さらなる言語モデルの事前学習実験を行う。
次に、モデル微調整のためのデータセットのサイズを増やすために拡張アプローチを適用します。
論文 参考訳(メタデータ) (2020-10-16T11:20:07Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。