論文の概要: BERnaT: Basque Encoders for Representing Natural Textual Diversity
- arxiv url: http://arxiv.org/abs/2512.03903v1
- Date: Wed, 03 Dec 2025 15:50:42 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:17:04.60342
- Title: BERnaT: Basque Encoders for Representing Natural Textual Diversity
- Title(参考訳): BERnaT: 自然のテクスチュア多様性を表現するバスクエンコーダ
- Authors: Ekhi Azurmendi, Joseba Fernandez de Landa, Jaione Bengoetxea, Maite Heredia, Julen Etxaniz, Mikel Zubillaga, Ander Soraluze, Aitor Soroa,
- Abstract要約: 言語モデルは、標準化されたテキストにのみ依存するのではなく、言語の変化の完全なスペクトルを捉えることを目的としている。
我々は,標準,ソーシャルメディア,歴史資料を組み合わせた新しいコーパスを構築し,エンコーダのみのモデルのBERnaTファミリーを3つの構成で事前学習する。
その結果、標準コーパスと多種多様なデータでトレーニングされたモデルは、標準コーパスでトレーニングされたモデルよりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 7.357065915404815
- License:
- Abstract: Language models depend on massive text corpora that are often filtered for quality, a process that can unintentionally exclude non-standard linguistic varieties, reduce model robustness and reinforce representational biases. In this paper, we argue that language models should aim to capture the full spectrum of language variation (dialectal, historical, informal, etc.) rather than relying solely on standardized text. Focusing on Basque, a morphologically rich and low-resource language, we construct new corpora combining standard, social media, and historical sources, and pre-train the BERnaT family of encoder-only models in three configurations: standard, diverse, and combined. We further propose an evaluation framework that separates Natural Language Understanding (NLU) tasks into standard and diverse subsets to assess linguistic generalization. Results show that models trained on both standard and diverse data consistently outperform those trained on standard corpora, improving performance across all task types without compromising standard benchmark accuracy. These findings highlight the importance of linguistic diversity in building inclusive, generalizable language models.
- Abstract(参考訳): 言語モデルは、しばしば品質のためにフィルタリングされる巨大なテキストコーパスに依存しており、非標準言語多様体を意図せずに排除し、モデルの堅牢性を低減し、表現バイアスを強化することができる。
本稿では,言語モデルが標準化されたテキストにのみ依存するのではなく,言語変化(方言,歴史,非公式など)の完全なスペクトルを捉えることを目的としている,と論じる。
形態的にリッチで低リソースの言語であるバスクに着目し,標準,ソーシャルメディア,歴史ソースを組み合わせた新しいコーパスを構築し,標準,多様,複合の3つの構成でエンコーダのみのモデルのBERnaTファミリーを事前訓練する。
さらに,自然言語理解(NLU)タスクを,言語一般化を評価するための標準および多種多様なサブセットに分割する評価フレームワークを提案する。
その結果、標準コーパスと多種多様なデータの両方でトレーニングされたモデルは、標準コーパスでトレーニングされたモデルよりも一貫して優れており、標準ベンチマークの精度を損なうことなく、すべてのタスクタイプのパフォーマンスを改善していることがわかった。
これらの知見は包括的で一般化可能な言語モデルの構築における言語多様性の重要性を浮き彫りにしている。
関連論文リスト
- NoveltyBench: Evaluating Language Models for Humanlike Diversity [21.6078675947446]
NoveltyBenchは、言語モデルが複数の異なる高品質な出力を生成する能力を評価するために設計されたベンチマークである。
我々は20の指導的言語モデルを評価し、現在の最先端システムは人間の書き手よりも著しく多様性が低いことを発見した。
論文 参考訳(メタデータ) (2025-04-07T16:14:23Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。