論文の概要: BLiSS 1.0: Evaluating Bilingual Learner Competence in Second Language Small Language Models
- arxiv url: http://arxiv.org/abs/2510.19419v1
- Date: Wed, 22 Oct 2025 09:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.530637
- Title: BLiSS 1.0: Evaluating Bilingual Learner Competence in Second Language Small Language Models
- Title(参考訳): BLiSS 1.0: 第二言語小言語モデルにおけるバイリンガル学習能力の評価
- Authors: Yuan Gao, Suchir Salhan, Andrew Caines, Paula Buttery, Weiwei Sun,
- Abstract要約: BLiSS 1.0はLearner Interlingual Syntactic Structureのベンチマークである。
モデルが、一致した人工的なエラーよりも、自然主義的な学習者エラーを見つけるかどうかをテストする。
この目的のために136,867個の制御された三脚(修正,学習,人工)を提供する。
- 参考スコア(独自算出の注目度): 10.028672903585777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To bridge the gap between performance-oriented benchmarks and the evaluation of cognitively inspired models, we introduce BLiSS 1.0, a Benchmark of Learner Interlingual Syntactic Structure. Our benchmark operationalizes a new paradigm of selective tolerance, testing whether a model finds a naturalistic learner error more plausible than a matched, artificial error within the same sentence. Constructed from over 2.8 million naturalistic learner sentences, BLiSS provides 136,867 controlled triplets (corrected, learner, artificial) for this purpose. Experiments on a diverse suite of models demonstrate that selective tolerance is a distinct capability from standard grammaticality, with performance clustering strongly by training paradigm. This validates BLiSS as a robust tool for measuring how different training objectives impact a model's alignment with the systematic patterns of human language acquisition.
- Abstract(参考訳): 性能指向ベンチマークと認知モデル評価のギャップを埋めるために,学習言語間構文構造ベンチマークであるBLiSS 1.0を導入する。
本ベンチマークでは,モデルが一致した人工的誤りよりも自然主義的な学習者誤りを発見できるかどうかを検証し,選択的寛容の新たなパラダイムを運用する。
BLiSSは280万以上の自然主義的な学習者文から構築され、この目的のために136,867個の制御された三つ子(修正、学習、人工)を提供する。
モデルの多種多様なスイートの実験では、選択的寛容は標準的な文法とは全く異なる能力であり、パフォーマンスクラスタリングはトレーニングパラダイムによって強く行われることが示されている。
これにより、BLiSSは、異なるトレーニング目標が、人間の言語習得の体系的なパターンとモデルのアライメントにどのように影響するかを測定するための堅牢なツールとして検証される。
関連論文リスト
- Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [24.39952838336609]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのフレームワークである。
FLUKEの実用性は、6つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Teaching a Language Model to Distinguish Between Similar Details using a Small Adversarial Training Set [0.0]
対向テストセット(+13%)では,元のNLIタスクでは良好な性能を維持しつつ,精度が向上した。
また、SNLIテストセットの最も類似した矛盾点について、91.2%から92.9%まで精度が向上した(コサイン類似性によって判断される)。
論文 参考訳(メタデータ) (2024-10-30T15:27:55Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。