論文の概要: Sakura at BEA 2026 Shared Task 1: What Makes Vocabulary Difficult?
- arxiv url: http://arxiv.org/abs/2605.14257v2
- Date: Thu, 21 May 2026 13:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.405608
- Title: Sakura at BEA 2026 Shared Task 1: What Makes Vocabulary Difficult?
- Title(参考訳): Saga at BEA 2026 Shared Task 1: What makes Vocabulary Difficult?
- Authors: Adam Nohejl, Xuanxin Wu, Yusuke Ide, Maria Angelica Riera Machin, Yi-Ning Chang, Hitomi Yanaka,
- Abstract要約: 本稿では,語彙難易度予測のための2種類のモデルについて述べる。
最上位の共有タスクを達成した高精度のブラックボックスモデルと、微調整エンコーダベースラインを上回った説明可能なモデルである。
- 参考スコア(独自算出の注目度): 14.42028240439384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe two types of models for vocabulary difficulty prediction: a high-accuracy black-box model, which achieved the top shared task result in the open track, and an explainable model, which outperforms a fine-tuned encoder baseline. As the black-box model, we fine-tuned an LLM using a soft-target loss function for effective application to the rating task, achieving r > 0.91. The explainable model provides insights into what impacts the difficulty of each item while maintaining a strong correlation (r > 0.77). We further analyze the results, demonstrating that the difficulty of items in the British Council's Knowledge-based Vocabulary Lists (KVL) is often affected by spelling difficulty or the construction of the test items, in addition to the genuine production difficulty of the words. We make our code available online at https://github.com/ynklab/vocabulary-difficulty .
- Abstract(参考訳): 語彙難易度予測のための2つのモデルについて述べる: オープントラックにおいて最上位の共有タスクを達成した高精度ブラックボックスモデルと、微調整エンコーダベースラインよりも優れた説明可能なモデルである。
ブラックボックスモデルとして,ソフトターゲット損失関数を用いてLCMを微調整して評価課題に有効に適用し,r > 0.91。
説明可能なモデルは、強い相関(r > 0.77)を維持しながら、各項目の難易度にどんな影響を及ぼすかについての洞察を提供する。
さらに、英国議会の知識に基づく語彙リスト(KVL)における項目の難易度は、語句の真の生産難度に加えて、綴りの難易度やテスト項目の構成によっても影響されることが示されている。
当社のコードはhttps://github.com/ynklab/vocabulary-difficulty でオンラインで公開しています。
関連論文リスト
- LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models [15.955490895662384]
本稿では,言語一般化の詳細な解析のためのベンチマークであるLIBERO-Paraを紹介する。
パラフレージングにより22-52ppの連続的な性能劣化が観察された。
本稿では,意味的因子と構文的因子を用いてパラフレーズの難易度を定量化する指標PRIDEを提案する。
論文 参考訳(メタデータ) (2026-03-30T11:27:34Z) - Your Pretrained Model Tells the Difficulty Itself: A Self-Adaptive Curriculum Learning Paradigm for Natural Language Understanding [53.63482987410292]
本稿では,事前学習言語モデルにより予測される難易度に基づいて,微調整例を優先する自己適応型カリキュラム学習パラダイムを提案する。
本手法は,4つの自然言語理解(NLU)データセットを用いて,二項分類と多項分類の両方を対象とする手法について検討した。
論文 参考訳(メタデータ) (2025-07-13T19:36:17Z) - Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。
我々は質問を4段階(易、中、硬、極度硬)に分類する。
我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。
エクレベルの質問は、根本的に異なる課題を示します。
論文 参考訳(メタデータ) (2025-04-16T03:39:38Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Automatic Textual Normalization for Hate Speech Detection [0.8990550886501417]
ソーシャルメディアデータには、幅広い非標準語(NSW)が含まれている。
ベトナム語に対する現在の最先端の手法は、語彙正規化の問題としてこの問題に対処している。
私たちのアプローチは単純で、Seq2Seq(Seq2Seq)モデルのみを使用します。
論文 参考訳(メタデータ) (2023-11-12T14:01:38Z) - Prediction Model For Wordle Game Results With High Robustness [0.0]
本研究では,データ解析と機械学習を用いたWordleのダイナミクスに焦点を当てた。
単語の難易度を予測するために、私たちはバックプロパゲーションニューラルネットワークを採用し、機能工学によるオーバーフィッティングを克服した。
以上の結果から,2023年3月1日に約12,884件の結果が提出され,平均4.8回試みられ,最も難易度の高いクラスタに落下することが示唆された。
論文 参考訳(メタデータ) (2023-09-25T16:10:35Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。