論文の概要: DaLA: Danish Linguistic Acceptability Evaluation Guided by Real World Errors
- arxiv url: http://arxiv.org/abs/2512.04799v1
- Date: Thu, 04 Dec 2025 13:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.192194
- Title: DaLA: Danish Linguistic Acceptability Evaluation Guided by Real World Errors
- Title(参考訳): DaLA: 現実のエラーによって導かれるデンマークの言語学的受容性評価
- Authors: Gianluca Barmina, Nathalie Carmen Hau Norman, Peter Schneider-Kamp, Lukas Galke,
- Abstract要約: デンマーク語で見られる最も一般的な誤りを分析します。
誤り文を生成する14の汚職関数について紹介する。
手動と自動の両方の手法を用いて妥当性を評価する。
- 参考スコア(独自算出の注目度): 4.663860576506582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an enhanced benchmark for evaluating linguistic acceptability in Danish. We first analyze the most common errors found in written Danish. Based on this analysis, we introduce a set of fourteen corruption functions that generate incorrect sentences by systematically introducing errors into existing correct Danish sentences. To ensure the accuracy of these corruptions, we assess their validity using both manual and automatic methods. The results are then used as a benchmark for evaluating Large Language Models on a linguistic acceptability judgement task. Our findings demonstrate that this extension is both broader and more comprehensive than the current state of the art. By incorporating a greater variety of corruption types, our benchmark provides a more rigorous assessment of linguistic acceptability, increasing task difficulty, as evidenced by the lower performance of LLMs on our benchmark compared to existing ones. Our results also suggest that our benchmark has a higher discriminatory power which allows to better distinguish well-performing models from low-performing ones.
- Abstract(参考訳): デンマーク語における言語受容性を評価するための拡張されたベンチマークを提案する。
まず、デンマーク語で見られる最も一般的な誤りを分析します。
この分析に基づいて,既存の正しいデンマーク語文に誤りを体系的に導入することにより,誤り文を生成する14の汚職関数を導入する。
これらの汚職の正確性を確保するために,手動と自動の両方の手法を用いてそれらの妥当性を評価する。
結果は、言語受容可能性判定タスクにおいて、大規模言語モデルを評価するためのベンチマークとして使用される。
以上の結果から,この拡張は現在の最先端技術よりも広範かつ包括的であることが示唆された。
より多種多様な汚職タイプを取り入れることで、我々のベンチマークは、既存のベンチマークに比べてLLMの性能が低いことから、より厳密な言語受容性の評価、タスクの難易度の向上を実現している。
以上の結果から,我々のベンチマークは高い判別能力を持ち,高い性能のモデルと低い性能のモデルとをよりよく区別できる可能性が示唆された。
関連論文リスト
- Asm2SrcEval: Evaluating Large Language Models for Assembly-to-Source Code Translation [4.45354703148321]
アセンブリ・トゥ・ソースのコード翻訳はリバースエンジニアリング、サイバーセキュリティ、ソフトウェアメンテナンスにおいて重要なタスクである。
本稿では,アセンブリ・トゥ・ソース・トランスフォーメーションにおける5つの最先端大規模言語モデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-11-28T12:40:30Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - Robust Native Language Identification through Agentic Decomposition [23.899157231471104]
大規模言語モデル(LLM)は、表面的な文脈的手がかりを利用することで、ネイティブ言語識別(NLI)ベンチマークで高いパフォーマンスを達成することが多い。
このような戦略は信頼できないことを示し、モデル予測は誤解を招くヒントによって容易に変更可能であることを示す。
専門エージェントが多種多様な言語的証拠を蓄積・分類する,法医学的言語学にヒントを得たエージェントNLIパイプラインを導入する。
論文 参考訳(メタデータ) (2025-09-20T12:38:03Z) - Learning Robust Negation Text Representations [60.23044940174016]
本稿では,テキストエンコーダの否定とヘッジを多種多様なパターンを用いて改善する戦略を提案する。
我々は,一般的なベンチマーク上での競合性能を維持しつつ,否定理解能力の大幅な向上を観察する。
提案手法は LLM に適用可能であり, ネゲーションベンチマークの性能向上に寄与する。
論文 参考訳(メタデータ) (2025-07-17T04:48:54Z) - Evaluating the Effectiveness of Linguistic Knowledge in Pretrained Language Models: A Case Study of Universal Dependencies [0.6961946145048322]
普遍依存(UD)は、言語間シンタクティック表現において最も成功した言語フレームワークとみなされている。
本稿では, 言語間対数パラフレーズ識別タスクにおいて, UDが性能を向上できるかどうかを評価する。
論文 参考訳(メタデータ) (2025-06-05T11:10:14Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Characteristics of Harmful Text: Towards Rigorous Benchmarking of
Language Models [32.960462266615096]
大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。
近年の文献や現実世界の観測により、これらのモデルが有害、偏見があり、非現実的、その他の有害な言語を生成できることが証明されている。
我々は、新しいベンチマークを設計する際、明らかな考慮に値する有害なテキストを特徴づける6つの方法を概説する。
論文 参考訳(メタデータ) (2022-06-16T17:28:01Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。