論文の概要: Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment
- arxiv url: http://arxiv.org/abs/2602.10661v1
- Date: Wed, 11 Feb 2026 09:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.615919
- Title: Targeted Syntactic Evaluation of Language Models on Georgian Case Alignment
- Title(参考訳): グルジアのケースアライメントにおける言語モデルの目標構文評価
- Authors: Daniel Gallagher, Gerhard Heyer,
- Abstract要約: 主観的および対象的マーキングは, 名詞形, 語形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形, 形容詞形
それぞれ50~70のサンプルを含む7つのタスクからなる370の構文テストデータセットを作成します。
モデルでは、厳格なケースを正しく割り当てる上では最悪の結果となり、優越的なケースを正しく割り当てる上で最強となった。
- 参考スコア(独自算出の注目度): 0.7161783472741746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper evaluates the performance of transformer-based language models on split-ergative case alignment in Georgian, a particularly rare system for assigning grammatical cases to mark argument roles. We focus on subject and object marking determined through various permutations of nominative, ergative, and dative noun forms. A treebank-based approach for the generation of minimal pairs using the Grew query language is implemented. We create a dataset of 370 syntactic tests made up of seven tasks containing 50-70 samples each, where three noun forms are tested in any given sample. Five encoder- and two decoder-only models are evaluated with word- and/or sentence-level accuracy metrics. Regardless of the specific syntactic makeup, models performed worst in assigning the ergative case correctly and strongest in assigning the nominative case correctly. Performance correlated with the overall frequency distribution of the three forms (NOM > DAT > ERG). Though data scarcity is a known issue for low-resource languages, we show that the highly specific role of the ergative along with a lack of available training data likely contributes to poor performance on this case. The dataset is made publicly available and the methodology provides an interesting avenue for future syntactic evaluations of languages where benchmarks are limited.
- Abstract(参考訳): 本稿では,ジョージア語におけるスプリット・エジティカル・ケースアライメントにおけるトランスフォーマーに基づく言語モデルの性能を評価する。
主観的および対象的マーキングは, 名詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 動詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形, 名詞形などによって決定される。
Grewクエリ言語を用いた最小ペア生成のためのtreebankベースのアプローチを実装した。
我々は、それぞれ50~70のサンプルを含む7つのタスクからなる370の構文テストデータセットを作成し、任意のサンプルで3つの名詞形式をテストする。
5つのエンコーダと2つのデコーダのみのモデルを単語および/または文レベルの精度メトリクスで評価する。
特定の統語的構成にかかわらず、モデルでは厳格な格を正しく割り当てるのが最悪であり、最強の格を正しく割り当てるのが最善であった。
性能は3つの形態(NOM > DAT > ERG)の総周波数分布と相関した。
データ不足は、低リソース言語では既知の問題であるが、利用可能なトレーニングデータの欠如とともに、エルガティクスの極めて具体的な役割が、このケースにおけるパフォーマンスの低下に寄与していることを示している。
データセットは公開されており、ベンチマークが限定された言語の将来の構文評価のための興味深い道筋を提供する。
関連論文リスト
- EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Intergenerational Test Generation for Natural Language Processing
Applications [16.63835131985415]
各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。
NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
論文 参考訳(メタデータ) (2023-02-21T07:57:59Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。