論文の概要: Does Language Model Understand Language?
- arxiv url: http://arxiv.org/abs/2509.12459v1
- Date: Mon, 15 Sep 2025 21:09:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.770717
- Title: Does Language Model Understand Language?
- Title(参考訳): 言語モデルは言語を理解するか?
- Authors: Suvojit Acharjee, Utathya Aich, Asfak Ali,
- Abstract要約: 自然言語の生成と理解の進歩にもかかわらず、LMは依然として粒度の細かい言語現象に苦慮している。
本研究では,英語とベンガル語の両方の難解な文脈において,SOTA言語モデルの評価を行う。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
- 参考スコア(独自算出の注目度): 1.0450509067356148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in natural language generation and understanding, LM still struggle with fine grained linguistic phenomena such as tense, negation, voice, and modality which are the elements central to effective human communication. In the context of the United Nations SDG 4, where linguistic clarity is critical, the deployment of LMs in educational technologies demands careful scrutiny. As LMs are increasingly powering applications like tutoring systems, automated grading, and translation, their alignment with human linguistic interpretation becomes essential for effective learning. In this study, we conduct a evaluation of SOTA language models across these challenging contexts in both English and Bengali. To ensure a structured assessment, we introduce a new Route for Evaluation of Cognitive Inference in Systematic Environments guidelines. Our proposed LUCID dataset, composed of carefully crafted sentence pairs in English and Bengali, specifically challenges these models on critical aspects of language comprehension, including negation, tense, voice variations. We assess the performance of SOTA models including MISTRAL-SABA-24B, LLaMA-4-Scout-17B, LLaMA-3.3-70B, Gemma2-9B, and Compound-Beta using standard metrics like Pearson correlation, Spearman correlation, and Mean Absolute Error, as well as novel, linguistically inspired metric the HCE accuracy. The HCE accuracy measures how often model predictions fall within one standard deviation of the mean human rating, thus capturing human like tolerance for variability in language interpretation. Our findings highlight Compound-Beta as the most balanced model, consistently achieving high correlations and low MAEs across diverse language conditions. It records the highest Pearson correlation in English and demonstrates robust performance on mixed-language data, indicating a strong alignment with human judgments in cross lingual scenarios.
- Abstract(参考訳): 自然言語の生成と理解の進歩にもかかわらず、LMは、効果的な人間のコミュニケーションの中心となる要素である時制、否定、声、モダリティといった、きめ細かい言語現象に苦慮している。
言語的明瞭さが重要である国連SDG4の文脈では、教育技術へのLMの配備には注意深い精査が必要である。
LMは、チュータリングシステム、自動階調、翻訳などの応用にますます力を入れているため、人間の言語解釈との整合性は効果的な学習に欠かせないものとなっている。
本研究では,英語とベンガル語の両方において,これらの難解な文脈におけるSOTA言語モデルの評価を行う。
構造的評価を確保するため,システム環境ガイドラインに新たな認知推論評価法を導入する。
提案したLUCIDデータセットは、英語とベンガル語で慎重に構築された文対で構成され、否定、緊張、声の変動など言語理解の重要な側面においてこれらのモデルに挑戦する。
MISTRAL-SABA-24B, LLaMA-4-Scout-17B, LLaMA-3.3-70B, Gemma2-9B, Compound-BetaなどのSOTAモデルの性能をPearson相関, Spearman相関, Mean Absolute Errorなどの標準指標を用いて評価した。
HCEの精度は、平均的人間格付けの標準偏差にどの程度の頻度でモデル予測が落ちるかを測定し、言語解釈における可変性に対する人間のような耐性を捉える。
その結果,最もバランスの取れたモデルとして,多種多様な言語条件における高い相関と低いMAEを一貫して達成していることが明らかとなった。
これは、英語で最も高いピアソン相関を記録し、混合言語データ上での堅牢な性能を示し、言語横断シナリオにおける人間の判断と強く一致していることを示す。
関連論文リスト
- Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [49.09746599881631]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
本研究は,多言語学習モデルとの比較分析により同定された少数の臨界ニューロンの編集が,混乱を著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - CPG-EVAL: A Multi-Tiered Benchmark for Evaluating the Chinese Pedagogical Grammar Competence of Large Language Models [6.0020878662404975]
本稿では、外国語教育の文脈において、LLMの教育文法に関する知識を評価するために設計された最初のベンチマークを紹介する。
このベンチマークは、文法認識、微粒な文法的区別、分類的識別、言語的干渉に対する抵抗性を評価するために設計された5つのタスクからなる。
論文 参考訳(メタデータ) (2025-04-17T18:01:50Z) - Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。
主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。
本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文 参考訳(メタデータ) (2025-02-18T16:22:43Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - Evaluating Large Language Models Using Contrast Sets: An Experimental Approach [0.0]
本研究では,スタンフォード自然言語推論データセットのコントラストセットを生成する革新的な手法を提案する。
我々の戦略は、動詞、副詞、形容詞をその同義語と自動置換して、文の本来の意味を保存することである。
本手法は,モデルの性能が真の言語理解に基づくのか,それとも単にパターン認識に基づくのかを評価することを目的とする。
論文 参考訳(メタデータ) (2024-04-02T02:03:28Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。