論文の概要: IMPACT: Inflectional Morphology Probes Across Complex Typologies
- arxiv url: http://arxiv.org/abs/2506.23929v1
- Date: Mon, 30 Jun 2025 14:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.114045
- Title: IMPACT: Inflectional Morphology Probes Across Complex Typologies
- Title(参考訳): IMPACT: 複雑な型にまたがる屈折形態学
- Authors: Mohammed J. Saeed, Tommi Vehvilainen, Evgeny Fedoseev, Sevil Caliskan, Tatiana Vodolazova,
- Abstract要約: IMPACTは、屈折形態学に焦点を当てた、合成的に生成された評価フレームワークである。
アラビア語、ロシア語、フィンランド語、トルコ語、ヘブライ語という5つの形態学的に豊かな言語のパフォーマンスを評価するように設計されている。
英語のパフォーマンスが強いにもかかわらず、他の言語と競合する8つの多言語LLMと、一般的でない形態素パターンを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have shown significant progress on various multilingual benchmarks and are increasingly used to generate and evaluate text in non-English languages. However, while they may produce fluent outputs, it remains unclear to what extent these models truly grasp the underlying linguistic complexity of those languages, particularly in morphology. To investigate this, we introduce IMPACT, a synthetically generated evaluation framework focused on inflectional morphology, which we publicly release, designed to evaluate LLM performance across five morphologically rich languages: Arabic, Russian, Finnish, Turkish, and Hebrew. IMPACT includes unit-test-style cases covering both shared and language-specific phenomena, from basic verb inflections (e.g., tense, number, gender) to unique features like Arabic's reverse gender agreement and vowel harmony in Finnish and Turkish. We assess eight multilingual LLMs that, despite strong English performance, struggle with other languages and uncommon morphological patterns, especially when judging ungrammatical examples. We also show that Chain of Thought and Thinking Models can degrade performance. Our work exposes gaps in LLMs' handling of linguistic complexity, pointing to clear room for improvement. To support further research, we publicly release the IMPACT framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な多言語ベンチマークにおいて顕著な進歩を示し、非英語言語におけるテキストの生成と評価にますます利用されている。
しかし、それらが流動的なアウトプットを生成するかもしれないが、これらのモデルが言語、特に形態学において根底にある言語的複雑さを真に理解しているかは、まだ不明である。
そこで本研究では, アラビア語, ロシア語, フィンランド語, トルコ語, ヘブライ語の5言語にまたがるLLM性能の評価を目的とした, 屈折形態に着目した合成的評価フレームワークIMPACTを紹介する。
IMPACTは、基本動詞の屈折(例えば、時制、数、性別)から、アラビア語の逆性合意やフィンランド語とトルコ語の母音調和のような特徴まで、共有と言語固有の現象の両方をカバーする単体テストスタイルのケースを含んでいる。
我々は、英語のパフォーマンスが強いにもかかわらず、他の言語と競合する8つの多言語 LLM の評価を行い、特に非文法的な例を判断する場合によく見られる形態的パターンについて検討した。
また、思考モデルと思考モデルの連鎖が性能を低下させることができることを示す。
我々の研究は、LLMが言語的複雑性を扱う際のギャップを露呈し、改善の余地を明確に示しています。
さらなる研究を支援するため、IMPACTフレームワークを公開しています。
関連論文リスト
- The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Evaluating Morphological Compositional Generalization in Large Language Models [17.507983593566223]
大規模言語モデル (LLM) の形態的一般化能力について, 構成性のレンズによる検討を行った。
我々はトルコ語やフィンランド語などの凝集言語に焦点を当てている。
解析の結果,LLMは特に新規語根に適用する場合,形態的構成一般化に苦慮していることが明らかとなった。
モデルは偶然よりも個々の形態的組み合わせを識別できるが、その性能は体系性に欠けており、人間に比べてかなりの精度の差が生じる。
論文 参考訳(メタデータ) (2024-10-16T15:17:20Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。