論文の概要: XCOMPS: A Multilingual Benchmark of Conceptual Minimal Pairs
- arxiv url: http://arxiv.org/abs/2502.19737v1
- Date: Thu, 27 Feb 2025 04:02:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:16.535219
- Title: XCOMPS: A Multilingual Benchmark of Conceptual Minimal Pairs
- Title(参考訳): XCOMPS: 概念最小ペアの多言語ベンチマーク
- Authors: Linyang He, Ercong Nie, Sukru Samet Dindar, Arsalan Firoozi, Adrian Florea, Van Nguyen, Corentin Puffay, Riki Shimizu, Haotian Ye, Jonathan Brennan, Helmut Schmid, Hinrich Schütze, Nima Mesgarani,
- Abstract要約: XCOMPSは17言語をカバーする多言語の概念的最小ペアデータセットである。
我々は,LLMの多言語概念理解をメタ言語的プロンプト,直接確率測定,神経言語学的探索を通じて評価した。
- 参考スコア(独自算出の注目度): 43.45666129711046
- License:
- Abstract: We introduce XCOMPS in this work, a multilingual conceptual minimal pair dataset covering 17 languages. Using this dataset, we evaluate LLMs' multilingual conceptual understanding through metalinguistic prompting, direct probability measurement, and neurolinguistic probing. By comparing base, instruction-tuned, and knowledge-distilled models, we find that: 1) LLMs exhibit weaker conceptual understanding for low-resource languages, and accuracy varies across languages despite being tested on the same concept sets. 2) LLMs excel at distinguishing concept-property pairs that are visibly different but exhibit a marked performance drop when negative pairs share subtle semantic similarities. 3) Instruction tuning improves performance in concept understanding but does not enhance internal competence; knowledge distillation can enhance internal competence in conceptual understanding for low-resource languages with limited gains in explicit task performance. 4) More morphologically complex languages yield lower concept understanding scores and require deeper layers for conceptual reasoning.
- Abstract(参考訳): 本稿では,17言語を対象としたマルチ言語の概念的最小ペアデータセットであるXCOMPSを紹介する。
本データセットを用いて, LLMの多言語概念的理解をメタリング的プロンプト, 直接確率測定, 神経言語学的探索を通じて評価する。
ベースモデル、命令調整モデル、知識蒸留モデルを比較することで、以下のことが分かる。
1)LLMは低リソース言語に対してより弱い概念的理解を示し,同じ概念集合上でテストされているにもかかわらず,言語毎に精度が変化する。
2) LLMは, 視覚的に異なるが, 負の対が微妙な意味的類似性を共有する場合, 顕著な性能低下を示す概念-固有対の識別に優れる。
3) 概念理解能力は向上するが, 内部能力は向上しない。知識蒸留は, 低リソース言語における概念理解における内部能力を高めることができる。
4) より形態学的に複雑な言語は、より低い概念理解スコアをもたらし、概念的推論のためにより深い層を必要とする。
関連論文リスト
- Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models [15.857451401890092]
我々はLarge Language Models(LLMs)の内部言語表現を探索するために、言語最小ペアを活用する。
3つの言語で100以上のLLMと150k以上の最小ペアにまたがる大規模な実験では、4つの重要な側面から言語的類似性の特性を明らかにした。
論文 参考訳(メタデータ) (2024-09-19T03:29:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。
我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。
これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。