論文の概要: UNVEILING: What Makes Linguistics Olympiad Puzzles Tricky for LLMs?
- arxiv url: http://arxiv.org/abs/2508.11260v1
- Date: Fri, 15 Aug 2025 06:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.77143
- Title: UNVEILING: What Makes Linguistics Olympiad Puzzles Tricky for LLMs?
- Title(参考訳): UNVEILING: 言語学がLLMにとって厄介なのは何か?
- Authors: Mukund Choudhary, KV Aditya Srivatsa, Gaurja Aeron, Antara Raaghavi Bhattacharya, Dang Khoa Dang Dinh, Ikhlasul Akmal Hanif, Daria Kotova, Ekaterina Kochmar, Monojit Choudhury,
- Abstract要約: 大規模言語モデル(LLM)は推論タスクの可能性を示しているが、言語学パズルにおけるそれらの性能はいまだに貧弱である。
本研究は,低リソース言語41言語を対象に,LLMの629問題に対する性能を言語情報付きでラベル付けして解析し,弱点を明らかにした。
- 参考スコア(独自算出の注目度): 9.874680131703467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated potential in reasoning tasks, but their performance on linguistics puzzles remains consistently poor. These puzzles, often derived from Linguistics Olympiad (LO) contests, provide a minimal contamination environment to assess LLMs' linguistic reasoning abilities across low-resource languages. This work analyses LLMs' performance on 629 problems across 41 low-resource languages by labelling each with linguistically informed features to unveil weaknesses. Our analyses show that LLMs struggle with puzzles involving higher morphological complexity and perform better on puzzles involving linguistic features that are also found in English. We also show that splitting words into morphemes as a pre-processing step improves solvability, indicating a need for more informed and language-specific tokenisers. These findings thus offer insights into some challenges in linguistic reasoning and modelling of low-resource languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論タスクの可能性を示しているが、言語学パズルにおけるそれらの性能はいまだに貧弱である。
これらのパズルは、しばしばLinguistics Olympiad (LO) コンテストから派生したもので、低リソース言語におけるLLMの言語推論能力を評価するため、最小限の汚染環境を提供する。
本研究は,低リソース言語41言語を対象に,LLMの629問題に対する性能を言語情報付きでラベル付けして解析し,弱点を明らかにした。
解析の結果,LLMは形態的複雑度の高いパズルに苦しむとともに,英語にも見られる言語的特徴を持つパズルに長けていることがわかった。
また,前処理ステップとして単語をモルヒムに分割することで,解答可能性の向上が図られ,より情報と言語固有のトークンサの必要性が示唆された。
これらの知見は、低リソース言語の言語推論とモデリングにおけるいくつかの課題に対する洞察を与える。
関連論文リスト
- Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language [67.51318974970985]
自然言語でパズルを解くことは、AIにおける長年の課題である。
本稿では,大規模言語モデルを論理プログラミングでブリッジするフレームワークであるLogic-of-Thoughtを提案する。
動作を含む様々なグリッドパズルや動的パズルについて評価し、全てのタスクにおいてほぼ完璧な精度を示す。
論文 参考訳(メタデータ) (2025-05-22T01:37:40Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - Linguistic Blind Spots of Large Language Models [14.755831733659699]
言語アノテーションタスクにおける最近の大規模言語モデル(LLM)の性能について検討する。
近年の LLM は言語クエリに対処する上で有効性が限られており,言語学的に複雑な入力に苦しむことが多い。
この結果から,LLMの設計・開発における今後の進歩を示唆する知見が得られた。
論文 参考訳(メタデータ) (2025-03-25T01:47:13Z) - Probing Large Language Models in Reasoning and Translating Complex Linguistic Puzzles [0.6144680854063939]
本稿では,複雑な言語パズルの解法としてLarge Language Models (LLMs) を用いる。
パズリングマシンコンペティションと各種言語オリンピアードのデータセットを用いて、GPT-4 0603の性能を評価する。
論文 参考訳(メタデータ) (2025-02-02T14:53:14Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions [25.39259677000101]
本研究は,構文のレンズを通して問題を探究する。
文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24大言語モデル(LLM)で実施された実験は、ほとんどの場合、構文的知識が限られていることを示唆している。
論文 参考訳(メタデータ) (2023-11-14T16:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。