論文の概要: Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque
- arxiv url: http://arxiv.org/abs/2602.14812v1
- Date: Mon, 16 Feb 2026 15:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.476636
- Title: Physical Commonsense Reasoning for Lower-Resourced Languages and Dialects: a Study on Basque
- Title(参考訳): 低資源言語と方言のための物理コモンセンス推論:バスク語について
- Authors: Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri,
- Abstract要約: 本稿では,BasPhyCoについて述べる。
3段階のコモンセンス理解におけるモデル性能の評価を行った。
以上の結果から,LLMはバスク語などの低リソース言語において,物理コモンセンスの能力に限界があることが示唆された。
- 参考スコア(独自算出の注目度): 10.575017227616124
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Physical commonsense reasoning represents a fundamental capability of human intelligence, enabling individuals to understand their environment, predict future events, and navigate physical spaces. Recent years have witnessed growing interest in reasoning tasks within Natural Language Processing (NLP). However, no prior research has examined the performance of Large Language Models (LLMs) on non-question-answering (non-QA) physical commonsense reasoning tasks in low-resource languages such as Basque. Taking the Italian GITA as a starting point, this paper addresses this gap by presenting BasPhyCo, the first non-QA physical commonsense reasoning dataset for Basque, available in both standard and dialectal variants. We evaluate model performance across three hierarchical levels of commonsense understanding: (1) distinguishing between plausible and implausible narratives (accuracy), (2) identifying the conflicting element that renders a narrative implausible (consistency), and (3) determining the specific physical state that creates the implausibility (verifiability). These tasks were assessed using multiple multilingual LLMs as well as models pretrained specifically for Italian and Basque. Results indicate that, in terms of verifiability, LLMs exhibit limited physical commonsense capabilities in low-resource languages such as Basque, especially when processing dialectal variants.
- Abstract(参考訳): 物理的コモンセンス推論は人間の知性の基本的能力であり、個人が自分の環境を理解し、将来の出来事を予測し、物理的な空間をナビゲートすることができる。
近年、自然言語処理(NLP)における推論タスクへの関心が高まっている。
しかし、バスク語のような低リソース言語における非質問応答(非QA)物理コモンセンス推論タスクにおけるLLM(Large Language Models)の性能について、先行研究は行われていない。
イタリアのGITAを出発点として、バスク語および方言の変種で利用可能なバスク語のための最初の非QA物理コモンセンス推論データセットであるBasPhyCoを提示することで、このギャップに対処する。
筆者らは,(1)もっともらしい物語と不明瞭な物語(正確性)の区別,(2)不明瞭な物語を表現している矛盾要素の同定,(3)不確実性(検証可能性)を生み出す特定の物理的状態の判定,という3つの階層的な共通理解のモデル性能を評価する。
これらのタスクは、イタリア語とバスク語向けに事前訓練されたモデルと同様に、複数の多言語 LLM を用いて評価された。
その結果,LLMはバスク語などの低リソース言語,特に方言の変種処理において,限られた物理コモンセンス能力を示すことがわかった。
関連論文リスト
- Beyond Early-Token Bias: Model-Specific and Language-Specific Position Effects in Multilingual LLMs [50.07451351559251]
我々は,5言語(英語,ロシア語,ドイツ語,ヒンディー語,ベトナム語)にまたがる調査を行った。
位置バイアスが即時戦略とどのように相互作用し、出力エントロピーに影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-05-22T02:23:00Z) - Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。
言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。
本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文 参考訳(メタデータ) (2025-02-17T20:40:01Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。