論文の概要: Can Large Language Models Robustly Perform Natural Language Inference for Japanese Comparatives?
- arxiv url: http://arxiv.org/abs/2509.13695v1
- Date: Wed, 17 Sep 2025 04:56:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.719535
- Title: Can Large Language Models Robustly Perform Natural Language Inference for Japanese Comparatives?
- Title(参考訳): 大規模言語モデルによる日本語比較における自然言語推論のロバストな性能向上
- Authors: Yosuke Mikami, Daiki Matsuoka, Hitomi Yanaka,
- Abstract要約: 大規模言語モデル(LLM)は自然言語推論(NLI)において極めてよく機能する
本稿では,ゼロショットおよび少数ショット設定におけるLLMの比較と評価について述べる。
論理的意味表現を含むプロンプトは,いくつかの例であっても解決に苦しむ推論問題に対して,モデルが正しいラベルを予測するのに役立つ。
- 参考スコア(独自算出の注目度): 15.852779398905957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) perform remarkably well in Natural Language Inference (NLI). However, NLI involving numerical and logical expressions remains challenging. Comparatives are a key linguistic phenomenon related to such inference, but the robustness of LLMs in handling them, especially in languages that are not dominant in the models' training data, such as Japanese, has not been sufficiently explored. To address this gap, we construct a Japanese NLI dataset that focuses on comparatives and evaluate various LLMs in zero-shot and few-shot settings. Our results show that the performance of the models is sensitive to the prompt formats in the zero-shot setting and influenced by the gold labels in the few-shot examples. The LLMs also struggle to handle linguistic phenomena unique to Japanese. Furthermore, we observe that prompts containing logical semantic representations help the models predict the correct labels for inference problems that they struggle to solve even with few-shot examples.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語推論(NLI)において非常によく機能する。
しかし、数値的および論理的表現を含むNLIは依然として困難である。
比較はそのような推論に関連する重要な言語現象であるが、特に日本語のようなモデルのトレーニングデータに支配的でない言語では、LLMの扱いにおける堅牢性は十分に研究されていない。
このギャップに対処するために、比較に焦点を当てた日本語NLIデータセットを構築し、ゼロショットおよび少数ショット設定で様々なLLMを評価する。
その結果, モデルの性能はゼロショット設定のプロンプトフォーマットに敏感であり, 数ショットの例ではゴールドラベルの影響を受けていることがわかった。
LLMは、日本語特有の言語現象を扱うのにも苦労している。
さらに、論理的意味表現を含むプロンプトは、いくつかの例であっても解決に苦しむ推論問題に対して、モデルが正しいラベルを予測するのに役立ちます。
関連論文リスト
- LLMs Struggle with NLI for Perfect Aspect: A Cross-Linguistic Study in Chinese and Japanese [26.958102899401208]
異なる形態の英語とは異なり、中国語と日本語は、完全な側面の中で時制の別個の文法形式を欠いている。
言語を動機づけたテンプレートベースの自然言語推論データセット(言語毎に1,350対)を構築した。
実験により、先進的なLLMでさえ時間的推測に苦しむことが明らかとなり、特に微妙な時制や基準時間シフトを検出する。
論文 参考訳(メタデータ) (2025-08-16T06:16:56Z) - Unnatural Languages Are Not Bugs but Features for LLMs [92.8332103170009]
大規模言語モデル(LLM)は、ジェイルブレイクプロンプトなどの非可読テキストシーケンスを処理するために観察されている。
我々はこの認識に挑戦する体系的な調査を行い、非自然言語にはモデルで使用可能な潜在的特徴が含まれていることを示した。
論文 参考訳(メタデータ) (2025-03-02T12:10:17Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Unraveling the Dominance of Large Language Models Over Transformer Models for Bangla Natural Language Inference: A Comprehensive Study [0.0]
自然言語推論(NLI)は自然言語処理(NLP)の基盤である
本研究では,ベンガル語のような低リソース言語におけるLLM(Large Language Models)の評価について検討した。
論文 参考訳(メタデータ) (2024-05-05T13:57:05Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。