Fugu-MT 論文翻訳(概要): LLMs Struggle with NLI for Perfect Aspect: A Cross-Linguistic Study in Chinese and Japanese

論文の概要: LLMs Struggle with NLI for Perfect Aspect: A Cross-Linguistic Study in Chinese and Japanese

arxiv url: http://arxiv.org/abs/2508.11927v1
Date: Sat, 16 Aug 2025 06:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:10.457467
Title: LLMs Struggle with NLI for Perfect Aspect: A Cross-Linguistic Study in Chinese and Japanese
Title（参考訳）: LLMs Struggle with NLI for Perfect Aspect: A Cross-Luistic Study in Chinese and Japanese
Authors: Jie Lu, Du Jin, Hitomi Yanaka,
Abstract要約: 異なる形態の英語とは異なり、中国語と日本語は、完全な側面の中で時制の別個の文法形式を欠いている。言語を動機づけたテンプレートベースの自然言語推論データセット(言語毎に1,350対)を構築した。実験により、先進的なLLMでさえ時間的推測に苦しむことが明らかとなり、特に微妙な時制や基準時間シフトを検出する。
参考スコア（独自算出の注目度）: 26.958102899401208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unlike English, which uses distinct forms (e.g., had, has, will have) to mark the perfect aspect across tenses, Chinese and Japanese lack separate grammatical forms for tense within the perfect aspect, which complicates Natural Language Inference (NLI). Focusing on the perfect aspect in these languages, we construct a linguistically motivated, template-based NLI dataset (1,350 pairs per language). Experiments reveal that even advanced LLMs struggle with temporal inference, particularly in detecting subtle tense and reference-time shifts. These findings highlight model limitations and underscore the need for cross-linguistic evaluation in temporal semantics. Our dataset is available at https://github.com/Lujie2001/CrossNLI.
Abstract（参考訳）: 異なる形(例えば、持つもの、持つもの)を用いて、時制の完全な側面を示すのとは異なり、中国語と日本語は、自然言語推論(NLI)を複雑にする、時制の異なる文法形式を欠いている。これらの言語におけるパーフェクトな側面に着目して、言語に動機づけられたテンプレートベースのNLIデータセット(言語毎に1,350対)を構築する。実験により、先進的なLLMでさえ時間的推測に苦しむことが明らかとなり、特に微妙な時制や基準時間シフトを検出する。これらの知見は,時間的意味論における言語横断的評価の必要性を浮き彫りにした。データセットはhttps://github.com/Lujie2001/CrossNLIで公開されています。

関連論文リスト

Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳（メタデータ） (2024-06-17T01:54:27Z)
Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文参考訳（メタデータ） (2023-12-13T00:52:15Z)
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文参考訳（メタデータ） (2023-06-19T07:00:14Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文参考訳（メタデータ） (2022-08-09T15:10:56Z)
OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。 NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文参考訳（メタデータ） (2020-10-12T04:25:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。