論文の概要: Testing Cross-Lingual Text Comprehension In LLMs Using Next Sentence Prediction
- arxiv url: http://arxiv.org/abs/2510.25187v1
- Date: Wed, 29 Oct 2025 05:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.098368
- Title: Testing Cross-Lingual Text Comprehension In LLMs Using Next Sentence Prediction
- Title(参考訳): 次文予測を用いたLLMにおける言語間テキスト理解の検証
- Authors: Ritesh Sunil Chavan, Jack Mostow,
- Abstract要約: イングリッシュ、スワヒリ、ハウサのそれぞれ1万の質問でベンチマークを作成しました。
GPT-4 Turbo、Gemini 1.5 Flash、LLaMA 3 70Bなど、いくつかのトップモデルをテストしました。
全てのモデルは英語で優れているが、スワヒリ語では精度が低下し、ハウサ語では急落し、LLaMA 3が最も苦戦した。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While large language models are trained on massive datasets, this data is heavily skewed towards English. Does their impressive performance reflect genuine ability or just this data advantage? To find out, we tested them in a setting where they could not rely on data abundance: low-resource languages. Building on prior work Agarwal et al. (2025) that used Next Sentence Prediction (NSP) as a test, we created a large-scale benchmark with 10,000 questions each for English (a high-resource language), Swahili (medium-resource), and Hausa (low-resource). We then tested several top models, including GPT-4 Turbo, Gemini 1.5 Flash, and LLaMA 3 70B, to see how their performance holds up. The results painted a clear picture of how levels of language resources impact outcomes. While all models excelled in English, their accuracy dropped in Swahili and fell sharply in Hausa, with LLaMA 3 struggling the most. The story became even more interesting when we introduced Chain-of-Thought (CoT) prompting. For the struggling LLaMA 3, CoT acted as a helpful guide, significantly boosting its accuracy. However, for the more capable GPT-4 and Gemini, the same technique often backfired, leading to a kind of "overthinking" that hurt their results in the cross-lingual context. This reveals that Chain-of-Thought is not a universal solution; its effectiveness depends heavily on the model's baseline capability and the specific context of the task. Our framework pinpoints LLM weaknesses, highlights when CoT helps or hinders cross-lingual NSP performance, and factors influencing their decisions.
- Abstract(参考訳): 大きな言語モデルは大量のデータセットで訓練されているが、このデータは英語に大きく歪められている。
その素晴らしいパフォーマンスは、真の能力を反映しているか、それとも単にこのデータ優位性を反映しているのか?
調査のために、低リソースの言語であるデータ量に依存しない環境でテストしました。
テストにNext Sentence Prediction(NSP)を使用したAgarwal et al(2025年)に基づいて、私たちは、英語(高リソース言語)、スワヒリ語(medium-resource)、ハウサ語(low-resource)の各1万の質問に対して、大規模なベンチマークを作成しました。
次に、GPT-4 Turbo、Gemini 1.5 Flash、LLaMA 3 70Bなど、いくつかのトップモデルを試して、パフォーマンスがどう向上するかを確認しました。
結果は、言語リソースのレベルが結果にどのように影響するかを明確にした。
全てのモデルは英語で優れているが、スワヒリ語では精度が低下し、ハウサ語では急落し、LLaMA 3が最も苦戦した。
CoT(Chain-of-Thought)プロンプトの導入によって、この話はさらに興味深いものになりました。
苦しいLLaMA3では、CoTが有用なガイドとして機能し、精度を大幅に向上させた。
しかし、より有能な GPT-4 と Gemini では、同じ手法がしばしば逆発し、言語間の文脈で結果を傷つける「過度な考え」に繋がった。
このことは、Chain-of-Thoughtが普遍的な解決策ではないことを明らかにし、その効果はモデルのベースライン能力とタスクの特定のコンテキストに大きく依存している。
我々のフレームワークは、LCMの弱点を指摘し、CoTが言語間NSPのパフォーマンスを助けたり妨げたりすること、そして意思決定に影響を与える要因を強調します。
関連論文リスト
- Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results [16.391752298134474]
言語間で異なる大規模言語モデル(LLM)の性能について検討する。
言語間でのモデルの性能には、非無視的で一貫したギャップがあることが分かりました。
本稿では,第1の課題を大規模に解決するための自動品質保証手法を提案し,第2の課題に対処するためのレコメンデーションを提案する。
論文 参考訳(メタデータ) (2025-11-07T11:30:10Z) - Long Chain-of-Thought Reasoning Across Languages [14.79632337642471]
モデル開発の4つの重要な段階として,スケーリング,事前学習,ポストトレーニング,推論について検討する。
スケーリング推論モデルのサイズはEn-CoTの多言語タスク性能を改善するが、Target-CoTのパフォーマンスは遅れている。
英語以外の言語で高品質な推論トレースが不足していることを踏まえ,ポストトレーニングのための合成データキュレーション手法について検討する。
論文 参考訳(メタデータ) (2025-08-20T16:22:51Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Evaluating Multilingual Long-Context Models for Retrieval and Reasoning [1.3398445165628465]
5言語にわたる検索および推論タスクにおいて,いくつかの大規模言語モデル (LLM) を評価する。
最高のパフォーマンスモデルは英語で約96%の精度を達成し、ソマリでは約36%の精度を目標文で達成している。
以上の結果から,長いコンテキストを処理する場合のLLMが直面する課題が浮き彫りになった。
論文 参考訳(メタデータ) (2024-09-26T16:15:14Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。