論文の概要: A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs
- arxiv url: http://arxiv.org/abs/2505.13173v2
- Date: Sat, 31 May 2025 12:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.398257
- Title: A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs
- Title(参考訳): LLMにおける古典言語における言語間ゼロショット一般化の一事例
- Authors: V. S. D. S. Mahesh Akavarapu, Hrishikesh Terdalkar, Pramit Bhattacharyya, Shubhangi Agarwal, Vishakha Deulgaonkar, Pralay Manna, Chaitali Dangarikar, Arnab Bhattacharya,
- Abstract要約: 我々は、サンスクリット語、古代ギリシア語、ラテン語の3つの古典的な言語における自然言語理解に焦点を当てている。
まず、名前付きエンティティ認識と機械翻訳を英語に翻訳する。
検索拡張生成手法を用いてコンテキストを組み込むことにより,性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 3.4020284996081216
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable generalization capabilities across diverse tasks and languages. In this study, we focus on natural language understanding in three classical languages -- Sanskrit, Ancient Greek and Latin -- to investigate the factors affecting cross-lingual zero-shot generalization. First, we explore named entity recognition and machine translation into English. While LLMs perform equal to or better than fine-tuned baselines on out-of-domain data, smaller models often struggle, especially with niche or abstract entity types. In addition, we concentrate on Sanskrit by presenting a factoid question-answering (QA) dataset and show that incorporating context via retrieval-augmented generation approach significantly boosts performance. In contrast, we observe pronounced performance drops for smaller LLMs across these QA tasks. These results suggest model scale as an important factor influencing cross-lingual generalization. Assuming that models used such as GPT-4o and Llama-3.1 are not instruction fine-tuned on classical languages, our findings provide insights into how LLMs may generalize on these languages and their consequent utility in classical studies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクや言語にまたがる顕著な一般化機能を示している。
本研究では,サンスクリット語,古代ギリシア語,ラテン語の3言語における自然言語理解に着目し,言語間ゼロショットの一般化に影響を与える要因について検討する。
まず、名前付きエンティティ認識と機械翻訳を英語に翻訳する。
LLMはドメイン外のデータに対して微調整されたベースラインと同等かそれ以上の性能を持つが、より小さなモデルは、特にニッチまたは抽象的なエンティティタイプと苦戦することが多い。
さらに,サンスクリットに着目し,ファクトイド質問応答(QA)データセットを提示し,検索拡張生成手法によるコンテキストの取り込みが性能を著しく向上させることを示す。
対照的に、これらのQAタスクに対して、より小さなLCMに対する顕著な性能低下を観察する。
これらの結果は、モデルスケールが言語間一般化に影響を及ぼす重要な要因であることを示唆している。
GPT-4o や Llama-3.1 のようなモデルが古典言語で微調整されていないことを前提として,LLM がこれらの言語にどのように一般化するか,そしてそれらが古典研究において有用であるかを考察する。
関連論文リスト
- IMPACT: Inflectional Morphology Probes Across Complex Typologies [0.0]
IMPACTは、屈折形態学に焦点を当てた、合成的に生成された評価フレームワークである。
アラビア語、ロシア語、フィンランド語、トルコ語、ヘブライ語という5つの形態学的に豊かな言語のパフォーマンスを評価するように設計されている。
英語のパフォーマンスが強いにもかかわらず、他の言語と競合する8つの多言語LLMと、一般的でない形態素パターンを評価した。
論文 参考訳(メタデータ) (2025-06-30T14:58:23Z) - Under the Shadow of Babel: How Language Shapes Reasoning in LLMs [27.48119976373105]
大規模言語モデルは,様々な言語に埋め込まれた習慣的論理構造を内部化することを示す。
1)LLMは,中国語の語源や文の初期接続性に注目しつつ,英語のバランスの取れた分布を示す。
論文 参考訳(メタデータ) (2025-06-19T09:06:38Z) - Language Surgery in Multilingual Large Language Models [32.77326546076424]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。
本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。
本稿では,言語間言語制御の高精度化と言語混乱を軽減するため,ITLC(Inference-Time Language Control)を提案する。
論文 参考訳(メタデータ) (2025-06-14T11:09:50Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Randomly Sampled Language Reasoning Problems Reveal Limits of LLMs [8.146860674148044]
我々は,データセットリコールのリスクを回避しつつ,モデルの言語理解能力の測定を試みる。
決定論的有限オートマトン(DFA)により認識される言語タスクの多種族をパラメータ化する。
3 状態 DFA の驚くほど単純な設定であっても、LLM は言語認識と合成の両タスクにおいてパラメータ化されていない ngram モデルより劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Unveiling Linguistic Regions in Large Language Models [49.298360366468934]
大規模言語モデル (LLM) は言語間アライメントと一般化能力を示す。
本稿では,LLMの言語能力に関するいくつかの調査を行う。
論文 参考訳(メタデータ) (2024-02-22T16:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。