Fugu-MT 論文翻訳(概要): Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs

論文の概要: Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs

arxiv url: http://arxiv.org/abs/2412.14471v1
Date: Thu, 19 Dec 2024 02:39:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.964683
Title: Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs
Title（参考訳）: 局所的な大規模言語モデルを構築する理由:35の日本語および多言語LLMからの観察分析
Authors: Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, Naoaki Okazaki,
Abstract要約: 日本語,英語,多言語LLMを19種類の評価ベンチマークで評価した。英語のテキストによる学習は,日本語の学習者のスコアを向上できることがわかった。日本語のコード生成、算術的推論、常識、読解作業の能力を高めるために、特に日本語のテキストを訓練することは不要である。
参考スコア（独自算出の注目度）: 22.622778594671345
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Why do we build local large language models (LLMs)? What should a local LLM learn from the target language? Which abilities can be transferred from other languages? Do language-specific scaling laws exist? To explore these research questions, we evaluated 35 Japanese, English, and multilingual LLMs on 19 evaluation benchmarks for Japanese and English, taking Japanese as a local language. Adopting an observational approach, we analyzed correlations of benchmark scores, and conducted principal component analysis (PCA) on the scores to derive \textit{ability factors} of local LLMs. We found that training on English text can improve the scores of academic subjects in Japanese (JMMLU). In addition, it is unnecessary to specifically train on Japanese text to enhance abilities for solving Japanese code generation, arithmetic reasoning, commonsense, and reading comprehension tasks. In contrast, training on Japanese text could improve question-answering tasks about Japanese knowledge and English-Japanese translation, which indicates that abilities for solving these two tasks can be regarded as \textit{Japanese abilities} for LLMs. Furthermore, we confirmed that the Japanese abilities scale with the computational budget for Japanese text.
Abstract（参考訳）: なぜローカルな大規模言語モデル(LLM)を構築するのか? ローカルLLMはターゲット言語から何を学ぶべきか? 他の言語から移行できる能力は? 言語固有のスケーリング法則は存在するか? 日本語,英語,多言語LLMを日本語と英語の19評価ベンチマークで評価し,日本語を母国語とした。観察的手法を用いて,ベンチマークスコアの相関関係を解析し,各スコアの主成分分析(PCA)を行い,局所LLMの「textit{ability factor」を導出した。英語テキストによる学習は,日本語(JMMLU)の学習者のスコアを向上させることができることがわかった。また、日本語のコード生成、算術的推論、常識、読解作業の能力を高めるために、日本語のテキストを特に訓練することは不要である。対照的に、日本語テキストの訓練は、日本語知識と英語翻訳に関する質問応答タスクを改善する可能性があり、この2つのタスクを解く能力は、LLMの「textit{Japanese abilities}」とみなすことができることを示している。さらに,日本語テキストの計算予算とともに日本語能力がスケールすることが確認された。

関連論文リスト

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-07-07T19:04:36Z)
Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales [2.9465623430708905]
本研究は、民間人の知識、特に妖怪の知識を評価することに焦点を当てる。妖怪(ようかい)は、現代でも芸術や娯楽のモチーフとして人気を博している日本の民俗に由来する超自然的な生き物である。妖怪に関する知識を探索するために設計された809の多重選択質問からなるベンチマークデータセットである妖怪Evalを紹介する。
論文参考訳（メタデータ） (2025-06-04T06:58:19Z)
EXECUTE: A Multilingual Benchmark for LLM Token Understanding [54.70665106141121]
複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
論文参考訳（メタデータ） (2025-05-23T11:56:48Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,キャラクタの言語パターンと特徴的思考過程の両方を再現するモデルであるキャラクタボットを紹介する。ケーススタディとしてLu Xunを用いて、17冊のエッセイコレクションから得られた4つのトレーニングタスクを提案する。これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2025-02-18T16:11:54Z)
JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。 CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文参考訳（メタデータ） (2024-10-22T17:59:56Z)
Evaluating Large Language Models with Tests of Spanish as a Foreign Language: Pass or Fail? [2.9630910534509924]
本研究は,最近発表された海外学生を対象としたスペイン試験と類似の尺度を用いて,最先端のLCMの性能評価を行った。その結果,LLMはスペイン語の理解に優れていたが,文法的能力の面では,母語話者のレベルには程遠いことがわかった。
論文参考訳（メタデータ） (2024-09-08T11:30:03Z)
Beyond English-Centric LLMs: What Language Do Multilingual Language Models Think in? [40.53443067505763]
我々は、英語中心のLLMが、その強い性能にもかかわらず、それぞれの支配言語に「思考」があるかどうかを考察する。内部の$textbflatent Language$のように表現します。
論文参考訳（メタデータ） (2024-08-20T13:05:41Z)
Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities [20.40712512748528]
大規模な言語モデル(LLM)の言語間連続的な事前学習は、最初は英語コーパスで訓練され、大量の英語リソースを活用でき、事前学習のコストを削減できる。我々はLlama 2の語彙を日本語の文字に拡張し、大規模な日本語Webコーパスで継続事前学習を行うことにより、日本語能力を高めるLLMであるSwallowを構築した。
論文参考訳（メタデータ） (2024-04-27T06:07:55Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文参考訳（メタデータ） (2023-09-16T11:07:52Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Linguistically-driven Multi-task Pre-training for Low-resource Neural Machine Translation [31.225252462128626]
本稿では,日本語を母語とする言語対に対する日本語固有のシーケンス to sequence (JASS) と,英語を含む言語対に対する英語固有のシーケンス to sequence (ENSS) を提案する。 JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。
論文参考訳（メタデータ） (2022-01-20T09:10:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。