Fugu-MT 論文翻訳(概要): Benchmarking Linguistic Diversity of Large Language Models

論文の概要: Benchmarking Linguistic Diversity of Large Language Models

arxiv url: http://arxiv.org/abs/2412.10271v1
Date: Fri, 13 Dec 2024 16:46:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:49.041004
Title: Benchmarking Linguistic Diversity of Large Language Models
Title（参考訳）: 大規模言語モデルの言語多様性のベンチマーク
Authors: Yanzhu Guo, Guokan Shang, Chloé Clavel,
Abstract要約: 本稿では,言語モデルによる人間の言語的豊かさの保全を検討することの重要性を強調する。言語多様性の観点からLLMを評価するための包括的枠組みを提案する。
参考スコア（独自算出の注目度）: 14.824871604671467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development and evaluation of Large Language Models (LLMs) has primarily focused on their task-solving capabilities, with recent models even surpassing human performance in some areas. However, this focus often neglects whether machine-generated language matches the human level of diversity, in terms of vocabulary choice, syntactic construction, and expression of meaning, raising questions about whether the fundamentals of language generation have been fully addressed. This paper emphasizes the importance of examining the preservation of human linguistic richness by language models, given the concerning surge in online content produced or aided by LLMs. We propose a comprehensive framework for evaluating LLMs from various linguistic diversity perspectives including lexical, syntactic, and semantic dimensions. Using this framework, we benchmark several state-of-the-art LLMs across all diversity dimensions, and conduct an in-depth case study for syntactic diversity. Finally, we analyze how different development and deployment choices impact the linguistic diversity of LLM outputs.
Abstract（参考訳）: LLM(Large Language Models)の開発と評価は、主にタスク解決能力に重点を置いており、近年のモデルは一部の分野において人的パフォーマンスを超越している。しかしながら、この焦点は、機械生成言語が人間の多様性のレベルと一致するかどうかを、語彙選択、構文構成、意味表現の観点から無視し、言語生成の基礎が完全に解決されたかどうかという疑問を提起する。本稿では,LLMによるオンラインコンテンツの急増や支援を踏まえ,言語モデルによる人間の言語的豊かさの保全を重要視することを強調する。語彙,構文,意味的次元など,多種多様な言語的多様性の観点からLLMを評価するための総合的な枠組みを提案する。このフレームワークを用いて,すべての多様性次元にまたがる最先端のLCMをベンチマークし,構文的多様性の詳細なケーススタディを行う。最後に、LLM出力の言語的多様性に、開発とデプロイメントの異なる選択がどう影響するかを分析する。

関連論文リスト

The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文参考訳（メタデータ） (2025-06-11T16:00:54Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文参考訳（メタデータ） (2025-05-18T20:53:41Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Uncovering inequalities in new knowledge learning by large language models across different languages [66.687369838071]
低リソース言語は、4つの次元すべてで一貫して不利に直面していることを示す。我々は,LLMの新たな知識学習における言語的不平等の認識を高め,より包括的で公平な将来のLLMの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T03:41:47Z)
LinguaLens: Towards Interpreting Linguistic Mechanisms of Large Language Models via Sparse Auto-Encoder [47.81850176849213]
スパースオートエンコーダ(SAE)に基づく大規模言語モデルの言語メカニズム解析のためのフレームワークを提案する。我々は4次元(形態学、構文学、意味論、プラグマティクス)にわたる中国語と英語の言語的特徴を幅広く抽出する。本研究は, LLMにおける言語知識の内在的表現, 層間および言語間分布のパターンを明らかにし, モデル出力の制御の可能性を示した。
論文参考訳（メタデータ） (2025-02-27T18:16:47Z)
The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文参考訳（メタデータ） (2025-02-13T16:25:16Z)
Exploring Robustness of LLMs to Sociodemographically-Conditioned Paraphrasing [7.312170216336085]
我々は、社会デミノグラフィーの次元にまたがる幅広いバリエーションを探求するために、より広いアプローチを取る。我々はSocialIQAデータセットを拡張し、ソシオデミノグラフィースタイルを条件とした多様なパラフレーズセットを作成する。人口統計学的パラフレーズが言語モデルの性能に大きく影響していることが判明した。
論文参考訳（メタデータ） (2025-01-14T17:50:06Z)
The dynamics of meaning through time: Assessment of Large Language Models [2.5864824580604515]
本研究では,様々な大規模言語モデル(LLM)が意味の時間的ダイナミクスを捉える能力を評価することを目的とする。比較分析にはChatGPT、GPT-4、Claude、Bard、Gemini、Llamaといった著名なモデルが含まれています。発見は、各モデルの歴史的文脈と意味的シフトの扱いにおいて顕著な違いを示し、時間的意味的理解における強みと制限の両方を強調した。
論文参考訳（メタデータ） (2025-01-09T19:56:44Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
LLM for Everyone: Representing the Underrepresented in Large Language Models [21.07409393578553]
この論文は、表現不足言語に焦点をあてて、NLPの研究と開発におけるギャップを埋めることを目的としている。大規模言語モデル(LLM)の包括的評価を行い,それらの能力を評価する。提案手法は、言語間連続的命令チューニング、検索に基づく言語間インコンテキスト学習、コンテキスト内クエリアライメントを網羅する。
論文参考訳（メタデータ） (2024-09-20T20:53:22Z)
Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文参考訳（メタデータ） (2024-07-02T14:02:53Z)
Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文参考訳（メタデータ） (2024-07-01T15:11:37Z)
A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [48.314619377988436]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。 LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文参考訳（メタデータ） (2024-05-17T17:47:39Z)
Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
本稿では,AIの安全性の重要性から,人間の価値観に関する概念(すなわち,価値の概念)に焦点を当てる。我々はまず,LLMにおける価値概念の存在を多言語形式で実証的に確認した。これらの概念の言語間特性に関するさらなる分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
論文参考訳（メタデータ） (2024-02-28T07:18:39Z)
How Far Can We Extract Diverse Perspectives from Large Language Models? [16.16678226707335]
大規模言語モデル(LLM)が主観的トピックに対する多様な視点を生成できることを示す。本稿では,様々な意見の根拠となる基準に基づくプロンプト手法を提案する。本手法は,タスク主観性の度合いに応じて,LLMが多種多様な意見を生成可能であることを示す。
論文参考訳（メタデータ） (2023-11-16T11:23:38Z)
Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文参考訳（メタデータ） (2022-05-23T09:25:43Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。