論文の概要: Danoliteracy of Generative, Large Language Models
- arxiv url: http://arxiv.org/abs/2410.22839v1
- Date: Wed, 30 Oct 2024 09:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:16.403621
- Title: Danoliteracy of Generative, Large Language Models
- Title(参考訳): 生成型大規模言語モデルのダノリテラシー
- Authors: Søren Vejlgaard Holm, Lars Kai Hansen, Martin Carsten Nielsen,
- Abstract要約: デンマーク語と文化能力の尺度であるDanoliteracyを評価するためのGLLMベンチマークを提案する。
デンマーク語で GLLM のシナリオ性能のばらつきを95% で説明できる強力な要因が1つ見いだされる。
- 参考スコア(独自算出の注目度): 1.3873323883842132
- License:
- Abstract: The language technology moonshot moment of Generative, Large Language Models (GLLMs) was not limited to English: These models brought a surge of technological applications, investments and hype to low-resource languages as well. However, the capabilities of these models in languages such as Danish were until recently difficult to verify beyond qualitative demonstrations due to a lack of applicable evaluation corpora. We present a GLLM benchmark to evaluate Danoliteracy, a measure of Danish language and cultural competency, across eight diverse scenarios such Danish citizenship tests and abstractive social media question answering. This limited-size benchmark is found to produce a robust ranking that correlates to human feedback at $\rho \sim 0.8$ with GPT-4 and Claude Opus models achieving the highest rankings. Analyzing these model results across scenarios, we find one strong underlying factor explaining $95\%$ of scenario performance variance for GLLMs in Danish, suggesting a $g$ factor of model consistency in language adaption.
- Abstract(参考訳): Generative, Large Language Models (GLLMs) の言語技術のムーンショットモーメントは英語に限ったものではない。
しかしながら、デンマーク語のような言語におけるこれらのモデルの能力は、適用可能な評価コーパスが欠如しているため、最近まで定性的な実証以上の検証が困難であった。
デンマーク語と文化能力の尺度であるDanoliteracyを評価するためのGLLMベンチマークを,デンマーク市民権試験や抽象的ソーシャルメディア質問応答など8つのシナリオにわたって提示する。
この限定的なベンチマークは、GPT-4とClaude Opusのモデルが最高ランクに達したことと、人間のフィードバックに相関する堅牢なランキングを生成する。
これらのモデルの結果をシナリオ間で分析した結果、デンマークのGLLMのシナリオパフォーマンスのばらつきを9,5セントで説明できる強力な要因が1つ見出され、言語適応におけるモデル一貫性の$g$因子が示唆された。
関連論文リスト
- The advantages of context specific language models: the case of the Erasmian Language Model [0.7499722271664147]
我々はErasmian Language Model (ELM) を,エラスムス大学ロッテルダム校および大学によって事前訓練・微調整された,9億のパラメータモデルとして提示する。
本研究は,エッセイ執筆の授業コンテキストにおいてモデルがどのように適切に機能するか,その文脈の一部である課題において優れたパフォーマンスを達成するかを示す。
論文 参考訳(メタデータ) (2024-08-13T14:34:59Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Beyond English: Evaluating LLMs for Arabic Grammatical Error Correction [19.970419667319046]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
アラビア語文法誤り訂正(GEC)における命令微調整LDMの能力の評価
命令を微調整したモデルのサイズに関わらず、たとえ非常に小さくても、完全に微調整されたモデルよりも性能が優れていることが判明した。
論文 参考訳(メタデータ) (2023-12-13T05:33:25Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Language models are not naysayers: An analysis of language models on
negation benchmarks [58.32362243122714]
我々は,次世代自動回帰言語モデルによる否定処理能力の評価を行った。
LLMには,否定の存在に対する感受性,否定の語彙的意味を捉える能力の欠如,否定下での推論の失敗など,いくつかの制限があることが示されている。
論文 参考訳(メタデータ) (2023-06-14T01:16:37Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - MEGA: Multilingual Evaluation of Generative AI [23.109803506475174]
生成AIモデルは、多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。
LLMのほとんどの研究は英語に限られている。
これらのモデルが、他の言語でのテキストの理解と生成にどの程度の能力があるかは定かではない。
論文 参考訳(メタデータ) (2023-03-22T13:03:10Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。