論文の概要: MALAMUTE: A Multilingual, Highly-granular, Template-free, Education-based Probing Dataset
- arxiv url: http://arxiv.org/abs/2412.10105v1
- Date: Fri, 13 Dec 2024 12:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:14.727169
- Title: MALAMUTE: A Multilingual, Highly-granular, Template-free, Education-based Probing Dataset
- Title(参考訳): MALAMUTE: 多言語, 高粒度, テンプレートフリー, 教育ベースのプローブデータセット
- Authors: Sagi Shaier, George Arthur Baker, Chiranthan Sridhar, Lawrence E Hunter, Katharina von der Wense,
- Abstract要約: 言語モデル(LM)は様々な広い領域で優れている。
彼らは特定の、きめ細かい知識の領域で習熟を証明しなければならない。
MALAMUTEは教育ベースの最初のクローゼスタイルのデータセットである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Language models (LMs) have excelled in various broad domains. However, to ensure their safe and effective integration into real-world educational settings, they must demonstrate proficiency in specific, granular areas of knowledge. Existing cloze-style benchmarks, commonly used to evaluate LMs' knowledge, have three major limitations. They: 1) do not cover the educational domain; 2) typically focus on low-complexity, generic knowledge or broad domains, which do not adequately assess the models' knowledge in specific subjects; and 3) often rely on templates that can bias model predictions. Here, we introduce MALAMUTE, a multilingual, template-free, and highly granular probing dataset comprising expert-written, peer-reviewed probes from 71 university-level textbooks across three languages (English, Spanish, and Polish). MALAMUTE is the first education-based cloze-style dataset. It covers eight domains, each with up to 14 subdomains, further broken down into concepts and concept-based prompts, totaling 33,361 university curriculum concepts and 116,887 prompts. MALAMUTE's fine granularity, educational focus, and inclusion of both sentence-level and paragraph-level prompts make it an ideal tool for evaluating LMs' course-related knowledge. Our evaluation of masked and causal LMs on MALAMUTE shows that despite overall proficiency, they have significant gaps in knowledge when examined closely on specific subjects, hindering their safe use in classrooms and underscoring the need for further development.
- Abstract(参考訳): 言語モデル(LM)は様々な広い領域で優れている。
しかし、現実世界の教育環境に安全かつ効果的に統合するためには、特定の、きめ細かい知識領域で習熟性を示す必要がある。
既存のクローゼスタイルのベンチマークは、一般的にLMの知識を評価するために使われており、3つの大きな制限がある。
彼らは
1) 教育領域をカバーしない。
2) 典型的には、特定の主題におけるモデルの知識を適切に評価しない、低複雑さ、一般的な知識、または広い領域に焦点を当てる。
3) モデル予測をバイアスするテンプレートによく依存します。
本稿では,3言語(英語,スペイン語,ポーランド語)にまたがる71の大学レベルの教科書から,専門家によって書かれた,ピアレビューされたプローブからなる多言語・テンプレートフリー・高粒度の探索データセットであるMALAMUTEを紹介する。
MALAMUTEは教育ベースの最初のクローゼスタイルのデータセットである。
8つのドメインにそれぞれ14のサブドメインがあり、さらに概念と概念に基づくプロンプトに分解され、合計33,361の大学カリキュラム概念と116,887のプロンプトがある。
マラムーテの微粒度、教育的焦点、文レベルと段落レベルのプロンプトの含意は、LMのコース関連知識を評価するのに理想的なツールである。
マスクおよび因果的LMをMALAMUTEで評価したところ、総合的な熟練度にもかかわらず、特定の被験者に精通し、教室での安全な使用を妨げ、さらなる開発の必要性を裏付ける上で、知識に大きなギャップがあることが判明した。
関連論文リスト
- Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Spoken Language Intelligence of Large Language Models for Language
Learning [3.5924382852350902]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Language Models Meet World Models: Embodied Experiences Enhance Language
Models [48.70726641605047]
大規模言語モデル(LM)は、物理的環境における単純な推論と計画にしばしば苦労する。
我々は、世界モデルでそれらを微調整することで、LMを強化する新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-18T00:35:38Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。