論文の概要: LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2408.15729v1
- Date: Wed, 28 Aug 2024 11:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:00:49.907963
- Title: LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models
- Title(参考訳): LM-PUB-QUIZ:言語モデルにおける関係知識のゼロショット評価のための総合的フレームワーク
- Authors: Max Ploner, Jacek Wiland, Sebastian Pohl, Alan Akbik,
- Abstract要約: 知識探索は、言語モデル(LM)が事前学習期間中に関係知識を取得する程度を評価する。
提案するLM-PUB-QUIZは,BEAR探索機構を中心に構築されたPythonフレームワークとリーダボードである。
- 参考スコア(独自算出の注目度): 2.1311017627417
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge probing evaluates the extent to which a language model (LM) has acquired relational knowledge during its pre-training phase. It provides a cost-effective means of comparing LMs of different sizes and training setups and is useful for monitoring knowledge gained or lost during continual learning (CL). In prior work, we presented an improved knowledge probe called BEAR (Wiland et al., 2024), which enables the comparison of LMs trained with different pre-training objectives (causal and masked LMs) and addresses issues of skewed distributions in previous probes to deliver a more unbiased reading of LM knowledge. With this paper, we present LM-PUB- QUIZ, a Python framework and leaderboard built around the BEAR probing mechanism that enables researchers and practitioners to apply it in their work. It provides options for standalone evaluation and direct integration into the widely-used training pipeline of the Hugging Face TRANSFORMERS library. Further, it provides a fine-grained analysis of different knowledge types to assist users in better understanding the knowledge in each evaluated LM. We publicly release LM-PUB-QUIZ as an open-source project.
- Abstract(参考訳): 知識探索は、言語モデル(LM)が事前学習期間中に関係知識を取得する程度を評価する。
異なるサイズとトレーニング設定のLMを比較するための費用効率のよい手段を提供し、継続学習(CL)中に得られた知識の監視に役立ちます。
先行研究において、我々はBEAR (Wiland et al , 2024) と呼ばれる改良された知識プローブを提案し、異なる事前学習目標(因果的およびマスク付きLM)で訓練されたLMの比較を可能にし、従来のプローブにおけるスキュー分布の問題に対処し、より曖昧なLM知識の読解を可能にする。
本稿では,PythonフレームワークとリーダボードであるLM-PUB-QUIZについて述べる。
スタンドアロン評価のオプションと、Hugging Face TransformERSライブラリの広く使用されているトレーニングパイプラインへの直接統合を提供する。
さらに、異なる知識タイプをきめ細かな分析を行い、評価されたLMの知識をよりよく理解するのに役立つ。
LM-PUB-QUIZをオープンソースプロジェクトとして公開しています。
関連論文リスト
- Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,事前学習したLLMを微調整し,文脈内における目標知識の学習を迅速に行えるようにする。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。