論文の概要: BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models
- arxiv url: http://arxiv.org/abs/2404.04113v1
- Date: Fri, 5 Apr 2024 14:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:45:42.580064
- Title: BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models
- Title(参考訳): BEAR: 因果的および仮面的言語モデルにおける関係知識評価のための統一フレームワーク
- Authors: Jacek Wiland, Max Ploner, Alan Akbik,
- Abstract要約: 調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
- 参考スコア(独自算出の注目度): 2.2863439039616127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge probing assesses to which degree a language model (LM) has successfully learned relational knowledge during pre-training. Probing is an inexpensive way to compare LMs of different sizes and training configurations. However, previous approaches rely on the objective function used in pre-training LMs and are thus applicable only to masked or causal LMs. As a result, comparing different types of LMs becomes impossible. To address this, we propose an approach that uses an LM's inherent ability to estimate the log-likelihood of any given textual statement. We carefully design an evaluation dataset of 7,731 instances (40,916 in a larger variant) from which we produce alternative statements for each relational fact, one of which is correct. We then evaluate whether an LM correctly assigns the highest log-likelihood to the correct statement. Our experimental evaluation of 22 common LMs shows that our proposed framework, BEAR, can effectively probe for knowledge across different LM types. We release the BEAR datasets and an open-source framework that implements the probing approach to the research community to facilitate the evaluation and development of LMs.
- Abstract(参考訳): 知識探索は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
プローブは、異なるサイズのLMとトレーニング構成を比較するための安価な方法である。
しかし、従来のアプローチは、予めトレーニングされたLMで使用される目的関数に依存しており、マスクや因果的LMにのみ適用できる。
その結果、異なる種類のLMを比較することは不可能となる。
そこで本研究では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
我々は,7,731インスタンス(40,916インスタンス)の評価データセットを慎重に設計し,その1つが正しいリレーショナル事実に対する代替ステートメントを生成する。
次に、LMが正しいステートメントに最も高いログライクな状態を正しく割り当てているかどうかを評価する。
22種類の共通LMを実験的に評価した結果,提案するフレームワークであるBEARは,異なるLMタイプの知識を効果的に探索できることがわかった。
我々はBEARデータセットと、LMの評価と開発を容易にするための研究コミュニティへの探索的アプローチを実装するオープンソースフレームワークをリリースする。
関連論文リスト
- AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models [2.1311017627417]
知識探索は、言語モデル(LM)が事前学習期間中に関係知識を取得する程度を評価する。
提案するLM-PUB-QUIZは,BEAR探索機構を中心に構築されたPythonフレームワークとリーダボードである。
論文 参考訳(メタデータ) (2024-08-28T11:44:52Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - Sort by Structure: Language Model Ranking as Dependency Probing [25.723591566201343]
事前学習型言語モデル (LM) のインフォームドな選択は、性能上重要であるが、環境上はコストがかかる。
本稿では,LMの文脈的埋め込みからラベル付き木が回復可能な程度を計測することにより,特定の言語における依存関係を解析するために,LMのランク付けを提案する。
本手法は,46のタイプ的およびアーキテクチャ的に多様なLM言語対に対して,計算量の少ない命令の79%のLM選択を,計算量の少ない命令のフルグレードのトレーニングよりも最適に予測する。
論文 参考訳(メタデータ) (2022-06-10T08:10:29Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。