論文の概要: LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations
- arxiv url: http://arxiv.org/abs/2509.03405v1
- Date: Wed, 03 Sep 2025 15:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.573295
- Title: LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations
- Title(参考訳): LMEnt:データから表現への事前学習から言語モデルにおける知識分析スイート
- Authors: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva,
- Abstract要約: 言語モデル(LM)は、世界の知識を必要とする現実世界のアプリケーションをますます推進します。
プレトレーニング中のLMにおける知識獲得の分析スイートであるLMEntについて述べる。
チェックポイントをまたいだ知識獲得を研究し,事実頻度が重要であるが,学習の傾向を十分に説明していないことを明らかにする。
- 参考スコア(独自算出の注目度): 35.01080969148123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) increasingly drive real-world applications that require world knowledge. However, the internal processes through which models turn data into representations of knowledge and beliefs about the world, are poorly understood. Insights into these processes could pave the way for developing LMs with knowledge representations that are more consistent, robust, and complete. To facilitate studying these questions, we present LMEnt, a suite for analyzing knowledge acquisition in LMs during pretraining. LMEnt introduces: (1) a knowledge-rich pretraining corpus, fully annotated with entity mentions, based on Wikipedia, (2) an entity-based retrieval method over pretraining data that outperforms previous approaches by as much as 80.4%, and (3) 12 pretrained models with up to 1B parameters and 4K intermediate checkpoints, with comparable performance to popular open-sourced models on knowledge benchmarks. Together, these resources provide a controlled environment for analyzing connections between entity mentions in pretraining and downstream performance, and the effects of causal interventions in pretraining data. We show the utility of LMEnt by studying knowledge acquisition across checkpoints, finding that fact frequency is key, but does not fully explain learning trends. We release LMEnt to support studies of knowledge in LMs, including knowledge representations, plasticity, editing, attribution, and learning dynamics.
- Abstract(参考訳): 言語モデル(LM)は、世界の知識を必要とする現実世界のアプリケーションをますます推進します。
しかし、モデルがデータを知識や世界に関する信念の表現に変換する内部プロセスは理解されていない。
これらのプロセスに対する洞察は、より一貫性があり、堅牢で完全な知識表現を持つLMを開発するための道を開くかもしれない。
本稿では,これらの質問の学習を容易にするために,事前学習中のLMにおける知識獲得の分析スイートであるLMEntを提案する。
LMEntは、(1)知識に富んだ事前学習コーパス、(2)知識ベンチマークで人気のあるオープンソースモデルに匹敵するパフォーマンスで、1Bパラメータと4K中間チェックポイントを持つ12の事前学習モデル、(2)知識に基づく事前学習データに対するエンティティベースの検索手法を紹介する。
これらのリソースは、事前トレーニングと下流のパフォーマンスにおけるエンティティの言及と、事前トレーニングデータにおける因果的介入の影響を分析するための制御された環境を提供する。
チェックポイントをまたいだ知識獲得を研究し,事実頻度が重要であるが,学習の傾向を十分に説明していないことを知ることで,LMEntの有用性を示す。
LMEntは、知識表現、塑性、編集、帰属、学習ダイナミクスを含む、LMにおける知識研究を支援する。
関連論文リスト
- R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning [83.256752220849]
大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
内部および外部の知識ソースを適応的に活用するLLMのトレーニングを目的としたフレームワークであるR1-Searcher++を紹介する。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
論文 参考訳(メタデータ) (2025-05-22T17:58:26Z) - Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning [26.861562920084264]
大規模言語モデル(LLM)は様々な領域にまたがって適用される。
文脈内知識アンラーニング」という新しい手法を提案する。
本手法は,無関係な知識の80%を保持しながら,最大95%の精度を忘れることが可能である。
論文 参考訳(メタデータ) (2024-10-01T04:13:25Z) - LM-PUB-QUIZ: A Comprehensive Framework for Zero-Shot Evaluation of Relational Knowledge in Language Models [2.1311017627417]
知識探索は、言語モデル(LM)が事前学習期間中に関係知識を取得する程度を評価する。
提案するLM-PUB-QUIZは,BEAR探索機構を中心に構築されたPythonフレームワークとリーダボードである。
論文 参考訳(メタデータ) (2024-08-28T11:44:52Z) - Towards Automated Knowledge Integration From Human-Interpretable Representations [55.2480439325792]
我々は,情報メタ学習の原理を理論的に導入・動機付けし,自動的かつ制御可能な帰納バイアス選択を可能にする。
データ効率と一般化を改善するための情報メタラーニングのメリットと限界を実証的に示す。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - IELM: An Open Information Extraction Benchmark for Pre-Trained Language
Models [75.48081086368606]
我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。
我々は、事前訓練されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。
驚いたことに、事前訓練されたLMは、両方の標準OIEデータセットで競合する性能を得ることができる。
論文 参考訳(メタデータ) (2022-10-25T16:25:00Z) - LM-CORE: Language Models with Contextually Relevant External Knowledge [13.451001884972033]
モデルパラメータに大量の知識を格納することは、絶え間なく増加する知識とリソースの要求を考えると、準最適である、と我々は主張する。
LM-CORE - これを実現するための一般的なフレームワークで、外部の知識ソースから言語モデルのトレーニングをテキストデカップリングすることができる。
実験結果から, LM-COREは知識探索タスクにおいて, 最先端の知識強化言語モデルよりも大きく, 堅牢な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-08-12T18:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。