論文の概要: Learning Facts at Scale with Active Reading
- arxiv url: http://arxiv.org/abs/2508.09494v1
- Date: Wed, 13 Aug 2025 04:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.763297
- Title: Learning Facts at Scale with Active Reading
- Title(参考訳): アクティブリーディングによる大規模ファクトの学習
- Authors: Jessy Lin, Vincent-Pierre Berges, Xilun Chen, Wen-Tau Yih, Gargi Ghosh, Barlas Oğuz,
- Abstract要約: 自己生成学習戦略を用いて,特定の素材の集合を研究するためのモデルをトレーニングするフレームワークであるActive Readingを提案する。
まず、エキスパートドメイン上でActive Readingでトレーニングされたモデルは、バニラ微調整よりもはるかに多くの知識を吸収する。
より現実的なモデルを構築するために、事前学習スケールでActive Readingを利用することができることを示す。
- 参考スコア(独自算出の注目度): 33.53569181772801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are known to store vast amounts of knowledge in their parametric memory. However, learning and recalling facts from this memory is known to be unreliable, depending largely on the prevalence of particular facts in the training data and other factors which are poorly understood. Practitioners are lacking tools which will allow them to ensure that the models learn a given body of knowledge reliably and consistently. To this end, we propose Active Reading: a framework where we train models to study a given set of material with self-generated learning strategies. First, we demonstrate models trained with Active Reading on expert domains absorb significantly more knowledge than vanilla finetuning and other data augmentations. We train expert 8B models that achieve 66% on a Wikipedia-grounded subset of SimpleQA (+313% relative over vanilla finetuning) and 26% on FinanceBench (+160% relative over vanilla finetuning) by applying Active Reading to the source documents for each benchmark. Finally, we show that Active Reading can be utilized at pre-training scale to build more factual models. As a demonstration of this, we release Meta WikiExpert-8B, a Wikipedia-expert model trained on 1 trillion generated tokens, which outcompetes models with hundreds of billions of parameters on factual QA.
- Abstract(参考訳): LLMはパラメトリックメモリに大量の知識を格納することが知られている。
しかし、この記憶から事実を学習し、思い出すことは信頼できないことが知られており、トレーニングデータや理解されていない他の要因における特定の事実の頻度に大きく依存する。
モデルが与えられた知識を確実かつ一貫して学習することを確実にするためのツールが、実践者には欠落しています。
この目的のために我々は,モデルを用いて学習戦略を学習する,アクティブ・レディング(Active Reading)を提案する。
まず、エキスパートドメイン上でActive Readingでトレーニングされたモデルは、バニラ微調整やその他のデータ拡張よりもはるかに多くの知識を吸収する。
我々は、ベンチマーク毎にソースドキュメントにActive Readingを適用することで、Wikipediaで構築されたSimpleQAサブセット(バニラ微調整より+313%、バニラ微調整より+160%)の66%、ファイナンスベンチ(バニラ微調整より+160%)の26%を達成する専門家8Bモデルをトレーニングする。
最後に、より現実的なモデルを構築するために、事前学習スケールでActive Readingを利用することができることを示す。
そこで我々は,1兆個のトークンをトレーニングしたWikipedia-ExpertモデルであるMeta WikiExpert-8Bをリリースした。
関連論文リスト
- KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall [31.45796499298925]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
論文 参考訳(メタデータ) (2024-04-24T19:40:01Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - The Effect of Masking Strategies on Knowledge Retention by Language
Models [9.130890741447422]
本稿では,事前学習タスクが言語モデルによって捉え,忘れられた知識量に与える影響を理解することを目的とする。
我々は,実際の質問に答える能力を測定することによって,モデルの知識保持を検証した。
我々の研究結果は、あるタスクを実行する能力と同様に、そのタスクでトレーニングされた知識は、あるモデルが別のタスクを実行するように訓練されたときに忘れられることを示した。
論文 参考訳(メタデータ) (2023-06-12T15:35:23Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Effective training-time stacking for ensembling of deep neural networks [1.2667973028134798]
スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
論文 参考訳(メタデータ) (2022-06-27T17:52:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。