論文の概要: $\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge
- arxiv url: http://arxiv.org/abs/2505.01812v1
- Date: Sat, 03 May 2025 12:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.282425
- Title: $\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge
- Title(参考訳): $\textit{New News}$: System-2 Fine-tuning for Robust Integration of New Knowledge
- Authors: Core Francisco Park, Zechen Zhang, Hidenori Tanaka,
- Abstract要約: 我々は,複数のドメインにまたがる仮説的かつ妥当なニュースからなるデータセットである$textitNew News$を紹介した。
我々は,文脈を伴わないモデルから知識を抽出し,文脈を伴わないモデルの重みに組み込むための,セルフプレイデータ生成プロトコルのスイートを探索する。
以上の結果から,Sys2-FTの自己QAプロトコルは,モデルによるニュースの重み付け学習を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 6.117371161379209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans and intelligent animals can effortlessly internalize new information ("news") and accurately extract the implications for performing downstream tasks. While large language models (LLMs) can achieve this through in-context learning (ICL) when the news is explicitly given as context, fine-tuning remains challenging for the models to consolidate learning in weights. In this paper, we introduce $\textit{New News}$, a dataset composed of hypothetical yet plausible news spanning multiple domains (mathematics, coding, discoveries, leaderboards, events), accompanied by downstream evaluation questions whose correct answers critically depend on understanding and internalizing the news. We first demonstrate a substantial gap between naive fine-tuning and in-context learning (FT-ICL gap) on our news dataset. To address this gap, we explore a suite of self-play data generation protocols -- paraphrases, implications and Self-QAs -- designed to distill the knowledge from the model with context into the weights of the model without the context, which we term $\textit{System-2 Fine-tuning}$ (Sys2-FT). We systematically evaluate ICL and Sys2-FT performance across data domains and model scales with the Qwen 2.5 family of models. Our results demonstrate that the self-QA protocol of Sys2-FT significantly improves models' in-weight learning of the news. Furthermore, we discover the $\textit{contexual shadowing effect}$, where training with the news $\textit{in context}$ followed by its rephrases or QAs degrade learning of the news. Finally, we show preliminary evidence of an emerging scaling law of Sys2-FT.
- Abstract(参考訳): 人間や知的な動物は、新しい情報("news")を熱心に内部化し、下流のタスクを実行することの意味を正確に抽出することができる。
大規模言語モデル(LLM)は、ニュースがコンテキストとして明示的に与えられるとき、コンテキスト内学習(ICL)によってこれを達成できるが、モデルが重み付けで学習を統合することは、微調整が依然として困難である。
本稿では,複数のドメイン(数学,コーディング,発見,リーダボード,イベント)にまたがる仮説的かつ実証可能なニュースで構成されたデータセットである$\textit{New News}$を紹介し,適切な回答がニュースの理解と内部化に大きく依存するダウンストリーム評価質問を紹介する。
まず、ニュースデータセット上で、直感的な微調整とテキスト内学習(FT-ICLギャップ)の間に大きなギャップをみせます。
このギャップに対処するために、私たちは、コンテキストのないモデルの重みに、コンテキストを持つモデルから知識を蒸留するために設計された、セルフプレイデータ生成プロトコル(パラフレーズ、含意、自己QA)のスイートを検討します。
我々は、Qwen 2.5 モデル群を用いて、データ領域とモデルスケールにわたる ICL と Sys2-FT の性能を体系的に評価した。
以上の結果から,Sys2-FTの自己QAプロトコルは,モデルによるニュースの重み付け学習を大幅に改善することが示された。
さらに、$\textit{contexual shadowing effect}$を発見し、$\textit{in context}$でトレーニングを行い、その後にそのリフレーズやQAによるニュースの学習を分解する。
最後に,Sys2-FTのスケーリング法則の予備的証拠を示す。
関連論文リスト
- A Python Tool for Reconstructing Full News Text from GDELT [0.0]
本稿では,新聞記事の全文をほぼゼロのコストで入手するための新しいアプローチを提案する。
我々は,グローバルオンラインニュースソースから抽出したn-gramの高頻度更新を提供するGDELT Web News NGrams 3.0データセットに注目した。
重なり合うテキストフラグメントを識別し、インテリジェントにマージすることで、これらのn-gramからフルテキストの記事を再構築するPythonコードを提供します。
論文 参考訳(メタデータ) (2025-04-22T17:40:42Z) - How new data permeates LLM knowledge and how to dilute it [19.96863816288517]
大規模言語モデルは、勾配ベースの更新の蓄積を通じて学び、継続的に学習する。
新たな事実を学習することで、モデルは無関係な文脈でその知識を不適切に適用することができる。
学習前のキーワードのトークン確率を計測することにより,新しい情報学習後のプライミングの度合いを予測することができることを示す。
論文 参考訳(メタデータ) (2025-04-13T11:25:04Z) - NewsEdits 2.0: Learning the Intentions Behind Updating News [74.84017890548259]
イベントが進むにつれて、ニュース記事は新しい情報で更新されることが多い。
本研究では,言語的特徴が事実流動性を示すことを仮定し,ニュース記事のテキストのみを用いて,どの事実が更新されるかを予測する。
論文 参考訳(メタデータ) (2024-11-27T23:35:23Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。