論文の概要: Mistake Notebook Learning: Selective Batch-Wise Context Optimization for In-Context Learning
- arxiv url: http://arxiv.org/abs/2512.11485v1
- Date: Fri, 12 Dec 2025 11:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.750424
- Title: Mistake Notebook Learning: Selective Batch-Wise Context Optimization for In-Context Learning
- Title(参考訳): ミステイクノート学習:-文脈学習のための選択的バッチワイズコンテキスト最適化
- Authors: Xuanbo Su, Yingfang Zhang, Hao Luo, Xiaoteng Liu, Leo Huang,
- Abstract要約: Mistake Notebook Learning (MNL)は、抽象的なエラーパターンの永続的な知識ベースを備えた、トレーニング不要のフレームワークである。
GSM8K, スパイダー, AIME, KaggleQAでは, MNLはほぼ一致し, トレーニング不要の代替品よりも優れていた。
- 参考スコア(独自算出の注目度): 4.8870135526676295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) adapt to tasks via gradient fine-tuning (heavy computation, catastrophic forgetting) or In-Context Learning (ICL: low robustness, poor mistake learning). To fix this, we introduce Mistake Notebook Learning (MNL), a training-free framework with a persistent knowledge base of abstracted error patterns. Unlike prior instance/single-trajectory memory methods, MNL uses batch-wise error abstraction: it extracts generalizable guidance from multiple failures, stores insights in a dynamic notebook, and retains only baseline-outperforming guidance via hold-out validation (ensuring monotonic improvement). We show MNL nearly matches Supervised Fine-Tuning (93.9% vs 94.3% on GSM8K) and outperforms training-free alternatives on GSM8K, Spider, AIME, and KaggleDBQA. On KaggleDBQA (Qwen3-8B), MNL hits 28% accuracy (47% relative gain), outperforming Memento (15.1%) and Training-Free GRPO (22.1) - proving it's a strong training-free alternative for complex reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、勾配の微調整(重大な計算、破滅的な忘れ方)やインコンテキスト学習(ICL: Low robustness, poor mis learning)を通じてタスクに適応する。
そこで本稿では,MNL(Mistake Notebook Learning)について紹介する。
複数の障害から一般化可能なガイダンスを抽出し、動的ノートブックに洞察を格納し、ホールドアウトバリデーション(モノトニック改善の保証)によるベースライン出力ガイダンスのみを保持する。
MNLはSupervised Fine-Tuning(GSM8Kでは93.9%対94.3%)とほぼ一致し、GSM8K、Spider、AIME、KaggleDBQAではトレーニングなしの代替品より優れています。
KaggleDBQA (Qwen3-8B)では、MNLは28%の精度(相対利得47%)、Memento (15.1%)、Training-Free GRPO (22.1)を達成している。
関連論文リスト
- Grokked Models are Better Unlearners [5.8757712547216485]
グラクテッドチェックポイントから始めると、ずっと効率的に忘れられる。
ポストグロキングモデルは、左行と左行と左行の間の勾配の調整を減らして、よりモジュラーな表現を学習する。
論文 参考訳(メタデータ) (2025-12-03T04:35:49Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Domain-Adaptive Continued Pre-Training of Small Language Models [0.0]
小型言語モデルの事前学習は、限られた計算資源によるドメイン適応に有望な道を提供する。
私は、このアプローチを教育領域内で調査し、スクラッチからトレーニングモデルのリソース効率の良い代替品として評価しました。
私のアプローチには、包括的なデータ前処理、メモリ最適化トレーニング設定、ベンチマークベースの評価が含まれています。
論文 参考訳(メタデータ) (2025-04-13T18:40:32Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Optimizing Class-Level Probability Reweighting Coefficients for Equitable Prompting Accuracy [12.287692969438169]
LLMは、事前訓練されたデータの統計正則性からのバイアスをしばしば発見する。
これは、分類とQAにおいて、永続的で不均一なクラス精度をもたらす。
本研究では,非微分不可能な性能駆動メトリクスを直接最適化するポストホック確率再重み付け手法を開発した。
論文 参考訳(メタデータ) (2024-05-13T10:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。