論文の概要: Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
- arxiv url: http://arxiv.org/abs/2502.01612v1
- Date: Mon, 03 Feb 2025 18:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:57.893932
- Title: Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges
- Title(参考訳): 自己改善型トランスフォーマーは難易度と長大化の課題を克服する
- Authors: Nayoung Lee, Ziyang Cai, Avi Schwarzschild, Kangwook Lee, Dimitris Papailiopoulos,
- Abstract要約: 大規模言語モデルは、しばしば、トレーニング分布を超えて、長さの一般化と複雑な問題インスタンスの解決に苦労する。
モデルが自身のソリューションから反復的に生成し、学習する自己改善アプローチを提案する。
本研究は,制御された弱強曲線がモデル論理外挿法を体系的に教える方法を示した。
- 参考スコア(独自算出の注目度): 15.975023196507841
- License:
- Abstract: Large language models often struggle with length generalization and solving complex problem instances beyond their training distribution. We present a self-improvement approach where models iteratively generate and learn from their own solutions, progressively tackling harder problems while maintaining a standard transformer architecture. Across diverse tasks including arithmetic, string manipulation, and maze solving, self-improving enables models to solve problems far beyond their initial training distribution-for instance, generalizing from 10-digit to 100-digit addition without apparent saturation. We observe that in some cases filtering for correct self-generated examples leads to exponential improvements in out-of-distribution performance across training rounds. Additionally, starting from pretrained models significantly accelerates this self-improvement process for several tasks. Our results demonstrate how controlled weak-to-strong curricula can systematically teach a model logical extrapolation without any changes to the positional embeddings, or the model architecture.
- Abstract(参考訳): 大規模言語モデルは、しばしば、トレーニング分布を超えて、長さの一般化と複雑な問題インスタンスの解決に苦労する。
モデルが自身のソリューションから反復的に生成および学習し、標準トランスフォーマーアーキテクチャを維持しながら、より難しい問題に徐々に対処する自己改善アプローチを提案する。
算術、弦の操作、迷路の解法を含む多種多様なタスクにおいて、自己改善により、モデルは初期のトレーニング分布をはるかに越え、例えば、10桁から100桁への加算を、明らかな飽和なしに一般化することができる。
場合によっては、正しい自己生成例をフィルタリングすることで、トレーニングラウンド全体でのアウト・オブ・ディストリビューション性能が指数関数的に改善されることが観察される。
さらに、事前訓練されたモデルから始めると、いくつかのタスクに対する自己改善プロセスが大幅に加速する。
本研究は, 制御された弱強曲線が, 位置埋め込みやモデルアーキテクチャの変更を伴わずに, モデル論理補間を体系的に教える方法を示すものである。
関連論文リスト
- Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - RL + Transformer = A General-Purpose Problem Solver [0.0]
本研究では,複数回にわたって強化学習を施した事前学習型変圧器が,これまでに遭遇したことのない問題を解く能力を発揮することを実証した。
この強力なメタラーナーは、見知らぬ分布環境を顕著なサンプル効率で解決するだけでなく、分布外の環境でも高い性能を示す。
論文 参考訳(メタデータ) (2025-01-24T01:55:20Z) - Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。
本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文 参考訳(メタデータ) (2025-01-10T04:35:46Z) - Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Domain Generalization via Balancing Training Difficulty and Model
Capability [61.053202176230904]
ドメイン一般化(Domain Generalization, DG)は、1つまたは複数のソースドメインからドメイン一般化可能なモデルを学習することを目的としている。
最近の進歩にもかかわらず、既存の作業の多くは、トレーニングサンプルの難易度と、現代的に訓練されたモデルの能力の相違に悩まされている。
我々は、モデルの能力とサンプルの難易度の間のシーソーのバランスをとることで、ミスアライメントに対処するMomentum DifficultyフレームワークであるMoDifyを設計する。
論文 参考訳(メタデータ) (2023-09-02T07:09:23Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。