論文の概要: One-shot Entropy Minimization
- arxiv url: http://arxiv.org/abs/2505.20282v2
- Date: Tue, 27 May 2025 17:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.370041
- Title: One-shot Entropy Minimization
- Title(参考訳): ワンショットエントロピー最小化
- Authors: Zitian Gao, Lynx Chen, Joey Zhou, Bryan Dai,
- Abstract要約: 13,440の大規模言語モデルをトレーニングした結果,エントロピーの最小化にはラベルのない1つのデータと10ステップの最適化が必要であることがわかった。
この顕著な結果は、大規模な言語モデルのためのポストトレーニングのパラダイムを再考するきっかけになるかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models. Our code is avaliable at https://github.com/zitian-gao/one-shot-em.
- Abstract(参考訳): 我々は13,440の大規模言語モデルを訓練し、エントロピーの最小化には1つのラベル付きデータと10ステップの最適化しか必要とせず、何千ものデータを用いて得られたものよりも高い性能向上を達成でき、ルールベースの強化学習における報酬を慎重に設計できることがわかった。
この顕著な結果は、大規模な言語モデルのためのポストトレーニングのパラダイムを再考するきっかけになるかもしれない。
私たちのコードはhttps://github.com/zitian-gao/one-shot-emで評価できます。
関連論文リスト
- The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning [44.988290766092184]
エントロピー最小化(EM)は、最も確実な出力にさらに確率質量を集中するようにモデルを訓練する。
この単純な目的だけでラベル付きデータなしでは、挑戦的な数学、物理学、コーディングタスクにおいて大きな言語モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-21T05:39:11Z) - Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Emergent Abilities in Reduced-Scale Generative Language Models [10.51168925267033]
大規模言語モデルはタスク固有の微調整なしで新しいタスクを解くことができる。
この能力は創発的能力と見なされ、数十億のパラメータを持つ大きな言語モデルで主に見られる。
本研究では,そのような創発特性がモデルサイズと厳密に結びついているか,縮小スケールで訓練されたより小さなモデルで示すことができるかを検討する。
論文 参考訳(メタデータ) (2024-04-02T18:00:28Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。