論文の概要: HAMMER: Hamiltonian Curiosity Augmented Large Language Model Reinforcement
- arxiv url: http://arxiv.org/abs/2509.25240v1
- Date: Thu, 25 Sep 2025 11:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.193682
- Title: HAMMER: Hamiltonian Curiosity Augmented Large Language Model Reinforcement
- Title(参考訳): HAMMER:ハミルトンの好奇心を増進した大規模言語モデルの強化
- Authors: Ming Yang, Xiaofan Li, Zhiyuan Ma, Dengliang Shi, Jintao Du, Yu Cheng, Weiguo Zheng,
- Abstract要約: ハミルトンの好奇心強化大言語モデル強化(HAMMER)を提案する。
HAMMERは、データセット評価で一般的に使用される多様性メトリクスを動的強化学習手順に転送する。
実験的な評価は、HAMMERがモデル「好奇心」を刺激し、平均精度の3%から4%を一貫して達成していることを示している。
- 参考スコア(独自算出の注目度): 20.177486231324533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent curriculum reinforcement learning for large language models (LLMs) typically rely on difficulty-based annotations for data filtering and ordering. However, such methods suffer from local optimization, where continual training on simple samples in the early steps can cause the policy to lose its exploration. We propose a novel schema, namely Hamiltonian curiosity augmented large language model reinforcement (HAMMER), that transfers diversity metrics, commonly used in dataset evaluation, into the dynamic reinforcement learning procedure, where training samples are ordered via a minimum-semantic Hamiltonian path making the initial training retrain more exploration. From a theoretical perspective of generalization bounds, diversity-driven ordering facilitates stable convergence. Empirical evaluations indicate that HAMMER stimulates model "curiosity" and consistently achieves a 3% to 4% average accuracy gain across diverse inference benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近のカリキュラム強化学習は、データフィルタリングと順序付けの難易度に基づくアノテーションに依存している。
しかし、そのような手法は局所的な最適化に悩まされており、初期の段階における単純なサンプルの連続的な訓練は、その探索を損なう可能性がある。
そこで本研究では,ハミルトニアン・キュリオシティ拡張大言語モデル強化(HAMMER)という,データセット評価に一般的に使用される多様性指標を動的強化学習手法に変換する手法を提案する。
一般化境界の理論的な観点から、多様性駆動順序付けは安定収束を促進する。
実験的な評価は、HAMMERがモデル「好奇心」を刺激し、様々な推論ベンチマークの平均精度の3%から4%を一貫して達成していることを示している。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - Model Merging in Pre-training of Large Language Models [39.413435498849445]
本稿では,事前学習過程におけるモデルマージ手法について包括的に検討する。
一定の学習率で訓練されたチェックポイントをマージすることで、大幅な性能向上が達成できることを示す。
我々は、効果的なモデルマージのための実践的な事前トレーニングガイドラインをオープンソースコミュニティに提供する。
論文 参考訳(メタデータ) (2025-05-17T16:53:14Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Tuning Language Models as Training Data Generators for
Augmentation-Enhanced Few-Shot Learning [30.65315081964461]
プレトレーニング言語モデル(PLM)を用いて、異なる視点から数発の学習を学習する。
まず,数発のサンプルに対して自己回帰型PLMをチューニングし,それをジェネレータとして使用して,大量の新規トレーニングサンプルを合成する。
我々のアプローチであるFewGenは、GLUEベンチマークの7つの分類タスクに対して、既存の数ショット学習方法よりも総合的に優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-06T06:46:47Z) - Forging Multiple Training Objectives for Pre-trained Language Models via
Meta-Learning [97.28779163988833]
複数の事前学習目標が単一目的言語モデリングの理解能力の欠如を埋める。
メタラーニングに基づく新しい適応型サンプリングシステムであるtextitMOMETAS を提案し,任意の事前学習対象に対して潜時サンプリングパターンを学習する。
論文 参考訳(メタデータ) (2022-10-19T04:38:26Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。