Fugu-MT 論文翻訳(概要): Self-training Language Models for Arithmetic Reasoning

論文の概要: Self-training Language Models for Arithmetic Reasoning

arxiv url: http://arxiv.org/abs/2407.08400v3
Date: Wed, 23 Oct 2024 20:43:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 22:29:08.922625
Title: Self-training Language Models for Arithmetic Reasoning
Title（参考訳）: 算数推論のための自己学習言語モデル
Authors: Marek Kadlčík, Michal Štefánik,
Abstract要約: 我々は、新しいデータなしでモデルの推論能力を改善する可能性を探る。モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent language models achieve impressive results in tasks involving complex multistep reasoning, but scaling these capabilities further traditionally requires expensive collection of more annotated data. In this work, we explore the potential of improving models' reasoning capabilities without new data, merely using automated feedback to the validity of their predictions in arithmetic reasoning (self-training). In systematic experimentation across six different arithmetic reasoning datasets, we find that models can substantially improve in both single-round (offline) and online self-training, reaching a correct result in +13.9% and +25.9% more cases, respectively, underlining the importance of actuality of self-training feedback. We further find that in the single-round, offline self-training, traditional supervised training can deliver gains comparable to preference optimization, but in online self-training, preference optimization methods largely outperform supervised training thanks to their superior stability and robustness on unseen types of problems.
Abstract（参考訳）: 最近の言語モデルは、複雑な多段階推論を含むタスクにおいて印象的な結果をもたらすが、これらの機能をさらに拡張するには、より注釈付きデータの高価な収集が必要である。本研究では,算術的推論(自己学習)における予測の有効性に対する自動フィードバックを用いることで,新しいデータなしにモデルの推論能力を向上させる可能性を検討する。 6つの異なる算術推論データセットの体系的な実験では、モデルは単ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善され、それぞれ+13.9%と+25.9%のケースで正しい結果が得られる。さらに、単一ラウンドでオフラインのセルフトレーニングでは、従来の教師あり学習は好みの最適化に匹敵する効果をもたらすが、オンラインのセルフトレーニングでは、教師あり学習よりも優れた安定性と、目に見えない種類の問題に対する堅牢性により、好みの最適化手法が優れていることが判明した。

関連論文リスト

Language Self-Play For Data-Free Training [37.23329109053079]
大規模言語モデル(LLM)は,近年,大規模,高品質なトレーニングデータ,強化学習によって急速に進歩している。しかし、この進歩は根本的なボトルネックに直面している。我々は、追加データなしでモデルの改善を可能にすることで、この依存を取り除く強化学習手法を提案する。
論文参考訳（メタデータ） (2025-09-09T05:51:34Z)
Evolving LLMs' Self-Refinement Capability via Synergistic Training-Inference Optimization [53.93621974137829]
自己精製(Self-Refinement)とは、モデルが自身のレスポンスを改訂し、改善された出力を生成する能力を指す。 EVOLVEは、反復的なトレーニングを通じて自己精製の進化を導き、追跡するためのフレームワークである。固有モデル能力のより広範な自己改善を実現するために自己改善を活用する可能性を実証する。
論文参考訳（メタデータ） (2025-02-08T15:21:55Z)
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。 SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文参考訳（メタデータ） (2024-12-02T20:24:17Z)
Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文参考訳（メタデータ） (2024-11-25T17:11:54Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文参考訳（メタデータ） (2024-07-25T17:59:16Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文参考訳（メタデータ） (2023-08-21T07:58:15Z)
Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-26T18:41:23Z)
INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文参考訳（メタデータ） (2023-05-11T09:24:41Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。