Fugu-MT 論文翻訳(概要): From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning

論文の概要: From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning

arxiv url: http://arxiv.org/abs/2501.11877v1
Date: Tue, 21 Jan 2025 04:11:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.573806
Title: From Drafts to Answers: Unlocking LLM Potential via Aggregation Fine-Tuning
Title（参考訳）: ドラフトから回答へ: Aggregation Fine-TuningによるLDMポテンシャルの解錠
Authors: Yafu Li, Zhilin Wang, Tingchen Fu, Ganqu Cui, Sen Yang, Yu Cheng,
Abstract要約: データスケールとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。本稿では,教師付きファインチューニングパラダイムであるAggregation Fine-Tuning(AFT)を紹介する。ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。
参考スコア（独自算出の注目度）: 31.95005389919542
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling data and model size has been proven effective for boosting the performance of large language models. In addition to training-time scaling, recent studies have revealed that increasing test-time computational resources can further improve performance. In this work, we introduce Aggregation Fine-Tuning (AFT), a supervised finetuning paradigm where the model learns to synthesize multiple draft responses, referred to as proposals, into a single, refined answer, termed aggregation. At inference time, a propose-and-aggregate strategy further boosts performance by iteratively generating proposals and aggregating them. Empirical evaluations on benchmark datasets show that AFT-trained models substantially outperform standard SFT. Notably, an AFT model, fine-tuned from Llama3.1-8B-Base with only 64k data, achieves a 41.3% LC win rate on AlpacaEval 2, surpassing significantly larger LLMs such as Llama3.1-405B-Instruct and GPT4. By combining sequential refinement and parallel sampling, the propose-and-aggregate framework scales inference-time computation in a flexible manner. Overall, These findings position AFT as a promising approach to unlocking additional capabilities of LLMs without resorting to increasing data volume or model size.
Abstract（参考訳）: データスケーリングとモデルサイズは、大規模言語モデルの性能向上に有効であることが証明されている。最近の研究では、トレーニングタイムのスケーリングに加えて、テストタイムの計算リソースの増加によりパフォーマンスがさらに向上することが明らかになっている。本研究では,モデルが複数のドラフト応答(提案と呼ばれる)を1つの洗練された応答に合成することを学ぶ,教師付き微調整パラダイムであるAggregation Fine-Tuning(AFT)を紹介する。推論時に、プロポーザル・アンド・アグリゲート戦略は、反復的にプロポーザルを生成してアグリゲーションすることで、パフォーマンスをさらに向上させる。ベンチマークデータセットの実証評価では、AFT訓練されたモデルは標準のSFTよりも大幅に優れていた。特に、64kのデータしか持たないLlama3.1-8Bベースから微調整されたAFTモデルは、AlpacaEval 2で41.3%のLC勝利率を達成し、Llama3.1-405B-InstructやGPT4のようなかなり大きなLCMを上回る。逐次精製と並列サンプリングを組み合わせることで,提案フレームワークは推論時間計算を柔軟にスケールする。これらの結果から,ALTはデータ量やモデルサイズを増大させることなく,LLMのさらなる機能を解放するための有望なアプローチであると考えられた。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [55.330813919992465]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文参考訳（メタデータ） (2025-04-01T13:13:43Z)
Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs [11.1036247482657]
本稿では,SMETimesについて述べる。SMETimesは,3B以下のパラメータのSLMを,効率的かつ正確な時系列予測を行うための最初の体系的な研究である。統計的特徴によって数値時系列をテキスト意味論でブリッジする統計的に強化されたプロンプト機構; 学習可能なパラメータを通して時間パターンと言語モデルトークン空間を整列する適応型融合埋め込みアーキテクチャ。
論文参考訳（メタデータ） (2025-03-05T15:27:36Z)
Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。 LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。 PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文参考訳（メタデータ） (2024-12-17T12:49:14Z)
Fisher Information-based Efficient Curriculum Federated Learning with Large Language Models [43.26028399395612]
本稿では,2つの新しい手法を用いたフィッシャー情報に基づく効率的なカリキュラムフェデレート学習フレームワーク(FibecFed)を提案する。まず,各装置内のデータを適応的にサンプリングし,FL微調整プロセスの有効性を向上させるための漁師情報に基づく手法を提案する。第2に,グローバルアグリゲーションのための適切なレイヤとLoRAによるローカル更新のためのスパースパラメータを動的に選択する。
論文参考訳（メタデータ） (2024-09-30T18:12:18Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Fine-tuning Large Language Models for Entity Matching [3.7277730514654555]
生成型大規模言語モデル(LLM)は、エンティティマッチングのための事前訓練された言語モデルに代わる有望な代替品である。本稿では,エンティティマッチングのための微調整LDMの可能性について検討する。
論文参考訳（メタデータ） (2024-09-12T16:20:57Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は、人間の命令を理解し、コードを生成するのに優れた性能を示した。我々は,ITERTLという,シンプルながら効果的な反復訓練パラダイムを導入する。提案手法によってトレーニングされたモデルは、最先端のオープンソースモデル(SOTA)と競合し、さらに優れていることを示す。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)
Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。 Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文参考訳（メタデータ） (2022-05-12T11:15:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。