Fugu-MT 論文翻訳(概要): TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

論文の概要: TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

arxiv url: http://arxiv.org/abs/2405.20215v4
Date: Sun, 29 Sep 2024 06:41:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 21:39:07.351011
Title: TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models
Title（参考訳）: TS-Align:大規模言語モデルのスケーラブル反復微調整のための教師学習協調フレームワーク
Authors: Chen Zhang, Chengguang Tang, Dading Chong, Ke Shi, Guohua Tang, Feng Jiang, Haizhou Li,
Abstract要約: TS-Align"フレームワークは、その出力から自動的に抽出されるペアのフィードバックデータを使用してポリシーモデルを微調整する。最終調整方針は, 平均勝利率69.7%で基本方針モデルを上回っていることを示す。
参考スコア（独自算出の注目度）: 41.19735603722873
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mainstream approaches to aligning large language models (LLMs) heavily rely on human preference data, particularly when models require periodic updates. The standard process for iterative alignment of LLMs involves collecting new human feedback for each update. However, the data collection process is costly and challenging to scale. To address this issue, we introduce the "TS-Align" framework, which fine-tunes a policy model using pairwise feedback data automatically mined from its outputs. This automatic mining process is efficiently accomplished through the collaboration between a large-scale teacher model and a small-scale student model. The policy fine-tuning process can be iteratively repeated using on-policy generations within our proposed teacher-student collaborative framework. Through extensive experiments, we demonstrate that our final aligned policy outperforms the base policy model with an average win rate of 69.7% across seven conversational or instruction-following datasets. Furthermore, we show that the ranking capability of the teacher is effectively distilled into the student through our pipeline, resulting in a small-scale yet effective reward model for policy model alignment.
Abstract（参考訳）: 大規模言語モデル(LLM)の整合性に対する主流のアプローチは、特に定期的な更新を必要とする場合、人間の好みデータに大きく依存する。 LLMを反復的にアライメントするための標準的なプロセスは、更新毎に新しい人間のフィードバックを集めることである。しかし、データ収集プロセスはコストが高く、スケールが難しい。この問題に対処するため、我々は「TS-Align」フレームワークを導入し、このフレームワークは、その出力から自動的に抽出されたペアワイズフィードバックデータを用いてポリシーモデルを微調整する。この自動マイニングは,大規模教師モデルと小規模学生モデルとの協調によって効率的に行われる。政策微調整プロセスは、提案した教師と学生の協調的な枠組みの中で、政治上の世代を用いて反復的に繰り返すことができる。広範な実験を通じて、我々の最終整合ポリシーは、7つの会話または指示追従データセットで平均69.7%の勝利率で基本方針モデルを上回っていることを実証した。さらに,教師のランク付け能力は,我々のパイプラインを通じて学生に効果的に蒸留され,政策モデルアライメントのための小規模かつ効果的な報酬モデルがもたらされることを示す。

関連論文リスト

MASTER: Enhancing Large Language Model via Multi-Agent Simulated Teaching [24.350821306196877]
MASTERは、認知レベルが異なる複数のエージェント間の相互作用を通じて、元のデータを豊かにする新しいデータ拡張手法である。私たちは、Orca-Math-200k、ProcQA、OpenHermes2.5といった既存のデータセットから強化された微調整データセットであるBOOST-QAを構築します。実験により、BOOST-QAで微調整されたモデルは、複数のベンチマークで優れた性能を示し、強力なマルチタスクの一般化を示す。
論文参考訳（メタデータ） (2025-06-03T09:41:35Z)
Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains [114.76612918465948]
大規模言語モデル(LLM)は近年顕著なパフォーマンスを達成しているが、基礎となるトレーニングデータによって根本的に制限されている。本稿では,言語モデルのマルチエージェント社会にファインタニングを適用した自己改善への補完的アプローチを提案する。
論文参考訳（メタデータ） (2025-01-10T04:35:46Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文参考訳（メタデータ） (2024-08-05T16:21:17Z)
A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文参考訳（メタデータ） (2024-03-28T14:44:44Z)
Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文参考訳（メタデータ） (2024-03-28T10:02:10Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Multidimensional Item Response Theory in the Style of Collaborative Filtering [0.8057006406834467]
本稿では,多次元項目応答理論(MIRT)に対する機械学習手法を提案する。協調フィルタリングに触発されて、多くのMIRTモデルを含むモデルの一般的なクラスを定義します。本稿では, 個人モデルとクロスバリデーションを推定し, 最適動作モデルを選択するために, ペナル化結合最大度(JML)の使用について論じる。
論文参考訳（メタデータ） (2023-01-03T00:56:27Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Multi-Model Federated Learning [8.629912408966145]
連合学習を複数の無関係モデルが同時に訓練される環境に拡張する。全てのクライアントは一度にMモデルのどれかを訓練することができ、サーバはMモデルのモデルを保持します。時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。第1の方針は、広く研究されているFedAvgをi.i.dのクライアントにモデルを割り当てることでマルチモデル学習に拡張するものである。さらに,現在に基づく意思決定を行うマルチモデル設定において,クライアント選択のための2つの新しいポリシーを提案する。
論文参考訳（メタデータ） (2022-01-07T18:24:23Z)
Momentum Pseudo-Labeling for Semi-Supervised Speech Recognition [55.362258027878966]
本稿では,半教師付き音声認識のための簡易かつ効果的な手法として,モーメント擬似ラベル(MPL)を提案する。 MPLは、平均的な教師メソッドにインスパイアされて、相互に相互作用し、学習するオンラインとオフラインの2つのモデルで構成されている。実験の結果,MPLはベースモデルよりも効果的に改善され,様々な半教師付きシナリオに拡張可能であることが示された。
論文参考訳（メタデータ） (2021-06-16T16:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。