論文の概要: ALMA: Alignment with Minimal Annotation
- arxiv url: http://arxiv.org/abs/2412.04305v1
- Date: Thu, 05 Dec 2024 16:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:27.097802
- Title: ALMA: Alignment with Minimal Annotation
- Title(参考訳): ALMA: 最小アノテーションによるアライメント
- Authors: Michihiro Yasunaga, Leonid Shamis, Chunting Zhou, Andrew Cohen, Jason Weston, Luke Zettlemoyer, Marjan Ghazvininejad,
- Abstract要約: ALMA: 最小限のアライメント。
ALMAは様々なアライメントベンチマークでLlama3-Instructに近いパフォーマンスを実現している。
結果は、ベースモデルはすでに効果的なアライメントのための十分な知識を持っていることを示唆している。
- 参考スコア(独自算出の注目度): 91.18846736158491
- License:
- Abstract: Recent approaches to large language model (LLM) alignment typically require millions of human annotations or rely on external aligned models for synthetic data generation. This paper introduces ALMA: Alignment with Minimal Annotation, demonstrating that effective alignment can be achieved using only 9,000 labeled examples -- less than 1% of conventional approaches. ALMA generates large amounts of high-quality synthetic alignment data through new techniques: diverse prompt synthesis via few-shot learning, diverse response generation with multiple model checkpoints, and judge (reward model) enhancement through score aggregation and self-distillation. Using only a pretrained Llama3 base model, 5,000 SFT examples, and 4,000 judge annotations, ALMA achieves performance close to Llama3-Instruct across diverse alignment benchmarks (e.g., 0.1% difference on AlpacaEval 2.0 score). These results are achieved with a multi-round, self-bootstrapped data synthesis and training recipe that continues to improve for 10 rounds, surpassing the typical 3-round ceiling of previous methods. These results suggest that base models already possess sufficient knowledge for effective alignment, and that synthetic data generation methods can expose it.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)のアライメントへのアプローチは、一般的に何百万もの人間のアノテーションを必要とするか、あるいは合成データ生成のための外部アライメントモデルに依存している。
本稿では, ALMA: Alignment with Minimal Annotationを紹介し, 従来の手法の 1% 未満の 9,000 個のラベル付き例 を用いて効果的なアライメントを実現することを実証する。
ALMAは新しい手法により大量の高品質な合成アライメントデータを生成する: 少数ショット学習による多様な迅速な合成、複数のモデルチェックポイントによる多様な応答生成、スコアアグリゲーションと自己蒸留による判断(回帰モデル)の強化。
事前訓練されたLlama3ベースモデル、5,000のSFTサンプル、4,000のジャッジアノテーションのみを使用して、ALMAは様々なアライメントベンチマーク(例えばAlpacaEval 2.0スコアの0.1%の違い)で、Llama3-Instructに近いパフォーマンスを達成する。
これらの結果は、従来手法の典型的な3ラウンドの天井を越えながら、10ラウンドで改善を続けるマルチラウンドの自己ブートストラップデータ合成およびトレーニングレシピによって達成される。
これらの結果から, ベースモデルには既に効果的なアライメントのための十分な知識が備わっており, 合成データ生成手法がそれを公開できることが示唆された。
関連論文リスト
- SelfCodeAlign: Self-Alignment for Code Generation [15.23960029671979]
SelfCodeAlignは、自己整合型コード言語モデル(LLM)のための、初めて完全に透明で許容可能なパイプラインである
まず、高品質なシードスニペットから多様なコーディング概念を抽出し、新しいタスクを生成する。
次に、タスク毎に複数のレスポンスをサンプリングし、それぞれがテストケースとペアリングし、サンドボックス環境で検証する。
このデータセットの微調整は、HumanEval+で67.1パス@1を達成するモデルにつながります。
論文 参考訳(メタデータ) (2024-10-31T17:55:13Z) - Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - AEMLO: AutoEncoder-Guided Multi-Label Oversampling [6.255095509216069]
AEMLOは、不均衡なマルチラベルデータに対するAutoEncoder-guided Oversampling技術である。
AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。
論文 参考訳(メタデータ) (2024-08-23T14:01:33Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。
トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。
実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - EASY: Ensemble Augmented-Shot Y-shaped Learning: State-Of-The-Art
Few-Shot Classification with Simple Ingredients [2.0935101589828244]
1つ以上のディープラーニングモデルで学習した知識を活用することを目的として,新しい問題に対する優れた分類性能を得る。
フィールドの標準化された複数のベンチマークで、アートパフォーマンスの状態を達成または打ち負かすような、シンプルな手法を提案する。
論文 参考訳(メタデータ) (2022-01-24T14:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。