論文の概要: I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm
- arxiv url: http://arxiv.org/abs/2408.08072v1
- Date: Thu, 15 Aug 2024 10:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:16:19.009478
- Title: I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm
- Title(参考訳): I-SHEEP:反復的自己拡張パラダイムによるLCMのスクラッチからの自己アライメント
- Authors: Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang,
- Abstract要約: 大規模言語モデル(LLM)は大きな進歩を遂げているが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱う。
textbfIterative textbfSelf-EntextbfHanctextbfEmtextbfEnt textbfParadigmを紹介する。
I-SHEEPはQwenモデルとLlamaモデルの両方の容量を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 27.440693440296563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved significant advancements, however, the common learning paradigm treats LLMs as passive information repositories, neglecting their potential for active learning and alignment. Some approaches train LLMs using their own generated synthetic data, exploring the possibility of active alignment. However, there is still a huge gap between these one-time alignment methods and the continuous automatic alignment of humans. In this paper, we introduce \textbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigm.This human-like paradigm enables LLMs to \textbf{continuously self-align from scratch with nothing}. Compared to the one-time alignment method Dromedary \cite{sun2023principledriven}, which refers to the first iteration in this paper, I-SHEEP can significantly enhance capacities on both Qwen and Llama models. I-SHEEP achieves a maximum relative improvement of 78.2\% in the Alpaca Eval, 24.0\% in the MT Bench, and an absolute increase of 8.88\% in the IFEval accuracy over subsequent iterations in Qwen-1.5 72B model. Additionally, I-SHEEP surpasses the base model in various standard benchmark generation tasks, achieving an average improvement of 24.77\% in code generation tasks, 12.04\% in TrivialQA, and 20.29\% in SQuAD. We also provide new insights based on the experiment results. Our codes, datasets, and models are available at \textbf{https://anonymous.4open.science/r/I-SHEEP}.
- Abstract(参考訳): 大規模言語モデル(LLM)は大きな進歩を遂げてきたが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱い、アクティブな学習とアライメントの可能性を無視している。
一部のアプローチでは、独自の合成データを用いてLSMを訓練し、アクティブアライメントの可能性を探る。
しかし、この1回アライメント法と人間の連続的な自動アライメントの間にはまだ大きなギャップがある。
本稿では, テキストbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigmを紹介する。
In this paper, I-SHEEP can significantly enhance capacity on Qwen and Llama model。
I-SHEEPは、Alpaca Evalの78.2\%の最大相対改善、MT Benchの24.0\%、Qwen-1.5 72Bモデルでのその後のイテレーションに比べて、IFEvalの精度が8.88\%の絶対的に向上する。
さらに、I-SHEEPは様々な標準ベンチマーク生成タスクのベースモデルを超え、コード生成タスクの24.77\%、TrivialQAの12.04\%、SQuADの20.29\%の平均的な改善を実現している。
実験結果に基づいた新たな洞察も提供する。
私たちのコード、データセット、モデルは、 \textbf{https://anonymous.4open.science/r/I-SHEEP}で利用可能です。
関連論文リスト
- Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models [16.346540681903804]
MLLM(Multimodal Large Language Models)アライメントには,ビデオテキストの嗜好データが不可欠である。
我々は、textittextbfMultiple textbfMultimodal textbfArtificial textbfIntelligence textbfPreferenceデータセットと呼ばれる高品質なVQA選好データセットを提案する。
論文 参考訳(メタデータ) (2024-11-25T08:59:39Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。
emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-19T15:21:58Z) - Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。
本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。
予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文 参考訳(メタデータ) (2023-04-24T07:35:38Z) - Beyond prompting: Making Pre-trained Language Models Better Zero-shot
Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。
提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-29T16:01:51Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。