Fugu-MT 論文翻訳(概要): I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm

論文の概要: I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm

arxiv url: http://arxiv.org/abs/2408.08072v1
Date: Thu, 15 Aug 2024 10:44:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 14:16:19.009478
Title: I-SHEEP: Self-Alignment of LLM from Scratch through an Iterative Self-Enhancement Paradigm
Title（参考訳）: I-SHEEP:反復的自己拡張パラダイムによるLCMのスクラッチからの自己アライメント
Authors: Yiming Liang, Ge Zhang, Xingwei Qu, Tianyu Zheng, Jiawei Guo, Xinrun Du, Zhenzhu Yang, Jiaheng Liu, Chenghua Lin, Lei Ma, Wenhao Huang, Jiajun Zhang,
Abstract要約: 大規模言語モデル(LLM)は大きな進歩を遂げているが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱う。 textbfIterative textbfSelf-EntextbfHanctextbfEmtextbfEnt textbfParadigmを紹介する。 I-SHEEPはQwenモデルとLlamaモデルの両方の容量を大幅に向上させることができる。
参考スコア（独自算出の注目度）: 27.440693440296563
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have achieved significant advancements, however, the common learning paradigm treats LLMs as passive information repositories, neglecting their potential for active learning and alignment. Some approaches train LLMs using their own generated synthetic data, exploring the possibility of active alignment. However, there is still a huge gap between these one-time alignment methods and the continuous automatic alignment of humans. In this paper, we introduce \textbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigm.This human-like paradigm enables LLMs to \textbf{continuously self-align from scratch with nothing}. Compared to the one-time alignment method Dromedary \cite{sun2023principledriven}, which refers to the first iteration in this paper, I-SHEEP can significantly enhance capacities on both Qwen and Llama models. I-SHEEP achieves a maximum relative improvement of 78.2\% in the Alpaca Eval, 24.0\% in the MT Bench, and an absolute increase of 8.88\% in the IFEval accuracy over subsequent iterations in Qwen-1.5 72B model. Additionally, I-SHEEP surpasses the base model in various standard benchmark generation tasks, achieving an average improvement of 24.77\% in code generation tasks, 12.04\% in TrivialQA, and 20.29\% in SQuAD. We also provide new insights based on the experiment results. Our codes, datasets, and models are available at \textbf{https://anonymous.4open.science/r/I-SHEEP}.
Abstract（参考訳）: 大規模言語モデル(LLM)は大きな進歩を遂げてきたが、共通学習パラダイムはLLMを受動的情報リポジトリとして扱い、アクティブな学習とアライメントの可能性を無視している。一部のアプローチでは、独自の合成データを用いてLSMを訓練し、アクティブアライメントの可能性を探る。しかし、この1回アライメント法と人間の連続的な自動アライメントの間にはまだ大きなギャップがある。本稿では, テキストbf{I-SHEEP}, an \textbf{I}terative \textbf{S}elf-En\textbf{H}anc\textbf{E}m\textbf{E}nt \textbf{P}aradigmを紹介する。 In this paper, I-SHEEP can significantly enhance capacity on Qwen and Llama model。 I-SHEEPは、Alpaca Evalの78.2\%の最大相対改善、MT Benchの24.0\%、Qwen-1.5 72Bモデルでのその後のイテレーションに比べて、IFEvalの精度が8.88\%の絶対的に向上する。さらに、I-SHEEPは様々な標準ベンチマーク生成タスクのベースモデルを超え、コード生成タスクの24.77\%、TrivialQAの12.04\%、SQuADの20.29\%の平均的な改善を実現している。実験結果に基づいた新たな洞察も提供する。私たちのコード、データセット、モデルは、 \textbf{https://anonymous.4open.science/r/I-SHEEP}で利用可能です。

関連論文リスト

Improving Consistency in Large Language Models through Chain of Guidance [9.040736633675136]
Chain of Guidance (CoG)は、大規模言語モデル(LLM)から高度に一貫した出力を生成する多段階プロンプト技術である。我々は、一貫した入出力ペアからなる合成データセットを用いて、一貫した正しい出力を生成する。我々の微調整モデルは、ベースモデルに比べて2倍以上の一貫性があり、微調整プロセスで使用されていないデータセットに対して一貫した出力を生成することにより、強力な一般化能力を示す。
論文参考訳（メタデータ） (2025-02-21T20:41:37Z)
Following the Autoregressive Nature of LLM Embeddings via Compression and Alignment [69.67015515485349]
本稿では,条件付き確率分布を埋め込んだコントラスト学習手法であるAutoRegEmbedを提案する。本手法は従来のコントラスト学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-17T03:36:25Z)
Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。 8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2025-01-16T08:27:40Z)
Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models [16.346540681903804]
MLLM(Multimodal Large Language Models)アライメントには,ビデオテキストの嗜好データが不可欠である。我々は、textittextbfMultiple textbfMultimodal textbfArtificial textbfIntelligence textbfPreferenceデータセットと呼ばれる高品質なVQA選好データセットを提案する。
論文参考訳（メタデータ） (2024-11-25T08:59:39Z)
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文参考訳（メタデータ） (2024-09-27T08:20:59Z)
Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文参考訳（メタデータ） (2024-09-14T01:45:04Z)
Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。 emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文参考訳（メタデータ） (2024-07-29T09:02:19Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。 NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文参考訳（メタデータ） (2024-05-29T17:55:03Z)
Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文参考訳（メタデータ） (2024-02-19T15:21:58Z)
RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文参考訳（メタデータ） (2023-09-13T17:59:09Z)
Generation-driven Contrastive Self-training for Zero-shot Text Classification with Instruction-following LLM [31.25193238045053]
我々は、より小さな言語モデルの訓練を支援するために、大規模言語モデルの強力な生成力を利用する新しい手法、GenCoを導入する。本手法では,LLMは2つの重要な方法で,より小さなモデルの自己学習ループにおいて重要な役割を果たす。予測ラベルに条件付き入力テキストを書き換えることで、高品質なトレーニングペアの開発を支援する。
論文参考訳（メタデータ） (2023-04-24T07:35:38Z)
Beyond prompting: Making Pre-trained Language Models Better Zero-shot Learners by Clustering Representations [24.3378487252621]
事前学習した言語モデルの埋め込み空間にテキストをクラスタリングすることで、ゼロショットテキスト分類を改善することができることを示す。提案手法は, 即発的なゼロショット学習よりも平均20%絶対的な改善を実現している。
論文参考訳（メタデータ） (2022-10-29T16:01:51Z)
You can't pick your neighbors, or can you? When and how to rely on retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文参考訳（メタデータ） (2022-10-28T02:57:40Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。