論文の概要: Reformatted Alignment
- arxiv url: http://arxiv.org/abs/2402.12219v1
- Date: Mon, 19 Feb 2024 15:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:15:29.102464
- Title: Reformatted Alignment
- Title(参考訳): 改築アライメント
- Authors: Run-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan
Chern, Jiewen Hu, Pengfei Liu
- Abstract要約: データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 28.994063377819135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of finetuning data is crucial for aligning large language models
(LLMs) with human values. Current methods to improve data quality are either
labor-intensive or prone to factual errors caused by LLM hallucinations. This
paper explores elevating the quality of existing instruction data to better
align with human values, introducing a simple and effective approach named
ReAlign, which reformats the responses of instruction data into a format that
better aligns with pre-established criteria and the collated evidence. This
approach minimizes human annotation, hallucination, and the difficulty in
scaling, remaining orthogonal to existing alignment techniques. Experimentally,
ReAlign significantly boosts the general alignment ability, math reasoning,
factuality, and readability of the LLMs.
Encouragingly, without introducing any additional data or advanced training
techniques, and merely by reformatting the response, LLaMA-2-13B's mathematical
reasoning ability on GSM8K can be improved from 46.77% to 56.63% in accuracy.
Additionally, a mere 5% of ReAlign data yields a 67% boost in general alignment
ability measured by the Alpaca dataset. This work highlights the need for
further research into the science and mechanistic interpretability of LLMs. We
have made the associated code and data publicly accessible to support future
studies at https://github.com/GAIR-NLP/ReAlign.
- Abstract(参考訳): 微調整データの質は、大きな言語モデル(LLM)と人間の値の整合に不可欠である。
データ品質を改善するための現在の手法は、労働集約的か、LLM幻覚によって引き起こされる事実的誤りのどちらかである。
本稿では,既存の指示データの品質向上と人的価値の整合性向上について検討し,指示データの応答を既定の基準や照合されたエビデンスに合致する形式に再構成する,reignという単純かつ効果的な手法を導入する。
このアプローチは、人間のアノテーション、幻覚、スケーリングの難しさを最小化し、既存のアライメント技術に直交する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学推論、事実性、可読性を大幅に向上させる。
奨励的に、追加のデータや高度な訓練技術を導入することなく、単に応答を再構成するだけで、gsm8kにおけるllama-2-13bの数学的推論能力は46.77%から56.63%に向上できる。
さらに、ReAlignデータの5%は、Alpacaデータセットによって測定された一般的なアライメント能力を67%向上させる。
この研究は、LLMの科学と機械的解釈可能性に関するさらなる研究の必要性を強調している。
我々は、関連するコードとデータを公開して、https://github.com/GAIR-NLP/ReAlign.comで将来の研究をサポートするようにしました。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - FactAlign: Long-form Factuality Alignment of Large Language Models [35.067998820937284]
大規模言語モデルは次世代の情報アクセスエンジンとして大きな可能性を示している。
本稿では,FactAlignを提案する。FactAlignは,長文応答の現実性を高めるために設計された,新しいアライメントフレームワークである。
オープンドメインのプロンプトと情報検索に関する実験により、FactAlignはLLM応答の事実精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-02T16:03:13Z) - Not Everything is All You Need: Toward Low-Redundant Optimization for Large Language Model Alignment [126.34547428473968]
大規模言語モデル(LLM)は、複雑なタスクやシナリオにおいて、人間の好みに合わせるのに依然として苦労しています。
我々は、最も有用な教師付き信号を用いて、最も関連性の高いニューロンを最適化することに焦点を当てた、textbfALLOという低輝度アライメント手法を提案する。
10個のデータセットに対する実験結果から、ALLOの有効性が示された。
論文 参考訳(メタデータ) (2024-06-18T13:34:40Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment [105.34140537748546]
我々はFIGAという改良されたアライメント手法を提案し、従来の手法とは異なり、良質な応答と悪質な応答の対比から導出されるきめ細かい品質信号を取り込む。
まず、初期応答とそれに対応する修正データセットをペアリングする精巧なアライメントデータセットをキュレートする。
第2に,LLMの微粒な品質信号を利用してアライメントの学習を指導する新たな損失関数を考案する。
論文 参考訳(メタデータ) (2023-11-07T15:36:40Z) - RAIN: Your Language Models Can Align Themselves without Finetuning [25.703729145091483]
大型言語モデル(LLM)は人間の好みと矛盾することが多い。
本研究では,不整合 LLM が自己ブーイングによって直接人間の嗜好に整合した応答を生成可能であることを示す。
本稿では,自己回帰推論(Rewindable Auto-Regressive Inference)という新しい推論手法を導入する。
論文 参考訳(メタデータ) (2023-09-13T17:59:09Z) - AlpaGasus: Training A Better Alpaca with Fewer Data [93.6949102689243]
低品質なデータを自動的に識別しフィルタリングする、シンプルで効果的なデータ選択戦略を提案する。
52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。