論文の概要: Self-Judge: Selective Instruction Following with Alignment Self-Evaluation
- arxiv url: http://arxiv.org/abs/2409.00935v1
- Date: Mon, 2 Sep 2024 04:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 08:21:03.069879
- Title: Self-Judge: Selective Instruction Following with Alignment Self-Evaluation
- Title(参考訳): 自己判断: 適応自己評価による選択的指導
- Authors: Hai Ye, Hwee Tou Ng,
- Abstract要約: 提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
- 参考スコア(独自算出の注目度): 27.69410513313001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large language models (LLMs) can be tailored to adhere to human instructions through instruction tuning. However, due to shifts in the distribution of test-time data, they may not always execute instructions accurately, potentially generating factual errors or misaligned content when acting as chat assistants. To enhance the reliability of LLMs in following instructions, we propose the study of selective instruction following, whereby the system declines to execute instructions if the anticipated response quality is low. We train judge models that can predict numerical quality scores for model responses. To address data scarcity, we introduce Self-J, a novel self-training framework for developing judge models without needing human-annotated quality scores. Our method leverages the model's inherent self-evaluation capability to extract information about response quality from labeled instruction-tuning data. It incorporates a gold reference answer to facilitate self-evaluation and recalibrates by assessing the semantic similarity between the response sample and the gold reference. During the training phase, we implement self-distillation as a regularization technique to enhance the capability of reference-free estimation. To validate alignment evaluation on general instruction-following tasks, we collect large-scale high-quality instructions from Hugging Face for model training and evaluation. Extensive experiments on five open-source models show that our method correlates much more with GPT-4 than strong baselines, e.g., supervised models distilled from GPT-4 and GPT-3.5-turbo. Our analysis shows our model's strong generalization across domains. Additionally, our judge models serve as good reward models, e.g., boosting WizardLM-13B-V1.2 from 89.17 to 92.48 and from 12.03 to 15.90 in version v1 and v2 of AlpacaEval respectively using best-of-32 sampling with our judge models.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、命令チューニングを通じて人間の指示に従うように調整することができる。
しかし、テストタイムデータの分散が変化しているため、チャットアシスタントとして振る舞う際に、現実的なエラーやコンテンツに不一致を生じさせる可能性のある命令を常に正確に実行するわけではない。
そこで本研究では,次の命令に対するLCMの信頼性を高めるために,期待する応答品質が低ければ命令の実行を減らし,選択的な命令に従うことを提案する。
我々は、モデル応答の数値的品質スコアを予測できる判断モデルを訓練する。
データ不足に対処するために、人間に注釈付けされた品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを導入する。
提案手法はモデル固有の自己評価機能を利用して,ラベル付き命令チューニングデータから応答品質に関する情報を抽出する。
応答サンプルとゴールド参照のセマンティックな類似性を評価することにより、自己評価と再検討を容易にするために、ゴールド参照応答が組み込まれている。
トレーニング期間中に,基準自由推定の能力を高めるために,正則化手法として自己蒸留を実装した。
一般的な指示追従タスクにおけるアライメント評価を検証するため,Hugging Faceから大規模高品質な命令を収集し,モデルトレーニングと評価を行った。
提案手法は, GPT-4およびGPT-3.5-turboから抽出した教師モデルよりも, GPT-4との相関性が高いことを示す。
我々の分析は、ドメイン間のモデルの強い一般化を示している。
さらに、審査モデルは、例えば、WizardLM-13B-V1.2を89.17から92.48に引き上げ、AlpacaEvalのバージョンv1とv2の12.03から15.90にそれぞれ、ベストオブ32サンプリングを使用して、報奨モデルとして機能する。
関連論文リスト
- Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文 参考訳(メタデータ) (2024-05-11T20:07:09Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Learning to Compare for Better Training and Evaluation of Open Domain
Natural Language Generation Models [23.62054164511058]
そこで本研究では,文のペアを細調整して比較することで,自然言語生成モデルを評価することを提案する。
完全に自己管理された方法でトレーニングできる一方で、人間の好みのアノテーションを少しだけ含んだモデルをさらに微調整することが可能です。
論文 参考訳(メタデータ) (2020-02-12T15:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。