論文の概要: Efficacy of Machine-Generated Instructions
- arxiv url: http://arxiv.org/abs/2312.14423v1
- Date: Fri, 22 Dec 2023 04:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 16:15:44.070201
- Title: Efficacy of Machine-Generated Instructions
- Title(参考訳): 機械生成指示の有効性
- Authors: Samaksh Gulati and Anshit Verma and Manoj Parmar and Palash Chaudhary
- Abstract要約: 細調整されたBERTモデルと人間のv/s機械生成アノテーションを比較した。
マシン生成アノテーションは78.54%の精度で、微調整されたモデルは96.01%のパフォーマンスを達成した。
この結果は、マシン生成アノテーションがダウンストリームモデルを微調整するためのリソースであり、コスト効率のよい方法であることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large "instruction-tuned" language models (i.e., finetuned to respond to
instructions) have demonstrated a remarkable ability to generalize zero-shot to
new tasks. Nevertheless, they depend heavily on human-written instruction data
that is often limited in quantity, diversity, and creativity, therefore
hindering the generality of the tuned model. We conducted a quantitative study
to figure out the efficacy of machine-generated annotations, where we compare
the results of a fine-tuned BERT model with human v/s machine-generated
annotations. Applying our methods to the vanilla GPT-3 model, we saw that
machine generated annotations were 78.54% correct and the fine-tuned model
achieved a 96.01% model performance compared to the performance with
human-labelled annotations. This result shows that machine-generated
annotations are a resource and cost effective way to fine-tune down-stream
models.
- Abstract(参考訳): 大きな"インストラクションチューニング"言語モデル(命令に応答するために微調整された)は、ゼロショットを新しいタスクに一般化する驚くべき能力を示している。
それでも、それらはしばしば量、多様性、創造性に制限される人間による命令データに大きく依存しているため、チューニングされたモデルの一般化を妨げる。
我々は,機械生成アノテーションの有効性を定量的に検討し,細調整されたBERTモデルと人間のv/s機械生成アノテーションとの比較を行った。
我々の手法をバニラGPT-3モデルに適用すると、機械が生成したアノテーションは78.54%正確であり、微調整されたモデルは、人間のラベル付きアノテーションと比較して96.01%の性能を達成した。
この結果は、マシン生成アノテーションがリソースであり、ダウンストリームモデルを微調整するコスト効率のよい方法であることを示している。
関連論文リスト
- Self-Judge: Selective Instruction Following with Alignment Self-Evaluation [27.69410513313001]
提案手法は, 予測された応答品質が低い場合, 命令の実行を減少させる。
人手による品質スコアを必要とせずに、判断モデルを開発するための新しい自己学習フレームワークであるSelf-Jを紹介する。
論文 参考訳(メタデータ) (2024-09-02T04:14:13Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z) - Training language models to follow instructions with human feedback [29.590666996229206]
本稿では,人間のフィードバックを微調整することで,言語モデルとユーザ意図との整合性を示す。
インストラクションGPTモデルは、有害な出力生成の真理性の改善と削減を示す。
論文 参考訳(メタデータ) (2022-03-04T07:04:42Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Effective dimension of machine learning models [4.721845865189576]
新しいデータを含むタスクにおけるトレーニング済みモデルのパフォーマンスに関する声明を作ることが、機械学習の主要な目標のひとつだ。
様々な能力測定は、この能力を捉えようとするが、通常、我々が実際に観察するモデルの重要な特性を説明するのに不足する。
本稿では,標準データセットの一般化誤差と相関するキャパシティ尺度として,局所有効次元を提案する。
論文 参考訳(メタデータ) (2021-12-09T10:00:18Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。