論文の概要: AutoEval Done Right: Using Synthetic Data for Model Evaluation
- arxiv url: http://arxiv.org/abs/2403.07008v2
- Date: Tue, 28 May 2024 04:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 01:09:03.776512
- Title: AutoEval Done Right: Using Synthetic Data for Model Evaluation
- Title(参考訳): AutoEval Done Right: モデル評価に合成データを使用する
- Authors: Pierre Boyeau, Anastasios N. Angelopoulos, Nir Yosef, Jitendra Malik, Michael I. Jordan,
- Abstract要約: この目的のために,効率的な統計的アルゴリズムを提案する。
これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
- 参考スコア(独自算出の注目度): 79.01454261157525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic data can be used to decrease the number of human annotations required for this purpose in a process called autoevaluation. We suggest efficient and statistically principled algorithms for this purpose that improve sample efficiency while remaining unbiased. These algorithms increase the effective human-labeled sample size by up to 50% on experiments with GPT-4.
- Abstract(参考訳): 人間のラベル付き検証データを用いた機械学習モデルの評価は高価で時間を要する可能性がある。
AIラベル付き合成データは、自動評価と呼ばれるプロセスにおいて、この目的のために必要とされる人間のアノテーションの数を減らすために使用できる。
この目的のために,非偏りを保ちながら試料効率を向上させるための効率的で統計的に原理化されたアルゴリズムを提案する。
これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
関連論文リスト
- Auto-Evaluation with Few Labels through Post-hoc Regression [4.813376208491175]
予測パワー推論(PPI)フレームワークは、自動評価の統計的パワーとラベル付きデータの小さなプールを活用する方法を提供する。
本稿では, 頑健な回帰器を用いたPPIに基づく2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-19T17:17:46Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。
我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。
以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文 参考訳(メタデータ) (2024-07-05T09:26:40Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Information towards Maximum Posterior Ratio for deep learning
on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。
提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。
実験結果から,提案手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2024-01-05T01:08:26Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning [3.145455301228175]
行動学(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムが、未知の重みを持つデータセットに対して、堅牢なBC模倣子を生成するためにどのように使用できるかを実証的に示す。
論文 参考訳(メタデータ) (2021-08-02T04:30:41Z) - Human or Machine: Automating Human Likeliness Evaluation of NLG Texts [0.0]
そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
論文 参考訳(メタデータ) (2020-06-05T00:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。