論文の概要: PHUDGE: Phi-3 as Scalable Judge
- arxiv url: http://arxiv.org/abs/2405.08029v1
- Date: Sun, 12 May 2024 18:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 18:03:09.894915
- Title: PHUDGE: Phi-3 as Scalable Judge
- Title(参考訳): PHUDGE: スケーラブルな審査員としてのPhi-3
- Authors: Mahesh Deshwal, Apoorva Chawla,
- Abstract要約: 我々は,SOTAを達成したPhi3モデルについて,フィードバックテスト,フィードバックOOD,MTヒューマン,優先度テストの4つのタスクについて述べる。
GPT4だけでなく、人間のアノテータにも、絶対的および相対的なグルーピングタスクにおいて、非常に強い相関関係を示す。
我々は、体系的なML実験、思慮深いデータ拡張、問題自体の再現によって、より少ないトレーニングデータでも10倍のモデルに打ち勝つことができることを示した。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper cum technical report, we present PHUDGE A fine tuned Phi3 model that achieved SOTA results in 4 tasks as Feedback Test, Feedback OOD, MT Human, Preference Test surpassing each and every existing model in latency and throughput. It shows very strong correlation not only with GPT4 but with Human annotators too in unseen data as well as in both absolute and relative grading tasks. We have not only addressed the usage of small LMs for cost effective production grade systems but have also shown that Causal modelling is not only slow in nature but sometimes it can hinder models learning capabilities and should be replaced by simpler tasks whenever we can to make the overall system faster and better. We show that by following systematic ML experimentation, thoughtful data augmentation and re purposing the problem itself, we can even beat 10x bigger models even with lesser training data. To the best of our knowledge, we are re the first one to experiment and showcase the usage of generalised version of Earth Movers Distance AKA Wasserstein distance by using Minkowski Distance with a penalty to control loss smoothing and can be used as a loss function instead of Cross Entropy to get stable training and better results for grading tasks.
- Abstract(参考訳): 本稿では,PHUDGE A fine tuned Phi3 model that achieved SOTA results in 4 tasks as Feedback Test, Feedback OOD, MT Human, Preference Test aheading each and every existing model in latency and throughput。
GPT4だけでなく、人間のアノテータにも、絶対的および相対的なグルーピングタスクにおいて、非常に強い相関関係を示す。
我々は、コスト効率のよい運用グレードシステムにおいて、小さなLMの使用に対処しただけでなく、Causalモデリングが本質的に遅いだけでなく、学習能力を阻害し、システム全体をより速く、より良くするためには、より簡単なタスクに置き換えるべきであることを示した。
我々は、体系的なML実験、思慮深いデータ拡張、問題自体の浄化に従えば、より少ないトレーニングデータでも10倍のモデルを達成できることを示した。
我々の知る限り、我々は、ミンコフスキー距離とペナルティと損失の平滑化を制御し、クロスエントロピーの代わりに損失関数として使用し、安定したトレーニングと成績向上のためのより良い結果を得るために、アースモーバー距離の一般化版(別名ワッサースタイン距離)の試験と実演を行う。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - PUMA: margin-based data pruning [51.12154122266251]
モデル分類境界からの距離(すなわちマージン)に基づいて、いくつかのトレーニングサンプルを除去するデータプルーニングに焦点を当てる。
我々は,DeepFoolを用いてマージンを算出する新しいデータプルーニング戦略PUMAを提案する。
PUMAは,現状の最先端手法であるロバスト性の上に利用でき,既存のデータプルーニング戦略と異なり,モデル性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-10T08:02:20Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Self-Supervised Monocular Depth Estimation: Solving the Edge-Fattening
Problem [39.82550656611876]
計量学習に人気があるトリプルト損失は多くのコンピュータビジョンタスクで大きな成功を収めた。
MDEにおける生三重項損失の2つの欠点を示し、問題駆動型再設計を実証する。
論文 参考訳(メタデータ) (2022-10-02T03:08:59Z) - LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile
Devices [45.84356762066717]
Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。
モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。
特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
論文 参考訳(メタデータ) (2022-09-02T11:38:28Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。