論文の概要: Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models
- arxiv url: http://arxiv.org/abs/2310.07611v2
- Date: Sun, 22 Oct 2023 00:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 06:41:29.506876
- Title: Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in
Self-Refined Open-Source Models
- Title(参考訳): llmsの民主化:自己精製オープンソースモデルにおけるコストパフォーマンストレードオフの探求
- Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang,
Heng Ji
- Abstract要約: SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
- 参考スコア(独自算出の注目度): 53.859446823312126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dominance of proprietary LLMs has led to restricted access and raised
information privacy concerns. High-performing open-source alternatives are
crucial for information-sensitive and high-volume applications but often lag
behind in performance. To address this gap, we propose (1) A untargeted variant
of iterative self-critique and self-refinement devoid of external influence.
(2) A novel ranking metric - Performance, Refinement, and Inference Cost Score
(PeRFICS) - to find the optimal model for a given task considering refined
performance and cost. Our experiments show that SoTA open source models of
varying sizes from 7B - 65B, on average, improve 8.2% from their baseline
performance. Strikingly, even models with extremely small memory footprints,
such as Vicuna-7B, show a 11.74% improvement overall and up to a 25.39%
improvement in high-creativity, open ended tasks on the Vicuna benchmark.
Vicuna-13B takes it a step further and outperforms ChatGPT post-refinement.
This work has profound implications for resource-constrained and
information-sensitive environments seeking to leverage LLMs without incurring
prohibitive costs, compromising on performance and privacy. The domain-agnostic
self-refinement process coupled with our novel ranking metric facilitates
informed decision-making in model selection, thereby reducing costs and
democratizing access to high-performing language models, as evidenced by case
studies.
- Abstract(参考訳): プロプライエタリなLSMの優位性は、アクセス制限と情報プライバシーの懸念を引き起こしている。
情報センシティブで高ボリュームなアプリケーションには、高性能なオープンソース代替製品が不可欠だが、パフォーマンスには遅れがしばしばある。
このギャップに対処するため,(1)外的影響を伴わない反復的自己批判と自己抑制の未目標変種を提案する。
2) 性能, 精細化, 推論コストスコア (PeRFICS) という新しいランク付け指標を用いて, 改良された性能とコストを考慮したタスクの最適モデルを求める。
実験の結果,SoTAのオープンソースモデルは7Bから65Bまで,ベースライン性能は平均8.2%向上した。
厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善を示し、Vicunaベンチマークでは25.39%の改善が達成された。
Vicuna-13Bはさらに一歩前進し、ChatGPTのポストリファインメントを上回っている。
この研究は、資源に制約のある情報に敏感な環境において、違法なコストを伴わずにLCMを活用し、パフォーマンスとプライバシを損なうことなく、大きな意味を持つ。
新たなランキング指標と組み合わされたドメイン非依存な自己定義プロセスは、モデル選択のインフォームド意思決定を促進し、コストを削減し、高パフォーマンス言語モデルへのアクセスを民主化する。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - CERET: Cost-Effective Extrinsic Refinement for Text Generation [14.43795791836198]
本研究では,意味的安定性,包含性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。
実験結果から, CERETは, 各種タスク設定下での自己整合性, 自己整合性, 自走性ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-08T22:17:52Z) - Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings [11.878413021518194]
非営利のクローズドウェイトモデルは、透明性、プライバシ、適応性、証拠の標準の要件と互換性がないと考えています。
GPT-4-Turboをゼロショット、少数ショット、微調整で置き換えるために、より小型でオープンウェイトなモデルを使用することの可能性を評価する。
比較的低い労力、非常に低い絶対的な金銭的コスト、そして微調整のための比較的少ないデータによって、小さなオープンウェイトモデルが競争的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-27T04:38:10Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。
LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。
我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文 参考訳(メタデータ) (2024-01-07T09:06:58Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。