Fugu-MT 論文翻訳(概要): Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models

論文の概要: Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models

arxiv url: http://arxiv.org/abs/2310.07611v2
Date: Sun, 22 Oct 2023 00:37:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 06:41:29.506876
Title: Democratizing LLMs: An Exploration of Cost-Performance Trade-offs in Self-Refined Open-Source Models
Title（参考訳）: llmsの民主化:自己精製オープンソースモデルにおけるコストパフォーマンストレードオフの探求
Authors: Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang, Heng Ji
Abstract要約: SoTAは7Bから65Bまでのさまざまなサイズのオープンソースモデルを平均して、ベースラインのパフォーマンスから8.2%改善している。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善と、高い創造性、オープンエンドタスクの25.39%の改善を示している。
参考スコア（独自算出の注目度）: 53.859446823312126
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The dominance of proprietary LLMs has led to restricted access and raised information privacy concerns. High-performing open-source alternatives are crucial for information-sensitive and high-volume applications but often lag behind in performance. To address this gap, we propose (1) A untargeted variant of iterative self-critique and self-refinement devoid of external influence. (2) A novel ranking metric - Performance, Refinement, and Inference Cost Score (PeRFICS) - to find the optimal model for a given task considering refined performance and cost. Our experiments show that SoTA open source models of varying sizes from 7B - 65B, on average, improve 8.2% from their baseline performance. Strikingly, even models with extremely small memory footprints, such as Vicuna-7B, show a 11.74% improvement overall and up to a 25.39% improvement in high-creativity, open ended tasks on the Vicuna benchmark. Vicuna-13B takes it a step further and outperforms ChatGPT post-refinement. This work has profound implications for resource-constrained and information-sensitive environments seeking to leverage LLMs without incurring prohibitive costs, compromising on performance and privacy. The domain-agnostic self-refinement process coupled with our novel ranking metric facilitates informed decision-making in model selection, thereby reducing costs and democratizing access to high-performing language models, as evidenced by case studies.
Abstract（参考訳）: プロプライエタリなLSMの優位性は、アクセス制限と情報プライバシーの懸念を引き起こしている。情報センシティブで高ボリュームなアプリケーションには、高性能なオープンソース代替製品が不可欠だが、パフォーマンスには遅れがしばしばある。このギャップに対処するため,(1)外的影響を伴わない反復的自己批判と自己抑制の未目標変種を提案する。 2) 性能, 精細化, 推論コストスコア (PeRFICS) という新しいランク付け指標を用いて, 改良された性能とコストを考慮したタスクの最適モデルを求める。実験の結果,SoTAのオープンソースモデルは7Bから65Bまで,ベースライン性能は平均8.2%向上した。厳密に言えば、Vicuna-7Bのような非常に小さなメモリフットプリントを持つモデルでさえ、全体的な11.74%の改善を示し、Vicunaベンチマークでは25.39%の改善が達成された。 Vicuna-13Bはさらに一歩前進し、ChatGPTのポストリファインメントを上回っている。この研究は、資源に制約のある情報に敏感な環境において、違法なコストを伴わずにLCMを活用し、パフォーマンスとプライバシを損なうことなく、大きな意味を持つ。新たなランキング指標と組み合わされたドメイン非依存な自己定義プロセスは、モデル選択のインフォームド意思決定を促進し、コストを削減し、高パフォーマンス言語モデルへのアクセスを民主化する。

関連論文リスト

Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文参考訳（メタデータ） (2025-03-20T03:02:32Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。 1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文参考訳（メタデータ） (2025-02-06T18:59:11Z)
Adaptive Client Selection in Federated Learning: A Network Anomaly Detection Use Case [0.30723404270319693]
本稿では,差分プライバシーとフォールトトレランスを組み込んだFL(Federated Learning)のクライアント選択フレームワークを提案する。その結果、FedL2Pアプローチと比較して、精度が7%向上し、トレーニング時間が25%短縮された。
論文参考訳（メタデータ） (2025-01-25T02:50:46Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文参考訳（メタデータ） (2024-09-17T14:05:58Z)
CERET: Cost-Effective Extrinsic Refinement for Text Generation [14.43795791836198]
本研究では,意味的安定性,包含性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。実験結果から, CERETは, 各種タスク設定下での自己整合性, 自己整合性, 自走性ベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-08T22:17:52Z)
Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings [11.878413021518194]
非営利のクローズドウェイトモデルは、透明性、プライバシ、適応性、証拠の標準の要件と互換性がないと考えています。 GPT-4-Turboをゼロショット、少数ショット、微調整で置き換えるために、より小型でオープンウェイトなモデルを使用することの可能性を評価する。比較的低い労力、非常に低い絶対的な金銭的コスト、そして微調整のための比較的少ないデータによって、小さなオープンウェイトモデルが競争的なパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-05-27T04:38:10Z)
ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。 Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2024-04-05T13:58:51Z)
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。 InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文参考訳（メタデータ） (2024-02-14T17:49:07Z)
On Leveraging Large Language Models for Enhancing Entity Resolution: A Cost-efficient Approach [7.996010840316654]
本稿では,Large Language Models (LLMs) を用いた不確実性低減フレームワークを提案する。 LLMは、先進的な言語能力と、広範なデータサイエンスの専門知識を持たない人々に対して大きな利点をもたらす「従量制」モデルに便乗している。我々は,本手法が効率的かつ効果的であることを示し,実世界のタスクに有望な応用を提供する。
論文参考訳（メタデータ） (2024-01-07T09:06:58Z)
Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文参考訳（メタデータ） (2023-11-16T09:07:34Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。