Fugu-MT 論文翻訳(概要): Online Platt Scaling with Calibeating

論文の概要: Online Platt Scaling with Calibeating

arxiv url: http://arxiv.org/abs/2305.00070v3
Date: Wed, 16 Aug 2023 22:28:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-21 19:44:37.406260
Title: Online Platt Scaling with Calibeating
Title（参考訳）: Calibeatingによるオンラインプラットスケーリング
Authors: Chirag Gupta, Aaditya Ramdas
Abstract要約: オンラインプラットスケーリング(OPS)と呼ばれるオンラインポストホックキャリブレーション手法を提案する。 OPSは分布ドリフトを伴う非i.d.設定とi.d.設定の間でスムーズに適応する。我々は、最近開発されたカリビート方式を取り入れて、OPSを強化し、より堅牢にする。
参考スコア（独自算出の注目度）: 42.58752993416278
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an online post-hoc calibration method, called Online Platt Scaling (OPS), which combines the Platt scaling technique with online logistic regression. We demonstrate that OPS smoothly adapts between i.i.d. and non-i.i.d. settings with distribution drift. Further, in scenarios where the best Platt scaling model is itself miscalibrated, we enhance OPS by incorporating a recently developed technique called calibeating to make it more robust. Theoretically, our resulting OPS+calibeating method is guaranteed to be calibrated for adversarial outcome sequences. Empirically, it is effective on a range of synthetic and real-world datasets, with and without distribution drifts, achieving superior performance without hyperparameter tuning. Finally, we extend all OPS ideas to the beta scaling method.
Abstract（参考訳）: オンライン・プラット・スケーリング(OPS)とオンライン・ロジスティック・レグレッションを組み合わせたオンライン・ポスト・ホック・キャリブレーション手法を提案する。我々は,OPSが分布ドリフトを伴う非i.d.設定とi.d.設定の間で円滑に適応できることを実証した。さらに、最高のPlatetスケーリングモデル自体が誤校正されたシナリオでは、最近開発されたcalalbeatingと呼ばれる手法を取り入れてOPSを強化し、より堅牢にする。理論的には, OPS+calibeating法は, 逆数列のキャリブレーションが保証される。実験的には、分布ドリフトのない合成および実世界のデータセットに対して有効であり、ハイパーパラメータチューニングなしで優れたパフォーマンスを達成する。最後に、すべてのOPSのアイデアをベータスケーリングメソッドに拡張する。

関連論文リスト

Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-01T06:15:38Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。 modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。 AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文参考訳（メタデータ） (2025-03-06T09:21:54Z)
Scale-Distribution Decoupling: Enabling Stable and Effective Training of Large Language Models [21.16132396642158]
訓練安定性は、大規模言語モデル(LLM)の事前学習における永続的な課題である完全連結層における重み行列のスケールと分布を明示的に分離し,トレーニングを安定させる手法として,SDD(Scale-Distribution Decoupling)を提案する。
論文参考訳（メタデータ） (2025-02-21T14:49:34Z)
Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文参考訳（メタデータ） (2024-11-19T09:16:25Z)
A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。 DPSに対する新しいベイズ的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-06T09:04:13Z)
Towards Hyper-parameter-free Federated Learning [1.3682156035049038]
グローバルモデル更新の自動スケーリングのためのアルゴリズムを導入する。第1のアルゴリズムでは、クライアントにおける降下検知ステップサイズ体制が、サーバの目的に対して降下を保証することが保証される。第2のアルゴリズムは、サンプリングされたクライアントの目的値の平均値が、スケーリング係数を計算するのに必要な値サーバの実用的で効果的な代用であることを示している。
論文参考訳（メタデータ） (2024-08-30T09:35:36Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文参考訳（メタデータ） (2024-02-12T12:30:42Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Quantized Distributed Training of Large Models with Convergence Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。 QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文参考訳（メタデータ） (2023-02-05T14:20:55Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
Stochastic Transformer Networks with Linear Competing Units: Application to end-to-end SL Translation [46.733644368276764]
グロースの明示的な使用を伴わないエンドツーエンドのSLTモデルを提案する。これは、Gloss sequence groundtruthを使用する既存のエンドツーエンドモデルとは対照的である。提案手法は,ENIX 2014Tベンチマークにおいて,現在報告されているBLEU-4スコアに到達可能であることを示す。
論文参考訳（メタデータ） (2021-09-01T15:00:52Z)
Learning Expected Emphatic Traces for Deep RL [32.984880782688535]
オフポリシーサンプリングと経験リプレイは、サンプル効率を改善し、モデルフリーの時間差学習手法をスケールするための鍵となる。リプレイと組み合わせることができるマルチステップ強調重み付けと、必要な強調重み付けを学習するための時間反転TD学習アルゴリズムを開発する。
論文参考訳（メタデータ） (2021-07-12T13:14:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。