Fugu-MT 論文翻訳(概要): RADIN: Souping on a Budget

論文の概要: RADIN: Souping on a Budget

arxiv url: http://arxiv.org/abs/2401.17790v1
Date: Wed, 31 Jan 2024 12:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 14:38:49.821309
Title: RADIN: Souping on a Budget
Title（参考訳）: RADIN:予算編成
Authors: Thibaut Menes and Olivier Risser-Maroix
Abstract要約: 本稿では, 平均アンサンブルロジット性能を用いて, スープ性能を近似することで, モデルスープの高速化を提案する。我々の資源調整スープクラフトイン(RADIN)は、柔軟な評価予算を許すことで際立っている。
参考スコア（独自算出の注目度）: 0.5439020425819
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Model Soups, extending Stochastic Weights Averaging (SWA), combine models fine-tuned with different hyperparameters. Yet, their adoption is hindered by computational challenges due to subset selection issues. In this paper, we propose to speed up model soups by approximating soups performance using averaged ensemble logits performances. Theoretical insights validate the congruence between ensemble logits and weight averaging soups across any mixing ratios. Our Resource ADjusted soups craftINg (RADIN) procedure stands out by allowing flexible evaluation budgets, enabling users to adjust his budget of exploration adapted to his resources while increasing performance at lower budget compared to previous greedy approach (up to 4% on ImageNet).
Abstract（参考訳）: SWA(Stochastic Weights Averaging)を拡張したモデルスープは、微調整されたモデルと異なるハイパーパラメータを組み合わせる。しかし、それらの採用は、サブセット選択の問題による計算上の課題によって妨げられている。本稿では,平均的なアンサンブルロジッツ演奏を用いて,スープ性能を近似してモデルスープの高速化を提案する。理論的洞察は、任意の混合比において、アンサンブルロジットと重量平均スープの一致性を検証する。当社のリソース調整スープ加工(radin)手順は,フレキシブルな評価予算を許容し,それまでの欲望アプローチ(imagenetでは最大4%)よりも低い予算で性能を高めつつ,リソースに適合した探索予算を調整可能にすることで際立っている。

関連論文リスト

Reward Model Generalization for Compute-Aware Test-Time Reasoning [21.05692631562457]
外部テスト時推論は、生成と選択を分離することで、大きな言語モデル(LLM)を強化する。この設定における中心的な課題は、テスト時間計算の最適性(TCO)、すなわち、固定された推論予算の下で答えの正確さを最大化する方法である。 PRMの一般化誤差が計算効率と推論性能に与える影響を解析する。そこで本研究では,探索動作を動的に制御するアクター・クリティカルなフレームワークであるCompute-Aware Tree Search (CATS)を提案する。
論文参考訳（メタデータ） (2025-05-23T16:12:12Z)
ABoN: Adaptive Best-of-N Alignment [19.22348775001393]
Inference-time計算をより効率的に割り当てるBest-of-Nアライメントのためのプロンプト適応戦略を提案する。我々の手法はシンプルで実用的で、どのLM/RM組み合わせとも互換性がある。
論文参考訳（メタデータ） (2025-05-17T15:24:48Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Improving Thompson Sampling via Information Relaxation for Budgeted Multi-armed Bandits [1.4732811715354452]
我々は、各アームが選択時に異なるリソースを消費する、$Kの武器付きバンディット問題を考える。我々はトンプソンサンプリングのようにランダム化される一連のアルゴリズムを提案するが、予算制約に関してより慎重に決定を最適化する。
論文参考訳（メタデータ） (2024-08-28T04:56:06Z)
Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles [7.883369697332076]
ベイズアンサンブルのサンプリングや重み付けは,特に一般化性能の向上には適していない。文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な一様重み付きディープアンサンブルよりも改善されていないことを示す。
論文参考訳（メタデータ） (2024-06-08T13:19:18Z)
Sample-efficient Learning of Infinite-horizon Average-reward MDPs with General Function Approximation [53.17668583030862]
一般関数近似の文脈において,無限水平平均逆マルコフ決定過程(AMDP)について検討する。最適化最適化(LOOP)と呼ばれる新しいアルゴリズムフレームワークを提案する。我々は LOOP がサブ線形 $tildemathcalO(mathrmpoly(d, mathrmsp(V*)) sqrtTbeta )$ regret を達成することを示す。
論文参考訳（メタデータ） (2024-04-19T06:24:22Z)
An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文参考訳（メタデータ） (2024-02-12T22:32:12Z)
Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文参考訳（メタデータ） (2023-11-01T11:52:41Z)
Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。 SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文参考訳（メタデータ） (2023-06-29T08:49:41Z)
Langevin Thompson Sampling with Logarithmic Communication: Bandits and Reinforcement Learning [34.4255062106615]
トンプソンサンプリング(TS)は、使用が容易で、経験的性能に訴えるため、シーケンシャルな意思決定に広く用いられている。バッチ化された$textitLangevin Thompson Sampling$アルゴリズムを提案する。アルゴリズムは計算効率が高く,MABでは$mathcalO(log T)$,RLでは$mathcalO(sqrtT)$と同じオーダー最適後悔保証を維持している。
論文参考訳（メタデータ） (2023-06-15T01:16:29Z)
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文参考訳（メタデータ） (2022-03-10T17:03:49Z)
Sampling-free Variational Inference for Neural Networks with Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文参考訳（メタデータ） (2021-03-15T16:16:18Z)
Correlated Bandits for Dynamic Pricing via the ARC algorithm [2.7564955518050693]
漸近ランダム化制御(Asymptotic Randomized Control)は、ベイズバンドの幅広いクラスに対する最適な戦略に厳密な近似を与える。これにより、意思決定者は報酬に加えて信号を観察し、異なる選択の結果の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができる。
論文参考訳（メタデータ） (2021-02-08T14:54:26Z)
Optimal Algorithms for Stochastic Multi-Armed Bandits with Heavy Tailed Rewards [24.983866845065926]
我々は、重い尾の報酬を持つマルチアームのバンディットを考えており、そのp$-thのモーメントは、定数$nu_p$が1pleq2$である。本稿では,従来の情報として$nu_p$を必要としない新しいロバストな推定器を提案する。提案した推定器の誤差確率は指数関数的に高速に減衰することを示す。
論文参考訳（メタデータ） (2020-10-24T10:44:02Z)
Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。 LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文参考訳（メタデータ） (2020-02-12T18:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。