Fugu-MT 論文翻訳(概要): GraB-sampler: Optimal Permutation-based SGD Data Sampler for PyTorch

論文の概要: GraB-sampler: Optimal Permutation-based SGD Data Sampler for PyTorch

arxiv url: http://arxiv.org/abs/2309.16809v1
Date: Thu, 28 Sep 2023 19:31:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-02 16:24:32.182570
Title: GraB-sampler: Optimal Permutation-based SGD Data Sampler for PyTorch
Title（参考訳）: GraB-sampler:PyTorch用最適置換型SGDデータサンプリング器
Authors: Guanghao Wei
Abstract要約: この作業では,効率的なPythonライブラリであるtextitGraB-sampler$が提供され,コミュニティがGraBアルゴリズムを簡単に使用できるようになる。 GraB-samplerの最高のパフォーマンス結果は、トレーニングの損失とテストの精度を再現する一方で、トレーニング時間オーバーヘッド8.7%とGPUメモリ使用量の最大0.85%というコストしかかからない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The online Gradient Balancing (GraB) algorithm greedily choosing the examples ordering by solving the herding problem using per-sample gradients is proved to be the theoretically optimal solution that guarantees to outperform Random Reshuffling. However, there is currently no efficient implementation of GraB for the community to easily use it. This work presents an efficient Python library, $\textit{GraB-sampler}$, that allows the community to easily use GraB algorithms and proposes 5 variants of the GraB algorithm. The best performance result of the GraB-sampler reproduces the training loss and test accuracy results while only in the cost of 8.7% training time overhead and 0.85% peak GPU memory usage overhead.
Abstract（参考訳）: オンラインのグラディエント・バランシング(GraB)アルゴリズムは、サンプルごとの勾配を用いたシーディング問題を解くことで、ランダムリシャッフルを克服する理論上最適な解であることを証明した。しかし、現在、コミュニティが簡単に使うためのGraBの効率的な実装はありません。この作業では,より効率的なPythonライブラリである$\textit{GraB-sampler}$が提案されている。 GraB-samplerの最高のパフォーマンス結果は、トレーニング損失とテストの精度を再現する一方で、トレーニング時間オーバーヘッド8.7%とGPUメモリ使用量の最大0.85%というコストしかかからない。

関連論文リスト

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Simple and Provable Scaling Laws for the Test-Time Compute of Large Language Models [70.07661254213181]
本研究では,大規模言語モデルのテスト時間計算において,証明可能なスケーリング法則を享受する2つのアルゴリズムを提案する。 1つは2段階ノックアウト方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。もう1つは2段階のリーグ方式のアルゴリズムで、各候補は複数の相手に対して平均勝利率で評価される。
論文参考訳（メタデータ） (2024-11-29T05:29:47Z)
Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。 OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文参考訳（メタデータ） (2024-10-29T19:17:55Z)
Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文参考訳（メタデータ） (2024-10-03T17:47:29Z)
Computational-Statistical Gaps for Improper Learning in Sparse Linear Regression [4.396860522241307]
疎線形回帰の効率的な学習アルゴリズムは, 負のスパイクを持つスパースPCA問題を解くのに有効であることを示す。我々は,低次および統計的クエリの低い境界を減らしたスパース問題に対して補う。
論文参考訳（メタデータ） (2024-02-21T19:55:01Z)
Learning Large Scale Sparse Models [6.428186644949941]
サンプルの数や特徴次元が数百万から数十億にも達する大規模環境でスパースモデルを学習することを検討する。ラッソのようなスパースモデルをオンライン的に学習し、ランダムに選択されたサンプルが1つだけ露呈してスパース勾配を更新することを提案する。これにより、メモリコストはサンプルサイズに依存しず、1つのサンプルの勾配評価が効率的となる。
論文参考訳（メタデータ） (2023-01-26T06:29:49Z)
GraB: Finding Provably Better Data Permutations than Random Reshuffling [39.067886932979874]
ランダムリシャッフルはデータセットを各エポックにランダムに置換するが、非置換サンプリングよりも高速な収束をもたらすため、モデルトレーニングでは広く採用されている。最近の研究では、厳密に選択されたデータ順序付けは、より多くの計算とメモリを使用するコストで、経験的に収束をさらにスピードアップさせることができることが示されている。グラディエント・バランシング・アルゴリズム(GraB)は、トレーニングと検証の両方のパフォーマンスにおいて、ランダムなリシャッフルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-22T04:17:32Z)
Improving Accuracy of Permutation DAG Search using Best Order Score Search [3.553493344868414]
Sparsest Permutation (SP)アルゴリズムは正確だが、実際には約9変数に制限されている。 Greedy Sparest Permutation (GSP)アルゴリズムは高速だが理論的には弱い。妥協点としてベスト・オーダースコア・サーチ(Best Order Score Search)がある。
論文参考訳（メタデータ） (2021-08-17T13:46:34Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文参考訳（メタデータ） (2020-06-10T12:48:37Z)
Stochastic Item Descent Method for Large Scale Equal Circle Packing Problem [22.230497408207594]
勾配降下(SGD)は、機械学習領域における大規模最適化問題に対する強力な手法である。本稿では,古典的最適化問題に対して,サンプルのバッチ選択を伴うSGDを適用した。具体的には、単位円をランダムにバッチに分割する大規模ECPP用アイテム降下法(SIDM)を提案する。
論文参考訳（メタデータ） (2020-01-22T02:40:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。