Fugu-MT 論文翻訳(概要): Can LLMs predict the convergence of Stochastic Gradient Descent?

論文の概要: Can LLMs predict the convergence of Stochastic Gradient Descent?

arxiv url: http://arxiv.org/abs/2408.01736v1
Date: Sat, 3 Aug 2024 10:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 18:40:53.517047
Title: Can LLMs predict the convergence of Stochastic Gradient Descent?
Title（参考訳）: LLMは確率勾配の収束を予測できるか?
Authors: Oussama Zekri, Abdelhakim Benechehab, Ievgen Redko,
Abstract要約: 大規模なランダム化モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。このような驚くべきパフォーマンスの1つの驚くべき例は、マルコフシステムの原則を満たす、最近特定されたタスクである。
参考スコア（独自算出の注目度）: 5.206475868803433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-language models are notoriously famous for their impressive performance across a wide range of tasks. One surprising example of such impressive performance is a recently identified capacity of LLMs to understand the governing principles of dynamical systems satisfying the Markovian property. In this paper, we seek to explore this direction further by studying the dynamics of stochastic gradient descent in convex and non-convex optimization. By leveraging the theoretical link between the SGD and Markov chains, we show a remarkable zero-shot performance of LLMs in predicting the local minima to which SGD converges for previously unseen starting points. On a more general level, we inquire about the possibility of using LLMs to perform zero-shot randomized trials for larger deep learning models used in practice.
Abstract（参考訳）: 大きな言語モデルは、様々なタスクにまたがる優れたパフォーマンスで有名です。そのような驚くべき性能の1つの驚くべき例は、マルコフの性質を満たす力学系の統治原理を理解するために最近特定されたLLMの能力である。本稿では,凸・非凸最適化における確率勾配勾配のダイナミクスを解明し,この方向をさらに探求する。 SGD とマルコフ連鎖の理論的関係を利用して、SGD が以前に見つからなかった出発点に対して収束する局所ミニマを予測する際に LLM の顕著なゼロショット性能を示す。より一般的なレベルでは、実際に使用される大規模なディープラーニングモデルに対して、ゼロショットランダム化試行を行うためにLLMを使用する可能性について問い合わせる。

関連論文リスト

Revisiting LLMs as Zero-Shot Time-Series Forecasters: Small Noise Can Break Large Models [32.30528039193554]
大規模言語モデル(LLM)は、ドメイン固有のトレーニングなしで、様々なタスクにまたがる顕著なパフォーマンスを示している。近年の研究では、LLMは予測に固有の効果を欠いていることが示唆されている。実験の結果,LLMベースのゼロショット予測器はノイズに敏感なため,高い精度を達成するのに苦慮していることがわかった。
論文参考訳（メタデータ） (2025-05-31T08:24:01Z)
LENSLLM: Unveiling Fine-Tuning Dynamics for LLM Selection [11.353302879735862]
オープンソースのLarge Language Models (LLM) と様々な下流タスクは効率的なモデル選択を必要とする。 LLMの一般化能力を評価するための適切なレンズを提供する新しい理論フレームワークを提案する。特に, LLMの微調整ダイナミクスを明らかにするPAC-Bayesian Generalization Boundを導出する。次に,ニューラルタンジェントカーネル(NTK)をベースとしたRectified Scaling ModelであるLENSLLMを紹介し,正確な性能予測を実現する。
論文参考訳（メタデータ） (2025-05-01T15:07:32Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。グリッドサーチを用いた信頼性閾値の選択と比較して,提案手法はカスケードの長さとコストエラー曲線の所望の解像度に関して,実行時のスケーリングを大幅に改善する。
論文参考訳（メタデータ） (2025-01-16T07:58:33Z)
Can a Large Language Model Learn Matrix Functions In Context? [3.7478782183628634]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を通じて複雑なタスクを解く能力を実証した。本稿では,LLMの非線形数値計算能力について検討し,特異値分解関数に着目した。
論文参考訳（メタデータ） (2024-11-24T00:33:43Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文参考訳（メタデータ） (2024-10-08T17:54:03Z)
Large Language Models as Markov Chains [7.078696932669912]
有限状態空間上で定義された自己回帰変換言語モデルとマルコフ連鎖の同値性を描く。以上の結果とLLMで観察された病理行動との関連性を検討した。最新のLlamaとGemmaのモデル群による実験は、我々の理論が実際にそれらの振る舞いを正しく捉えていることを示している。
論文参考訳（メタデータ） (2024-10-03T17:45:31Z)
SLMRec: Empowering Small Language Models for Sequential Recommendation [38.51895517016953]
シーケンシャルレコメンデーションタスクでは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測する。最近の研究は、LCMがシーケンシャルレコメンデーションシステムに与える影響を実証している。 LLM の巨大なサイズのため、現実のプラットフォームに LLM ベースのモデルを適用するのは非効率で実用的ではない。
論文参考訳（メタデータ） (2024-05-28T07:12:06Z)
Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。 LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。 LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文参考訳（メタデータ） (2024-05-05T00:21:26Z)
Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。 LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文参考訳（メタデータ） (2024-02-29T14:06:34Z)
Large Language Models are Not Stable Recommender Systems [45.941176155464824]
大規模言語モデル(LLM)における探索的研究の導入と位置バイアスの一貫したパターンの発見について述べる。本稿では,2段階パイプラインを含むベイズ確率的フレームワークSTELLA(Stable LLM for Recommendation)を提案する。我々のフレームワークは、既存のパターン情報を利用してLCMの不安定性を校正し、レコメンデーション性能を向上させることができる。
論文参考訳（メタデータ） (2023-12-25T14:54:33Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。