Fugu-MT 論文翻訳(概要): Analyze the Effects of Weighting Functions on Cost Function in the Glove Model

論文の概要: Analyze the Effects of Weighting Functions on Cost Function in the Glove Model

arxiv url: http://arxiv.org/abs/2009.04732v1
Date: Thu, 10 Sep 2020 08:55:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 03:29:04.224479
Title: Analyze the Effects of Weighting Functions on Cost Function in the Glove Model
Title（参考訳）: グラブモデルにおける重量関数がコスト関数に及ぼす影響の解析
Authors: Trieu Hai Nguyen
Abstract要約: パラメータの選択やベンチマーク作成に要する時間を節約できる重み付け関数を導出する。また、実験をせずにほぼ同様の精度を同時に得ることもできる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When dealing with the large vocabulary size and corpus size, the run-time for training Glove model is long, it can even be up to several dozen hours for data, which is approximately 500MB in size. As a result, finding and selecting the optimal parameters for the weighting function create many difficulties for weak hardware. Of course, to get the best results, we need to test benchmarks many times. In order to solve this problem, we derive a weighting function, which can save time for choosing parameters and making benchmarks. It also allows one to obtain nearly similar accuracy at the same given time without concern for experimentation.
Abstract（参考訳）: 大きな語彙サイズとコーパスサイズを扱う場合、トレーニンググローブモデルの実行時間は長く、データのサイズが約500mbの数十時間に及ぶ場合もあります。その結果、重み付け関数の最適パラメータの探索と選択は、弱いハードウェアに多くの困難をもたらす。もちろん、最高の結果を得るためには、ベンチマークを何度もテストする必要があります。この問題を解決するために,パラメータの選択やベンチマーク作成に要する時間を短縮できる重み付け関数を導出する。また、実験を気にせずに、ほぼ同じ精度を同時に得ることもできる。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
SLOT: Sample-specific Language Model Optimization at Test-time [34.84741298539127]
大規模言語モデル(LLM)は複雑な命令に苦しむことが多く、一般的なサンプルではよく表現されないものの性能が劣る。 SLOTは,言語モデルが個々のプロンプトにより正確に応答する能力を高める新しい,パラメータ効率の高いテスト時間推論手法である。
論文参考訳（メタデータ） (2025-05-18T12:37:56Z)
Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文参考訳（メタデータ） (2024-11-01T21:11:48Z)
Forgetting Curve: A Reliable Method for Evaluating Memorization Capability for Long-context Models [58.6172667880028]
長文モデルの暗記能力を測定するために,左折曲線と呼ばれる新しい手法を提案する。テストコーパスと実験環境に頑健であることの利点を, 忘れる曲線は有益であることを示す。本測定は,RNN/SSMモデルの有効性を疑問視しながら,トランスフォーマー拡張手法の有効性を示す実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-10-07T03:38:27Z)
Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler [34.416299887009195]
提案したWSDスケジューラの最適学習率,バッチサイズ,トレーニングトークン数の相関について検討した。本稿では,学習率スケジューラであるPowerスケジューラを提案する。 Powerスケジューラでトレーニングした3B高密度モデルとMoEモデルは、最先端の小型言語モデルと同等のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-08-23T20:22:20Z)
"How Big is Big Enough?" Adjusting Model Size in Continual Gaussian Processes [11.43983519639935]
多くの機械学習手法では、トレーニング前にモデルのキャパシティを制御するパラメータを設定する必要がある。「これは、どのくらい大きいのか」という疑問に繋がる。ここでは、データが段階的に利用可能になり、最終的なデータセットサイズがトレーニング前に分からない。ほぼ最適性能を維持しつつ,これを自動調整する手法を提案する。
論文参考訳（メタデータ） (2024-08-14T14:40:00Z)
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics [17.086867242274813]
パラメータの数やトレーニングの種類といったモデル特性の関数としてのパフォーマンスがどのように発達するかを分析する。パラメータの数とパフォーマンスの間には明確な関係があるが、特定のサイズのブラケット内にはまだ幅広いパフォーマンスポイントが分散している。また、未公表のサンプリングパラメータによって可能となるアクセスメソッド間の性能について、ある程度の予測不可能性も見出す。
論文参考訳（メタデータ） (2024-06-20T07:17:09Z)
Detach-ROCKET: Sequential feature selection for time series classification with random convolutional kernels [0.7499722271664144]
ROCKETに基づくモデルにおいて, 逐次的特徴分離(Sequential Feature Detachment, SFD)を導入する。 SFDは、オリジナルの機能の10%しか使用せずに、より良いテスト精度でモデルを作成することができる。また,特徴量とモデル精度の最適バランスを決定するためのエンドツーエンドの手法を提案する。
論文参考訳（メタデータ） (2023-09-25T20:24:36Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。