Fugu-MT 論文翻訳(概要): SLOT: Sample-specific Language Model Optimization at Test-time

論文の概要: SLOT: Sample-specific Language Model Optimization at Test-time

arxiv url: http://arxiv.org/abs/2505.12392v2
Date: Mon, 26 May 2025 05:28:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 14:32:55.135947
Title: SLOT: Sample-specific Language Model Optimization at Test-time
Title（参考訳）: SLOT: テスト時のサンプル固有言語モデル最適化
Authors: Yang Hu, Xingyu Zhang, Xueji Fang, Zhiyang Chen, Xiao Wang, Huatian Zhang, Guojun Qi,
Abstract要約: 大規模言語モデル(LLM)は複雑な命令に苦しむことが多く、一般的なサンプルではよく表現されないものの性能が劣る。 SLOTは,言語モデルが個々のプロンプトにより正確に応答する能力を高める新しい,パラメータ効率の高いテスト時間推論手法である。
参考スコア（独自算出の注目度）: 34.84741298539127
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose SLOT (Sample-specific Language Model Optimization at Test-time), a novel and parameter-efficient test-time inference approach that enhances a language model's ability to more accurately respond to individual prompts. Existing Large Language Models (LLMs) often struggle with complex instructions, leading to poor performances on those not well represented among general samples. To address this, SLOT conducts few optimization steps at test-time to update a light-weight sample-specific parameter vector. It is added to the final hidden layer before the output head, and enables efficient adaptation by caching the last layer features during per-sample optimization. By minimizing the cross-entropy loss on the input prompt only, SLOT helps the model better aligned with and follow each given instruction. In experiments, we demonstrate that our method outperforms the compared models across multiple benchmarks and LLMs. For example, Qwen2.5-7B with SLOT achieves an accuracy gain of 8.6% on GSM8K from 57.54% to 66.19%, while DeepSeek-R1-Distill-Llama-70B with SLOT achieves a SOTA accuracy of 68.69% on GPQA among 70B-level models. Our code is available at https://github.com/maple-research-lab/SLOT.
Abstract（参考訳）: SLOT(Sample-specific Language Model Optimization at Test-time)は,言語モデルが個々のプロンプトにより正確に応答する能力を高める新しい,パラメータ効率の高いテスト時間推論手法である。既存のLarge Language Models (LLM) は複雑な命令に苦しむことが多く、一般的なサンプルではよく表現されないものの性能が劣っている。これを解決するため、SLOTは軽量なサンプル固有パラメータベクトルを更新するために、テスト時にいくつかの最適化手順を実行する。出力ヘッドの前に隠された最後の層に追加され、サンプルごとの最適化で最後の層の特徴をキャッシュすることで効率よく適応できる。入力プロンプトのみのクロスエントロピー損失を最小限にすることで、SLOTはモデルがそれぞれの命令に整合し従うのに役立つ。実験では,本手法が複数のベンチマークとLLMで比較したモデルより優れていることを示した。例えば、SLOTのQwen2.5-7BはGSM8Kの精度が57.54%から66.19%まで8.6%向上し、SLOTのDeepSeek-R1-Distill-Llama-70BはGPQAの精度が68.69%向上した。私たちのコードはhttps://github.com/maple-research-lab/SLOT.comで公開されています。

関連論文リスト

Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。従来の自己回帰復号法と比較して,STANDは推論遅延を60～65%削減することを示した。モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文参考訳（メタデータ） (2025-06-05T07:31:18Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Crafting Efficient Fine-Tuning Strategies for Large Language Models [2.633490094119608]
200サンプル未満の細調整された大型言語モデル(LLM)は、製品属性抽出タスクにおいて、モデル精度を70%から88%に向上させることができる。トレーニング時間全体の20%のモデルを評価するベイズハイパーパラメータ最適化法は,最終的なモデル性能と強く相関する。このアプローチにより、独立したテストセットで評価すると、ベースラインモデルよりも精度が2%向上した。
論文参考訳（メタデータ） (2024-07-18T21:36:00Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文参考訳（メタデータ） (2024-05-10T17:40:02Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文参考訳（メタデータ） (2023-09-18T06:38:24Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。