論文の概要: Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning
- arxiv url: http://arxiv.org/abs/2509.15561v2
- Date: Tue, 23 Sep 2025 09:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.900949
- Title: Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning
- Title(参考訳): エキスパートブロックを持つ小さなLLMはハイパーパラメータチューニングに十分適している
- Authors: Om Naphade, Saksham Bansal, Parikshit Pareek,
- Abstract要約: 我々は小言語モデルを用いたHPTのためのエキスパートブロックフレームワークを提案する。
Trajectory Context Summarizer (TCS)は、生のトレーニング軌跡を構造化されたコンテキストに変換する決定論的ブロックである。
TCS対応HPTパイプラインは、6つのタスクでGPT-4の0.9パーセントの範囲で平均性能を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small LLMs to analyze optimization progress with reliability comparable to larger models. Using two locally-run LLMs (phi4:reasoning14B and qwen2.5-coder:32B) and a 10-trial budget, our TCS-enabled HPT pipeline achieves average performance within ~0.9 percentage points of GPT-4 across six diverse tasks.
- Abstract(参考訳): ハイパーパラメータチューニング(HPT)は、機械学習(ML)パイプラインに必要なステップであるが、計算コストが高く、より大きなモデルでは不透明になる。
近年、Large Language Models (LLMs) がHPT向けに検討されているが、ほとんどのモデルは1000億のパラメータを超えるモデルに依存している。
小型LLMを用いたHPTのためのエキスパートブロックフレームワークを提案する。
Trajectory Context Summarizer (TCS) は、生のトレーニングトラジェクトリを構造化されたコンテキストに変換する決定論的ブロックであり、小さなLLMはより大きなモデルに匹敵する信頼性で最適化の進捗を分析することができる。
ローカルに稼働する2つのLCM(phi4:reasoning14Bとqwen2.5-coder:32B)と10-trial budgetを使用して、我々のTCS対応HPTパイプラインは、6つの多様なタスクでGPT-4の約0.9パーセントの範囲で平均性能を達成する。
関連論文リスト
- Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。
異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か?
計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T17:30:23Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。