Fugu-MT 論文翻訳(概要): Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning

論文の概要: Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning

arxiv url: http://arxiv.org/abs/2509.15561v3
Date: Thu, 25 Sep 2025 10:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-26 14:16:56.082329
Title: Small LLMs with Expert Blocks Are Good Enough for Hyperparamter Tuning
Title（参考訳）: エキスパートブロックを持つ小さなLLMはハイパーパラメータチューニングに十分適している
Authors: Om Naphade, Saksham Bansal, Parikshit Pareek,
Abstract要約: 我々は小言語モデルを用いたHPTのためのエキスパートブロックフレームワークを提案する。 Trajectory Context Summarizer (TCS)は、生のトレーニング軌跡を構造化されたコンテキストに変換する決定論的ブロックである。 TCS対応HPTパイプラインは、6つのタスクでGPT-4の0.9パーセントの範囲で平均性能を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hyper-parameter Tuning (HPT) is a necessary step in machine learning (ML) pipelines but becomes computationally expensive and opaque with larger models. Recently, Large Language Models (LLMs) have been explored for HPT, yet most rely on models exceeding 100 billion parameters. We propose an Expert Block Framework for HPT using Small LLMs. At its core is the Trajectory Context Summarizer (TCS), a deterministic block that transforms raw training trajectories into structured context, enabling small LLMs to analyze optimization progress with reliability comparable to larger models. Using two locally-run LLMs (phi4:reasoning14B and qwen2.5-coder:32B) and a 10-trial budget, our TCS-enabled HPT pipeline achieves average performance within ~0.9 percentage points of GPT-4 across six diverse tasks.
Abstract（参考訳）: ハイパーパラメータチューニング(HPT)は、機械学習(ML)パイプラインに必要なステップであるが、計算コストが高く、より大きなモデルでは不透明になる。近年、Large Language Models (LLMs) がHPT向けに検討されているが、ほとんどのモデルは1000億のパラメータを超えるモデルに依存している。小型LLMを用いたHPTのためのエキスパートブロックフレームワークを提案する。 Trajectory Context Summarizer (TCS) は、生のトレーニングトラジェクトリを構造化されたコンテキストに変換する決定論的ブロックであり、小さなLLMはより大きなモデルに匹敵する信頼性で最適化の進捗を分析することができる。ローカルに稼働する2つのLCM(phi4:reasoning14Bとqwen2.5-coder:32B)と10-trial budgetを使用して、我々のTCS対応HPTパイプラインは、6つの多様なタスクでGPT-4の約0.9パーセントの範囲で平均性能を達成する。

関連論文リスト

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe [45.42398283391072]
単段トレーニングは、2つの1.5B推論モデルで最先端のパフォーマンスを達成する。トレーニングは、通常介入を動機づける崩壊や台地を伴わない4000以上のステップに対して、滑らかで単調な改善を示す。
論文参考訳（メタデータ） (2025-12-18T15:21:25Z)
TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文参考訳（メタデータ） (2025-11-27T06:09:54Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling [69.57918638435491]
テスト時間スケーリングは、大規模言語モデルの性能を向上させる重要な方法である。異なるポリシーモデル、PRM、問題の難易度にまたがってテスト時間計算をスケールするための最適なアプローチは何か? 計算-最適TS戦略により、非常に小さなポリシーモデルがより大きなモデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-10T17:30:23Z)
Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer [1.8024542652952091]
長い文脈能力を持つ大規模言語モデル(LLM)は、自然言語処理や計算生物学における複雑なタスクに不可欠なものである。長文LLMを効率的に学習するためのFPDT(Fully Pipelined Distributed Transformer)を提案する。 GPTモデルとLlamaモデルでは、同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
論文参考訳（メタデータ） (2024-08-30T02:44:26Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文参考訳（メタデータ） (2024-02-02T21:25:46Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。