Fugu-MT 論文翻訳(概要): C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

論文の概要: C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

arxiv url: http://arxiv.org/abs/2504.07964v1
Date: Thu, 10 Apr 2025 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 15:43:43.149748
Title: C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing
Title（参考訳）: C3PO: テスト時間エキスパートリミキシングのためのクリティカルレイヤ,コアエキスパート,コラボレーションパス最適化
Authors: Zhongyang Li, Ziyue Li, Tianyi Zhou,
Abstract要約: Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10～20%の精度ギャップを残します。テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
参考スコア（独自算出の注目度）: 21.119495676190127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) Large Language Models (LLMs) suffer from severely sub-optimal expert pathways-our study reveals that naive expert selection learned from pretraining leaves a surprising 10-20% accuracy gap for improvement. Motivated by this observation, we develop a novel class of test-time optimization methods to re-weight or "re-mixing" the experts in different layers jointly for each test sample. Since the test sample's ground truth is unknown, we propose to optimize a surrogate objective defined by the sample's "successful neighbors" from a reference set of samples. We introduce three surrogates and algorithms based on mode-finding, kernel regression, and the average loss of similar reference samples/tasks. To reduce the cost of optimizing whole pathways, we apply our algorithms merely to the core experts' mixing weights in critical layers, which enjoy similar performance but save significant computation. This leads to "Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)". We apply C3PO to two recent MoE LLMs and examine it on six widely-used benchmarks. It consistently improves the base model by 7-15% in accuracy and outperforms widely used test-time learning baselines, e.g., in-context learning and prompt/prefix tuning, by a large margin. Moreover, C3PO enables MoE LLMs with 1-3B active parameters to outperform LLMs of 7-9B parameters, hence improving MoE's advantages on efficiency. Our thorough ablation study further sheds novel insights on achieving test-time improvement on MoE.
Abstract（参考訳）: Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化された専門家パスに悩まされている。そこで本研究では,各試験試料について,各試験層で異なる専門家を共同で再重み付け,あるいは「再混合」するための新しいテスト時間最適化手法を開発した。テストサンプルの基底的真理が不明であるため,サンプルの「余計な隣人」によって定義された代理目的を基準集合から最適化することを提案する。本稿では,モードフィンディング,カーネル回帰,類似した参照サンプル/タスクの平均損失に基づく3つのサロゲートとアルゴリズムを紹介する。経路全体を最適化するコストを削減するため、我々はアルゴリズムをコアエキスパートの重み付けにのみ適用する。これは"Critical-Layer, Core-Expert, Collaborative Pathway Optimization (C3PO)"につながる。我々は最近の2つのMoE LLMにC3POを適用し、それを6つの広く使用されているベンチマークで検証する。ベースモデルを精度で7～15%改善し、テスト時間学習ベースライン(例えば、インコンテキスト学習、プロンプト/プリフィックスチューニング)を大きなマージンで上回ります。さらに、C3PO は 1-3B の活性パラメータを持つ MoE LLM を 7-9B の LLM よりも優れており、効率性に対する MoE の利点が向上する。我々の徹底的なアブレーション研究は、MoEにおけるテストタイム改善の達成に関する新しい洞察をさらに深めている。

関連論文リスト

Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs [21.541258368039955]
事前訓練された大規模言語モデル(LLM)のレイヤを独立したモジュールとして操作することで、テストサンプル毎にカスタマイズされたより良く、より浅いモデルを構築することができる。特に、事前訓練されたモデルからの各レイヤは、繰り返しニューラルネットワーク(RNN)としてスキップ/プルーニングまたは繰り返し、任意の順序で他のレイヤと積み重ねられ、サンプル毎にチェーン・オブ・レイヤ(CoLa)が生成される。
論文参考訳（メタデータ） (2025-07-10T17:59:53Z)
Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [47.058298511243386]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。 BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-05-20T14:16:49Z)
Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文参考訳（メタデータ） (2025-04-19T00:54:59Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Simplicity Prevails: Rethinking Negative Preference Optimization for LLM Unlearning [27.991291785091736]
本研究は、不要なデータの影響を取り除くことを目的として、大規模言語モデル(LLM)アンラーニングの問題を研究する。未学習の需要が増えているにもかかわらず、技術的に地平線を画した最適化フレームワークは欠如している。我々はSimNPOと呼ばれるシンプルで効果的なアンラーニング最適化フレームワークを提案し、参照モデルへの依存をなくすことによる「単純さ」がアンラーニングの恩恵をもたらすことを示した。
論文参考訳（メタデータ） (2024-10-09T17:58:12Z)
VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか? まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文参考訳（メタデータ） (2022-03-12T16:07:57Z)
Descending through a Crowded Valley - Benchmarking Deep Learning Optimizers [29.624308090226375]
本研究は,これらの逸話を,少なくとも証拠に裏付けられた逸話に置き換えることを目的としている。そのために、特に人気のある15のディープラーニングの、広範囲で標準化されたベンチマークを実行します。我々のオープンソースの成果は、新しい最適化手法のより有意義な評価のために、挑戦的でよく調整されたベースラインとして利用可能である。
論文参考訳（メタデータ） (2020-07-03T08:19:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。