論文の概要: Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors
- arxiv url: http://arxiv.org/abs/2504.04785v1
- Date: Mon, 07 Apr 2025 07:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:54.139224
- Title: Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors
- Title(参考訳): Wak-for-Strong: ハーネス強いエクササイズにメタエージェントをトレーニングする
- Authors: Fan Nie, Lan Feng, Haotian Ye, Weixin Liang, Pan Lu, Huaxiu Yao, Alexandre Alahi, James Zou,
- Abstract要約: 本稿では、より小型でコスト効率の良い言語モデルをカスタマイズし、より強力なモデルを利用するための設計と最適化を行う新しいフレームワークであるWeakfor-Strong Harnessing (W4S)を提案する。
W4Sはマルチターンマルコフ決定プロセスとして設計を定式化し、エージェントワークフロー最適化のための強化学習を導入する。
経験的な結果から、GPU時間でトレーニングされた7Bメタエージェントは、11ベンチマークで2.9%、最強のベースラインを2.9%上回るW4Sの優位性を示している。
- 参考スコア(独自算出の注目度): 104.5401871607713
- License:
- Abstract: Efficiently leveraging of the capabilities of contemporary large language models (LLMs) is increasingly challenging, particularly when direct fine-tuning is expensive and often impractical. Existing training-free methods, including manually or automated designed workflows, typically demand substantial human effort or yield suboptimal results. This paper proposes Weak-for-Strong Harnessing (W4S), a novel framework that customizes smaller, cost-efficient language models to design and optimize workflows for harnessing stronger models. W4S formulates workflow design as a multi-turn markov decision process and introduces reinforcement learning for agentic workflow optimization (RLAO) to train a weak meta-agent. Through iterative interaction with the environment, the meta-agent learns to design increasingly effective workflows without manual intervention. Empirical results demonstrate the superiority of W4S that our 7B meta-agent, trained with just one GPU hour, outperforms the strongest baseline by 2.9% ~ 24.6% across eleven benchmarks, successfully elevating the performance of state-of-the-art models such as GPT-3.5-Turbo and GPT-4o. Notably, W4S exhibits strong generalization capabilities across both seen and unseen tasks, offering an efficient, high-performing alternative to directly fine-tuning strong models.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)の能力を効果的に活用することは、特に直接微調整が高価で実用的でない場合、ますます困難になっている。
手動または自動設計ワークフローを含む既存のトレーニングなしの手法は、通常、かなりの人的努力を必要とするか、あるいは準最適結果をもたらす。
本稿では,より小型で費用効率のよい言語モデルをカスタマイズし,より強力なモデルを利用するワークフローの設計と最適化を行う新しいフレームワークであるWeak-for-Strong Harnessing (W4S)を提案する。
W4Sは、ワークフロー設計をマルチターンマルコフ決定プロセスとして定式化し、エージェントワークフロー最適化(RLAO)のための強化学習を導入し、弱いメタエージェントを訓練する。
環境との反復的な相互作用を通じて、メタエージェントは手動で介入することなく、より効果的なワークフローを設計することを学ぶ。
GPT-3.5-TurboやGPT-4oといった最先端モデルの性能向上に成功し、11ベンチマークで最強のベースラインを2.9%~24.6%上回った。
特にW4Sは、目に見えるタスクと目に見えないタスクの両方で強力な一般化能力を示しており、直接調整された強力なモデルに対して、効率的で高性能な代替手段を提供する。
関連論文リスト
- PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Auto-Evolve: Enhancing Large Language Model's Performance via Self-Reasoning Framework [0.0]
Auto-Evolveは、大規模言語モデルが動的推論モジュールを自己生成できるようにする新しいフレームワークである。
我々は、Claude 2.0、Claude 3 Sonnet、Mistral Large、GPT 4による挑戦的なBigBench-HardデータセットのAuto-Evolveを評価する。
論文 参考訳(メタデータ) (2024-10-08T20:07:47Z) - Patched MOA: optimizing inference for diverse software development tasks [1.14219428942199]
本稿では,大規模言語モデル(LLM)の性能を大幅に向上させる推論最適化手法であるPatched MOAを紹介する。
我々は3つの推論最適化アルゴリズム、Best of N、Mixture of Agents、Monte Carlo Tree Searchを評価した。
Patched MOAはより小型のモデルの性能を高め、より大型で高価なモデルを上回ることを実証しています。
論文 参考訳(メタデータ) (2024-07-26T05:34:34Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought [38.03704123835915]
ical は最適軌道を最適化された行動と詳細な推論で高品質なデータに洗練する。
TEACh、VisualWebArena、Ego4Dの最先端技術を上回っている。
ICALは生の人間のデモより2倍のスケールをし、手動のプロンプトエンジニアリングを減らします。
論文 参考訳(メタデータ) (2024-06-20T17:45:02Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - LAB: Large-Scale Alignment for ChatBots [13.885153809482006]
LAB (Large-scale Alignment for chatBots) は,大規模言語モデル(LLM)訓練における命令調整フェーズにおけるスケーラビリティの課題を克服するために設計された,新しい方法論である。
従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-02T03:48:37Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - One-stop Training of Multiple Capacity Models [74.87789190840527]
本稿では,高容量・低容量モデルとの共同学習のためのワンストップトレーニングフレームワークを提案する。
複数のキャパシティモデルをスクラッチから個別に訓練する知識蒸留とは異なり、我々の手法は異なるキャパシティモデルからの監督を同時に統合する。
論文 参考訳(メタデータ) (2023-05-23T13:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。