論文の概要: Supplement Generation Training for Enhancing Agentic Task Performance
- arxiv url: http://arxiv.org/abs/2604.20727v1
- Date: Wed, 22 Apr 2026 16:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.220243
- Title: Supplement Generation Training for Enhancing Agentic Task Performance
- Title(参考訳): エージェント・タスク・パフォーマンス向上のためのサプリメント・ジェネレーション・トレーニング
- Authors: Young Min Cho, Daniele Bonadiman, Divya Bhargavi, Tamer Alkhouli, Salvatore Romeo, Dongwei Jiang, Khushbu Pahwa, Yubin Ge, Etsuko Ishii, Monica Sunkara, Yi Zhang,
- Abstract要約: エージェントタスクのための大規模な基礎モデルのトレーニングは、高い計算コスト、長い反復サイクル、急激な陳腐化のために、ますます現実的ではない。
我々は、より効率的で持続可能な戦略である補充生成訓練(SGT)を提案する。
- 参考スコア(独自算出の注目度): 18.346923239878624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large foundation models for agentic tasks is increasingly impractical due to the high computational costs, long iteration cycles, and rapid obsolescence as new models are continuously released. Instead of post-training massive models for every new task or domain, we propose Supplement Generation Training (SGT), a more efficient and sustainable strategy. SGT trains a smaller LLM to generate useful supplemental text that, when appended to the original input, helps the larger LLM solve the task more effectively. These lightweight models can dynamically adapt supplements to task requirements, improving performance without modifying the underlying large models. This approach decouples task-specific optimization from large foundation models and enables more flexible, cost-effective deployment of LLM-powered agents in real-world applications.
- Abstract(参考訳): エージェントタスクのための大規模な基礎モデルのトレーニングは、新しいモデルが継続的にリリースされるにつれて、高い計算コスト、長い反復サイクル、急激な陳腐化のために、ますます現実的ではない。
新しいタスクやドメインごとに大規模なモデルをポストトレーニングする代わりに、より効率的で持続可能な戦略であるサプリメント・ジェネレーション・トレーニング(SGT)を提案する。
SGT は小さな LLM を訓練して、元の入力に付加されたときに、より大きな LLM がタスクをより効率的に解くのに役立つ有用な補足テキストを生成する。
これらの軽量モデルは、サプリメントをタスク要求に動的に適応させ、基礎となる大きなモデルを変更することなくパフォーマンスを向上させることができる。
このアプローチは、大規模基盤モデルからタスク固有の最適化を分離し、より柔軟でコスト効率の良いLLMエージェントを現実のアプリケーションに展開することを可能にする。
関連論文リスト
- PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。
模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。
RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文 参考訳(メタデータ) (2025-03-03T12:54:54Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - GrowLength: Accelerating LLMs Pretraining by Progressively Growing
Training Length [65.24730341801468]
本稿では,大規模言語モデルの事前学習プロセスを促進するために,Growlength'という,新しい,シンプルで効果的な手法を提案する。
本手法は,事前学習期間を通じてトレーニング期間を段階的に延長し,計算コストを軽減し,効率を向上する。
論文 参考訳(メタデータ) (2023-10-01T05:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。