論文の概要: Structured Agent Distillation for Large Language Model
- arxiv url: http://arxiv.org/abs/2505.13820v1
- Date: Tue, 20 May 2025 02:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.596102
- Title: Structured Agent Distillation for Large Language Model
- Title(参考訳): 大規模言語モデルのための構造化エージェント蒸留
- Authors: Jun Liu, Zhenglun Kong, Peiyan Dong, Changdi Yang, Tianqi Li, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang,
- Abstract要約: 本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 58.22497891295258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) exhibit strong capabilities as decision-making agents by interleaving reasoning and actions, as seen in ReAct-style frameworks. Yet, their practical deployment is constrained by high inference costs and large model sizes. We propose Structured Agent Distillation, a framework that compresses large LLM-based agents into smaller student models while preserving both reasoning fidelity and action consistency. Unlike standard token-level distillation, our method segments trajectories into {[REASON]} and {[ACT]} spans, applying segment-specific losses to align each component with the teacher's behavior. This structure-aware supervision enables compact agents to better replicate the teacher's decision process. Experiments on ALFWorld, HotPotQA-ReAct, and WebShop show that our approach consistently outperforms token-level and imitation learning baselines, achieving significant compression with minimal performance drop. Scaling and ablation results further highlight the importance of span-level alignment for efficient and deployable agents.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ReActスタイルのフレームワークに見られるように、推論とアクションをインターリーブすることによって意思決定エージェントとして強力な能力を示す。
しかし、彼らの実践的なデプロイメントは、高い推論コストと大きなモデルサイズに制約されている。
本研究では,LLMをベースとした大規模エージェントを小型の学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
標準的なトークンレベルの蒸留とは異なり、我々の手法はトラジェクトリを {[REASON]} と {[ACT]} に分割し、各コンポーネントを教師の振る舞いに合わせるためにセグメント固有の損失を適用します。
この構造対応監視により、コンパクトエージェントは教師の意思決定プロセスをよりよく再現することができる。
ALFWorld、HotPotQA-ReAct、WebShopの実験では、私たちのアプローチはトークンレベルと模倣学習のベースラインを一貫して上回り、パフォーマンス低下を最小限に抑えながら大幅な圧縮を実現しています。
スケーリングとアブレーションの結果は、効率的でデプロイ可能なエージェントに対するスパンレベルのアライメントの重要性をさらに強調している。
関連論文リスト
- Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Improving In-context Learning via Bidirectional Alignment [41.214003703218914]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、多くのタスクにおいて印象的な数ショットの一般化を示している。
我々は,学生モデルのICL能力を向上させるために,ICL事例に対するモデルの嗜好を十分に活用するための双方向アライメント(Bidirectional Alignment, BiAlign)を提案する。
具体的には、新しいランキング損失を取り入れることで、学生と教師のモデル間の入力好みのアライメントを導入する。
論文 参考訳(メタデータ) (2023-12-28T15:02:03Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Weakly Supervised Semantic Segmentation via Alternative Self-Dual
Teaching [82.71578668091914]
本稿では,分類とマスク・リファインメント・コンポーネントを統合された深層モデルに組み込む,コンパクトな学習フレームワークを確立する。
本稿では,高品質な知識相互作用を促進するために,新たな自己双対学習(ASDT)機構を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:56:56Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Contrastive Distillation on Intermediate Representations for Language
Model Compression [89.31786191358802]
本稿では,中間表現に関するコントラスト蒸留(Contrastive Distillation on Intermediate Representation, CoDIR)について, 基本知識蒸留フレームワークとして提案する。
ポジティブなサンプルと大量のネガティブなサンプルを区別することを学ぶことで、CoDIRは教師の隠れた層におけるリッチな情報の利用を促進する。
CoDIRは、事前学習と微調整の両方の段階で大規模言語モデルに容易に適用でき、GLUEベンチマークで最高性能を達成できる。
論文 参考訳(メタデータ) (2020-09-29T17:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。